Corso di Basi di Dati
|
|
- Filomena Catalano
- 8 anni fa
- Visualizzazioni
Transcript
1 Corso di Basi di Dati Introduzione al Data Mining Home page del corso:
2 Data Mining: tecniche di apprendimento computerizzato per analizzare ed estrarre conoscenze da collezioni di dati. Pattern e relazioni non note a priori e non immediatamente identificabili. Disciplina complessa: utilizzo di tecniche di machine learning, intelligenza artificiale e statistiche
3 ESEMPI di APPLICAZIONI (aziendali) Previsioni di dati temporali (es. vendite) Market Basket Analysis (vi siete mai chiesti come mai tanti tornei di golf sono sponsorizzati da societa di brokeraggio? ) Scoperta di truffe (es. clonazioni di carte di credito) Campagne pubblicitarie mirate Churn Analysis (analisi della clientela che potrebbe passare alla concorrenza) Segmentazione della clientela
4 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale
5 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale Sorgente:
6 Data mining à estrae informazioni da un DB. Data query (SELECT) à estrae dati da un DB relazionale (in particolare, dalle tabelle della FROM). Q. Che differenza esiste tra i due approcci? A. Il processo di data mining estrae regolarità e pattern sui dati che non sono note a priori, e che non possono essere ricavate da query SQL.
7 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. Dati estratti dal Web (es. OPEN DATA) Dati estratti dai social media
8 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media
9 Big Data: grandi moli di dati, provenienti da sorgenti eterogenee, difficili da gestire ed analizzare utilizzando strumenti tradizionali. Le 3 V dei Big-Data: Volume Varietà Velocità Valore Fonte: 9
10 Un esempio di sorgente di Big-Data: Dispositivi mobili 3. ANALYZE 2. SHARE 4. PROVIDE SERVICES 1. SENSE Fonte: Lane, Miluzzo et alt, A survey of mobile phone sensing, IEEE Communication Magazine,
11 Un esempio di applicazione di tecniche di data-mining (1) TRAINING PHASE <timestamp, dato sensore 1, dato sensore 2, dato sensore3, CLASSE MOBILITA > TRAINING SET <1/1/2014:08:50:23, 0.323, 0.123, 9.8, 1214, , , 5421,, WALKING> DATABASE relazionale contentente le osservazioni raccolte 11
12 Un esempio di applicazione di tecniche di data-mining (1) ESTRAZIONE DELLA CONOSCENZA MINING Modello di classificazione If (val1 < Y) and (val2 > Z) then WALKING If (val2 > Y) and (val3 > W) then BIKING else DRIVING CAR 12
13 Un esempio di applicazione di tecniche di data-mining (1) PREDIZIONE E TESTING <timestamp, dato sensore 1, dato sensore 2, dato sensore3, > MODELLO Output classificazione: WALKING 13
14 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012
15 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012
16 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012
17 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012
18 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media
19 Un esempio di applicazione di tecniche di data-mining (2) Analisi pagine FB delle Destination Management Organizations (DMO) su scala regionale Analisi utilizzo dei social media per fini di marketing del turismo Individuazione bestpractice per pubblicazione dei contenuti
20 Un esempio di applicazione di tecniche di data-mining (2) Impatto del profilo FB misurato attraverso l engagement: (Likes+ Comments+ Shares) (Total _ Posts Total _ Fans(end _ of _ the_ month)) 100 Quale fattore incide positivamente sull engagement? Quale fattore incide negativamente sull engagement? STRATEGIE PER PUBBLICAZIONE DEI CONTENUTI
21 Un esempio di applicazione di tecniche di data-mining (2) REGRESSIONE LINEARE COEFFICIENTI Y = β 0 + β 1 * X 1 + β 2 * X β M * X M Variabile dipendente: Engagement Variabile esplicativa: Es. Geografia, Stagione, Tipo Post, Frequenza Post, etc
22 Q. Dove memorizzare i dati necessari per l analisi? DBMS REPORT DW ANALISI Un data warehouse è una collezione di dati (non volatile) finalizzata al supporto del processo decisionale.
23 Un data warehouse è un database relazionale finalizzato all analisi ed al processo decisionale. Q. Che differenza c è tra un data warehouse ed i database operazionali visti fin qui nel corso? R. A basso livello, nessuna (modello relazionale à chiavi, tabelle, vincoli integrità, SQL, etc) R. Le differenze principali sono nella progettazione
24 Differenze principali tra database operazionali (visti fin qui) e data warehouse. OPERAZIONI sui DATI Database operazionali à Accessi multipli ai dati, aggiornamenti costanti nel tempo, possibile alta concorrenza delle operazioni lettura/scrittura. Data warehouse à Accesso in sola lettura, dati storici e non soggetti a cambiamento.
25 Differenze principali tra database operazionali (visti fin qui) e data warehouse. RAPPRESENTAZIONI dei DATI Database operazionali à I dati delle tabelle sono normalizzati (Prima/Seconda/Terza Forma Normale) per ridurre la ridondanza dei dati. Data warehouse à I dati sono rappresentati in forma denormalizzata per evitare operazioni (costose) di join tra le tabelle troppo frequenti.
26 Differenze principali tra database operazionali (visti fin qui) e data warehouse. GRANULARITA dei DATI Database operazionali à Ogni riga contiene informazioni relative ad operazioni di inserimento (insert SQL), eseguite sul database. Data warehouse à I dati rappresentano informazioni aggregate, utili per la reportistica, spesso ottenute processando altri dati (del db).
27 Esistono opportune metodologie (che non vedremo) per progettare un data warehouse relazionale. MODELLO A STELLA MODELLO OLAP Noi ci concentriamo ora sul processo di analisi dei dati
28 ESEMPIO di PROCESSO di DATA-MINING Un azienda di telefonia vuole analizzare il data-set dei propri clienti abbonati, in modo da: Costruire una profilazione della clientela, in modo da individuare un possibile nuovo cliente, a partire dai suoi dati (es. età, sesso, lavoro, etc). Determinare quali utenti abbonati possono essere interessati ad una nuova offerta (es. abbonamento Internet con tecnologia LTE). Q. Da dove partire per effettuare l analisi?
29 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING
30 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING
31 BUSINESS UNDERSTANDING In questa fase, è necessario comprendere bene gli obiettivi che il sistema dovrebbe raggiungere (es. modello predizione costi?) ed i requisiti del committente. Inventario delle risorse disponibili. Requisiti, presupposti e vincoli. Analisi dei rischi/imprevisti. Analisi dei costi/benefici.
32 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di business understanding include la formulazione delle risposte ai seguenti quesiti: Che margine di profitto mi aspetto di ottenere dal modello di previsione dei nuovi clienti? Che margine di risparmio mi aspetto di ottenere effettuando pubblicita mirata delle nuove offerte? Quali sono i costi necessari per implementare il modello di data-mining nel processo decisionale?
33 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING
34 DATA UNDERSTANDING In questa fase, è necessario comprendere bene quali dati sono fondamentali per la costruzione del modello di data mining. Report dei dati disponibili. Costruzione del dataset. Strategie di recupero dati mancanti. Criteri di verifica della qualità dei dati.
35 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di data understanding include la formulazione delle risposte ai seguenti quesiti: Ho a disposizione tutti i dati necessari per poter classificare gli utenti del mio servizio? Devo prevedere campagne di raccolte dati (es. attraverso survey o interviste telefoniche?) Posso estendere il mio data-set includendo dati provenienti da altre fonti (es. social media)?
36 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING
37 DATA PREPARATION Molti algoritmi di data-mining richiedono di trasformare i dati in un opportuno formato per poter essere eseguiti efficacemente. Es. Gli algoritmi di classificazione lavorano spesso su un numero discreto di classi da riconoscere, sebbene i dati in questione abbiano un dominio continuo.
38 DATA PREPARATION STORICO EROGAZIONI Costruire un modello di data-mining per decidere l erogazione di una carta di credito sulla base della segmentazione degli utenti. Codice Macchina Eta Casa Reddito Erogazione 1332 SI 26 SI SI 2232 NO 40 SI SI 4323 NO 60 NO 5000 NO Se Reddito <= à 0 Se Reddito> & Reddito < à 1 Se Reddito >= à 2 REGOLE di CLASSIFICAZIONE Reddito 1 2 0
39 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati su un intervallo (es. [0,1]). Normalizzazione Massimo/Minimo: ValMin ValNew i = 0 1 Val i Min(Val) Max(Val) Min(Val) ValMax
40 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati in base alla media dei valori. Normalizzazione con Deviazione Standard: ValNew i = Val i Media(Val) Std(Val) Media
41 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (out-lier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? In molti casi, l obiettivo del processo di data mining consiste nella ricerca degli outlier (es. analisi frodi)
42 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? Es. Range valori consentiti: [Media Y*Dev: Media+Y*Dev] Se X fuori dal range à OUTLIER
43 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio Dati anomali 1) Come identificarli? Es. : Metodo dei vicini X(x 1,y 1 ) e Y (x 2,y 2 ) sono vicini se: (x 1 x 2 ) 2 + (y 1 y 2 ) 2 < R 0 Reddito 1 Se #Vicini(X) < Soglia à OUTLIER
44 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? Rimovere gli outlier Sostituirli con valori NULL Sostituirli con Media(Val)
45 DATA PREPARATION In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI??? SI SI 2232 NO 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?
46 DATA PREPARATION Diverse possibilita : In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. Scartare record incompleti Rimpiazzare??? con valori NULL STORICO Rimpiazzare EROGAZIONI??? con il valore medio dell attributo Codice Rimpiazzare Macchina??? Con Eta un valore Casa che non alteri Reddito la deviazione Erogazione Standard dei valori dell attributo 1332 SI??? SI SI Rimpiazzare??? Con valori plausibili dell attributo sulla 2232 base NO di valori simili. 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?
47 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO
48 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO
49 DATA PREPARATION L attività di data preparation è molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo
50 DATA PREPARATION L attivita di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo
51 DATA PREPARATION L attività di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 2: Non rimuovo la riga, nessun outlier
52 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING
53 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze.
54 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y
55 INPUT Data un istanza (record) di dati su N attributi: A(x 1,x 2,x 3,x 4,x 5, x N ) Dato un insieme di M possibili classi: C={c 1,c 2, c M } OUTPUT Determinare la classe c j cui appartiene l istanza A. COME? Mediante apprendimento supervisionato à
56 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j Q. Da dove ottengo il Training-Set? A. Spesso disponibile come storico di dati disponibili nel DB o nel DW, o costruito da fonti esterne.
57 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j {<A j,c ij >} DATA-SET + ALGORITMO CLASSIFICAZIONE Istanza A i Fase di TESTING Fase di TRAINING MODELLO C j
58 Esempio. Determinare se un certo cliente può essere interessato o meno ad acquistare un auto berlina, ai fini di migliorare la campagna pubblicitaria. TRAINING SET Data-set derivato dai risultati di precedenti campagne pubblicitarie Nr Stato Sesso #Nucleo Reddito Acquisto Utente 1 Coniugale Celibe M Familiare 1 Annuo SI 2 Nubile F NO 3 Sposato M SI TESTING SET <4, Sposato, M, 3, 38000> ACQUISTO??
59 ALGORITMI di CLASSIFICAZIONE Naïve Bayes Reti Bayesiane Alberi di decisione Random Forest Support Vector Machines (SVM) A. Quale algoritmo usare? Q. Non esiste un classificatore ottimo in assoluto, dipende dallo scenario applicativo
60 CLASSIFICATORE NAÏVE BAYES (NB) Il classificatore NB utilizza una tecnica statistica con la quale si cerca di stimare la probabilità di un istanza di appartenere ad una certa classe. Istanza A(x 1, x N ) da classificare. P(c j A) à probabilità condizionata di avere una classe c j, vedendo un istanza A. In NB, scelgo la classe c k, tale che: k = argmax j P(c j A) Come calcolare P(c j A)??
61 Probabilità condizionata: P(E 1 E 2 ) = P(E 1, E 2 ) P(E 2 ) Probabilità congiunta (in caso di eventi indipendenti): P(E 1, E 2 ) = P(E 1 ) P(E 2 ) Teorema di Bayes: P(E 1 E 2 ) = P(E 2 E 1 ) P(E 1 ) P(E 2 ) Applicando il Teorema di Bayes al nostro problema: argmax j P(c j A) = argmax j P(A c j ) P(c j ) P(A)
62 Semplificando il problema argmax j P(A c j ) P(c j ) P(A) argmax j P(A c j ) P(c j ) Il record A è composto di N Attributi: A(x 1,x 2, x N ) argmax j P(A c j ) P(c j ) = argmax j P(x 1, x 2,..., x N c j ) P(c j ) Assumendo che gli N attributi siano tutti indipendenti N i=1 argmax j P(x 1, x 2,..., x N c j ) P(c j ) = argmax j P(c j ) P(x i c j )
63 Conclusione à L algoritmo di NB sceglie la classe c j che massimizza la quantità: N i=1 P(c j ) P(x i c j ) PROBLEMA: Come stimare P(c j ) e P(x i c j )? Possibile Soluzione: Si approssima le probabilità come frequenze relative, rispetto ai valori del training set. P(c j ) = # istan ze classificate c j # istan ze totali
64 Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI A=< Sposato, M, 3, 38000> P(SI)=2/6=0.33 C={SI, NO} P(NO)=4/6=0.67
65 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI P(Sposato SI)=2/2=1 P(Sposato NO)=1/4=0.25 P(M SI)=1/2=0.5 P(M NO)=2/4=0.5 P(3 SI)=1/2=0.5 P(3 NO)=1/2=0.5 P(1 SI)=1/2=1 P(1 NO)=2/4=0.5
66 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408
67 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO Classificata come SI 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408
68 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello A 2 <s C 1 A 1 <k A 2 A 2 >=s A 1 A 3 A 1 >= v C 1 k<=a 1 > v A 3 >=p A 3 <p C 2 C 3
69 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO
70 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Classificazione di una nuova istanza: <Sposato=SI, Sesso=M, Reddito=4000, Nucleo=5> CLASSE: SI Problema: Come costruire l albero? SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO
71 Una rete bayesiana è un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo è una variabile casuale. Un arco da X ad Y indica che X ha un influenza su Y, ossia che le due variabili NON sono indipendenti (P(Y X) <> P(Y)). L assenza di archi tra due nodi indica che le due variabili sono indipendenti. C DAG Grafo Diretto Aciclico A B D
72 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. DAG Grafo Diretto Aciclico A A P(A) false 0.6 B true 0.4 C D
73 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. A B P(B A) false false 0.01 false true 0.99 true false 0.7 true true 0.3 C DAG Grafo Diretto Aciclico A B D
74 Tramite le reti Bayesiane, e possibile modellare comportamenti causa-effetto tra variabili casuali, ed effettuare diagnosi (= determinare la probabilita della causa dato l effetto). Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10
75 Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =
76 P(R= true E = true) = Irrigazione ON = 0.75 Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.95 P(E I=true, R=false)=0.90 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =
77 Tramite le reti Bayesiane, e possibile effettuare classificazioni di istanze A(x 1, x N ). In questo caso la rete è composta da: Nodo padre della rete à Classi c j da determinare Nodi foglia ed intermedi à Singoli attributi x i Si sceglie la classe c k, tale che: k = argmax j P(C j A) = argmax j P(C j, A) P(A)
78 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject della ? A 2 ={true,false} à Contiene dei link HTML nel testo? Spam A 1 A 2
79 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject? A 2 ={true,false} à Contiene dei link HTML nel testo? P(A 1 =true C=Spam)=0.8 Spam P(C=Spam)=0.4 P(A 2 =true A 1 =true, C=Spam)=0.95. A 1 A 2
80 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) Confronto i due valori, e scelgo la classe che garantisce la probabilità più alta associata all istanza A. Q. Come calcolare la probabilita congiunta?
81 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) In una rete bayesiana con variabili casuali X 1, X 2, X N, vale il seguente risultato: d P(X 1, X 2,...X N ) = P(X i parents(x i )) i=1
82 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) P(C = Spam) P(A 1 = true C = Spam) P(A 2 = true A 1 = true,c = Spam) C = NoSpam) P(A 1 = true C = NoSpam) P(A 2 = true A 1 = true,c = NoSpam
83 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y
84 La cluster/segmentation analysis è un insieme di tecniche per raggruppare oggetti in classi tra loro omogenee, ossia con caratteristiche simili. INPUT Insieme di N elementi da partizionare Numero di Classi: NC OUTPUT Determinare la composizione di ogni classe c 0<=i<nc
85 POSSIBILI APPLICAZIONI Ricerche di mercato Segmentazione della clientela Analisi dei social media Identificazione degli outlier Es. Database dei correntisti di una banca. Quali attributi simili consentono di raggrupare i clienti? Quali differenze tra i valori degli attributi (es. tipo del conto, età, sesso, etc) segmentano il database?
86 ALGORITMO DELLE K-MEDIE (K-MEANS CLUSTERING) Algoritmo di clusterizzazione non-gerarchico. Richiede di indicare il numero di cluster (insiemi) che si vogliono creare (NC). Gli elementi da classificare sono attributi con valori reali. Nel caso di attributi testuali, e necessaria una conversione di dominio. Es. Colore: {rosso, blu, verde} à {0,1,2} Basata sul concetto di distanza tra elementi à
87 Distanza tra due elementi in uno spazio euclideo 2D d(x, y) = (x 1 y 1 ) 2 + (x 2 y 2 ) 2 Distanza tra due elementi in uno spazio euclideo ND d(x, y) = n (x i y i ) 2 i=1 Centroide di un gruppo (2D): c(a 1,a 2, a M ) " $ c$ $ $ # M i=1 a i,x M, M i=1 a i,y M % ' ' ' ' &
88 1. Assegno casualmente gli elementi A={a 1,,a M } alle NC classi di clusterizzazione. 2. Ripeto le seguenti operazioni: 2.1 Calcolo il centroide c j di ogni classe j 2.2 Calcolo la distanza tra ogni elemento a i ed ogni centroide c j à d(a i,c j ) 2.3 Assegno l elemento a i al cluster j con centroide piu vicino à j=argmin(d(a i,c j )) 3. Concludo il ciclo quando: Il passo 2.3 non produce differenze rispetto all assegnamento del passo precedente (convergenza). L errore della clusterizzazione < E min (soglia d errore).
89 Q. Come definire l errore della classificazione? Dato un elemento a i (a i,x,a i,y ) à c(a i ) centroide del cluster cui e assegnato l elemento a i. A. Errore quadratico medioà somma (al quadrato) delle distanze tra a i e c(a i ), per tutti gli elementi a i. M i=1 e= d(a i,c(a i )) 2 La classificazione termina quando l errore diventa minore di una soglia E min (e<e min ).
90 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare= * * * * * * * * * * = a x,y Stipendio x 10000
91 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 1 Creazione casuale dei cluster * = a x,y Stipendio x 10000
92 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.1 Loop: Calcolo centroidi * = a x,y Stipendio x 10000
93 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.2 Loop: Calcolo distanze * = a x,y Stipendio x 10000
94 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 2.3 Loop: Riassegnamento * = a x,y Stipendio x 10000
95 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * CONVERGENZA? Non ancora STEP 3 Loop: Valuto condizione * = a x,y Stipendio x 10000
Data Warehousing (DW)
Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale
DettagliMarketing relazionale
Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda
DettagliUniversità di Pisa A.A. 2004-2005
Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica
DettagliData mining e rischi aziendali
Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento
DettagliCORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)
Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni
DettagliUno standard per il processo KDD
Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo
DettagliRicerca di outlier. Ricerca di Anomalie/Outlier
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliSistemi Informativi Aziendali. Sistemi Informativi Aziendali
DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,
DettagliInformatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati
Informatica 3 Informatica 3 LEZIONE 10: Introduzione agli algoritmi e alle strutture dati Modulo 1: Perchè studiare algoritmi e strutture dati Modulo 2: Definizioni di base Lezione 10 - Modulo 1 Perchè
DettagliIntroduzione alla teoria dei database relazionali. Come progettare un database
Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare
DettagliDatabase. Si ringrazia Marco Bertini per le slides
Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida
DettagliDistributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo
Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo
DettagliAnalisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali
Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi
DettagliLa Metodologia adottata nel Corso
La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema
DettagliData mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati
Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci
DettagliAbilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere
Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report Facoltà di Lingue e Letterature Straniere Le QUERY 2 Che cos è una Query? Una Query rappresenta uno strumento per interrogare un database.
DettagliSEGMENTAZIONE INNOVATIVA VS TRADIZIONALE
SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello
DettagliProgettazione di Basi di Dati
Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello
DettagliAnalisi dei requisiti e casi d uso
Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................
DettagliIntroduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse
Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta
DettagliData warehouse Introduzione
Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi
DettagliOttimizzazione delle interrogazioni (parte I)
Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di
DettagliPROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO
PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO Modulo 1: IL LINGUAGGIO HTML Formato degli oggetti utilizzati nel Web Elementi del linguaggio HTML: tag, e attributi
DettagliRaggruppamenti Conti Movimenti
ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli
DettagliOrganizzazione degli archivi
COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i
DettagliAccess. P a r t e p r i m a
Access P a r t e p r i m a 1 Esempio di gestione di database con MS Access 2 Cosa è Access? Access e un DBMS che permette di progettare e utilizzare DB relazionali Un DB Access e basato sui concetti di
DettagliBasi di Dati Relazionali
Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica
DettagliData Mining. Gabriella Trucco gabriella.trucco@unimi.it
Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi
DettagliRiccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino
Integration Services Project SQL Server 2005 Integration Services Permette di gestire tutti i processi di ETL Basato sui progetti di Business Intelligence di tipo Integration services Project SQL Server
DettagliCOME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING
Febbraio Inserto di Missione Impresa dedicato allo sviluppo pratico di progetti finalizzati ad aumentare la competitività delle imprese. COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING COS E UN
DettagliCiclo di vita dimensionale
aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema
DettagliSISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione
SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi
DettagliRegressione Mario Guarracino Data Mining a.a. 2010/2011
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume
DettagliEsercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco
Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Alfonso Iodice D Enza April 26, 2007 1...prima di cominciare Contare, operazione solitamente semplice, può diventare complicata se lo scopo
DettagliStatistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.
Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:
DettagliProgetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario
Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,
DettagliData Mining in SAP. Alessandro Ciaramella
UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence
DettagliIntroduzione al corso
Introduzione al corso Sistemi Informativi L-B Home Page del corso: http://www-db.deis.unibo.it/courses/sil-b/ Versione elettronica: introduzione.pdf Sistemi Informativi L-B Docente Prof. Paolo Ciaccia
DettagliPer capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.
DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del
DettagliIDENTIFICAZIONE DEI BISOGNI DEL CLIENTE
IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal
DettagliStefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse
Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le
DettagliPianificazione del data warehouse
Pianificazione del data warehouse Dalla pianificazione emergono due principali aree d interesse: area commerciale focalizzata sulle agenzie di vendita e area marketing concentrata sulle vendite dei prodotti.
DettagliBasi di Dati e Microsoft Access
Basi di Dati e Microsoft Access Lun: 16-18 e Mer: 14-17 Alessandro Padovani padoale@email.it Database: definizione Un database (DB) è una collezione di informazioni organizzata in gruppi, che consentono
DettagliDATABASE RELAZIONALI
1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.
DettagliTECNICHE DI SIMULAZIONE
TECNICHE DI SIMULAZIONE INTRODUZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Introduzione alla simulazione Una simulazione è l imitazione
DettagliIntroduzione ai tipi di dato astratti: applicazione alle liste
Universitàdegli Studi di L Aquila Facoltàdi Scienze M.F.N. Corso di Laurea in Informatica Corso di Laboratorio di Algoritmi e Strutture Dati A.A. 2005/2006 Introduzione ai tipi di dato astratti: applicazione
DettagliMODELLO RELAZIONALE. Introduzione
MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)
DettagliCustomer Relationship Management. Eleonora Ploncher 3 aprile 2006
Customer Relationship Management Eleonora Ploncher 3 aprile 2006 1. Gli obiettivi Gli obiettivi della presentazione sono volti a definire: 1. gli elementi fondamentali e strutturali di una strategia di
DettagliBasi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati
Basi di dati Il Modello Relazionale dei Dati Proposto da E. Codd nel 1970 per favorire l indipendenza dei dati Disponibile come modello logico in DBMS reali nel 1981 (non è facile realizzare l indipendenza
DettagliSVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14
SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la
DettagliLezione V. Aula Multimediale - sabato 29/03/2008
Lezione V Aula Multimediale - sabato 29/03/2008 LAB utilizzo di MS Access Definire gli archivi utilizzando le regole di derivazione e descrivere le caratteristiche di ciascun archivio ASSOCIAZIONE (1:1)
DettagliIntroduzione ai database relazionali
Introduzione ai database relazionali Tabelle Un database (DB) è costituito da un insieme di file che memorizzano dati opportunamente organizzati Nei database relazionale tale organizzazione è costituita
DettagliVALORE DELLE MERCI SEQUESTRATE
La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune
DettagliRegressione non lineare con un modello neurale feedforward
Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale
DettagliLa distribuzione Normale. La distribuzione Normale
La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una
DettagliSegmentare ovvero capire il contesto di mercato di riferimento
Lezione n. 5 Segmentare ovvero capire il contesto di mercato di riferimento Prof.ssa Clara Bassano Corso di Principi di Marketing A.A. 2006-2007 Verso la strategia aziendale Mission + Vision = Orientamento
DettagliPer visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;
Maschere e Query Le Maschere (1/2) Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere; Le maschere sono simili a moduli cartacei: ad ogni campo corrisponde un etichetta
DettagliIl database management system Access
Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio
Dettagli1. BASI DI DATI: GENERALITÀ
1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente
DettagliCorso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati
Corso di Access Modulo L2A (Access) 1.1 Concetti di base 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione Un ambiente DBMS è un applicazione che consente
DettagliBASE DI DATI: sicurezza. Informatica febbraio 2015 5ASA
BASE DI DATI: sicurezza Informatica febbraio 2015 5ASA Argomenti Privatezza o riservatezza Vincoli di integrità logica della base di dati intrarelazionali interrelazionali Principio generale sulla sicurezza
DettagliStrutturazione logica dei dati: i file
Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer
DettagliI database relazionali (Access)
I database relazionali (Access) Filippo TROTTA 04/02/2013 1 Prof.Filippo TROTTA Definizioni Database Sistema di gestione di database (DBMS, Database Management System) Sistema di gestione di database relazionale
DettagliMetodi di previsione
Metodi di previsione Giovanni Righini Università degli Studi di Milano Corso di Logistica I metodi di previsione I metodi di previsione sono usati per ricavare informazioni a sostegno dei processi decisionali
DettagliSQL Server 2005. Integration Services. SQL Server 2005: ETL - 1. Integration Services Project
atabase and ata Mi ni ng Group of P ol itecnico di Torino atabase and ata Mi ni ng Group of P ol itecnico di Torino atabase and data mining group, SQL Server 2005 Integration Services SQL Server 2005:
DettagliRISK MANAGEMENT: MAPPATURA E VALUTAZIONE DEI RISCHI AZIENDALI. UN COSTO O UN OPPORTUNITA?
Crenca & Associati CORPORATE CONSULTING SERVICES RISK MANAGEMENT: MAPPATURA E VALUTAZIONE DEI RISCHI AZIENDALI. UN COSTO O UN OPPORTUNITA? Ufficio Studi Milano, 3 aprile 2008 Introduzione al Risk Management
DettagliStima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una
DettagliBasi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007
Basi di dati Concetti introduttivi Ultima modifica: 26/02/2007 ESEMPIO INSEGNAMENTI Fisica, Analisi, Informatica Aule Docenti Entità Relazioni Interrogazioni St udent i Database 2 Tabella (I) STUDENTE
DettagliMODULO 5 Appunti ACCESS - Basi di dati
MODULO 5 Appunti ACCESS - Basi di dati Lezione 1 www.mondopcnet.com Modulo 5 basi di dati Richiede che il candidato dimostri di possedere la conoscenza relativa ad alcuni concetti fondamentali sui database.
DettagliBasi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS
Basi di Basi di (Sistemi Informativi) Sono una delle applicazioni informatiche che hanno avuto il maggiore utilizzo in uffici, aziende, servizi (e oggi anche sul web) Avete già interagito (magari inconsapevolmente)
DettagliISTITUTO TECNICO ECONOMICO MOSSOTTI
CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche
DettagliRicerca Operativa e Logistica
Ricerca Operativa e Logistica Dott. F.Carrabs e Dott.ssa M.Gentili A.A. 2011/2012 Lezione 10: Variabili e vincoli logici Variabili logiche Spesso nei problemi reali che dobbiamo affrontare ci sono dei
DettagliOperazioni sui database
Operazioni sui database Le operazioni nel modello relazionale sono essenzialmente di due tipi: Operazioni di modifica della base di dati (update) Interrogazioni della base di dati per il recupero delle
DettagliAnalisi dei Dati. Lezione 10 Introduzione al Datwarehouse
Analisi dei Dati Lezione 10 Introduzione al Datwarehouse Il Datawarehouse Il Data Warehousing si può definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il
Dettaglirisulta (x) = 1 se x < 0.
Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente
DettagliIndagini statistiche attraverso i social networks
Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo
DettagliConvegno 6 giugno 2013 Federlazio Frosinone
Convegno 6 giugno 2013 Federlazio Frosinone pag. 1 6 giugno 2013 Federlazio Frosinone Introduzione alla Business Intelligence Un fattore critico per la competitività è trasformare la massa di dati prodotti
DettagliInformatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati
Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità
DettagliSistemi Informativi e Basi di Dati
Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli
DettagliRaffinamento dello schema e forme normali. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma
Raffinamento dello schema e forme normali 1 Forme Normali Le forme normali consentono di valutare la qualità delle relazione Sono state proposte diverse forme normali che includono, in ordine di generalità:
Dettagli2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1
1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1
DettagliArtifact Centric Business Processes (I)
Introduzione Autore: Docente: Prof. Giuseppe De Giacomo Dipartimento di Informatica e Sistemistica SAPIENZA - Universitá di Roma 16 Novembre 2008 Una visione assiomatica La modellazione dei processi di
DettagliPDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD
Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da
Dettagli1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:
Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi
DettagliECONOMIA CLASSE IV prof.ssa Midolo L ASPETTO ECONOMICO DELLA GESTIONE. (lezione della prof.ssa Edi Dal Farra)
ECONOMIA CLASSE IV prof.ssa Midolo L ASPETTO ECONOMICO DELLA GESTIONE (lezione della prof.ssa Edi Dal Farra) La GESTIONE (operazioni che l azienda compie per raggiungere i suoi fini) può essere: ORDINARIA
DettagliGestione parte IIC. Diagrammi di Gantt. Esempio. Schemi di scomposizione delle attività
Schemi di scomposizione delle attività Gestione parte IIC Work Breakdown Structures (WBS) Struttura ad albero: radice: attività principale i nodi figli rappresentano la scomposizione del nodo padre le
DettagliIngegneria del Software T
Home Finance 1 Requisiti del cliente 1 Si richiede di realizzare un sistema per la gestione della contabilità familiare. Il sistema consente la classificazione dei movimenti di denaro e la loro memorizzazione.
DettagliStatistica. Lezione 6
Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante
DettagliPIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE
Istituto di Istruzione Secondaria Superiore ETTORE MAJORANA 24068 SERIATE (BG) Via Partigiani 1 -Tel. 035-297612 - Fax 035-301672 e-mail: majorana@ettoremajorana.gov.it - sito internet: www.ettoremajorana.gov.it
DettagliIntroduzione ad OLAP (On-Line Analytical Processing)
Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line
DettagliCalcolo delle probabilità
Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità
DettagliEsercizio 1: trading on-line
Esercizio 1: trading on-line Si realizzi un programma Java che gestisca le operazioni base della gestione di un fondo per gli investimenti on-line Creazione del fondo (con indicazione della somma in inizialmente
DettagliEXPLOit Content Management Data Base per documenti SGML/XML
EXPLOit Content Management Data Base per documenti SGML/XML Introduzione L applicazione EXPLOit gestisce i contenuti dei documenti strutturati in SGML o XML, utilizzando il prodotto Adobe FrameMaker per
DettagliSistemi per la gestione di database: MySQL ( )
Sistemi per la gestione di database: MySQL ( ) Relational Database e Relational Database Management System Un database è una raccolta di dati organizzata in modo da consentire l accesso, il reperimento
DettagliMining Positive and Negative Association Rules:
Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una
DettagliIntroduzione al MATLAB c Parte 2
Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione
DettagliAUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT
AUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT Obiettivi Incrementare i contatti (lead) e quindi le Vendite B2B attraverso l implementazione di un nuovo processo che
DettagliDispensa di database Access
Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di
DettagliTecniche di Simulazione: Introduzione. N. Del Buono:
Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire
Dettagli