Corso di Basi di Dati

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Corso di Basi di Dati"

Transcript

1 Corso di Basi di Dati Introduzione al Data Mining Home page del corso:

2 Data Mining: tecniche di apprendimento computerizzato per analizzare ed estrarre conoscenze da collezioni di dati. Pattern e relazioni non note a priori e non immediatamente identificabili. Disciplina complessa: utilizzo di tecniche di machine learning, intelligenza artificiale e statistiche

3 ESEMPI di APPLICAZIONI (aziendali) Previsioni di dati temporali (es. vendite) Market Basket Analysis (vi siete mai chiesti come mai tanti tornei di golf sono sponsorizzati da societa di brokeraggio? ) Scoperta di truffe (es. clonazioni di carte di credito) Campagne pubblicitarie mirate Churn Analysis (analisi della clientela che potrebbe passare alla concorrenza) Segmentazione della clientela

4 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale

5 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale Sorgente:

6 Data mining à estrae informazioni da un DB. Data query (SELECT) à estrae dati da un DB relazionale (in particolare, dalle tabelle della FROM). Q. Che differenza esiste tra i due approcci? A. Il processo di data mining estrae regolarità e pattern sui dati che non sono note a priori, e che non possono essere ricavate da query SQL.

7 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. Dati estratti dal Web (es. OPEN DATA) Dati estratti dai social media

8 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media

9 Big Data: grandi moli di dati, provenienti da sorgenti eterogenee, difficili da gestire ed analizzare utilizzando strumenti tradizionali. Le 3 V dei Big-Data: Volume Varietà Velocità Valore Fonte: 9

10 Un esempio di sorgente di Big-Data: Dispositivi mobili 3. ANALYZE 2. SHARE 4. PROVIDE SERVICES 1. SENSE Fonte: Lane, Miluzzo et alt, A survey of mobile phone sensing, IEEE Communication Magazine,

11 Un esempio di applicazione di tecniche di data-mining (1) TRAINING PHASE <timestamp, dato sensore 1, dato sensore 2, dato sensore3, CLASSE MOBILITA > TRAINING SET <1/1/2014:08:50:23, 0.323, 0.123, 9.8, 1214, , , 5421,, WALKING> DATABASE relazionale contentente le osservazioni raccolte 11

12 Un esempio di applicazione di tecniche di data-mining (1) ESTRAZIONE DELLA CONOSCENZA MINING Modello di classificazione If (val1 < Y) and (val2 > Z) then WALKING If (val2 > Y) and (val3 > W) then BIKING else DRIVING CAR 12

13 Un esempio di applicazione di tecniche di data-mining (1) PREDIZIONE E TESTING <timestamp, dato sensore 1, dato sensore 2, dato sensore3, > MODELLO Output classificazione: WALKING 13

14 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

15 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

16 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

17 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

18 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media

19 Un esempio di applicazione di tecniche di data-mining (2) Analisi pagine FB delle Destination Management Organizations (DMO) su scala regionale Analisi utilizzo dei social media per fini di marketing del turismo Individuazione bestpractice per pubblicazione dei contenuti

20 Un esempio di applicazione di tecniche di data-mining (2) Impatto del profilo FB misurato attraverso l engagement: (Likes+ Comments+ Shares) (Total _ Posts Total _ Fans(end _ of _ the_ month)) 100 Quale fattore incide positivamente sull engagement? Quale fattore incide negativamente sull engagement? STRATEGIE PER PUBBLICAZIONE DEI CONTENUTI

21 Un esempio di applicazione di tecniche di data-mining (2) REGRESSIONE LINEARE COEFFICIENTI Y = β 0 + β 1 * X 1 + β 2 * X β M * X M Variabile dipendente: Engagement Variabile esplicativa: Es. Geografia, Stagione, Tipo Post, Frequenza Post, etc

22 Q. Dove memorizzare i dati necessari per l analisi? DBMS REPORT DW ANALISI Un data warehouse è una collezione di dati (non volatile) finalizzata al supporto del processo decisionale.

23 Un data warehouse è un database relazionale finalizzato all analisi ed al processo decisionale. Q. Che differenza c è tra un data warehouse ed i database operazionali visti fin qui nel corso? R. A basso livello, nessuna (modello relazionale à chiavi, tabelle, vincoli integrità, SQL, etc) R. Le differenze principali sono nella progettazione

24 Differenze principali tra database operazionali (visti fin qui) e data warehouse. OPERAZIONI sui DATI Database operazionali à Accessi multipli ai dati, aggiornamenti costanti nel tempo, possibile alta concorrenza delle operazioni lettura/scrittura. Data warehouse à Accesso in sola lettura, dati storici e non soggetti a cambiamento.

25 Differenze principali tra database operazionali (visti fin qui) e data warehouse. RAPPRESENTAZIONI dei DATI Database operazionali à I dati delle tabelle sono normalizzati (Prima/Seconda/Terza Forma Normale) per ridurre la ridondanza dei dati. Data warehouse à I dati sono rappresentati in forma denormalizzata per evitare operazioni (costose) di join tra le tabelle troppo frequenti.

26 Differenze principali tra database operazionali (visti fin qui) e data warehouse. GRANULARITA dei DATI Database operazionali à Ogni riga contiene informazioni relative ad operazioni di inserimento (insert SQL), eseguite sul database. Data warehouse à I dati rappresentano informazioni aggregate, utili per la reportistica, spesso ottenute processando altri dati (del db).

27 Esistono opportune metodologie (che non vedremo) per progettare un data warehouse relazionale. MODELLO A STELLA MODELLO OLAP Noi ci concentriamo ora sul processo di analisi dei dati

28 ESEMPIO di PROCESSO di DATA-MINING Un azienda di telefonia vuole analizzare il data-set dei propri clienti abbonati, in modo da: Costruire una profilazione della clientela, in modo da individuare un possibile nuovo cliente, a partire dai suoi dati (es. età, sesso, lavoro, etc). Determinare quali utenti abbonati possono essere interessati ad una nuova offerta (es. abbonamento Internet con tecnologia LTE). Q. Da dove partire per effettuare l analisi?

29 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

30 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

31 BUSINESS UNDERSTANDING In questa fase, è necessario comprendere bene gli obiettivi che il sistema dovrebbe raggiungere (es. modello predizione costi?) ed i requisiti del committente. Inventario delle risorse disponibili. Requisiti, presupposti e vincoli. Analisi dei rischi/imprevisti. Analisi dei costi/benefici.

32 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di business understanding include la formulazione delle risposte ai seguenti quesiti: Che margine di profitto mi aspetto di ottenere dal modello di previsione dei nuovi clienti? Che margine di risparmio mi aspetto di ottenere effettuando pubblicita mirata delle nuove offerte? Quali sono i costi necessari per implementare il modello di data-mining nel processo decisionale?

33 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

34 DATA UNDERSTANDING In questa fase, è necessario comprendere bene quali dati sono fondamentali per la costruzione del modello di data mining. Report dei dati disponibili. Costruzione del dataset. Strategie di recupero dati mancanti. Criteri di verifica della qualità dei dati.

35 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di data understanding include la formulazione delle risposte ai seguenti quesiti: Ho a disposizione tutti i dati necessari per poter classificare gli utenti del mio servizio? Devo prevedere campagne di raccolte dati (es. attraverso survey o interviste telefoniche?) Posso estendere il mio data-set includendo dati provenienti da altre fonti (es. social media)?

36 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

37 DATA PREPARATION Molti algoritmi di data-mining richiedono di trasformare i dati in un opportuno formato per poter essere eseguiti efficacemente. Es. Gli algoritmi di classificazione lavorano spesso su un numero discreto di classi da riconoscere, sebbene i dati in questione abbiano un dominio continuo.

38 DATA PREPARATION STORICO EROGAZIONI Costruire un modello di data-mining per decidere l erogazione di una carta di credito sulla base della segmentazione degli utenti. Codice Macchina Eta Casa Reddito Erogazione 1332 SI 26 SI SI 2232 NO 40 SI SI 4323 NO 60 NO 5000 NO Se Reddito <= à 0 Se Reddito> & Reddito < à 1 Se Reddito >= à 2 REGOLE di CLASSIFICAZIONE Reddito 1 2 0

39 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati su un intervallo (es. [0,1]). Normalizzazione Massimo/Minimo: ValMin ValNew i = 0 1 Val i Min(Val) Max(Val) Min(Val) ValMax

40 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati in base alla media dei valori. Normalizzazione con Deviazione Standard: ValNew i = Val i Media(Val) Std(Val) Media

41 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (out-lier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? In molti casi, l obiettivo del processo di data mining consiste nella ricerca degli outlier (es. analisi frodi)

42 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? Es. Range valori consentiti: [Media Y*Dev: Media+Y*Dev] Se X fuori dal range à OUTLIER

43 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio Dati anomali 1) Come identificarli? Es. : Metodo dei vicini X(x 1,y 1 ) e Y (x 2,y 2 ) sono vicini se: (x 1 x 2 ) 2 + (y 1 y 2 ) 2 < R 0 Reddito 1 Se #Vicini(X) < Soglia à OUTLIER

44 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? Rimovere gli outlier Sostituirli con valori NULL Sostituirli con Media(Val)

45 DATA PREPARATION In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI??? SI SI 2232 NO 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?

46 DATA PREPARATION Diverse possibilita : In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. Scartare record incompleti Rimpiazzare??? con valori NULL STORICO Rimpiazzare EROGAZIONI??? con il valore medio dell attributo Codice Rimpiazzare Macchina??? Con Eta un valore Casa che non alteri Reddito la deviazione Erogazione Standard dei valori dell attributo 1332 SI??? SI SI Rimpiazzare??? Con valori plausibili dell attributo sulla 2232 base NO di valori simili. 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?

47 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO

48 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO

49 DATA PREPARATION L attività di data preparation è molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo

50 DATA PREPARATION L attivita di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo

51 DATA PREPARATION L attività di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 2: Non rimuovo la riga, nessun outlier

52 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

53 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze.

54 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y

55 INPUT Data un istanza (record) di dati su N attributi: A(x 1,x 2,x 3,x 4,x 5, x N ) Dato un insieme di M possibili classi: C={c 1,c 2, c M } OUTPUT Determinare la classe c j cui appartiene l istanza A. COME? Mediante apprendimento supervisionato à

56 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j Q. Da dove ottengo il Training-Set? A. Spesso disponibile come storico di dati disponibili nel DB o nel DW, o costruito da fonti esterne.

57 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j {<A j,c ij >} DATA-SET + ALGORITMO CLASSIFICAZIONE Istanza A i Fase di TESTING Fase di TRAINING MODELLO C j

58 Esempio. Determinare se un certo cliente può essere interessato o meno ad acquistare un auto berlina, ai fini di migliorare la campagna pubblicitaria. TRAINING SET Data-set derivato dai risultati di precedenti campagne pubblicitarie Nr Stato Sesso #Nucleo Reddito Acquisto Utente 1 Coniugale Celibe M Familiare 1 Annuo SI 2 Nubile F NO 3 Sposato M SI TESTING SET <4, Sposato, M, 3, 38000> ACQUISTO??

59 ALGORITMI di CLASSIFICAZIONE Naïve Bayes Reti Bayesiane Alberi di decisione Random Forest Support Vector Machines (SVM) A. Quale algoritmo usare? Q. Non esiste un classificatore ottimo in assoluto, dipende dallo scenario applicativo

60 CLASSIFICATORE NAÏVE BAYES (NB) Il classificatore NB utilizza una tecnica statistica con la quale si cerca di stimare la probabilità di un istanza di appartenere ad una certa classe. Istanza A(x 1, x N ) da classificare. P(c j A) à probabilità condizionata di avere una classe c j, vedendo un istanza A. In NB, scelgo la classe c k, tale che: k = argmax j P(c j A) Come calcolare P(c j A)??

61 Probabilità condizionata: P(E 1 E 2 ) = P(E 1, E 2 ) P(E 2 ) Probabilità congiunta (in caso di eventi indipendenti): P(E 1, E 2 ) = P(E 1 ) P(E 2 ) Teorema di Bayes: P(E 1 E 2 ) = P(E 2 E 1 ) P(E 1 ) P(E 2 ) Applicando il Teorema di Bayes al nostro problema: argmax j P(c j A) = argmax j P(A c j ) P(c j ) P(A)

62 Semplificando il problema argmax j P(A c j ) P(c j ) P(A) argmax j P(A c j ) P(c j ) Il record A è composto di N Attributi: A(x 1,x 2, x N ) argmax j P(A c j ) P(c j ) = argmax j P(x 1, x 2,..., x N c j ) P(c j ) Assumendo che gli N attributi siano tutti indipendenti N i=1 argmax j P(x 1, x 2,..., x N c j ) P(c j ) = argmax j P(c j ) P(x i c j )

63 Conclusione à L algoritmo di NB sceglie la classe c j che massimizza la quantità: N i=1 P(c j ) P(x i c j ) PROBLEMA: Come stimare P(c j ) e P(x i c j )? Possibile Soluzione: Si approssima le probabilità come frequenze relative, rispetto ai valori del training set. P(c j ) = # istan ze classificate c j # istan ze totali

64 Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI A=< Sposato, M, 3, 38000> P(SI)=2/6=0.33 C={SI, NO} P(NO)=4/6=0.67

65 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI P(Sposato SI)=2/2=1 P(Sposato NO)=1/4=0.25 P(M SI)=1/2=0.5 P(M NO)=2/4=0.5 P(3 SI)=1/2=0.5 P(3 NO)=1/2=0.5 P(1 SI)=1/2=1 P(1 NO)=2/4=0.5

66 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408

67 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO Classificata come SI 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408

68 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello A 2 <s C 1 A 1 <k A 2 A 2 >=s A 1 A 3 A 1 >= v C 1 k<=a 1 > v A 3 >=p A 3 <p C 2 C 3

69 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO

70 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Classificazione di una nuova istanza: <Sposato=SI, Sesso=M, Reddito=4000, Nucleo=5> CLASSE: SI Problema: Come costruire l albero? SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO

71 Una rete bayesiana è un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo è una variabile casuale. Un arco da X ad Y indica che X ha un influenza su Y, ossia che le due variabili NON sono indipendenti (P(Y X) <> P(Y)). L assenza di archi tra due nodi indica che le due variabili sono indipendenti. C DAG Grafo Diretto Aciclico A B D

72 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. DAG Grafo Diretto Aciclico A A P(A) false 0.6 B true 0.4 C D

73 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. A B P(B A) false false 0.01 false true 0.99 true false 0.7 true true 0.3 C DAG Grafo Diretto Aciclico A B D

74 Tramite le reti Bayesiane, e possibile modellare comportamenti causa-effetto tra variabili casuali, ed effettuare diagnosi (= determinare la probabilita della causa dato l effetto). Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10

75 Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =

76 P(R= true E = true) = Irrigazione ON = 0.75 Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.95 P(E I=true, R=false)=0.90 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =

77 Tramite le reti Bayesiane, e possibile effettuare classificazioni di istanze A(x 1, x N ). In questo caso la rete è composta da: Nodo padre della rete à Classi c j da determinare Nodi foglia ed intermedi à Singoli attributi x i Si sceglie la classe c k, tale che: k = argmax j P(C j A) = argmax j P(C j, A) P(A)

78 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject della ? A 2 ={true,false} à Contiene dei link HTML nel testo? Spam A 1 A 2

79 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject? A 2 ={true,false} à Contiene dei link HTML nel testo? P(A 1 =true C=Spam)=0.8 Spam P(C=Spam)=0.4 P(A 2 =true A 1 =true, C=Spam)=0.95. A 1 A 2

80 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) Confronto i due valori, e scelgo la classe che garantisce la probabilità più alta associata all istanza A. Q. Come calcolare la probabilita congiunta?

81 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) In una rete bayesiana con variabili casuali X 1, X 2, X N, vale il seguente risultato: d P(X 1, X 2,...X N ) = P(X i parents(x i )) i=1

82 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) P(C = Spam) P(A 1 = true C = Spam) P(A 2 = true A 1 = true,c = Spam) C = NoSpam) P(A 1 = true C = NoSpam) P(A 2 = true A 1 = true,c = NoSpam

83 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y

84 La cluster/segmentation analysis è un insieme di tecniche per raggruppare oggetti in classi tra loro omogenee, ossia con caratteristiche simili. INPUT Insieme di N elementi da partizionare Numero di Classi: NC OUTPUT Determinare la composizione di ogni classe c 0<=i<nc

85 POSSIBILI APPLICAZIONI Ricerche di mercato Segmentazione della clientela Analisi dei social media Identificazione degli outlier Es. Database dei correntisti di una banca. Quali attributi simili consentono di raggrupare i clienti? Quali differenze tra i valori degli attributi (es. tipo del conto, età, sesso, etc) segmentano il database?

86 ALGORITMO DELLE K-MEDIE (K-MEANS CLUSTERING) Algoritmo di clusterizzazione non-gerarchico. Richiede di indicare il numero di cluster (insiemi) che si vogliono creare (NC). Gli elementi da classificare sono attributi con valori reali. Nel caso di attributi testuali, e necessaria una conversione di dominio. Es. Colore: {rosso, blu, verde} à {0,1,2} Basata sul concetto di distanza tra elementi à

87 Distanza tra due elementi in uno spazio euclideo 2D d(x, y) = (x 1 y 1 ) 2 + (x 2 y 2 ) 2 Distanza tra due elementi in uno spazio euclideo ND d(x, y) = n (x i y i ) 2 i=1 Centroide di un gruppo (2D): c(a 1,a 2, a M ) " $ c$ $ $ # M i=1 a i,x M, M i=1 a i,y M % ' ' ' ' &

88 1. Assegno casualmente gli elementi A={a 1,,a M } alle NC classi di clusterizzazione. 2. Ripeto le seguenti operazioni: 2.1 Calcolo il centroide c j di ogni classe j 2.2 Calcolo la distanza tra ogni elemento a i ed ogni centroide c j à d(a i,c j ) 2.3 Assegno l elemento a i al cluster j con centroide piu vicino à j=argmin(d(a i,c j )) 3. Concludo il ciclo quando: Il passo 2.3 non produce differenze rispetto all assegnamento del passo precedente (convergenza). L errore della clusterizzazione < E min (soglia d errore).

89 Q. Come definire l errore della classificazione? Dato un elemento a i (a i,x,a i,y ) à c(a i ) centroide del cluster cui e assegnato l elemento a i. A. Errore quadratico medioà somma (al quadrato) delle distanze tra a i e c(a i ), per tutti gli elementi a i. M i=1 e= d(a i,c(a i )) 2 La classificazione termina quando l errore diventa minore di una soglia E min (e<e min ).

90 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare= * * * * * * * * * * = a x,y Stipendio x 10000

91 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 1 Creazione casuale dei cluster * = a x,y Stipendio x 10000

92 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.1 Loop: Calcolo centroidi * = a x,y Stipendio x 10000

93 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.2 Loop: Calcolo distanze * = a x,y Stipendio x 10000

94 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 2.3 Loop: Riassegnamento * = a x,y Stipendio x 10000

95 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * CONVERGENZA? Non ancora STEP 3 Loop: Valuto condizione * = a x,y Stipendio x 10000

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Il data mining. di Alessandro Rezzani

Il data mining. di Alessandro Rezzani Il data mining di Alessandro Rezzani Cos è il data mining.... 2 Knowledge Discovery in Databases (KDD)... 3 Lo standard CRISP-DM... 4 La preparazione dei dati... 7 Costruzione del modello... 7 Attività

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Pianificazione del data warehouse

Pianificazione del data warehouse Pianificazione del data warehouse Dalla pianificazione emergono due principali aree d interesse: area commerciale focalizzata sulle agenzie di vendita e area marketing concentrata sulle vendite dei prodotti.

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

Basi di Dati Complementi Esercitazione su Data Warehouse

Basi di Dati Complementi Esercitazione su Data Warehouse Sommario Basi di Dati Complementi Esercitazione su Data Warehouse 1. Riassunto concetti principali dalle slide della lezione di teoria 2.Studio di caso : progettazione di un Data Warehouse di una catena

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

Introduzione al KDD e al DATA MINING

Introduzione al KDD e al DATA MINING Introduzione al KDD e al DATA MINING Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Verso il DM: una breve analisi delle fasi del processo KDD. 1 2 Il DM: Alcune definizioni.

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

CATALOGO DEI CORSI DI FORMAZIONE

CATALOGO DEI CORSI DI FORMAZIONE CATALOGO DEI CORSI DI FORMAZIONE NextInt Training Center - formazione@nextint.it NextInt Via Nino Oxilia 22 20127 Milano (MI) Tel. +30 02 36572330/332 formazione@nextint.it www.nextint.it CHI SIAMO NextInt

Dettagli

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete Funzioni in due variabili Raccolta di FAQ by Andrea Prevete 1) Cosa intendiamo, esattamente, quando parliamo di funzione reale di due variabili reali? Quando esiste una relazione fra tre variabili reali

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA TRIENNALE Cluster Analysis per la segmentazione della clientela utilizzando

Dettagli

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4 Pagina 2 1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4 Esempi... 4 3. Aspetti Prestazionali... 4 Obiettivi... 4 Esempi... 4 4. Gestione del Credito

Dettagli

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli

MODELLI DEI DATI PER DW DAI DATI ALLE DECISIONI. Per definire la struttura di un DW si usano i seguenti formalismi, detti modelli dei dati:

MODELLI DEI DATI PER DW DAI DATI ALLE DECISIONI. Per definire la struttura di un DW si usano i seguenti formalismi, detti modelli dei dati: DAI DATI ALLE DECISIONI MODELLI DEI DATI PER DW Le aziende per competere devono usare metodi di analisi, con tecniche di Business Intelligence, dei dati interni, accumulati nel tempo, e di dati esterni,

Dettagli

Presentazione. Risorse Web. Metodi Statistici 1

Presentazione. Risorse Web. Metodi Statistici 1 I-XVI Romane_ 27-10-2004 14:25 Pagina VII Prefazione Risorse Web XI XIII XVII Metodi Statistici 1 Capitolo 1 Tecniche Statistiche 3 1.1 Probabilità, Variabili Casuali e Statistica 3 1.1.1 Introduzione

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

Estensioni del linguaggio SQL per interrogazioni OLAP

Estensioni del linguaggio SQL per interrogazioni OLAP Sistemi Informativi Avanzati Anno Accademico 2013/2014 Prof. Domenico Beneventano Estensioni del linguaggio SQL per interrogazioni OLAP Outline! Esempio introduttivo e motivazioni! Introduzione al modello

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

DATA MINING E DATA WAREHOUSE

DATA MINING E DATA WAREHOUSE Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com DATA MINING 1/2 Il Data

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

DATA MINING IN TIME SERIES

DATA MINING IN TIME SERIES Modellistica e controllo dei sistemi ambientali DATA MINING IN TIME SERIES 01 Dicembre 2009 Dott. Ing.. Roberto Di Salvo Dipartimento di Ingegneria Elettrica Elettronica e dei Sistemi Anno Accademico 2009-2010

Dettagli

A+FORUM 2015 Big data e predic,ve analy,cs: cosa sono, soluzioni e vantaggi, servono alle PMI?

A+FORUM 2015 Big data e predic,ve analy,cs: cosa sono, soluzioni e vantaggi, servono alle PMI? A+FORUM 2015 Big data e predic,ve analy,cs: cosa sono, soluzioni e vantaggi, servono alle PMI? Alessandro Rezzani Hotel Calzavecchio Casalecchio di Reno; 18/09/2015 Hotel Calzavecchio; Casalecchio di Reno;

Dettagli

Data Mining: Applicazioni

Data Mining: Applicazioni Sistemi Informativi Universitá degli Studi di Milano Facoltá di Scienze Matematiche, Fisiche e Naturali Dipartimento di Tecnologie dell Informazione 1 Giugno 2007 Data Mining Perché il Data Mining Il Data

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco Introduzione al Datamining Francesco Passantino francesco@iteam5net wwwiteam5net/francesco Cos è il datamining Processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire

Dettagli

Microsoft SQL Server Integration Services

Microsoft SQL Server Integration Services Sistemi Informativi Dott.ssa Elisa Turricchia Alma Mater Studiorum - Università di Bologna elisa.turricchia2@unibo.it 1 Microsoft SQL Server Integration Services 1 SQL Server Integration Services SSIS

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Rappresentazione della conoscenza. ha poco potere espressivo in quanto ha un ontologia limitata: il mondo consiste di fatti, es.

Rappresentazione della conoscenza. ha poco potere espressivo in quanto ha un ontologia limitata: il mondo consiste di fatti, es. Scaletta argomenti: Rappresentazione della conoscenza Logica del primo ordine Logiche non-monotone Reti semantiche Frame e script Regole di produzione Logica del Primo Ordine - Logica proposizionale ha

Dettagli

MICROMARKETING DI SUCCESSO SFRUTTANDO DAVVERO IL CUSTOMER DATABASE

MICROMARKETING DI SUCCESSO SFRUTTANDO DAVVERO IL CUSTOMER DATABASE MICROMARKETING DI SUCCESSO SFRUTTANDO DAVVERO IL CUSTOMER DATABASE Innovative tecniche statistiche che consentono di mirare le azioni di marketing, vendita e comunicazione valorizzando i dati dei database

Dettagli

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013 Alberi di Decisione Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013 Data Mining Lo scopo del data mining è l estrazione (semi) automatica di conoscenza nascosta in voluminose basi di dati

Dettagli

Il guadagno informativo negli alberi decisionali: un nuovo approccio

Il guadagno informativo negli alberi decisionali: un nuovo approccio Il guadagno informativo negli alberi decisionali: un nuovo approccio Sommario Descrizione del problema... 2 Il guadagno informativo di Nanni... 3 Il software Weka... 3 Cos è Weka... 3 Il guadagno Informativo

Dettagli

C4.5 Algorithms for Machine Learning

C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato

Dettagli

Data warehousing con SQL Server

Data warehousing con SQL Server Data warehousing con SQL Server! SQL Server è un RDBMS (Relational DataBase Management System)! Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data

Dettagli

matematicamente.it Numero 9 Maggio 2009

matematicamente.it Numero 9 Maggio 2009 112. Data ining: esplorando le miniere alla ricerca della conoscenza nascosta Clustering con l algoritmo k-means di Gaetano Zazzaro 1 L uomo è confinato nei limiti angusti del corpo, come in una prigione,

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Modulo Campaign Activator

Modulo Campaign Activator Modulo Campaign Activator 1 Che cosa è Market Activator Market Activator è una suite composta da quattro diversi moduli che coprono esigenze diverse, ma tipicamente complementari per i settori marketing/commerciale

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

Misure. Definizione delle misure

Misure. Definizione delle misure Sistemi Informativi Avanzati Anno Accademico 2013/2014 Prof. Domenico Beneventano Misure In parte dal Capitolo 5 del libro Data Warehouse - teoria e pratica della Progettazione Autori: Matteo Golfarelli,

Dettagli

Metodi di previsione

Metodi di previsione Metodi di previsione Giovanni Righini Università degli Studi di Milano Corso di Logistica I metodi di previsione I metodi di previsione sono usati per ricavare informazioni a sostegno dei processi decisionali

Dettagli

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA Ing. Simone SCARDAPANE Circuiti e Algoritmi per l Elaborazione dei Segnali Anno Accademico 2012/2013 Indice della Lezione 1. Analisi delle Componenti Principali 2. Auto-Associatori 3. Analisi delle Componenti

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

STATISTICA INFERENZIALE

STATISTICA INFERENZIALE STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene descritto attraverso una funzione parametrica di probabilità p

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

CRM analitico: introduzione. Andrea Farinet

CRM analitico: introduzione. Andrea Farinet CRM analitico: introduzione Andrea Farinet 1 1. Agenda Definizione di Customer Relationship Management (CRM) Le caratteristiche strutturali di un progetto di Customer Relationship Management Il Customer

Dettagli

Modelli matematici avanzati per l azienda a.a. 2010-2011

Modelli matematici avanzati per l azienda a.a. 2010-2011 Modelli matematici avanzati per l azienda a.a. 2010-2011 Docente: Pasquale L. De Angelis deangelis@uniparthenope.it tel. 081 5474557 http://www.economia.uniparthenope.it/siti_docenti P.L.DeAngelis Modelli

Dettagli

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Docente Prof. Giuseppe Manco Studenti Matr.. 96803 Francesco Aiello Matr.. 94881 Vittorio Leo

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Architetture per l analisi di dati

Architetture per l analisi di dati Architetture per l analisi di dati Basi di dati: Architetture e linee di evoluzione - Seconda edizione Capitolo 8 Appunti dalle lezioni Motivazioni I sistemi informatici permettono di aumentare la produttività

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1

Database. Organizzazione di archivi mediante basi di dati. ing. Alfredo Cozzi 1 Database Organizzazione di archivi mediante basi di dati ing. Alfredo Cozzi 1 Il database è una collezione di dati logicamente correlati e condivisi, che ha lo scopo di soddisfare i fabbisogni informativi

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Sistemi direzionali e modello multidimensionale. Prof. Piercarlo Giolito

Sistemi direzionali e modello multidimensionale. Prof. Piercarlo Giolito Sistemi direzionali e modello multidimensionale Prof. Piercarlo Giolito 1 Data warehousing e tecnologia OLAP Argomenti trattati. Evoluzione dei Sistemi Informativi Decisionali Il modello dei dati multidimensionale

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

modo differenziato i clienti ricadenti nelle differenti classi. Tecnica RFM Questo approccio considera, oltre al valore di fatturato (contemplato

modo differenziato i clienti ricadenti nelle differenti classi. Tecnica RFM Questo approccio considera, oltre al valore di fatturato (contemplato Metodi quantitativi per il targeting Per le piccole e medie imprese il Data Base di Marketing (DBM) è di importanza cruciale nella segmentazione della clientela e individuazione del target di interesse

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Modalità didattiche e materiale Lezioni in aula e in laboratorio utilizzando il software open source Weka

Dettagli

Data Mining Algorithms

Data Mining Algorithms Proposte di Tesi Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli, Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero, Alberto Grand, Luigi Grimaudo Torino, Giugno 2011 Data

Dettagli

Modelli relazionali. Esistono diversi modi di modellare un database. Il modello piu' usato al momento e' il modello relazionale

Modelli relazionali. Esistono diversi modi di modellare un database. Il modello piu' usato al momento e' il modello relazionale Cenni sui DATABASE Cos'e' un database Un database puo' essere definito come una collezione strutturata di record (dati) I dati sono memorizzati su un computer in modo opportuno e possono essere recuperati

Dettagli

Data warehousing con SQL Server

Data warehousing con SQL Server Data warehousing con SQL Server SQL Server è un RDBMS (Relational DataBase Management System) Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data warehousing

Dettagli

Il modello dimensionale

Il modello dimensionale aprile 2012 1 L organizzazione dei dati del data warehouse costituisce la pietra angolare dell intero sistema DW/BI le applicazioni BI, di supporto alle decisioni, accedono i dati direttamente dal DW l

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Misura delle prestazioni dei processi aziendali con sistemi di integrazione dati open source

Misura delle prestazioni dei processi aziendali con sistemi di integrazione dati open source Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria Enzo Ferrari di Modena Corso di Laurea in Ingegneria Informatica (509/99) Misura delle prestazioni dei processi aziendali con sistemi

Dettagli

UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA

UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA TESI DI LAUREA IN STATISTICA PER LE RICERCHE SPERIMENTALI E DI MERCATO L ANALISI STATISTICA DI DATI

Dettagli

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Roccatello Ing. Eduard L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Agenda Presentazione docente Definizione calendario Questionario pre corso

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Il problema di Monty Hill nel film 21 Elementare!! Statistiche, cambio di variabili. 1 Il coefficiente di correlazione tra Indicee Stipendio vale 0,94. E possibile asserire che

Dettagli