Corso di Basi di Dati

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Corso di Basi di Dati"

Transcript

1 Corso di Basi di Dati Introduzione al Data Mining Home page del corso:

2 Data Mining: tecniche di apprendimento computerizzato per analizzare ed estrarre conoscenze da collezioni di dati. Pattern e relazioni non note a priori e non immediatamente identificabili. Disciplina complessa: utilizzo di tecniche di machine learning, intelligenza artificiale e statistiche

3 ESEMPI di APPLICAZIONI (aziendali) Previsioni di dati temporali (es. vendite) Market Basket Analysis (vi siete mai chiesti come mai tanti tornei di golf sono sponsorizzati da societa di brokeraggio? ) Scoperta di truffe (es. clonazioni di carte di credito) Campagne pubblicitarie mirate Churn Analysis (analisi della clientela che potrebbe passare alla concorrenza) Segmentazione della clientela

4 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale

5 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale Sorgente:

6 Data mining à estrae informazioni da un DB. Data query (SELECT) à estrae dati da un DB relazionale (in particolare, dalle tabelle della FROM). Q. Che differenza esiste tra i due approcci? A. Il processo di data mining estrae regolarità e pattern sui dati che non sono note a priori, e che non possono essere ricavate da query SQL.

7 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. Dati estratti dal Web (es. OPEN DATA) Dati estratti dai social media

8 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media

9 Big Data: grandi moli di dati, provenienti da sorgenti eterogenee, difficili da gestire ed analizzare utilizzando strumenti tradizionali. Le 3 V dei Big-Data: Volume Varietà Velocità Valore Fonte: 9

10 Un esempio di sorgente di Big-Data: Dispositivi mobili 3. ANALYZE 2. SHARE 4. PROVIDE SERVICES 1. SENSE Fonte: Lane, Miluzzo et alt, A survey of mobile phone sensing, IEEE Communication Magazine,

11 Un esempio di applicazione di tecniche di data-mining (1) TRAINING PHASE <timestamp, dato sensore 1, dato sensore 2, dato sensore3, CLASSE MOBILITA > TRAINING SET <1/1/2014:08:50:23, 0.323, 0.123, 9.8, 1214, , , 5421,, WALKING> DATABASE relazionale contentente le osservazioni raccolte 11

12 Un esempio di applicazione di tecniche di data-mining (1) ESTRAZIONE DELLA CONOSCENZA MINING Modello di classificazione If (val1 < Y) and (val2 > Z) then WALKING If (val2 > Y) and (val3 > W) then BIKING else DRIVING CAR 12

13 Un esempio di applicazione di tecniche di data-mining (1) PREDIZIONE E TESTING <timestamp, dato sensore 1, dato sensore 2, dato sensore3, > MODELLO Output classificazione: WALKING 13

14 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

15 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

16 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

17 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

18 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media

19 Un esempio di applicazione di tecniche di data-mining (2) Analisi pagine FB delle Destination Management Organizations (DMO) su scala regionale Analisi utilizzo dei social media per fini di marketing del turismo Individuazione bestpractice per pubblicazione dei contenuti

20 Un esempio di applicazione di tecniche di data-mining (2) Impatto del profilo FB misurato attraverso l engagement: (Likes+ Comments+ Shares) (Total _ Posts Total _ Fans(end _ of _ the_ month)) 100 Quale fattore incide positivamente sull engagement? Quale fattore incide negativamente sull engagement? STRATEGIE PER PUBBLICAZIONE DEI CONTENUTI

21 Un esempio di applicazione di tecniche di data-mining (2) REGRESSIONE LINEARE COEFFICIENTI Y = β 0 + β 1 * X 1 + β 2 * X β M * X M Variabile dipendente: Engagement Variabile esplicativa: Es. Geografia, Stagione, Tipo Post, Frequenza Post, etc

22 Q. Dove memorizzare i dati necessari per l analisi? DBMS REPORT DW ANALISI Un data warehouse è una collezione di dati (non volatile) finalizzata al supporto del processo decisionale.

23 Un data warehouse è un database relazionale finalizzato all analisi ed al processo decisionale. Q. Che differenza c è tra un data warehouse ed i database operazionali visti fin qui nel corso? R. A basso livello, nessuna (modello relazionale à chiavi, tabelle, vincoli integrità, SQL, etc) R. Le differenze principali sono nella progettazione

24 Differenze principali tra database operazionali (visti fin qui) e data warehouse. OPERAZIONI sui DATI Database operazionali à Accessi multipli ai dati, aggiornamenti costanti nel tempo, possibile alta concorrenza delle operazioni lettura/scrittura. Data warehouse à Accesso in sola lettura, dati storici e non soggetti a cambiamento.

25 Differenze principali tra database operazionali (visti fin qui) e data warehouse. RAPPRESENTAZIONI dei DATI Database operazionali à I dati delle tabelle sono normalizzati (Prima/Seconda/Terza Forma Normale) per ridurre la ridondanza dei dati. Data warehouse à I dati sono rappresentati in forma denormalizzata per evitare operazioni (costose) di join tra le tabelle troppo frequenti.

26 Differenze principali tra database operazionali (visti fin qui) e data warehouse. GRANULARITA dei DATI Database operazionali à Ogni riga contiene informazioni relative ad operazioni di inserimento (insert SQL), eseguite sul database. Data warehouse à I dati rappresentano informazioni aggregate, utili per la reportistica, spesso ottenute processando altri dati (del db).

27 Esistono opportune metodologie (che non vedremo) per progettare un data warehouse relazionale. MODELLO A STELLA MODELLO OLAP Noi ci concentriamo ora sul processo di analisi dei dati

28 ESEMPIO di PROCESSO di DATA-MINING Un azienda di telefonia vuole analizzare il data-set dei propri clienti abbonati, in modo da: Costruire una profilazione della clientela, in modo da individuare un possibile nuovo cliente, a partire dai suoi dati (es. età, sesso, lavoro, etc). Determinare quali utenti abbonati possono essere interessati ad una nuova offerta (es. abbonamento Internet con tecnologia LTE). Q. Da dove partire per effettuare l analisi?

29 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

30 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

31 BUSINESS UNDERSTANDING In questa fase, è necessario comprendere bene gli obiettivi che il sistema dovrebbe raggiungere (es. modello predizione costi?) ed i requisiti del committente. Inventario delle risorse disponibili. Requisiti, presupposti e vincoli. Analisi dei rischi/imprevisti. Analisi dei costi/benefici.

32 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di business understanding include la formulazione delle risposte ai seguenti quesiti: Che margine di profitto mi aspetto di ottenere dal modello di previsione dei nuovi clienti? Che margine di risparmio mi aspetto di ottenere effettuando pubblicita mirata delle nuove offerte? Quali sono i costi necessari per implementare il modello di data-mining nel processo decisionale?

33 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

34 DATA UNDERSTANDING In questa fase, è necessario comprendere bene quali dati sono fondamentali per la costruzione del modello di data mining. Report dei dati disponibili. Costruzione del dataset. Strategie di recupero dati mancanti. Criteri di verifica della qualità dei dati.

35 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di data understanding include la formulazione delle risposte ai seguenti quesiti: Ho a disposizione tutti i dati necessari per poter classificare gli utenti del mio servizio? Devo prevedere campagne di raccolte dati (es. attraverso survey o interviste telefoniche?) Posso estendere il mio data-set includendo dati provenienti da altre fonti (es. social media)?

36 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

37 DATA PREPARATION Molti algoritmi di data-mining richiedono di trasformare i dati in un opportuno formato per poter essere eseguiti efficacemente. Es. Gli algoritmi di classificazione lavorano spesso su un numero discreto di classi da riconoscere, sebbene i dati in questione abbiano un dominio continuo.

38 DATA PREPARATION STORICO EROGAZIONI Costruire un modello di data-mining per decidere l erogazione di una carta di credito sulla base della segmentazione degli utenti. Codice Macchina Eta Casa Reddito Erogazione 1332 SI 26 SI SI 2232 NO 40 SI SI 4323 NO 60 NO 5000 NO Se Reddito <= à 0 Se Reddito> & Reddito < à 1 Se Reddito >= à 2 REGOLE di CLASSIFICAZIONE Reddito 1 2 0

39 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati su un intervallo (es. [0,1]). Normalizzazione Massimo/Minimo: ValMin ValNew i = 0 1 Val i Min(Val) Max(Val) Min(Val) ValMax

40 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati in base alla media dei valori. Normalizzazione con Deviazione Standard: ValNew i = Val i Media(Val) Std(Val) Media

41 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (out-lier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? In molti casi, l obiettivo del processo di data mining consiste nella ricerca degli outlier (es. analisi frodi)

42 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? Es. Range valori consentiti: [Media Y*Dev: Media+Y*Dev] Se X fuori dal range à OUTLIER

43 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio Dati anomali 1) Come identificarli? Es. : Metodo dei vicini X(x 1,y 1 ) e Y (x 2,y 2 ) sono vicini se: (x 1 x 2 ) 2 + (y 1 y 2 ) 2 < R 0 Reddito 1 Se #Vicini(X) < Soglia à OUTLIER

44 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? Rimovere gli outlier Sostituirli con valori NULL Sostituirli con Media(Val)

45 DATA PREPARATION In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI??? SI SI 2232 NO 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?

46 DATA PREPARATION Diverse possibilita : In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. Scartare record incompleti Rimpiazzare??? con valori NULL STORICO Rimpiazzare EROGAZIONI??? con il valore medio dell attributo Codice Rimpiazzare Macchina??? Con Eta un valore Casa che non alteri Reddito la deviazione Erogazione Standard dei valori dell attributo 1332 SI??? SI SI Rimpiazzare??? Con valori plausibili dell attributo sulla 2232 base NO di valori simili. 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?

47 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO

48 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO

49 DATA PREPARATION L attività di data preparation è molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo

50 DATA PREPARATION L attivita di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo

51 DATA PREPARATION L attività di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 2: Non rimuovo la riga, nessun outlier

52 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

53 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze.

54 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y

55 INPUT Data un istanza (record) di dati su N attributi: A(x 1,x 2,x 3,x 4,x 5, x N ) Dato un insieme di M possibili classi: C={c 1,c 2, c M } OUTPUT Determinare la classe c j cui appartiene l istanza A. COME? Mediante apprendimento supervisionato à

56 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j Q. Da dove ottengo il Training-Set? A. Spesso disponibile come storico di dati disponibili nel DB o nel DW, o costruito da fonti esterne.

57 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j {<A j,c ij >} DATA-SET + ALGORITMO CLASSIFICAZIONE Istanza A i Fase di TESTING Fase di TRAINING MODELLO C j

58 Esempio. Determinare se un certo cliente può essere interessato o meno ad acquistare un auto berlina, ai fini di migliorare la campagna pubblicitaria. TRAINING SET Data-set derivato dai risultati di precedenti campagne pubblicitarie Nr Stato Sesso #Nucleo Reddito Acquisto Utente 1 Coniugale Celibe M Familiare 1 Annuo SI 2 Nubile F NO 3 Sposato M SI TESTING SET <4, Sposato, M, 3, 38000> ACQUISTO??

59 ALGORITMI di CLASSIFICAZIONE Naïve Bayes Reti Bayesiane Alberi di decisione Random Forest Support Vector Machines (SVM) A. Quale algoritmo usare? Q. Non esiste un classificatore ottimo in assoluto, dipende dallo scenario applicativo

60 CLASSIFICATORE NAÏVE BAYES (NB) Il classificatore NB utilizza una tecnica statistica con la quale si cerca di stimare la probabilità di un istanza di appartenere ad una certa classe. Istanza A(x 1, x N ) da classificare. P(c j A) à probabilità condizionata di avere una classe c j, vedendo un istanza A. In NB, scelgo la classe c k, tale che: k = argmax j P(c j A) Come calcolare P(c j A)??

61 Probabilità condizionata: P(E 1 E 2 ) = P(E 1, E 2 ) P(E 2 ) Probabilità congiunta (in caso di eventi indipendenti): P(E 1, E 2 ) = P(E 1 ) P(E 2 ) Teorema di Bayes: P(E 1 E 2 ) = P(E 2 E 1 ) P(E 1 ) P(E 2 ) Applicando il Teorema di Bayes al nostro problema: argmax j P(c j A) = argmax j P(A c j ) P(c j ) P(A)

62 Semplificando il problema argmax j P(A c j ) P(c j ) P(A) argmax j P(A c j ) P(c j ) Il record A è composto di N Attributi: A(x 1,x 2, x N ) argmax j P(A c j ) P(c j ) = argmax j P(x 1, x 2,..., x N c j ) P(c j ) Assumendo che gli N attributi siano tutti indipendenti N i=1 argmax j P(x 1, x 2,..., x N c j ) P(c j ) = argmax j P(c j ) P(x i c j )

63 Conclusione à L algoritmo di NB sceglie la classe c j che massimizza la quantità: N i=1 P(c j ) P(x i c j ) PROBLEMA: Come stimare P(c j ) e P(x i c j )? Possibile Soluzione: Si approssima le probabilità come frequenze relative, rispetto ai valori del training set. P(c j ) = # istan ze classificate c j # istan ze totali

64 Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI A=< Sposato, M, 3, 38000> P(SI)=2/6=0.33 C={SI, NO} P(NO)=4/6=0.67

65 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI P(Sposato SI)=2/2=1 P(Sposato NO)=1/4=0.25 P(M SI)=1/2=0.5 P(M NO)=2/4=0.5 P(3 SI)=1/2=0.5 P(3 NO)=1/2=0.5 P(1 SI)=1/2=1 P(1 NO)=2/4=0.5

66 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408

67 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO Classificata come SI 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408

68 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello A 2 <s C 1 A 1 <k A 2 A 2 >=s A 1 A 3 A 1 >= v C 1 k<=a 1 > v A 3 >=p A 3 <p C 2 C 3

69 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO

70 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Classificazione di una nuova istanza: <Sposato=SI, Sesso=M, Reddito=4000, Nucleo=5> CLASSE: SI Problema: Come costruire l albero? SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO

71 Una rete bayesiana è un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo è una variabile casuale. Un arco da X ad Y indica che X ha un influenza su Y, ossia che le due variabili NON sono indipendenti (P(Y X) <> P(Y)). L assenza di archi tra due nodi indica che le due variabili sono indipendenti. C DAG Grafo Diretto Aciclico A B D

72 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. DAG Grafo Diretto Aciclico A A P(A) false 0.6 B true 0.4 C D

73 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. A B P(B A) false false 0.01 false true 0.99 true false 0.7 true true 0.3 C DAG Grafo Diretto Aciclico A B D

74 Tramite le reti Bayesiane, e possibile modellare comportamenti causa-effetto tra variabili casuali, ed effettuare diagnosi (= determinare la probabilita della causa dato l effetto). Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10

75 Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =

76 P(R= true E = true) = Irrigazione ON = 0.75 Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.95 P(E I=true, R=false)=0.90 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =

77 Tramite le reti Bayesiane, e possibile effettuare classificazioni di istanze A(x 1, x N ). In questo caso la rete è composta da: Nodo padre della rete à Classi c j da determinare Nodi foglia ed intermedi à Singoli attributi x i Si sceglie la classe c k, tale che: k = argmax j P(C j A) = argmax j P(C j, A) P(A)

78 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject della ? A 2 ={true,false} à Contiene dei link HTML nel testo? Spam A 1 A 2

79 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject? A 2 ={true,false} à Contiene dei link HTML nel testo? P(A 1 =true C=Spam)=0.8 Spam P(C=Spam)=0.4 P(A 2 =true A 1 =true, C=Spam)=0.95. A 1 A 2

80 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) Confronto i due valori, e scelgo la classe che garantisce la probabilità più alta associata all istanza A. Q. Come calcolare la probabilita congiunta?

81 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) In una rete bayesiana con variabili casuali X 1, X 2, X N, vale il seguente risultato: d P(X 1, X 2,...X N ) = P(X i parents(x i )) i=1

82 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) P(C = Spam) P(A 1 = true C = Spam) P(A 2 = true A 1 = true,c = Spam) C = NoSpam) P(A 1 = true C = NoSpam) P(A 2 = true A 1 = true,c = NoSpam

83 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y

84 La cluster/segmentation analysis è un insieme di tecniche per raggruppare oggetti in classi tra loro omogenee, ossia con caratteristiche simili. INPUT Insieme di N elementi da partizionare Numero di Classi: NC OUTPUT Determinare la composizione di ogni classe c 0<=i<nc

85 POSSIBILI APPLICAZIONI Ricerche di mercato Segmentazione della clientela Analisi dei social media Identificazione degli outlier Es. Database dei correntisti di una banca. Quali attributi simili consentono di raggrupare i clienti? Quali differenze tra i valori degli attributi (es. tipo del conto, età, sesso, etc) segmentano il database?

86 ALGORITMO DELLE K-MEDIE (K-MEANS CLUSTERING) Algoritmo di clusterizzazione non-gerarchico. Richiede di indicare il numero di cluster (insiemi) che si vogliono creare (NC). Gli elementi da classificare sono attributi con valori reali. Nel caso di attributi testuali, e necessaria una conversione di dominio. Es. Colore: {rosso, blu, verde} à {0,1,2} Basata sul concetto di distanza tra elementi à

87 Distanza tra due elementi in uno spazio euclideo 2D d(x, y) = (x 1 y 1 ) 2 + (x 2 y 2 ) 2 Distanza tra due elementi in uno spazio euclideo ND d(x, y) = n (x i y i ) 2 i=1 Centroide di un gruppo (2D): c(a 1,a 2, a M ) " $ c$ $ $ # M i=1 a i,x M, M i=1 a i,y M % ' ' ' ' &

88 1. Assegno casualmente gli elementi A={a 1,,a M } alle NC classi di clusterizzazione. 2. Ripeto le seguenti operazioni: 2.1 Calcolo il centroide c j di ogni classe j 2.2 Calcolo la distanza tra ogni elemento a i ed ogni centroide c j à d(a i,c j ) 2.3 Assegno l elemento a i al cluster j con centroide piu vicino à j=argmin(d(a i,c j )) 3. Concludo il ciclo quando: Il passo 2.3 non produce differenze rispetto all assegnamento del passo precedente (convergenza). L errore della clusterizzazione < E min (soglia d errore).

89 Q. Come definire l errore della classificazione? Dato un elemento a i (a i,x,a i,y ) à c(a i ) centroide del cluster cui e assegnato l elemento a i. A. Errore quadratico medioà somma (al quadrato) delle distanze tra a i e c(a i ), per tutti gli elementi a i. M i=1 e= d(a i,c(a i )) 2 La classificazione termina quando l errore diventa minore di una soglia E min (e<e min ).

90 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare= * * * * * * * * * * = a x,y Stipendio x 10000

91 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 1 Creazione casuale dei cluster * = a x,y Stipendio x 10000

92 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.1 Loop: Calcolo centroidi * = a x,y Stipendio x 10000

93 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.2 Loop: Calcolo distanze * = a x,y Stipendio x 10000

94 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 2.3 Loop: Riassegnamento * = a x,y Stipendio x 10000

95 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * CONVERGENZA? Non ancora STEP 3 Loop: Valuto condizione * = a x,y Stipendio x 10000

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati Informatica 3 Informatica 3 LEZIONE 10: Introduzione agli algoritmi e alle strutture dati Modulo 1: Perchè studiare algoritmi e strutture dati Modulo 2: Definizioni di base Lezione 10 - Modulo 1 Perchè

Dettagli

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione alla teoria dei database relazionali. Come progettare un database Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report Facoltà di Lingue e Letterature Straniere Le QUERY 2 Che cos è una Query? Una Query rappresenta uno strumento per interrogare un database.

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Ottimizzazione delle interrogazioni (parte I)

Ottimizzazione delle interrogazioni (parte I) Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di

Dettagli

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO Modulo 1: IL LINGUAGGIO HTML Formato degli oggetti utilizzati nel Web Elementi del linguaggio HTML: tag, e attributi

Dettagli

Raggruppamenti Conti Movimenti

Raggruppamenti Conti Movimenti ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Access. P a r t e p r i m a

Access. P a r t e p r i m a Access P a r t e p r i m a 1 Esempio di gestione di database con MS Access 2 Cosa è Access? Access e un DBMS che permette di progettare e utilizzare DB relazionali Un DB Access e basato sui concetti di

Dettagli

Basi di Dati Relazionali

Basi di Dati Relazionali Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino Integration Services Project SQL Server 2005 Integration Services Permette di gestire tutti i processi di ETL Basato sui progetti di Business Intelligence di tipo Integration services Project SQL Server

Dettagli

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING Febbraio Inserto di Missione Impresa dedicato allo sviluppo pratico di progetti finalizzati ad aumentare la competitività delle imprese. COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING COS E UN

Dettagli

Ciclo di vita dimensionale

Ciclo di vita dimensionale aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema

Dettagli

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Alfonso Iodice D Enza April 26, 2007 1...prima di cominciare Contare, operazione solitamente semplice, può diventare complicata se lo scopo

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Introduzione al corso

Introduzione al corso Introduzione al corso Sistemi Informativi L-B Home Page del corso: http://www-db.deis.unibo.it/courses/sil-b/ Versione elettronica: introduzione.pdf Sistemi Informativi L-B Docente Prof. Paolo Ciaccia

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

Pianificazione del data warehouse

Pianificazione del data warehouse Pianificazione del data warehouse Dalla pianificazione emergono due principali aree d interesse: area commerciale focalizzata sulle agenzie di vendita e area marketing concentrata sulle vendite dei prodotti.

Dettagli

Basi di Dati e Microsoft Access

Basi di Dati e Microsoft Access Basi di Dati e Microsoft Access Lun: 16-18 e Mer: 14-17 Alessandro Padovani padoale@email.it Database: definizione Un database (DB) è una collezione di informazioni organizzata in gruppi, che consentono

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

TECNICHE DI SIMULAZIONE

TECNICHE DI SIMULAZIONE TECNICHE DI SIMULAZIONE INTRODUZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Introduzione alla simulazione Una simulazione è l imitazione

Dettagli

Introduzione ai tipi di dato astratti: applicazione alle liste

Introduzione ai tipi di dato astratti: applicazione alle liste Universitàdegli Studi di L Aquila Facoltàdi Scienze M.F.N. Corso di Laurea in Informatica Corso di Laboratorio di Algoritmi e Strutture Dati A.A. 2005/2006 Introduzione ai tipi di dato astratti: applicazione

Dettagli

MODELLO RELAZIONALE. Introduzione

MODELLO RELAZIONALE. Introduzione MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)

Dettagli

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006 Customer Relationship Management Eleonora Ploncher 3 aprile 2006 1. Gli obiettivi Gli obiettivi della presentazione sono volti a definire: 1. gli elementi fondamentali e strutturali di una strategia di

Dettagli

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati Basi di dati Il Modello Relazionale dei Dati Proposto da E. Codd nel 1970 per favorire l indipendenza dei dati Disponibile come modello logico in DBMS reali nel 1981 (non è facile realizzare l indipendenza

Dettagli

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14 SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la

Dettagli

Lezione V. Aula Multimediale - sabato 29/03/2008

Lezione V. Aula Multimediale - sabato 29/03/2008 Lezione V Aula Multimediale - sabato 29/03/2008 LAB utilizzo di MS Access Definire gli archivi utilizzando le regole di derivazione e descrivere le caratteristiche di ciascun archivio ASSOCIAZIONE (1:1)

Dettagli

Introduzione ai database relazionali

Introduzione ai database relazionali Introduzione ai database relazionali Tabelle Un database (DB) è costituito da un insieme di file che memorizzano dati opportunamente organizzati Nei database relazionale tale organizzazione è costituita

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Segmentare ovvero capire il contesto di mercato di riferimento

Segmentare ovvero capire il contesto di mercato di riferimento Lezione n. 5 Segmentare ovvero capire il contesto di mercato di riferimento Prof.ssa Clara Bassano Corso di Principi di Marketing A.A. 2006-2007 Verso la strategia aziendale Mission + Vision = Orientamento

Dettagli

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere; Maschere e Query Le Maschere (1/2) Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere; Le maschere sono simili a moduli cartacei: ad ogni campo corrisponde un etichetta

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

1. BASI DI DATI: GENERALITÀ

1. BASI DI DATI: GENERALITÀ 1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente

Dettagli

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati Corso di Access Modulo L2A (Access) 1.1 Concetti di base 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione Un ambiente DBMS è un applicazione che consente

Dettagli

BASE DI DATI: sicurezza. Informatica febbraio 2015 5ASA

BASE DI DATI: sicurezza. Informatica febbraio 2015 5ASA BASE DI DATI: sicurezza Informatica febbraio 2015 5ASA Argomenti Privatezza o riservatezza Vincoli di integrità logica della base di dati intrarelazionali interrelazionali Principio generale sulla sicurezza

Dettagli

Strutturazione logica dei dati: i file

Strutturazione logica dei dati: i file Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer

Dettagli

I database relazionali (Access)

I database relazionali (Access) I database relazionali (Access) Filippo TROTTA 04/02/2013 1 Prof.Filippo TROTTA Definizioni Database Sistema di gestione di database (DBMS, Database Management System) Sistema di gestione di database relazionale

Dettagli

Metodi di previsione

Metodi di previsione Metodi di previsione Giovanni Righini Università degli Studi di Milano Corso di Logistica I metodi di previsione I metodi di previsione sono usati per ricavare informazioni a sostegno dei processi decisionali

Dettagli

SQL Server 2005. Integration Services. SQL Server 2005: ETL - 1. Integration Services Project

SQL Server 2005. Integration Services. SQL Server 2005: ETL - 1. Integration Services Project atabase and ata Mi ni ng Group of P ol itecnico di Torino atabase and ata Mi ni ng Group of P ol itecnico di Torino atabase and data mining group, SQL Server 2005 Integration Services SQL Server 2005:

Dettagli

RISK MANAGEMENT: MAPPATURA E VALUTAZIONE DEI RISCHI AZIENDALI. UN COSTO O UN OPPORTUNITA?

RISK MANAGEMENT: MAPPATURA E VALUTAZIONE DEI RISCHI AZIENDALI. UN COSTO O UN OPPORTUNITA? Crenca & Associati CORPORATE CONSULTING SERVICES RISK MANAGEMENT: MAPPATURA E VALUTAZIONE DEI RISCHI AZIENDALI. UN COSTO O UN OPPORTUNITA? Ufficio Studi Milano, 3 aprile 2008 Introduzione al Risk Management

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007 Basi di dati Concetti introduttivi Ultima modifica: 26/02/2007 ESEMPIO INSEGNAMENTI Fisica, Analisi, Informatica Aule Docenti Entità Relazioni Interrogazioni St udent i Database 2 Tabella (I) STUDENTE

Dettagli

MODULO 5 Appunti ACCESS - Basi di dati

MODULO 5 Appunti ACCESS - Basi di dati MODULO 5 Appunti ACCESS - Basi di dati Lezione 1 www.mondopcnet.com Modulo 5 basi di dati Richiede che il candidato dimostri di possedere la conoscenza relativa ad alcuni concetti fondamentali sui database.

Dettagli

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS Basi di Basi di (Sistemi Informativi) Sono una delle applicazioni informatiche che hanno avuto il maggiore utilizzo in uffici, aziende, servizi (e oggi anche sul web) Avete già interagito (magari inconsapevolmente)

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

Ricerca Operativa e Logistica

Ricerca Operativa e Logistica Ricerca Operativa e Logistica Dott. F.Carrabs e Dott.ssa M.Gentili A.A. 2011/2012 Lezione 10: Variabili e vincoli logici Variabili logiche Spesso nei problemi reali che dobbiamo affrontare ci sono dei

Dettagli

Operazioni sui database

Operazioni sui database Operazioni sui database Le operazioni nel modello relazionale sono essenzialmente di due tipi: Operazioni di modifica della base di dati (update) Interrogazioni della base di dati per il recupero delle

Dettagli

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse Analisi dei Dati Lezione 10 Introduzione al Datwarehouse Il Datawarehouse Il Data Warehousing si può definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

Convegno 6 giugno 2013 Federlazio Frosinone

Convegno 6 giugno 2013 Federlazio Frosinone Convegno 6 giugno 2013 Federlazio Frosinone pag. 1 6 giugno 2013 Federlazio Frosinone Introduzione alla Business Intelligence Un fattore critico per la competitività è trasformare la massa di dati prodotti

Dettagli

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità

Dettagli

Sistemi Informativi e Basi di Dati

Sistemi Informativi e Basi di Dati Sistemi Informativi e Basi di Dati Laurea Specialistica in Tecnologie di Analisi degli Impatti Ecotossicologici Docente: Francesco Geri Dipartimento di Scienze Ambientali G. Sarfatti Via P.A. Mattioli

Dettagli

Raffinamento dello schema e forme normali. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

Raffinamento dello schema e forme normali. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma Raffinamento dello schema e forme normali 1 Forme Normali Le forme normali consentono di valutare la qualità delle relazione Sono state proposte diverse forme normali che includono, in ordine di generalità:

Dettagli

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1 1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1

Dettagli

Artifact Centric Business Processes (I)

Artifact Centric Business Processes (I) Introduzione Autore: Docente: Prof. Giuseppe De Giacomo Dipartimento di Informatica e Sistemistica SAPIENZA - Universitá di Roma 16 Novembre 2008 Una visione assiomatica La modellazione dei processi di

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

ECONOMIA CLASSE IV prof.ssa Midolo L ASPETTO ECONOMICO DELLA GESTIONE. (lezione della prof.ssa Edi Dal Farra)

ECONOMIA CLASSE IV prof.ssa Midolo L ASPETTO ECONOMICO DELLA GESTIONE. (lezione della prof.ssa Edi Dal Farra) ECONOMIA CLASSE IV prof.ssa Midolo L ASPETTO ECONOMICO DELLA GESTIONE (lezione della prof.ssa Edi Dal Farra) La GESTIONE (operazioni che l azienda compie per raggiungere i suoi fini) può essere: ORDINARIA

Dettagli

Gestione parte IIC. Diagrammi di Gantt. Esempio. Schemi di scomposizione delle attività

Gestione parte IIC. Diagrammi di Gantt. Esempio. Schemi di scomposizione delle attività Schemi di scomposizione delle attività Gestione parte IIC Work Breakdown Structures (WBS) Struttura ad albero: radice: attività principale i nodi figli rappresentano la scomposizione del nodo padre le

Dettagli

Ingegneria del Software T

Ingegneria del Software T Home Finance 1 Requisiti del cliente 1 Si richiede di realizzare un sistema per la gestione della contabilità familiare. Il sistema consente la classificazione dei movimenti di denaro e la loro memorizzazione.

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

PIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE

PIANO DI LAVORO EFFETTIVAMENTE SVOLTO IN RELAZIONE ALLA PROGRAMMAZIONE DISCIPLINARE Istituto di Istruzione Secondaria Superiore ETTORE MAJORANA 24068 SERIATE (BG) Via Partigiani 1 -Tel. 035-297612 - Fax 035-301672 e-mail: majorana@ettoremajorana.gov.it - sito internet: www.ettoremajorana.gov.it

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Esercizio 1: trading on-line

Esercizio 1: trading on-line Esercizio 1: trading on-line Si realizzi un programma Java che gestisca le operazioni base della gestione di un fondo per gli investimenti on-line Creazione del fondo (con indicazione della somma in inizialmente

Dettagli

EXPLOit Content Management Data Base per documenti SGML/XML

EXPLOit Content Management Data Base per documenti SGML/XML EXPLOit Content Management Data Base per documenti SGML/XML Introduzione L applicazione EXPLOit gestisce i contenuti dei documenti strutturati in SGML o XML, utilizzando il prodotto Adobe FrameMaker per

Dettagli

Sistemi per la gestione di database: MySQL ( )

Sistemi per la gestione di database: MySQL ( ) Sistemi per la gestione di database: MySQL ( ) Relational Database e Relational Database Management System Un database è una raccolta di dati organizzata in modo da consentire l accesso, il reperimento

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Introduzione al MATLAB c Parte 2

Introduzione al MATLAB c Parte 2 Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione

Dettagli

AUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT

AUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT AUMENTARE I CONTATTI E LE VENDITE CON UN NUOVO PROCESSO: LEAD ADVANCED MANAGEMENT Obiettivi Incrementare i contatti (lead) e quindi le Vendite B2B attraverso l implementazione di un nuovo processo che

Dettagli

Dispensa di database Access

Dispensa di database Access Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di

Dettagli

Tecniche di Simulazione: Introduzione. N. Del Buono:

Tecniche di Simulazione: Introduzione. N. Del Buono: Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire

Dettagli