Corso di Basi di Dati

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Corso di Basi di Dati"

Transcript

1 Corso di Basi di Dati Introduzione al Data Mining Home page del corso:

2 Data Mining: tecniche di apprendimento computerizzato per analizzare ed estrarre conoscenze da collezioni di dati. Pattern e relazioni non note a priori e non immediatamente identificabili. Disciplina complessa: utilizzo di tecniche di machine learning, intelligenza artificiale e statistiche

3 ESEMPI di APPLICAZIONI (aziendali) Previsioni di dati temporali (es. vendite) Market Basket Analysis (vi siete mai chiesti come mai tanti tornei di golf sono sponsorizzati da societa di brokeraggio? ) Scoperta di truffe (es. clonazioni di carte di credito) Campagne pubblicitarie mirate Churn Analysis (analisi della clientela che potrebbe passare alla concorrenza) Segmentazione della clientela

4 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale

5 BUSINESS INTELLIGENCE (BI) à (def.) Insieme di processi aziendali, metodologie tool per raccogliere i dati di un azienda, ed estrarre infor mazioni di supporto alla decisioni strategiche. DATA MINING à componente essenziale del processo di BI, si occupa di estrarre informazioni utili dai dati per aiutare il processo decisionale Sorgente:

6 Data mining à estrae informazioni da un DB. Data query (SELECT) à estrae dati da un DB relazionale (in particolare, dalle tabelle della FROM). Q. Che differenza esiste tra i due approcci? A. Il processo di data mining estrae regolarità e pattern sui dati che non sono note a priori, e che non possono essere ricavate da query SQL.

7 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. Dati estratti dal Web (es. OPEN DATA) Dati estratti dai social media

8 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media

9 Big Data: grandi moli di dati, provenienti da sorgenti eterogenee, difficili da gestire ed analizzare utilizzando strumenti tradizionali. Le 3 V dei Big-Data: Volume Varietà Velocità Valore Fonte: 9

10 Un esempio di sorgente di Big-Data: Dispositivi mobili 3. ANALYZE 2. SHARE 4. PROVIDE SERVICES 1. SENSE Fonte: Lane, Miluzzo et alt, A survey of mobile phone sensing, IEEE Communication Magazine,

11 Un esempio di applicazione di tecniche di data-mining (1) TRAINING PHASE <timestamp, dato sensore 1, dato sensore 2, dato sensore3, CLASSE MOBILITA > TRAINING SET <1/1/2014:08:50:23, 0.323, 0.123, 9.8, 1214, , , 5421,, WALKING> DATABASE relazionale contentente le osservazioni raccolte 11

12 Un esempio di applicazione di tecniche di data-mining (1) ESTRAZIONE DELLA CONOSCENZA MINING Modello di classificazione If (val1 < Y) and (val2 > Z) then WALKING If (val2 > Y) and (val3 > W) then BIKING else DRIVING CAR 12

13 Un esempio di applicazione di tecniche di data-mining (1) PREDIZIONE E TESTING <timestamp, dato sensore 1, dato sensore 2, dato sensore3, > MODELLO Output classificazione: WALKING 13

14 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

15 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

16 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

17 Un esempio di applicazione di tecniche di data-mining (1) L. Bedogni, M. Di Felice, L. Bononi, By Train or By Car? Detecting the User's Motion Type through Smartphone Sensors Data, in Proc. of the 5th IFIP International Conference Wireless Days 2012 (WD 2012), Dublin, Ireland, November 21-23, 2012

18 Q. Da dove derivano i dati da analizzare? DBMS Dati posseduti da un azienda/ organizzazione e custodoti in un DB operazionale. + Dati estratti dal Web (es. OPEN DATA) + Dati estratti dai social media

19 Un esempio di applicazione di tecniche di data-mining (2) Analisi pagine FB delle Destination Management Organizations (DMO) su scala regionale Analisi utilizzo dei social media per fini di marketing del turismo Individuazione bestpractice per pubblicazione dei contenuti

20 Un esempio di applicazione di tecniche di data-mining (2) Impatto del profilo FB misurato attraverso l engagement: (Likes+ Comments+ Shares) (Total _ Posts Total _ Fans(end _ of _ the_ month)) 100 Quale fattore incide positivamente sull engagement? Quale fattore incide negativamente sull engagement? STRATEGIE PER PUBBLICAZIONE DEI CONTENUTI

21 Un esempio di applicazione di tecniche di data-mining (2) REGRESSIONE LINEARE COEFFICIENTI Y = β 0 + β 1 * X 1 + β 2 * X β M * X M Variabile dipendente: Engagement Variabile esplicativa: Es. Geografia, Stagione, Tipo Post, Frequenza Post, etc

22 Q. Dove memorizzare i dati necessari per l analisi? DBMS REPORT DW ANALISI Un data warehouse è una collezione di dati (non volatile) finalizzata al supporto del processo decisionale.

23 Un data warehouse è un database relazionale finalizzato all analisi ed al processo decisionale. Q. Che differenza c è tra un data warehouse ed i database operazionali visti fin qui nel corso? R. A basso livello, nessuna (modello relazionale à chiavi, tabelle, vincoli integrità, SQL, etc) R. Le differenze principali sono nella progettazione

24 Differenze principali tra database operazionali (visti fin qui) e data warehouse. OPERAZIONI sui DATI Database operazionali à Accessi multipli ai dati, aggiornamenti costanti nel tempo, possibile alta concorrenza delle operazioni lettura/scrittura. Data warehouse à Accesso in sola lettura, dati storici e non soggetti a cambiamento.

25 Differenze principali tra database operazionali (visti fin qui) e data warehouse. RAPPRESENTAZIONI dei DATI Database operazionali à I dati delle tabelle sono normalizzati (Prima/Seconda/Terza Forma Normale) per ridurre la ridondanza dei dati. Data warehouse à I dati sono rappresentati in forma denormalizzata per evitare operazioni (costose) di join tra le tabelle troppo frequenti.

26 Differenze principali tra database operazionali (visti fin qui) e data warehouse. GRANULARITA dei DATI Database operazionali à Ogni riga contiene informazioni relative ad operazioni di inserimento (insert SQL), eseguite sul database. Data warehouse à I dati rappresentano informazioni aggregate, utili per la reportistica, spesso ottenute processando altri dati (del db).

27 Esistono opportune metodologie (che non vedremo) per progettare un data warehouse relazionale. MODELLO A STELLA MODELLO OLAP Noi ci concentriamo ora sul processo di analisi dei dati

28 ESEMPIO di PROCESSO di DATA-MINING Un azienda di telefonia vuole analizzare il data-set dei propri clienti abbonati, in modo da: Costruire una profilazione della clientela, in modo da individuare un possibile nuovo cliente, a partire dai suoi dati (es. età, sesso, lavoro, etc). Determinare quali utenti abbonati possono essere interessati ad una nuova offerta (es. abbonamento Internet con tecnologia LTE). Q. Da dove partire per effettuare l analisi?

29 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

30 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

31 BUSINESS UNDERSTANDING In questa fase, è necessario comprendere bene gli obiettivi che il sistema dovrebbe raggiungere (es. modello predizione costi?) ed i requisiti del committente. Inventario delle risorse disponibili. Requisiti, presupposti e vincoli. Analisi dei rischi/imprevisti. Analisi dei costi/benefici.

32 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di business understanding include la formulazione delle risposte ai seguenti quesiti: Che margine di profitto mi aspetto di ottenere dal modello di previsione dei nuovi clienti? Che margine di risparmio mi aspetto di ottenere effettuando pubblicita mirata delle nuove offerte? Quali sono i costi necessari per implementare il modello di data-mining nel processo decisionale?

33 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

34 DATA UNDERSTANDING In questa fase, è necessario comprendere bene quali dati sono fondamentali per la costruzione del modello di data mining. Report dei dati disponibili. Costruzione del dataset. Strategie di recupero dati mancanti. Criteri di verifica della qualità dei dati.

35 ESEMPIO di PROCESSO di DATA-MINING Nel caso di studio (azienda di telefonia), la fase di data understanding include la formulazione delle risposte ai seguenti quesiti: Ho a disposizione tutti i dati necessari per poter classificare gli utenti del mio servizio? Devo prevedere campagne di raccolte dati (es. attraverso survey o interviste telefoniche?) Posso estendere il mio data-set includendo dati provenienti da altre fonti (es. social media)?

36 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

37 DATA PREPARATION Molti algoritmi di data-mining richiedono di trasformare i dati in un opportuno formato per poter essere eseguiti efficacemente. Es. Gli algoritmi di classificazione lavorano spesso su un numero discreto di classi da riconoscere, sebbene i dati in questione abbiano un dominio continuo.

38 DATA PREPARATION STORICO EROGAZIONI Costruire un modello di data-mining per decidere l erogazione di una carta di credito sulla base della segmentazione degli utenti. Codice Macchina Eta Casa Reddito Erogazione 1332 SI 26 SI SI 2232 NO 40 SI SI 4323 NO 60 NO 5000 NO Se Reddito <= à 0 Se Reddito> & Reddito < à 1 Se Reddito >= à 2 REGOLE di CLASSIFICAZIONE Reddito 1 2 0

39 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati su un intervallo (es. [0,1]). Normalizzazione Massimo/Minimo: ValMin ValNew i = 0 1 Val i Min(Val) Max(Val) Min(Val) ValMax

40 DATA PREPARATION Molti algoritmi di data-mining lavorano su dati normalizzati in base alla media dei valori. Normalizzazione con Deviazione Standard: ValNew i = Val i Media(Val) Std(Val) Media

41 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (out-lier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? In molti casi, l obiettivo del processo di data mining consiste nella ricerca degli outlier (es. analisi frodi)

42 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? Es. Range valori consentiti: [Media Y*Dev: Media+Y*Dev] Se X fuori dal range à OUTLIER

43 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio Dati anomali 1) Come identificarli? Es. : Metodo dei vicini X(x 1,y 1 ) e Y (x 2,y 2 ) sono vicini se: (x 1 x 2 ) 2 + (y 1 y 2 ) 2 < R 0 Reddito 1 Se #Vicini(X) < Soglia à OUTLIER

44 DATA PREPARATION In molti data-set, possono essere presenti dati anomali (outlier) che possono alterare l analisi. 1 1-Rischio 0 Reddito 1 Dati anomali 1) Come identificarli? 2) Come gestirli? Rimovere gli outlier Sostituirli con valori NULL Sostituirli con Media(Val)

45 DATA PREPARATION In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI??? SI SI 2232 NO 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?

46 DATA PREPARATION Diverse possibilita : In molti data-set, possono essere presenti dati incompleti che possono condizionare l analisi. Scartare record incompleti Rimpiazzare??? con valori NULL STORICO Rimpiazzare EROGAZIONI??? con il valore medio dell attributo Codice Rimpiazzare Macchina??? Con Eta un valore Casa che non alteri Reddito la deviazione Erogazione Standard dei valori dell attributo 1332 SI??? SI SI Rimpiazzare??? Con valori plausibili dell attributo sulla 2232 base NO di valori simili. 40??? SI 4323??? 60 NO??? NO Q. Come gestire i record con informazioni incomplete?

47 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO

48 DATA PREPARATION In molti contesti è opportuno ridurre il numero di attributi del data-set da analizzare Ragioni di efficienza à + Attributi: > Maggior tempo di computazione Ragioni di accuratezza à Alcuni attributi non sono utili per l analisi STORICO EROGAZIONI Informazione non utile per il modello Codice CF Macchina Eta Casa Reddito Erogazione 1332 ADFDS802M SI 26 SI SI 2232 FSFSS102M NO 40 SI SI 4323 MRGTY43R NO 60 NO 5000 NO

49 DATA PREPARATION L attività di data preparation è molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo

50 DATA PREPARATION L attivita di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 1: Seleziono la riga come outlier e la rimuovo

51 DATA PREPARATION L attività di data preparation e molto delicata, le scelte effettuate possono condizionare l analisi STORICO EROGAZIONI Valore medio Reddito: Codice Macchina Eta Casa Reddito Erogazione 1332 SI 20 SI SI 2232 NO 40 SI SI 4323 SI 60 NO NO SCELTA 2: Non rimuovo la riga, nessun outlier

52 CRISP-DM (Cross Industry Data Process for Data Mining) à metodologia standard e generale per l implementazione di un processo di data mining. BUSINESS UNDERSTANDING DATA UNDERSTANDING DEPLOYMENT DB DW DATA PREPARATION EVALUATION MODELING

53 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze.

54 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y

55 INPUT Data un istanza (record) di dati su N attributi: A(x 1,x 2,x 3,x 4,x 5, x N ) Dato un insieme di M possibili classi: C={c 1,c 2, c M } OUTPUT Determinare la classe c j cui appartiene l istanza A. COME? Mediante apprendimento supervisionato à

56 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j Q. Da dove ottengo il Training-Set? A. Spesso disponibile come storico di dati disponibili nel DB o nel DW, o costruito da fonti esterne.

57 TRAINING-SET Un Training-Set e definito come un insieme di record: T={(A j,c jk )} A j e un record su N attributi: (x j1,x j2, x jn ) c jk e la classe cui appartiene il record A j {<A j,c ij >} DATA-SET + ALGORITMO CLASSIFICAZIONE Istanza A i Fase di TESTING Fase di TRAINING MODELLO C j

58 Esempio. Determinare se un certo cliente può essere interessato o meno ad acquistare un auto berlina, ai fini di migliorare la campagna pubblicitaria. TRAINING SET Data-set derivato dai risultati di precedenti campagne pubblicitarie Nr Stato Sesso #Nucleo Reddito Acquisto Utente 1 Coniugale Celibe M Familiare 1 Annuo SI 2 Nubile F NO 3 Sposato M SI TESTING SET <4, Sposato, M, 3, 38000> ACQUISTO??

59 ALGORITMI di CLASSIFICAZIONE Naïve Bayes Reti Bayesiane Alberi di decisione Random Forest Support Vector Machines (SVM) A. Quale algoritmo usare? Q. Non esiste un classificatore ottimo in assoluto, dipende dallo scenario applicativo

60 CLASSIFICATORE NAÏVE BAYES (NB) Il classificatore NB utilizza una tecnica statistica con la quale si cerca di stimare la probabilità di un istanza di appartenere ad una certa classe. Istanza A(x 1, x N ) da classificare. P(c j A) à probabilità condizionata di avere una classe c j, vedendo un istanza A. In NB, scelgo la classe c k, tale che: k = argmax j P(c j A) Come calcolare P(c j A)??

61 Probabilità condizionata: P(E 1 E 2 ) = P(E 1, E 2 ) P(E 2 ) Probabilità congiunta (in caso di eventi indipendenti): P(E 1, E 2 ) = P(E 1 ) P(E 2 ) Teorema di Bayes: P(E 1 E 2 ) = P(E 2 E 1 ) P(E 1 ) P(E 2 ) Applicando il Teorema di Bayes al nostro problema: argmax j P(c j A) = argmax j P(A c j ) P(c j ) P(A)

62 Semplificando il problema argmax j P(A c j ) P(c j ) P(A) argmax j P(A c j ) P(c j ) Il record A è composto di N Attributi: A(x 1,x 2, x N ) argmax j P(A c j ) P(c j ) = argmax j P(x 1, x 2,..., x N c j ) P(c j ) Assumendo che gli N attributi siano tutti indipendenti N i=1 argmax j P(x 1, x 2,..., x N c j ) P(c j ) = argmax j P(c j ) P(x i c j )

63 Conclusione à L algoritmo di NB sceglie la classe c j che massimizza la quantità: N i=1 P(c j ) P(x i c j ) PROBLEMA: Come stimare P(c j ) e P(x i c j )? Possibile Soluzione: Si approssima le probabilità come frequenze relative, rispetto ai valori del training set. P(c j ) = # istan ze classificate c j # istan ze totali

64 Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI A=< Sposato, M, 3, 38000> P(SI)=2/6=0.33 C={SI, NO} P(NO)=4/6=0.67

65 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI P(Sposato SI)=2/2=1 P(Sposato NO)=1/4=0.25 P(M SI)=1/2=0.5 P(M NO)=2/4=0.5 P(3 SI)=1/2=0.5 P(3 NO)=1/2=0.5 P(1 SI)=1/2=1 P(1 NO)=2/4=0.5

66 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408

67 A=<Sposato, M, 3, 38000> Reddito <30000 à 0, Reddito >=30000 à 1 Nr Sposato Sesso #Nucleo Reddito Acquisto Utente 1 NO M Familiare 4 Annuo 0 NO Classificata come SI 2 NO F 1 1 NO 3 SI M 4 1 SI 4 SI F 3 0 NO 5 NO M 1 1 NO 6 SI F 3 1 SI C(SI <Sposato,M,3,38000>) à 0.33*1*0.5*0.5*1= C(NO <Sposato,M,3,38000>) à 0.67*0.25*0.5*0.5*0.5=0.0408

68 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello A 2 <s C 1 A 1 <k A 2 A 2 >=s A 1 A 3 A 1 >= v C 1 k<=a 1 > v A 3 >=p A 3 <p C 2 C 3

69 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Nodi interni à attributi utilizzati dal classificatore (sottoinsieme degli attributi disponibili) Arco à condizione sui valori del nodo Foglie à classe (output) del modello SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO

70 Un albero decisionale è una struttura dati (molto) utilizzata nei problemi di classificazione. Classificazione di una nuova istanza: <Sposato=SI, Sesso=M, Reddito=4000, Nucleo=5> CLASSE: SI Problema: Come costruire l albero? SI <=20000 <=4 SI Reddito Nucleo Sposato >4 >20000 SI NO NO NO

71 Una rete bayesiana è un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo è una variabile casuale. Un arco da X ad Y indica che X ha un influenza su Y, ossia che le due variabili NON sono indipendenti (P(Y X) <> P(Y)). L assenza di archi tra due nodi indica che le due variabili sono indipendenti. C DAG Grafo Diretto Aciclico A B D

72 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. DAG Grafo Diretto Aciclico A A P(A) false 0.6 B true 0.4 C D

73 Una rete bayesiana e un modello (visuale) per rappresentare le interazioni e le dipendenze tra variabili casuali (random variable). Ogni nodo X i dispone di una distribuzione di probabilita P(X i Parents(X i )) che quantifica gli effetti dei nodi padre sui figli. A B P(B A) false false 0.01 false true 0.99 true false 0.7 true true 0.3 C DAG Grafo Diretto Aciclico A B D

74 Tramite le reti Bayesiane, e possibile modellare comportamenti causa-effetto tra variabili casuali, ed effettuare diagnosi (= determinare la probabilita della causa dato l effetto). Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10

75 Irrigazione ON Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.05 P(E I=true, R=false)=0.95 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =

76 P(R= true E = true) = Irrigazione ON = 0.75 Pioggia P(R=true)=0.4 P(R=false)=0.6 P(I=true)=0.2 P(I=false)=0.8 Erba Bagnata P(E I=true, R=true)=0.95 P(E I=true, R=false)=0.90 P(E I=false, R=true)=0.90 P(E I=false, R=false)=0.10 = P(R= true E = true) = P(E = true R= true) P(R= true) P(E = true) P(E = true R= true) P(R= true) P(E = true R= true) P(R= true)+ P(E = true R= false) P(R= false) =

77 Tramite le reti Bayesiane, e possibile effettuare classificazioni di istanze A(x 1, x N ). In questo caso la rete è composta da: Nodo padre della rete à Classi c j da determinare Nodi foglia ed intermedi à Singoli attributi x i Si sceglie la classe c k, tale che: k = argmax j P(C j A) = argmax j P(C j, A) P(A)

78 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject della ? A 2 ={true,false} à Contiene dei link HTML nel testo? Spam A 1 A 2

79 Un esempio di classificatore basato su reti Bayesiane. C={Spam, No Spam} A={a 1,a 2 } à istanza da classificare A 1 ={true,false} à Contiene Poste Mobili nel subject? A 2 ={true,false} à Contiene dei link HTML nel testo? P(A 1 =true C=Spam)=0.8 Spam P(C=Spam)=0.4 P(A 2 =true A 1 =true, C=Spam)=0.95. A 1 A 2

80 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) Confronto i due valori, e scelgo la classe che garantisce la probabilità più alta associata all istanza A. Q. Come calcolare la probabilita congiunta?

81 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) In una rete bayesiana con variabili casuali X 1, X 2, X N, vale il seguente risultato: d P(X 1, X 2,...X N ) = P(X i parents(x i )) i=1

82 Un esempio di classificatore basato su reti Bayesiane. Supponendo di dover classificare A(true, false): P(C = Spam, A 1 = true, A 2 = false) P(C = NoSpam, A 1 = true, A 2 = false) P(C = Spam) P(A 1 = true C = Spam) P(A 2 = true A 1 = true,c = Spam) C = NoSpam) P(A 1 = true C = NoSpam) P(A 2 = true A 1 = true,c = NoSpam

83 Algoritmi diversi, per risolvere problemi diversi: Classificazione Determinare se gli attributi di una certa istanza appartengono o meno ad una classe. Segmentazione Scoprire pattern sui dati, raggruppare istanze simili in gruppi (cluster) di istanze. Predizione Predire il valore di una serie temporale (valori continui). Associazione Determinare regole del tipo: Se X allora Y

84 La cluster/segmentation analysis è un insieme di tecniche per raggruppare oggetti in classi tra loro omogenee, ossia con caratteristiche simili. INPUT Insieme di N elementi da partizionare Numero di Classi: NC OUTPUT Determinare la composizione di ogni classe c 0<=i<nc

85 POSSIBILI APPLICAZIONI Ricerche di mercato Segmentazione della clientela Analisi dei social media Identificazione degli outlier Es. Database dei correntisti di una banca. Quali attributi simili consentono di raggrupare i clienti? Quali differenze tra i valori degli attributi (es. tipo del conto, età, sesso, etc) segmentano il database?

86 ALGORITMO DELLE K-MEDIE (K-MEANS CLUSTERING) Algoritmo di clusterizzazione non-gerarchico. Richiede di indicare il numero di cluster (insiemi) che si vogliono creare (NC). Gli elementi da classificare sono attributi con valori reali. Nel caso di attributi testuali, e necessaria una conversione di dominio. Es. Colore: {rosso, blu, verde} à {0,1,2} Basata sul concetto di distanza tra elementi à

87 Distanza tra due elementi in uno spazio euclideo 2D d(x, y) = (x 1 y 1 ) 2 + (x 2 y 2 ) 2 Distanza tra due elementi in uno spazio euclideo ND d(x, y) = n (x i y i ) 2 i=1 Centroide di un gruppo (2D): c(a 1,a 2, a M ) " $ c$ $ $ # M i=1 a i,x M, M i=1 a i,y M % ' ' ' ' &

88 1. Assegno casualmente gli elementi A={a 1,,a M } alle NC classi di clusterizzazione. 2. Ripeto le seguenti operazioni: 2.1 Calcolo il centroide c j di ogni classe j 2.2 Calcolo la distanza tra ogni elemento a i ed ogni centroide c j à d(a i,c j ) 2.3 Assegno l elemento a i al cluster j con centroide piu vicino à j=argmin(d(a i,c j )) 3. Concludo il ciclo quando: Il passo 2.3 non produce differenze rispetto all assegnamento del passo precedente (convergenza). L errore della clusterizzazione < E min (soglia d errore).

89 Q. Come definire l errore della classificazione? Dato un elemento a i (a i,x,a i,y ) à c(a i ) centroide del cluster cui e assegnato l elemento a i. A. Errore quadratico medioà somma (al quadrato) delle distanze tra a i e c(a i ), per tutti gli elementi a i. M i=1 e= d(a i,c(a i )) 2 La classificazione termina quando l errore diventa minore di una soglia E min (e<e min ).

90 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare= * * * * * * * * * * = a x,y Stipendio x 10000

91 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 1 Creazione casuale dei cluster * = a x,y Stipendio x 10000

92 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.1 Loop: Calcolo centroidi * = a x,y Stipendio x 10000

93 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * + * * + * * * * * + * STEP 2.2 Loop: Calcolo distanze * = a x,y Stipendio x 10000

94 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * STEP 2.3 Loop: Riassegnamento * = a x,y Stipendio x 10000

95 Es.: A={insieme di info sui clienti di una banca} A={a x, y } a x à Reddito a y à Eta Eta A={(12000,24), (28000,28), (15000,24), (36000,39), (34000,35), (19000,27), (39000,35), (26000,28), (32000,32) } NC=#cluster da formare=3 * * * * * * * * * CONVERGENZA? Non ancora STEP 3 Loop: Valuto condizione * = a x,y Stipendio x 10000

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera L. De Giovanni AVVERTENZA: le note presentate di seguito non hanno alcuna pretesa di completezza, né hanno lo scopo di sostituirsi

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Business Intelligence. Il data mining in

Business Intelligence. Il data mining in Business Intelligence Il data mining in L'analisi matematica per dedurre schemi e tendenze dai dati storici esistenti. Revenue Management. Previsioni di occupazione. Marketing. Mail diretto a clienti specifici.

Dettagli

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Alessandro Rezzani Abstract L articolo descrive una delle tecniche di riduzione della dimensionalità del data set: il metodo dell analisi delle componenti principali (Principal

Dettagli

Convegno 6 giugno 2013 Federlazio Frosinone

Convegno 6 giugno 2013 Federlazio Frosinone Convegno 6 giugno 2013 Federlazio Frosinone pag. 1 6 giugno 2013 Federlazio Frosinone Introduzione alla Business Intelligence Un fattore critico per la competitività è trasformare la massa di dati prodotti

Dettagli

Esercizi sull Association Analysis

Esercizi sull Association Analysis Data Mining: Esercizi sull Association Analysis 1 Esercizi sull Association Analysis 1. Si consideri il mining di association rule da un dataset T di transazioni, rispetto a delle soglie minsup e minconf.

Dettagli

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita; .netbin. è un potentissimo strumento SVILUPPATO DA GIEMME INFORMATICA di analisi dei dati con esposizione dei dati in forma numerica e grafica con un interfaccia visuale di facile utilizzo, organizzata

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

COME FRODE. la possibilità propri dati. brevissimo. Reply www.reply.eu

COME FRODE. la possibilità propri dati. brevissimo. Reply www.reply.eu FRAUD MANAGEMENT. COME IDENTIFICARE E COMB BATTERE FRODI PRIMA CHE ACCADANO LE Con una visione sia sui processi di business, sia sui sistemi, Reply è pronta ad offrire soluzioni innovative di Fraud Management,

Dettagli

Realizzare un architettura integrata di Business Intelligence

Realizzare un architettura integrata di Business Intelligence Realizzare un architettura integrata di Business Intelligence Un sistema integrato di Business Intelligence consente all azienda customer oriented una gestione efficace ed efficiente della conoscenza del

Dettagli

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione.

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione. Grafi ed Alberi Pag. /26 Grafi ed Alberi In questo capitolo richiameremo i principali concetti di due ADT che ricorreranno puntualmente nel corso della nostra trattazione: i grafi e gli alberi. Naturale

Dettagli

Minimizzazione di Reti Logiche Combinatorie Multi-livello

Minimizzazione di Reti Logiche Combinatorie Multi-livello Minimizzazione di Reti Logiche Combinatorie Multi-livello Maurizio Palesi Maurizio Palesi 1 Introduzione Obiettivo della sintesi logica: ottimizzazione delle cifre di merito area e prestazioni Prestazioni:

Dettagli

Esercizi su lineare indipendenza e generatori

Esercizi su lineare indipendenza e generatori Esercizi su lineare indipendenza e generatori Per tutto il seguito, se non specificato esplicitamente K indicherà un campo e V uno spazio vettoriale su K Cose da ricordare Definizione Dei vettori v,,v

Dettagli

di4g: Uno strumento di clustering per l analisi integrata di dati geologici

di4g: Uno strumento di clustering per l analisi integrata di dati geologici di4g: Uno strumento di clustering per l analisi integrata di dati geologici Alice Piva 1, Giacomo Gamberoni 1, Denis Ferraretti 1, Evelina Lamma 2 1 intelliware snc, via J.F.Kennedy 15, 44122 Ferrara,

Dettagli

Esercizi Capitolo 5 - Alberi

Esercizi Capitolo 5 - Alberi Esercizi Capitolo 5 - Alberi Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente, è possibile saltare alle

Dettagli

Grandi dimensioni e dimensioni variabili

Grandi dimensioni e dimensioni variabili Grandi dimensioni e dimensioni variabili aprile 2012 1 Questo capitolo studia alcuni ulteriori aspetti importanti e caratteristici della gestione delle dimensioni in particolare, delle grandi dimensioni

Dettagli

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE Oracle Business Intelligence Standard Edition One è una soluzione BI completa, integrata destinata alle piccole e medie imprese.oracle

Dettagli

STUDIO DI SETTORE SM43U

STUDIO DI SETTORE SM43U ALLEGATO 3 NOTA TECNICA E METODOLOGICA STUDIO DI SETTORE SM43U NOTA TECNICA E METODOLOGICA CRITERI PER LA COSTRUZIONE DELLO STUDIO DI SETTORE Di seguito vengono esposti i criteri seguiti per la costruzione

Dettagli

Algebra Relazionale. algebra relazionale

Algebra Relazionale. algebra relazionale Algebra Relazionale algebra relazionale Linguaggi di Interrogazione linguaggi formali Algebra relazionale Calcolo relazionale Programmazione logica linguaggi programmativi SQL: Structured Query Language

Dettagli

Business Intelligence

Business Intelligence aggregazione dati Business Intelligence analytic applications query d a t a w a r e h o u s e aggregazione budget sales inquiry data mining Decision Support Systems MIS ERP data management Data Modeling

Dettagli

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Probabilità Probabilità Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Se tutti gli eventi fossero ugualmente possibili, la probabilità p(e)

Dettagli

Esercizi per il corso di Algoritmi e Strutture Dati

Esercizi per il corso di Algoritmi e Strutture Dati 1 Esercizi per il corso di Algoritmi e Strutture Dati Esercizi sulla Tecnica Divide et Impera N.B. Tutti gli algoritmi vanno scritti in pseudocodice (non in Java, né in C++, etc. ). Di tutti gli algoritmi

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

Le funzionalità di un DBMS

Le funzionalità di un DBMS Le funzionalità di un DBMS Sistemi Informativi L-A Home Page del corso: http://www-db.deis.unibo.it/courses/sil-a/ Versione elettronica: DBMS.pdf Sistemi Informativi L-A DBMS: principali funzionalità Le

Dettagli

IT FOR BUSINESS AND FINANCE

IT FOR BUSINESS AND FINANCE IT FOR BUSINESS AND FINANCE Business Intelligence Siena 14 aprile 2011 AGENDA Cos è la Business Intelligence Terminologia Perché la Business Intelligence La Piramide Informativa Macro Architettura Obiettivi

Dettagli

Stefano Bonetti Framework per la valutazione progressiva di interrogazioni di localizzazione

Stefano Bonetti Framework per la valutazione progressiva di interrogazioni di localizzazione Analisi del dominio: i sistemi per la localizzazione Definizione e implementazione del framework e risultati sperimentali e sviluppi futuri Tecniche di localizzazione Triangolazione Analisi della scena

Dettagli

Se x* e punto di minimo (locale) per la funzione nell insieme Ω, Ω = { x / g i (x) 0 i I, h j (x)= 0 j J } lo e anche per F(x) = f o (x) + c x x 2

Se x* e punto di minimo (locale) per la funzione nell insieme Ω, Ω = { x / g i (x) 0 i I, h j (x)= 0 j J } lo e anche per F(x) = f o (x) + c x x 2 NLP -OPT 1 CONDIZION DI OTTIMO [ Come ricavare le condizioni di ottimo. ] Si suppone x* sia punto di ottimo (minimo) per il problema min f o (x) con vincoli g i (x) 0 i I h j (x) = 0 j J la condizione

Dettagli

LA TECHNOLOGY TRANSFER PRESENTA JEN UNDERWOOD ADVANCED WORKSHOP ROMA 6 MAGGIO 2015 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

LA TECHNOLOGY TRANSFER PRESENTA JEN UNDERWOOD ADVANCED WORKSHOP ROMA 6 MAGGIO 2015 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 LA TECHNOLOGY TRANSFER PRESENTA JEN UNDERWOOD ADVANCED ANALYTICS WORKSHOP ROMA 6 MAGGIO 2015 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 info@technologytransfer.it www.technologytransfer.it ADVANCED ANALYTICS

Dettagli

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory FILE SYSTEM : INTERFACCIA 8.1 Interfaccia del File System Concetto di File Metodi di Accesso Struttura delle Directory Montaggio del File System Condivisione di File Protezione 8.2 Concetto di File File

Dettagli

Autori: M. Di Ianni, A. Panepuccia

Autori: M. Di Ianni, A. Panepuccia AR Analisi di Reti 2010/2011 M.Di Ianni Assegnazioni di ruoli Autori: M. Di Ianni, A. Panepuccia In questa dispensa verrà trattato il problema dell assegnazione dei ruoli in un grafo. Tale problema è stato

Dettagli

I file di dati. Unità didattica D1 1

I file di dati. Unità didattica D1 1 I file di dati Unità didattica D1 1 1) I file sequenziali Utili per la memorizzazione di informazioni testuali Si tratta di strutture organizzate per righe e non per record Non sono adatte per grandi quantità

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

Maurizio Vichi Sapienza Università di Roma

Maurizio Vichi Sapienza Università di Roma Percorsi didattici, interdisciplinari ed innovativi per la Statistica Maurizio Vichi Sapienza Università di Roma Presidente Federazione Europea delle Società Nazionali di Statistica Scuola Estiva di Matematica

Dettagli

EQUAZIONI non LINEARI

EQUAZIONI non LINEARI EQUAZIONI non LINEARI Francesca Pelosi Dipartimento di Matematica, Università di Roma Tor Vergata CALCOLO NUMERICO e PROGRAMMAZIONE http://www.mat.uniroma2.it/ pelosi/ EQUAZIONI non LINEARI p.1/44 EQUAZIONI

Dettagli

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo White paper La Process Intelligence migliora le prestazioni operative del settore assicurativo Pagina 2 Sintesi

Dettagli

Flusso a costo minimo e simplesso su reti

Flusso a costo minimo e simplesso su reti Flusso a costo minimo e simplesso su reti La particolare struttura di alcuni problemi di PL può essere talvolta utilizzata per la progettazione di tecniche risolutive molto più efficienti dell algoritmo

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t),

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t), SINTESI. Una classe importante di problemi probabilistici e statistici é quella della stima di caratteristiche relative ad un certo processo aleatorio. Esistono svariate tecniche di stima dei parametri

Dettagli

un occhio al passato per il tuo business futuro

un occhio al passato per il tuo business futuro 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 un occhio al passato per il tuo business futuro BUSINESS DISCOVERY Processi ed analisi per aziende virtuose Che cos è La Business Discovery è un insieme

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Data Sheet IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Panoramica Le medie aziende devono migliorare nettamente le loro capacità

Dettagli

Indice generale. Modulo 1 Algebra 2

Indice generale. Modulo 1 Algebra 2 Indice generale Modulo 1 Algebra 2 Capitolo 1 Scomposizione in fattori. Equazioni di grado superiore al primo 1.1 La scomposizione in fattori 2 1.2 Raccoglimento a fattor comune 3 1.3 Raccoglimenti successivi

Dettagli

Matrice rappresent. Base ker e img. Rappresentazione cartesiana ker(f) + im(f).

Matrice rappresent. Base ker e img. Rappresentazione cartesiana ker(f) + im(f). Due Matrici A,B. Ker f = ker g. 1- Ridurre a scala A e B e faccio il sistema. 2 Se Vengono gli stessi valori allora, i ker sono uguali. Cauchy 1 autovalore, 1- Metto a matrice x1(0),x2(0),x3(0) e la chiamo

Dettagli

Introduzione ad Access

Introduzione ad Access Introduzione ad Access Luca Bortolussi Dipartimento di Matematica e Informatica Università degli studi di Trieste Access E un programma di gestione di database (DBMS) Access offre: un supporto transazionale

Dettagli

ORDINALI E NOMINALI LA PROBABILITÀ. Nell ambito della manifestazione di un fenomeno niente è certo, tutto è probabile.

ORDINALI E NOMINALI LA PROBABILITÀ. Nell ambito della manifestazione di un fenomeno niente è certo, tutto è probabile. ORDINALI E NOMINALI LA PROBABILITÀ Statistica5 23/10/13 Nell ambito della manifestazione di un fenomeno niente è certo, tutto è probabile. Se si afferma che un vitello di razza chianina pesa 780 kg a 18

Dettagli

Rango: Rouchè-Capelli, dimensione e basi di spazi vettoriali.

Rango: Rouchè-Capelli, dimensione e basi di spazi vettoriali. CAPITOLO 7 Rango: Rouchè-Capelli, dimensione e basi di spazi vettoriali. Esercizio 7.1. Determinare il rango delle seguenti matrici al variare del parametro t R. 1 4 2 1 4 2 A 1 = 0 t+1 1 A 2 = 0 t+1 1

Dettagli

La Business Intelligence

La Business Intelligence Parte 1 La Business Intelligence Capitolo 1 Cos è la Business Intelligence 1.1 Il sistema informativo aziendale Sempre la pratica dev essere edificata sopra la buona teorica. Leonardo da Vinci Le attività,

Dettagli

Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI. Indice

Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI. Indice Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI Prefazione Autori XIII XVII Capitolo 1 Sistemi informativi aziendali 1 1.1 Introduzione 1 1.2 Modello organizzativo 3 1.2.1 Sistemi informativi

Dettagli

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA ESERCIZI SVOLTI PER LA PROVA DI STATISTICA Stefania Naddeo (anno accademico 4/5) INDICE PARTE PRIMA: STATISTICA DESCRITTIVA. DISTRIBUZIONI DI FREQUENZA E FUNZIONE DI RIPARTIZIONE. VALORI CARATTERISTICI

Dettagli

STATISTICA (A-K) a.a. 2007-08 Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 2007

STATISTICA (A-K) a.a. 2007-08 Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 2007 A STATISTICA (A-K) a.a. 007-08 Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 007 STESS N.O. RD 00 GORU N.O. RD 006 ) La distribuzione del numero degli occupati (valori x 000) in una provincia

Dettagli

Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001

Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001 Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001 Oggi più che mai, le aziende italiane sentono la necessità di raccogliere,

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Consideriamo il nostro dataset formato da 468 individui e 1 variabili nominali costituite dalle seguenti modalità : colonna D: Age of client

Dettagli

Progetto Didattico di Informatica Multimediale

Progetto Didattico di Informatica Multimediale Progetto Didattico di Informatica Multimediale VRAI - Vision, Robotics and Artificial Intelligence 20 aprile 2015 Rev. 18+ Introduzione Le videocamere di riconoscimento sono strumenti sempre più utilizzati

Dettagli

Alberi binari. Ilaria Castelli castelli@dii.unisi.it A.A. 2009/2010. Università degli Studi di Siena Dipartimento di Ingegneria dell Informazione

Alberi binari. Ilaria Castelli castelli@dii.unisi.it A.A. 2009/2010. Università degli Studi di Siena Dipartimento di Ingegneria dell Informazione Alberi binari Ilaria Castelli castelli@dii.unisi.it Università degli Studi di Siena Dipartimento di Ingegneria dell Informazione A.A. 2009/2010 I. Castelli Alberi binari, A.A. 2009/2010 1/20 Alberi binari

Dettagli

DISTRIBUZIONI DI VARIABILI CASUALI DISCRETE

DISTRIBUZIONI DI VARIABILI CASUALI DISCRETE DISTRIBUZIONI DI VARIABILI CASUALI DISCRETE variabile casuale (rv): regola che associa un numero ad ogni evento di uno spazio E. variabile casuale di Bernoulli: rv che può assumere solo due valori (e.g.,

Dettagli

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE 1 DIPENDENZA E INDIPENDENZA LINEARE Se ho alcuni vettori v 1, v 2,, v n in uno spazio vettoriale V, il sottospazio 1 W = v 1,, v n di V da loro generato è

Dettagli

2 Formulazione dello shortest path come problema di flusso

2 Formulazione dello shortest path come problema di flusso Strumenti della Teoria dei Giochi per l Informatica A.A. 2009/10 Lecture 20: 28 Maggio 2010 Cycle Monotonicity Docente: Vincenzo Auletta Note redatte da: Annibale Panichella Abstract In questa lezione

Dettagli

Logica fuzzy e calcolo delle probabilità: due facce della stessa medaglia?

Logica fuzzy e calcolo delle probabilità: due facce della stessa medaglia? Logica fuzzy e calcolo delle probabilità: due facce della stessa medaglia? Danilo Pelusi 1 Gianpiero Centorame 2 Sunto: Il seguente articolo illustra le possibili analogie e differenze tra il calcolo delle

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello della Web Application 5 3 Struttura della web Application 6 4 Casi di utilizzo della Web

Dettagli

LEZIONE 14. a 1,1 v 1 + a 1,2 v 2 + a 1,3 v 3 + + a 1,n 1 v n 1 + a 1,n v n = w 1

LEZIONE 14. a 1,1 v 1 + a 1,2 v 2 + a 1,3 v 3 + + a 1,n 1 v n 1 + a 1,n v n = w 1 LEZIONE 14 141 Dimensione di uno spazio vettoriale Abbiamo visto come l esistenza di una base in uno spazio vettoriale V su k = R, C, permetta di sostituire a V, che può essere complicato da trattare,

Dettagli

Cos è la Businèss Intèlligèncè

Cos è la Businèss Intèlligèncè Cos è la Businèss Intèlligèncè di Alessandro Rezzani Il sistema informativo aziendale... 2 Definizione di Business Intelligence... 6 Il valore della Business Intelligence... 7 La percezione della Business

Dettagli

INDAGINE DI CUSTOMER SATISFACTION SUL SERVIZIO DELL ASSISTENZA OSPEDALIERA DELLA ASP. Relazione Generale

INDAGINE DI CUSTOMER SATISFACTION SUL SERVIZIO DELL ASSISTENZA OSPEDALIERA DELLA ASP. Relazione Generale SERVIZIO SANITARIO REGIONALE BASILICATA Azienda Sanitaria Locale di Potenza INDAGINE DI CUSTOMER SATISFACTION SUL SERVIZIO DELL ASSISTENZA OSPEDALIERA DELLA ASP Relazione Generale A cura degli Uffici URP

Dettagli

Progettazione di un DB....in breve

Progettazione di un DB....in breve Progettazione di un DB...in breve Cosa significa progettare un DB Definirne struttura,caratteristiche e contenuto. Per farlo è opportuno seguire delle metodologie che permettono di ottenere prodotti di

Dettagli

CAPITOLO 3. Elementi fondamentali della struttura organizzativa

CAPITOLO 3. Elementi fondamentali della struttura organizzativa CAPITOLO 3 Elementi fondamentali della struttura organizzativa Agenda La struttura organizzativa Le esigenze informative Tipologia di strutture Struttura funzionale Struttura divisionale Struttura per

Dettagli

PLM Software. Answers for industry. Siemens PLM Software

PLM Software. Answers for industry. Siemens PLM Software Siemens PLM Software Monitoraggio e reporting delle prestazioni di prodotti e programmi Sfruttare le funzionalità di reporting e analisi delle soluzioni PLM per gestire in modo più efficace i complessi

Dettagli

Minimo sottografo ricoprente. Minimo sottografo ricoprente. Minimo albero ricoprente. Minimo albero ricoprente

Minimo sottografo ricoprente. Minimo sottografo ricoprente. Minimo albero ricoprente. Minimo albero ricoprente Minimo sottografo ricoprente Minimo sottografo ricoprente Dato un grafo connesso G = (V, E) con costi positivi sugli archi c e, un minimo sottografo ricoprente è un insieme di archi E E tale che: G = (V,

Dettagli

ALGEBRA I: NUMERI INTERI, DIVISIBILITÀ E IL TEOREMA FONDAMENTALE DELL ARITMETICA

ALGEBRA I: NUMERI INTERI, DIVISIBILITÀ E IL TEOREMA FONDAMENTALE DELL ARITMETICA ALGEBRA I: NUMERI INTERI, DIVISIBILITÀ E IL TEOREMA FONDAMENTALE DELL ARITMETICA 1. RICHIAMI SULLE PROPRIETÀ DEI NUMERI NATURALI Ho mostrato in un altra dispensa come ricavare a partire dagli assiomi di

Dettagli

Business Intelligence: dell impresa

Business Intelligence: dell impresa Architetture Business Intelligence: dell impresa Silvana Bortolin Come organizzare la complessità e porla al servizio dell impresa attraverso i sistemi di Business Intelligence, per creare processi organizzativi

Dettagli

VARIABILI ALEATORIE CONTINUE

VARIABILI ALEATORIE CONTINUE VARIABILI ALEATORIE CONTINUE Se X è una variabile aleatoria continua, la probabilità che X assuma un certo valore x fissato è in generale zero, quindi non ha senso definire una distribuzione di probabilità

Dettagli

Milano, Settembre 2009 BIOSS Consulting

Milano, Settembre 2009 BIOSS Consulting Milano, Settembre 2009 BIOSS Consulting Presentazione della società Agenda Chi siamo 3 Cosa facciamo 4-13 San Donato Milanese, 26 maggio 2008 Come lo facciamo 14-20 Case Studies 21-28 Prodotti utilizzati

Dettagli

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Se a e b sono numeri interi, si dice che a divide b, in simboli: a b, se e solo se esiste c Z tale che b = ac. Si può subito notare che:

Dettagli

MINIMI QUADRATI. REGRESSIONE LINEARE

MINIMI QUADRATI. REGRESSIONE LINEARE MINIMI QUADRATI. REGRESSIONE LINEARE Se il coefficiente di correlazione r è prossimo a 1 o a -1 e se il diagramma di dispersione suggerisce una relazione di tipo lineare, ha senso determinare l equazione

Dettagli

Dal modello concettuale al modello logico

Dal modello concettuale al modello logico Dal modello concettuale al modello logico Traduzione dal modello Entita - Associazione al modello Relazionale Ciclo di sviluppo di una base di dati (da parte dell utente) Analisi dello scenario Modello

Dettagli

Anello commutativo. Un anello è commutativo se il prodotto è commutativo.

Anello commutativo. Un anello è commutativo se il prodotto è commutativo. Anello. Un anello (A, +, ) è un insieme A con due operazioni + e, dette somma e prodotto, tali che (A, +) è un gruppo abeliano, (A, ) è un monoide, e valgono le proprietà di distributività (a destra e

Dettagli

Sistemi di supporto alle decisioni

Sistemi di supporto alle decisioni Sistemi di supporto alle decisioni Introduzione I sistemi di supporto alle decisioni, DSS (decision support system), sono strumenti informatici che utilizzano dati e modelli matematici a supporto del decision

Dettagli

DALLA RICERCA & SVILUPPO SIAV. Ecco i prodotti e le applicazioni. per innovare le imprese italiane

DALLA RICERCA & SVILUPPO SIAV. Ecco i prodotti e le applicazioni. per innovare le imprese italiane Comunicato stampa aprile 2015 DALLA RICERCA & SVILUPPO SIAV Ecco i prodotti e le applicazioni per innovare le imprese italiane Rubàno (PD). Core business di, nota sul mercato ECM per la piattaforma Archiflow,

Dettagli

Teoria dei giochi Gioco Interdipendenza strategica

Teoria dei giochi Gioco Interdipendenza strategica Teoria dei giochi Gioco Interdipendenza strategica soggetti decisionali autonomi con obiettivi (almeno parzialmente) contrapposti guadagno di ognuno dipende dalle scelte sue e degli altri Giocatori razionali

Dettagli

RETTE, PIANI, SFERE, CIRCONFERENZE

RETTE, PIANI, SFERE, CIRCONFERENZE RETTE, PIANI, SFERE, CIRCONFERENZE 1. Esercizi Esercizio 1. Dati i punti A(1, 0, 1) e B(, 1, 1) trovare (1) la loro distanza; () il punto medio del segmento AB; (3) la retta AB sia in forma parametrica,

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

(anno accademico 2008-09)

(anno accademico 2008-09) Calcolo relazionale Prof Alberto Belussi Prof. Alberto Belussi (anno accademico 2008-09) Calcolo relazionale E un linguaggio di interrogazione o e dichiarativo: at specifica le proprietà del risultato

Dettagli

Pronti per la Voluntary Disclosure?

Pronti per la Voluntary Disclosure? Best Vision GROUP The Swiss hub in the financial business network Pronti per la Voluntary Disclosure? Hotel de la Paix, 21 aprile 2015, ore 18:00 Hotel Lugano Dante, 22 aprile 2015, ore 17:00 Best Vision

Dettagli

Gli algoritmi. Gli algoritmi. Analisi e programmazione

Gli algoritmi. Gli algoritmi. Analisi e programmazione Gli algoritmi Analisi e programmazione Gli algoritmi Proprietà ed esempi Costanti e variabili, assegnazione, istruzioni, proposizioni e predicati Vettori e matrici I diagrammi a blocchi Analisi strutturata

Dettagli

t.fabrica wanna be smarter? smart, simple, cost effectiveness solutions for manufactoring operational excellence.

t.fabrica wanna be smarter? smart, simple, cost effectiveness solutions for manufactoring operational excellence. t.fabrica wanna be smarter? smart, simple, cost effectiveness solutions for manufactoring operational excellence. Per le aziende manifatturiere, oggi e sempre più nel futuro individuare ed eliminare gli

Dettagli

AOT Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Unified Process. Prof. Agostino Poggi

AOT Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Unified Process. Prof. Agostino Poggi AOT Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma Unified Process Prof. Agostino Poggi Unified Process Unified Software Development Process (USDP), comunemente chiamato

Dettagli

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Come evidenziare l informazione contenuta nei dati S. Marsili-Libelli: Calibrazione di Modelli Dinamici pag. Perche PCA? E un semplice metodo non-parametrico per estrarre

Dettagli

APPLICAZIONI LINEARI

APPLICAZIONI LINEARI APPLICAZIONI LINEARI 1. Esercizi Esercizio 1. Date le seguenti applicazioni lineari (1) f : R 2 R 3 definita da f(x, y) = (x 2y, x + y, x + y); (2) g : R 3 R 2 definita da g(x, y, z) = (x + y, x y); (3)

Dettagli

PROPOSTE SISTEMA DI CITIZEN RELATIONSHIP MANAGEMENT (CRM) REGIONALE

PROPOSTE SISTEMA DI CITIZEN RELATIONSHIP MANAGEMENT (CRM) REGIONALE PROPOSTE SISTEMA DI CITIZEN RELATIONSHIP MANAGEMENT (CRM) REGIONALE Versione 1.0 Via della Fisica 18/C Tel. 0971 476311 Fax 0971 476333 85100 POTENZA Via Castiglione,4 Tel. 051 7459619 Fax 051 7459619

Dettagli

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone SQL: il DDL Parti del linguaggio SQL Definizione di basi di dati (Data Definition Language DDL) Linguaggio per modificare

Dettagli

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica A.A. 2007-08 CORSO DI INGEGNERIA DEL SOFTWARE Prof. Giulio Destri http://www.areasp.com (C) 2007 AreaSP for

Dettagli

Guida rapida di IBM SPSS Statistics 20

Guida rapida di IBM SPSS Statistics 20 Guida rapida di IBM SPSS Statistics 20 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note legali a pag. 162. Questa versione si applica

Dettagli

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0. Problema. Sia W il sottospazio dello spazio vettoriale R 4 dato da tutte le soluzioni dell equazione x + x 2 + x = 0. (a. Sia U R 4 il sottospazio dato da tutte le soluzioni dell equazione Si determini

Dettagli

DESMATRON TEORIA DEI GRAFI

DESMATRON TEORIA DEI GRAFI DESMATRON TEORIA DEI GRAFI 0 Teoria dei Grafi Author: Desmatron Release 1.0.0 Date of Release: October 28, 2004 Author website: http://desmatron.altervista.org Book website: http://desmatron.altervista.org/teoria_dei_grafi/index.php

Dettagli

Un client su arduino invia i dati acquisiti ad un database

Un client su arduino invia i dati acquisiti ad un database Un client su arduino invia i dati acquisiti ad un database PROBLEMA Si vogliono inviare, periodicamente, i dati acquisiti da alcuni sensori ad un database presente su di un server. Arduino con shield Ethernet

Dettagli