Classification Salvatore Orlando

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Classification Salvatore Orlando"

Transcript

1 Classification Salvatore Orlando 1

2 Classificazione Dati una collezione di dati (training set ) Ciascun record contiene un insieme di attributi, uno dei quali è la classe di appartenenza. Trova un modello per l attributo classe che diventa funzione degli altri attributi Obiettivo: trovare una funzione che assegni in modo accurato l attributo classe a nuovi records non classificati. Un test set è usato per determinare l accuratezza del modello. Di solito il dataset iniziale è suddiviso in training e test sets: costruiamo il modello con il training set, e usiamo il test set per validarlo. 2

3 Esempio di classificazione Test Set Training Set Learn Classifier Model Cheat = truffatore,imbroglione 3

4 Classificazione vs. Clustering Supervised learning (classification) Supervisione: I dati del training set (osservazioni, misure, etc.) sono stati preventivamente associati a etichette che indicano la classe di appartenenza conoscenza supervisionata I nuovi record di dati sono segmentati assegnando etichette di classe ai vari record, usando il modello costruito sulla base del training set Unsupervised learning (clustering) L etichetta della classe è sconosciuta Dati un insieme di misure, osservazioni, ecc. lo scopo del clustering è quello di segmentare i dati, ovvero di stabilire l esistenza di gruppi/ classi omogenei nei dati Imparare l esistenza di un qualche modello presente nei dati, che dà luogo ad una suddivisione dei dati, senza conoscenza precedente 4

5 Tecniche di classificazione Metodi basati sugli Alberi di Decisione (Decision Tree) Metodi Rule-based Memory-based reasoning Neural Networks Genetic Algorithms Naïve Bayes Support Vector Machines 5

6 Classificazione basata su Decision Tree I modelli di classificazione basati su Decision Tree sono considerati tra i migliori Non costosi da costruire Facili da interpretare Facili da integrare con le basi di dati Buona accuratezza in molte applicazioni, anche in confronto ad altri metodi di classificazione 6

7 Decision tree Decision Tree Un struttura ad albero che somiglia ad un flow-chart Ogni nodo interno denota un test su un attributo Gli archi uscenti rappresentano i risultati del test Ogni nodo foglia rappresenta un etichetta di classe o la distribuzione delle varie classi Uso di un Decision Tree Per classificare un nuovo dato campione sulla base degli attributi ovvero per assegnare un etichetta di classe al nuovo dato Effettua i test sui valori degli attributi del campione rispetto ai test presenti nel decision tree A partire dalla radice, e sulla base degli attributi del campione da classificare, segue un cammino fino ad una foglia L etichetta della foglia definisce la classe di appartenenza del campione 7

8 Esempio di albero di classificazione Splitting Attributes Yes NO Refund No MarSt Single, Divorced TaxInc < 80K > 80K NO Married NO YES 8

9 Un altro albero di classificazione Married MarSt? Single, Divorced NO Yes Refund? No NO TaxInc? < 80K > 80K NO YES Si possono derivare più alberi dagli stessi dati! 9

10 Un altro esempio age? <=30 > student? YES credit rating? no yes excellent fair NO YES NO YES 10

11 Algoritmo per Decision Tree Induction Algoritmo di base (metodo greedy) L albero è costruito in modo: top-down - ricorsivo - divide-and-conquer All inizio tutti gli esempi di training sono in corrispondenza della radice Gli esempi di training sono partizionati ricorsivamente sulla base degli attributi selezionati Gli attributi di test sono selezionati in base ad un euristica o a misure statistiche (es., gini index, information gain) Scopo: suddividere gli esempi creando partizioni omogenee Esistono metodi che funzionano su attributi di test categorici e/o su attributi numerici Condizioni per stoppare il partizionamento Tutti gli esempi di una partizione in una stessa classe Non abbiamo più attributi sulla cui base partizionare ulteriormente usiamo una tecnica di majority voting per classificare la foglia 11

12 Come effettuare lo splitting: attributi nominali Ciascuna partizione è caratterizzato da un sottoinsieme di valori. Multi-way split: Usa tanti ramificazioni dello split quanti sono i valori distinti. Family CarType Sports Luxury Binary split: Divisi i valori in due sottoinsiemi. Bisogna individuare un partizionamento ottimale. {Sports, Luxury} CarType {Family} oppure {Family, Luxury} CarType {Sports} 12

13 Come effettuare lo splitting: attributi ordinali Ciascuna partizione è caratterizzato da un sottoinsieme di valori. Multi-way split: Usa tanti ramificazioni dello split quanti sono i valori distinti. Small Size Medium Large Binary split: Divisi i valori in due sottoinsiemi. Bisogna individuare un partizionamento ottimale. {Small, Medium} Size {Large} oppure {Medium, Large} Size {Small} Questo partizionamento potrebbe essere possibile? {Small, Large} Size {Medium} 13

14 Come effettuare lo splitting: attributi numerici Metodi differenti Binary Decision: (A < v) or (A v) considera tutti i possibili split e individua il miglior taglio Può risultare molto costo computazionalmente, anche se esistono dei metodi basati sull ordinamento Discretizzazione per formare un attributo categorico (ordinale) La scala di variazione dell attributo viene suddiviso in N intervalli, ciascuno associato ad un attributo ordinale Trasforma il data set, assegnando ad ogni valore dell attributo continuo l intervallo in cui esso valore cade Statico discretizzato a priori prima della trasformazione Dinamico le suddivisioni possono essere trovati tramite equal interval partitioning, equal frequency partitioning, o distance-based clustering. 14

15 Discretizzazione Equal-width (distance) partitioning: Dividi la scala di variazione dell attributo in N intervalli identici Se A e B sono il più piccolo e il più grande valore di un attributo, la larghezza degli intervalli sarà: W = (B-A)/N. E il metodo più semplice, ma gli outlier (o dati non ben distribuiti) possono dare problemi al metodo di discretizzazione Equal-depth (frequency) partitioning: Dividi la scala di variazione dell attributo in N intervalli, ciascuno contenente approssimativamente lo stesso numero di campioni Buon metodo Cluster analysis partitioning: Può risultare costoso 15

16 Discretizzazione Dati con 2 attributi X, Y continui Discretizzazione di X Data Equal interval width Equal frequency K-means (clustering) 16

17 Criterio di splitting Come scegliere l attributo e il relativo splitting? uso di particolari indici di dispersione dei valori dell attributo categorico di classe Gini index (algoritmo di IBM IntelligentMiner, CART, SLIQ, SPRINT) Information gain (algoritmi ID3/C4.5) 17

18 Gini index In corrispondenza di un certo nodo t dell albero in costruzione, e rispetto alla corrispondente partizione del dataset di training, possiamo definire il Gini Index: j GINI(t) =1 [ p( j t)] 2 (NOTA: p( j t) è la frequenza relativa della classe j al nodo t). Misura l impurità/disordine del dataset corrispondente a t. Massimo valore (1-1/n c ) quando i record sono equamente distribuiti tra tutte le classi informazione meno interessante Minimo valore (0.0) quando tutti i record appartengono ad una sola classe informazione più interessante 18

19 Gini Una sola classe: = 0 n c classi equiprobabili: 1 - \sum ((n / n c ) / n) 2 = 1 - \sum (1 / n c ) 2 = 1 n c (1 / n c ) 2 = 1 1 / n c 19

20 Esempi relativi a Gini Index j GINI(t) =1 [ p( j t)] 2 P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Gini = 1 P(C1) 2 P(C2) 2 = = 0 P(C1) = 1/6 P(C2) = 5/6 Gini = 1 (1/6) 2 (5/6) 2 = P(C1) = 2/6 P(C2) = 4/6 Gini = 1 (2/6) 2 (4/6) 2 =

21 Uso del GINI Index Criterio di Splitting: Minimizza il Gini Index della suddivisione. Quando un nodo t è suddiviso in k partizioni (figli), la qualità della suddivisione è calcolata come: GINI split = k i=1 n i n GINI(i) dove, n i = numero di record della partizione (figlio) i, n = numero di record del dataset al nodo t. n i /n costituisce il peso dei vari GINI(i) Dato il dataset associato al nodo t, si sceglie l attributo che fornisce il più piccolo GINI split (t) per partizionare il dataset È necessario enumerare tutti i possibili punti di splitting per ciascun attributo 21

22 Calcolare il GINI Index per attributi binari Suddivisione in due partizioni Si cercano partizioni più grandi e più pure possibili. B? Yes No Node N1 Node N2 22

23 Calcolare il GINI Index per attributi categorici Per ciascuna classe nel dataset, conta il numero dei valori differenti per ogni attributo computa le singole righe delle matrici di conteggio Usa la matrice dei conteggi per prendere le decisioni Multi-way split Two-way split (bisogna trovare il migliore partizionamento dei valori) 23

24 Calcolare il GINI Index per attributi continui Solitamente si usa Binary Decision, basato su un singolo valore di splitting Non abbiamo bisogno di discretizzare Sono possibili scelte diverse per il valore di splitting Es.: Numero di possibili valori di splitting = Numero di valori distinti assunti dall attributo Per ciascun valore di splitting abbiamo una matrice di conteggi associata Conteggio delle varie classi per ciascuna partizione, (A < v) e (A v) Metodo naive per scegliere il miglior v Per ciascun v, scandisci il database per raccogliere la matrice dei conteggi e computare il corrispondente Gini Index (GINI split ) Questo metodo è computazionalmente inefficiente! Lavoro ridondante. 24

25 Calcolare il GINI Index per attributi continui (2) Metodo per migliorare l efficienza Per ciascun attributo Ordina rispetto ai valori degli attributi Scandisci linearmente questi valori, aggiornando ogni volta la matrice dei conteggi necessario per calcolare il GINI index considera che, quando spostiamo il pivot, abbiamo un singolo elemento (appartenente ad una certa classe) che passa da una partizione all altra +/- 1 in una particolare riga Scegli le posizioni di split che hanno il GINI index minore Sorted Values Split Positions 25

26 Criterio di splitting alternativo: Information Gain In corrispondenza di un certo nodo t dell albero in costruzione, e rispetto alla corrispondente partizione del dataset di training, possiamo definire l Information Gain: j Entropy(t) = p( j t)log p( j t) (NOTA: p( j t) è la frequenza relativa della classe j al nodo t). Misura l omogeneità/ordine di un nodo. Massimo (log n c ) quando i record sono equamente distribuiti tra tutte le classi implica meno informazione Minimo valore (0.0) quando tutti i record appartengono ad una sola classe implica più informazione I calcoli basati sulla misura dell Entropia sono simili a quelle basate sul GINI index 26

27 Entropy Una sola classe: - (1 * log 1) = 0 n c classi equiprobabili: - (\sum ( (n / n c ) / n) * log ((n / n c ) / n) ) = = - ( \sum ( (1 / n c ) * log (1 / n c ) ) = = - n c * (1 / n c ) * log (1 / n c ) = = - log (1 / n c ) = - (log 1 - log n c ) = log n c 27

28 Esempi relativi all Information Gain (Entropia) j Entropy(t) = p( j t)log 2 p( j t) P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Entropy = 0 log 0 1 log 1 = 0 0 = 0 P(C1) = 1/6 P(C2) = 5/6 Entropy = (1/6) log 2 (1/6) (5/6) log 2 (1/6) = 0.65 P(C1) = 2/6 P(C2) = 4/6 Entropy = (2/6) log 2 (2/6) (4/6) log 2 (4/6) =

29 Uso dell Entropia come criterio di splitting Quando un nodo t è suddiviso in k partizioni (figli), la qualità della suddivisione è calcolata come IG (Information Gain): GAIN split = Entropy(t) k i=1 n Entropy(i) dove, n i = numero di record della partizione (figlio) i, n = numero di record del dataset al nodo t. n i /n costituisce il peso dei vari Entropy(i) Misura la riduzione nell Entropia in conseguenza dello split. Scegli lo split che raggiunge la riduzione maggiore (massimizza il GAIN) n i Usato in ID3 e C4.5 29

30 Problemi legati all Information Gain Svantaggio: l IG tende a preferire suddivisioni che producono molte partizioni, piccole ma pure (ovvero che comprendono elementi appartenenti ad una singola classe). Si rischia di costruire un albero overfitted rispetto al training set Gain Ratio: GainRATIO split = GAIN Split SplitINFO SplitINFO = k i=1 n i n log n i n Il nodo padre, è suddiviso in k partizioni n i è il numero di record della partizione i Corregge l Information Gain dello split usando l entropia del partizionamento (SplitINFO). Valori alti di SplitINFO all aumento del numero di piccole partizioni bilanciate! l aumento di SplitINFO penalizza Gain Ratio Usato in C4.5 30

31 Algoritmo C4.5 - like 31

32 Decision Tree: Web Mining Application Prima di applicare tecniche di Web Mining, es.: per sintetizzare un Web recommender, dobbiamo pulire l user log dobbiamo distinguere tra accessi fatto da umani e da robot/crawler, per poter poi rimuovere i secondi in modo automatico Nel log di sopra ogni linea è un accesso, e i vari accessi sono segmentati rispetto all utente (IP address) nota Requested e Referrer/From page 32

33 Decision Tree: Web Mining Application Ogni sessione è un grafo diretto nodi: pagine archi hyperlink 33

34 Decision Tree: Web Mining Application depth breadth Grafo della sessione 1 34

35 Decision Tree: Web Mining Application Estrazione di feature caratterizzanti le varie sessioni 35

36 Decision Tree: Web Mining Application Costruzione di un dataset (Web log) supervisionato 2916 record 50% classe 1 (Web Robot) 50% classe 0 (Human users) 10% training dataset 90% test dataset Costruzione di un decision tree per poter classificare le sessioni, e rimuovere le sessioni generate dai robot 36

37 Decision Tree: Web Mining Application I robot fanno ricerche con breadth grandi e depth piccolo Gli utenti umani fanno ricerche con breadth piccolo e depth più grandi navigazioni focalizzate e profonde I robot non scaricano le immagini Le sessioni dei robot sono molto lunghe rispetto a quelle degli umani I robot ripetono le richieste quando seguono i link per tornare indietro, mentre gli umani non lo fanno grazie alla cache dei browser 37

38 Decision Boundary Le linee di confine tra due regioni vicine create dal classificatore sono anche chiamate decision boundary Nei decision tree le decision boundary sono parallele agli assi Ogni test condition coinvolge un singolo attributo alla volta 38

39 Oblique Decision Trees x + y < 1 Class = + Class = Difficile derivare un decision tree accurato dal training set sopra illustrato Possibile soluzione Condizioni di test che coinvolgono attributi multipli Aumenta la complessità per individuare il test ottimo 39

40 Overfitting L albero può overfit-are i dati di training Troppi rami, alcuni dei quali possono riflettere anomalie dovuti a rumori o outlier Poca accuratezza (troppi errori) per campioni non visti (test dataset) L overfitting è un problema comune a tutti i classificatori, non è solo un problema dell albero di decisione Overfitting Generalized Errors Training/Apparent Errors 40

41 Overfitting: Pre-Pruning Pre-Pruning (Early Stopping Rule) Stop dell algoritmo prima che esso produca un albero fullygrown Le tipiche condizioni di stopping: Stop se tutte le istanze appartengono alla stessa classe Stop se tutti i valori degli attributi hanno lo stesso valore Condizioni più restrittive per il pruning: Stop se il numero di istanze è minore di uno user-specified threshold Evita la creazione di piccole partizioni Difficile trovare il threshold Stop se espandendo il nodo corrente non miglioriamo la misura di impurità (es., Gini o Information Gain). 41

42 Overfitting: Post-Pruning Post-Pruning Rimuovi nodi/rami da un albero completo ( fully grown tree) Elimina i nodi in modo bottom-up Un sottoalbero può essere sostituito con un nodo foglia (subtree replacement) il cammino più frequentemente scelto (subtree raising) Usa un insieme di dati differenti dal training data (testing data) per decidere qual è il best pruned tree Se l errore sui dati di testing migliora dopo la sostituzione del sotto-albero con un nodo foglia Sostituisci in maniera permanente, generando un albero pruned L etichetta di classe da assegnare al nuovo nodo foglia è determinato dalla classe maggioritaria nel sotto albero 42

43 Overfitting: Post-Pruning 43

44 Presentation: decisiontree 44

45 Presentation: decisiontree 45

46 Estrarre regole di classificazione da alberi Rappresenta la conoscenza nella forma di regole IF- THEN Una regola per ogni cammino dalla radice ad una foglia Ciascuna coppia attributo-valore lungo un cammino forma una congiunzione Il nodo foglia restituisce la predizione della classe per la regola estratta Le regole sono più facili da capire Esempi IF age = <=30 AND student = no THEN buys_computer = no IF age = <=30 AND student = yes THEN buys_computer = yes IF age = THEN buys_computer = yes IF age = >40 AND credit_rating = excellent THEN buys_computer = yes IF age = >40 AND credit_rating = fair THEN buys_computer = no 46

47 Le regole possono essere semplificate In generale le regole sono mutuamente esclusive ed esaustive Ma possiamo fare del pruning: semplificare o eliminare Regola iniziale: (Refund=No) (Status=Married) No Regola semplificata (Status=Married) No Problemi: le regole non sono più mutuamente esclusive ed esaustive aggiungi una regola di default dai un punteggio ad ogni regola 47

48 Bayesian Classification: Perchè? Incremental: Ogni nuova osservazione può essere usata per migliorare la conoscenza pregressa ed aggiornare il modello. Probabilistic: Può elaborare e produrre diverse ipotesi con delle probabilità associate. Standard: Generalmente sono un punto di riferimento per valutare nuovi algoritmi 48

49 Classificatori Bayesiano Metodo probabilistico (Bayesian) per risolvere il problema della classificazione Probabilità condizionali: C A Teorema di Bayes : 49

50 Esempio di applicazione del teorema di Bayes Conoscenza pregressa: Un dottore sa che la meningite causa rigidità del collo per il 50% dei casi P(rigidità del collo meningite) = 1/2 La probabilità incondizionata che un paziente possa avere la meningite è P(meningite) = 1/50000 = 0,00002 La probabilità incondizionata che un paziente possa avere rigidità del collo è P(rigidità del collo) = 1/20 = 0,05 Se un paziente ha rigidità del collo, qual è la probabilità che egli abbia la meningite? 50

51 Classificatori Bayesiano Considera i vari attributi e l etichetta della classe come variabili casuali Dato un record R contenente gli attributi (A 1, A 2,,A n ) Lo scopo è predire la classe C di R Più specificatamente, vogliamo trovare il valore di C che massimizza: P(C A 1, A 2,,A n ) Possiamo stimare P(C A 1, A 2,,A n ) direttamente dai dati? 51

52 Classificatori Bayesiano P(C A 1 A 2 A n ) = P(A 1A 2 A n C)P(C) P(A 1 A 2 A n ) 52

53 Classificatore Naïve Bayes P(Cj A 1 A 2 A n ) = P(A 1 A 2 A n Cj)P(Cj) P(A 1 A 2 A n ) 53

54 Come stimiamo la probabilità dai dati? Probabilità delle Classi: P(C) = N c /N dove N c è il numero di istanze che appartengono alla classe C Es., P(No) = 7/10, P(Yes) = 3/10 Per attributi discreti: P(A i C k ) = A ik / N ck dove A ik è il numero di istanze che hanno l attributo A i e appartengono alla classe C k dove N ck è il numero di istanze che appartengono alla classe C k Esempi: P(Married No) = 4/7 P(Refund=Yes Yes)=0 54

55 Come stimiamo la probabilità dai dati? Per attributi continui: Abbiamo bisogno di conoscere la probabilità condizionale P(A i C) nota che il particolare valore dell attributo continuo A i potrebbe non essere presente nel dataset di training Assumiamo che gli attributi obbediscono a certe distribuzioni di probabilità Tipicamente, si assume la distribuzione normale Si usano i dati per stimare i parametri della distribuzione di probabilità (ovvero, media e varianza) Una volta che la distribuzione di probabilità è nota, possiamo usarla per stimare la probabilità condizionale P(A i C) 55

56 Come stimiamo le probabilità dai dati? Distribuzione normale: Una per ciascuna coppia (A i,c j ) Per (Income, Class=No): Se Class=No µ ij (media nel campione) = 110 σ 2 ij (varianza nel campione) =

57 Esempio di classificatore Naïve Bayes Dato il seguente test: P(Refund=Yes No) = 3/7 P(Refund=No No) = 4/7 P(Refund=Yes Yes) = 0 P(Refund=No Yes) = 1 P(Marital Status=Single No) = 2/7 P(Marital Status=Divorced No) = 1/7 P(Marital Status=Married No) = 4/7 P(Marital Status=Single Yes) = 2/3 P(Marital Status=Divorced Yes) = 1/3 P(Marital Status=Married Yes) = 0 Per Income: Se No: media = 110 varianza = 2975 Se Yes: media = 90 varianza = 25 P(X Class=No) = P(Refund=No Class=No) P(Married Class=No) P(Income=120K Class=No) = 4/7 4/ = P(X Class=No) P(No) = = P(X Class=Yes) = P(Refund=No Class=Yes) P(Married Class=Yes) P(Income=120K Class=Yes) = = 0 P(X Class=Yes) P(Yes) = = 0.0 Poiché P(X No)P(No) > P(X Yes)P(Yes) abbiamo che: P(No X) > P(Yes X) => Class = No 57

58 Esempio di classificatore Naïve Bayes Test sugli attributi: A: attributes M: mammals Non-M: non-mammals P(A M)P(M) > P(A N)P(N) => Mammals 58

59 Classificatore Naïve Bayes: sommario Robusto rispetto al rumore Gestisce i valori mancanti ignorando le istanze durante il calcolo della stima di probabilità Purtroppo l assunzione di indipendenza può non essere valida per qualche attributo Per superare queste limitazioni: Bayesian networks, che combinano ragionamenti Bayesiani con relazioni di causalità tra gli attributi Alberi di decisione, che ragionano su un attributo alla volta, considerando gli attributi più importanti per primi 59

60 Classificatori Instance-Based Memorizza le istanze di training => Ritarda nella costruzione del modello (lazy learner) Usa le istanze di training per predire l etichetta di classe di nuovi casi non visti Approcci Tipici k-nearest neighbor Locally weighted regression Case-based reasoning 60

61 K-nearest neighbor Istanze come vettori a n dimensioni, ad esempio punti nel piano euclideo attributi continui Richiede tre cose: L insieme di istanze memorizzate Metrica di Distanza Il valore di k, il numero di vicini nearest da estrarre dall insieme delle istanze Per la classificazione: Estrai i k nearest neighbors Usa le etichette di classe dei nearest neighbors per determinare l etichetta di classe dell istanza non vista (es., attraverso il voto a maggioranza) 61

62 K-nearest neighbor I K-nearest neighbors di un istanza x sono i punti che hanno le K più piccole distanze da x 62

63 1 nearest-neighbor Voronoi Diagram A causa del costo della classificazione, è necessario indicizzare/precomputare informazioni per velocizzare il calcolo dei K vicini più prossimi 63

64 Classificatore K-nearest neighbor Calcola la distanza tra due punti: Distanza Euclidea Distanza per pesare i voti dei k vicini fattore di peso, w = 1/d 2 pesa il voto in accordo alla distanza 64

65 Classificatore K-nearest neighbor Scegliere il valore di k: Se k è troppo piccolo, il classificatore è sensibile al rumore Se k è troppo grande, costoso dal punto di vista computazionale la cerchia dei vicini può includere punti appartenenti ad altre classi, e può portare a errori di classificazione 65

66 Case-Based Reasoning Anche questo metodo usa: lazy evaluation + analisi delle istanze più simili Differenza: Le istanze non sono punti in uno spazio Euclideo Metodologia Le istanze/casi sono rappresentate da una ricca descrizione simbolica (es., grafi, funzioni) Un case-based reasoner prima cerca di capire se esiste un caso di training identico al nuovo caso da classificare => classificazione OK Se questo caso uguale non esiste, si cercano casi di training vicini, ovvero con componenti simili a quelli del nuovo caso Es.: se i casi sono rappresentati come grafi, si cercano sottografi comuni Problemi Trovare una buona misura di similarità (es. per il matching tra grafi) Metodi di indicizzazione per velocizzare la ricerca di casi simili 66

67 Lazy (pigro) vs. eager (impaziente) evaluation Instance-based learning: lazy evaluation Decision-tree and Bayesian classification: eager evaluation Differenze più importanti I metodi lazy considerano l istanza della query q da classificare assieme alla decisione sulla generalizzazione rispetto al dataset D di training I metodi eager non possono farlo, poiché nel momento in cui vedono la query q hanno già scelto approssimazioni globali per costruire il modello Efficienza: i metodi lazy impiegano meno tempo per il training, ma più tempo per predire la classe Accuratezza I metodi lazy: usano efficientemente uno spazio di ipotesi più ricco ritagliato sulla query q I metodi eager: devono convergere da subito ad una ipotesi singola che copre l intero spazio delle istanze di training 67

68 Metriche per valutare i classificatori Siamo interessati alle prestazioni dei classificatori rispetto alla capacità predittiva del modello possibile tradeoff rispetto alla velocità dell algoritmo Confusion Matrix: PREDICTED CLASS Class=Yes Class=No a: TP (true positive) ACTUAL CLASS Class=Yes a b Class=No c d b: FN (false negative) c: FP (false positive) d: TN (true negative) Conteggi: a, b, c, e d anche esprimibili in percentuale 68

69 Metriche per valutare i classificatori PREDICTED CLASS Class=Yes Class=No ACTUAL CLASS Class=Yes a (TP) b (FN) Class=No c (FP) d (TN) Metrica più usata: Error Rate = 1 - Accuracy 69

70 Problemi con lo sbilanciamento delle classi Se il problema non è bilanciato P(Class=Y) molto diverso da P(Class=N) Accuracy non è una misura adeguata o obiettiva Esempio: Class=Yes transazione di carta di credito fraudolenta solo l 1% delle transazioni di carte di credito sono fraudolente il 99% sono quindi lecite! un modello che classifica tutte le transazioni come legittime (Class=No) ha un accuratezza dello 0.99!!! ma il modello è cattivo ha un rate di FN dell 1%, ma questo 1% include TUTTE le transazioni fraudolente a cui siamo interessati PREDICTED CLASS Class=Yes Class=No ACTUAL CLASS Class=Yes 0% (TP) Class=No 0% (FP) 1% (FN) 99% (TN) 70

71 Altre misure Necessarie misure che considerano le classi rare più interessanti Nella classificazione binaria, di solito la classe rara = positiva True positive rate (TPR) o sensibilità TPR = TP / (TP + FN) (esempio TPR=0) frazione di veri positivi individuati, rispetto a tutti i positivi True negative rate (TNR) o specificità TNR = TN / (TN + FP) (esempio TNR=99/99=1) frazione di veri negativi individuati, rispetto a tutti i negativi Recall e Precision misure tipiche dell Information Retrieval Recall: r = TP / (TP + FN) sensibilità Precision: p = TP / (TP + FP) in IR la quantità TP+FP corrisponde ai documenti ritenuti rilevanti e ritornati dal motore di ricerca 71

72 Metodi di valutazione dei classificatori Vogliamo valutare la bontà di un algoritmo di classificazione Quanto è accurato nel predire la classe di un nuovo campione? Continuare ad usare il training set per valutare l accuratezza di un algoritmo di classificazione può generare errori Stime troppo ottimistiche I modelli ottenuti sono super specializzati rispetto ai dati di training (overfitting) Holdout è il metodo più comune per evitare stime sbagliate Holdout Usa 2/3 del dataset classificato per il training, e 1/3 per il testing Problemi dovuti alla riduzione degli esempi per il training, e al fatto che training e test sono sottoinsiemi dello stesso dataset 72

73 Metodi di valutazione Random subsampling Holdout ripetuto Ad ogni iterazione, una certa proporzione è selezionata in modo random per il set training, il resto dei dati è usato per il testing acc i : accuratezza del modello all iterazione i-esima acc sub = Σ i=1,k acc i /k Holdout ripetuto ancora non ottimo: overlapping tra i set di test Cross validation Partiziona il dataset in k sottoinsiemi disgiunti Stesso record usato lo stesso numero di volte per il training, e una sola volta per il testing k-fold: allena su k-1 partizioni, e testa sulla partizione rimanente Valore tipico per k nel k-fold è 10 Leave-one-out: Cross-validation con k=n Bootstrap Training: Sampling with replacement Lo stesso record può apparire più volte nel training dataset Dati N record, un training costituito da N record contiene circa il 63.2% dei record originali Test set = record non selezionati Ripetuto b volte 73

74 Ensemble methods Ensemble methods: l unione fa la forza uso una combinazione di modelli Bagging Boosting 74

75 Bagging Bootstrap aggregation eseguo k bootstrap sample dal dataset da ognuno creo un classificatore per classificare un oggetto mai visto prima raccolgo le previsioni di ciascun classificatore prendo per buona quella più popolare Ha sempre una accuratezza migliore di un classificatore standard Motivazione: riduce la varianza di un classificatore 75

76 Boosting Creo un classificatore a partire dai dati iniziali Viene assegnato un peso (aumentato il peso) degli oggetti che non sono classificati correttamente dal classificatore Viene creato un altro classificatore sul nuovo dataset pesato Si ripete il processo fino ad ottenere k classificatori Per classificare un oggetto mai visto chiedo a tutti i classificatori assegno un peso ad ogni classificatore in funzione della sua accuratezza 76

77 Ada Boost Faccio un sampling con replacement del dataset creo un nuovo classificatore incremento il peso degli oggetti classificati male decremento il peso degli oggetti classificati bene ripeto il procedimento N.B.: durante il sampling un oggetto ha probabilità di essere scelto pari al suo peso! 77

78 Bagging vs. Boosting Boosting tende ad essere più accurato Ma Bagging è meno suscettibile a over-fitting 78

79 Prediction (vs. Classification) I metodi predittivi sono simili a quelli per la classificazione Prima costruisci il modello Poi usa il modello per predire i valori sconosciuti Il metodo di predizione più importante è la regressione Regressione Lineare e Multipla Regressione non-lineare La predizione è differente dalla classificazione La classificazione predice etichette di classe categoriche I metodi predittivi si occupano di predire valori continui non conosciuti 79

80 Metodi predittivi Regressione lineare: Y = α + β X Modelliamo una variabile Y (variabile che vogliamo predire) come una funzione lineare di un altra variabile X (che di solito è nota, e sulla quale basiamo la predizione di Y) I coefficienti del modello (α, β) determinati sulla base dei dati conosciuti (di training del modello) Metodi dei minimi quadrati applicati ai valori conosciuti del training dataset Y1, Y2,, X1, X2,. Y = X 80

81 Metodi predittivi Regressione lineare multipla: Y = b0 + b1 X1 + b2 X2. Abbiamo variabili multiple di predizione X1, X2, ecc. su cui basare il valore di Y Ancora minimi quadrati Regressione non lineare I dati non mostrano l esistenza di una dipendenza lineare La variabile di predizione X ha una relazione con la variabile da predire Y modellabile con una funzione polinomiale Y = α + β 1 X + β 2 X 2 + β 3 X 3 Possiamo introdurre nuove variabili (X 1 = X, X 2 = X 2, X 3 = X 3 ) per trasformare l equazione polinomiale in una lineare, su cui applicare il metodo dei minimi quadrati 81

82 Conclusioni La Classificazione è stato un problema studiatissimo (soprattutto in statistica, machine learning) La Classificazione è probabilmente una delle tecniche di data mining più usate, e rispetto alle quali sono state introdotte moltissime estensioni Direzioni di ricerca: classificazione di dati non-relazionali, es.: testi, dati spaziali, multimedia, etc.. 82

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Classification Salvatore Orlando

Classification Salvatore Orlando Classification Salvatore Orlando 1 Classificazione Dati una collezione di dati (training set ) Ciascun record contiene un insieme di attributi, uno dei quali è la classe di appartenenza. Trova un modello

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Tecniche di analisi multivariata

Tecniche di analisi multivariata Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza

Dettagli

Inferenza statistica. Statistica medica 1

Inferenza statistica. Statistica medica 1 Inferenza statistica L inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella

Dettagli

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini. Algoritmi di routing dinamici (pag.89) UdA2_L5 Nelle moderne reti si usano algoritmi dinamici, che si adattano automaticamente ai cambiamenti della rete. Questi algoritmi non sono eseguiti solo all'avvio

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Metodi Computazionali

Metodi Computazionali Metodi Computazionali Elisabetta Fersini fersini@disco.unimib.it A.A. 2009/2010 Catene di Markov Applicazioni: Fisica dinamica dei sistemi Web simulazione del comportamento utente Biologia evoluzione delle

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete euronale Descrizione Il presente lavoro, facente segiuto a quanto descritto precedentemente, ha il fine di: 1) introdurre

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P 1 2 0 0 P 1 1 2 2 3 3 2 P 2 3 0 2 P 2 6 0 0 P 3 2 1 1 P 3 0 1 1 < P 1, >

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P 1 2 0 0 P 1 1 2 2 3 3 2 P 2 3 0 2 P 2 6 0 0 P 3 2 1 1 P 3 0 1 1 < P 1, > Algoritmo del banchiere Permette di gestire istanze multiple di una risorsa (a differenza dell algoritmo con grafo di allocazione risorse). Ciascun processo deve dichiarare a priori il massimo impiego

Dettagli

Lezione 8. La macchina universale

Lezione 8. La macchina universale Lezione 8 Algoritmi La macchina universale Un elaboratore o computer è una macchina digitale, elettronica, automatica capace di effettuare trasformazioni o elaborazioni su i dati digitale= l informazione

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Capitolo 4 Probabilità

Capitolo 4 Probabilità Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 4 Probabilità Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.

Dettagli

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE DESCRIZIONE DEI DATI DA ESAMINARE Sono stati raccolti i dati sul peso del polmone di topi normali e affetti da una patologia simile

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

Classificazione e Predizione

Classificazione e Predizione Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:

Dettagli

CPM - PERT CPM - PERT. Rappresentazione di un progetto. Gestione di un progetto. Critical Path Method Project Evaluation and Review Technique

CPM - PERT CPM - PERT. Rappresentazione di un progetto. Gestione di un progetto. Critical Path Method Project Evaluation and Review Technique CPM - PERT CPM - PERT CPM e PERT sono metodologie per la gestione di progetti composti da più attività in cui esistano relazioni di precedenza. Critical Path Method Project Evaluation and Review Technique

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14 SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2

Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2 Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2 [1] Metodo di Bisezione gli estremi a e b di un intervallo reale trovi uno zero della funzione f(x) nell intervallo [a, b] usando il metodo

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

TSP con eliminazione di sottocicli

TSP con eliminazione di sottocicli TSP con eliminazione di sottocicli Un commesso viaggiatore deve visitare 7 clienti in modo da minimizzare la distanza percorsa. Le distanze (in Km) tra ognuno dei clienti sono come segue: 7-8 9 7 9-8 79

Dettagli

Riconoscimento e Recupero dell'informazione per Bioinformatica

Riconoscimento e Recupero dell'informazione per Bioinformatica Riconoscimento e Recupero dell'informazione per Bioinformatica LAB. 8 PRTools (2) Pietro Lovato Corso di Laurea in Bioinformatica Dip. di Informatica Università di Verona A.A. 2015/2016 Ripasso: validazione

Dettagli

Principi generali. Vercelli 9-10 dicembre 2005. G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Principi generali. Vercelli 9-10 dicembre 2005. G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli Principi generali Carlo Federico Gauss Matematico tedesco 1777-1855 G. Bartolozzi - Firenze Vercelli 9-10 dicembre 2005 Oggi il nostro lavoro

Dettagli

Codifiche a lunghezza variabile

Codifiche a lunghezza variabile Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

General Linear Model. Esercizio

General Linear Model. Esercizio Esercizio General Linear Model Una delle molteplici applicazioni del General Linear Model è la Trend Surface Analysis. Questa tecnica cerca di individuare, in un modello di superficie, quale tendenza segue

Dettagli

Esercizi per il corso di Algoritmi e Strutture Dati

Esercizi per il corso di Algoritmi e Strutture Dati 1 Esercizi per il corso di Algoritmi e Strutture Dati Esercizi sulla Tecnica Divide et Impera N.B. Tutti gli algoritmi vanno scritti in pseudocodice (non in Java, né in C++, etc. ). Di tutti gli algoritmi

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di STATISTICA LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di oggetti; cerca, attraverso l uso della matematica

Dettagli

Matematica in laboratorio

Matematica in laboratorio Unità 1 Attività guidate Attività 1 Foglio elettronico Divisibilità tra numeri naturali Costruisci un foglio di lavoro per determinare se a è divisibile per b, essendo a e b due numeri naturali, con a

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008 Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica 18 dicembre 008 Esame sull intero programma: esercizi da A a D Esame sulla seconda parte del programma: esercizi

Dettagli

Algoritmi e strutture dati. Codici di Huffman

Algoritmi e strutture dati. Codici di Huffman Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per

Dettagli

Probabilità discreta

Probabilità discreta Probabilità discreta Daniele A. Gewurz 1 Che probabilità c è che succeda...? Una delle applicazioni della combinatoria è nel calcolo di probabilità discrete. Quando abbiamo a che fare con un fenomeno che

Dettagli

Esercizi di Calcolo delle Probabilità con Elementi di Statistica Matematica

Esercizi di Calcolo delle Probabilità con Elementi di Statistica Matematica Esercizi di Calcolo delle Probabilità con Elementi di Statistica Matematica Lucio Demeio Dipartimento di Scienze Matematiche Università Politecnica delle Marche 1. Esercizio. Siano X ed Y due variabili

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 LEZIONE 23: Indicizzazione Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 Lezione 23 - Modulo 1 Indicizzazione lineare, ISAM e

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Ottimizzazione Multi Obiettivo

Ottimizzazione Multi Obiettivo Ottimizzazione Multi Obiettivo 1 Ottimizzazione Multi Obiettivo I problemi affrontati fino ad ora erano caratterizzati da una unica (e ben definita) funzione obiettivo. I problemi di ottimizzazione reali

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Analisi di dati di frequenza

Analisi di dati di frequenza Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

Guida all uso di Java Diagrammi ER

Guida all uso di Java Diagrammi ER Guida all uso di Java Diagrammi ER Ver. 1.1 Alessandro Ballini 16/5/2004 Questa guida ha lo scopo di mostrare gli aspetti fondamentali dell utilizzo dell applicazione Java Diagrammi ER. Inizieremo con

Dettagli

Soluzione dell esercizio del 2 Febbraio 2004

Soluzione dell esercizio del 2 Febbraio 2004 Soluzione dell esercizio del 2 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. E evidenziato un sotto caso di uso. 2. Modello concettuale Osserviamo

Dettagli

La Programmazione Lineare

La Programmazione Lineare 4 La Programmazione Lineare 4.1 INTERPRETAZIONE GEOMETRICA DI UN PROBLEMA DI PROGRAMMAZIONE LINEARE Esercizio 4.1.1 Fornire una rappresentazione geometrica e risolvere graficamente i seguenti problemi

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Equilibrio bayesiano perfetto. Giochi di segnalazione

Equilibrio bayesiano perfetto. Giochi di segnalazione Equilibrio bayesiano perfetto. Giochi di segnalazione Appunti a cura di Stefano Moretti, Silvia VILLA e Fioravante PATRONE versione del 26 maggio 2006 Indice 1 Equilibrio bayesiano perfetto 2 2 Giochi

Dettagli

Capitolo 2 Distribuzioni di frequenza

Capitolo 2 Distribuzioni di frequenza Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

PIL : produzione e reddito

PIL : produzione e reddito PIL : produzione e reddito La misura della produzione aggregata nella contabilità nazionale è il prodotto interno lordo o PIL. Dal lato della produzione : oppure 1) Il PIL è il valore dei beni e dei servizi

Dettagli

Elementi di teoria dei segnali /b

Elementi di teoria dei segnali /b Elementi di teoria dei segnali /b VERSIONE 29.4.01 Filtri e larghezza di banda dei canali Digitalizzazione e teorema del campionamento Capacità di canale e larghezza di banda Multiplexing e modulazioni

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Modelli probabilistici

Modelli probabilistici Modelli probabilistici Davide Cittaro e Marco Stefani Master bioinformatica 2003 Introduzione L obiettivo di presente lavoro è la classificazione di un insieme di proteine, definite da 27 valori numerici,

Dettagli

Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno 2007-2008, Prof. Mortera

Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno 2007-2008, Prof. Mortera Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno 2007-2008, Prof. Mortera 1. Avete risparmiato 10 dollari che volete investire per un anno in azioni e/o buoni del tesoro

Dettagli

Istituzioni di Statistica e Statistica Economica

Istituzioni di Statistica e Statistica Economica Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 4 A. Si supponga che la durata in giorni delle lampadine prodotte

Dettagli

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 23 Sommario Variabili di controllo

Dettagli

PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO

PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO 1. Load Balancing Un istanza del problema del load balancing consiste di una sequenza p 1,..., p n di interi positivi (pesi dei job) e un

Dettagli

Errori di una misura e sua rappresentazione

Errori di una misura e sua rappresentazione Errori di una misura e sua rappresentazione Il risultato di una qualsiasi misura sperimentale è costituito da un valore numerico (con la rispettiva unità di misura) ed un incertezza (chiamata anche errore)

Dettagli

Computational Game Theory

Computational Game Theory Computational Game Theory Vincenzo Bonifaci 24 maggio 2012 5 Regret Minimization Consideriamo uno scenario in cui un agente deve selezionare, più volte nel tempo, una decisione tra un insieme di N disponibili:

Dettagli

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni CARLO MANNINO Università di Roma La Sapienza Dipartimento di Informatica e Sistemistica

Dettagli

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 8 Marzo 007 Facoltà di Astronomia ESERCIZIO 1 La seguente tabella riporta la distribuzione congiunta della situazione lavorativa e dello

Dettagli

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano Capitolo 4: Ottimizzazione non lineare non vincolata parte II E. Amaldi DEIB, Politecnico di Milano 4.3 Algoritmi iterativi e convergenza Programma non lineare (PNL): min f(x) s.v. g i (x) 0 1 i m x S

Dettagli

FONDAMENTI DI PSICOMETRIA - 8 CFU

FONDAMENTI DI PSICOMETRIA - 8 CFU Ψ FONDAMENTI DI PSICOMETRIA - 8 CFU STIMA DELL ATTENDIBILITA STIMA DELL ATTENDIBILITA DEFINIZIONE DI ATTENDIBILITA (affidabilità, fedeltà) Grado di accordo tra diversi tentativi di misurare uno stesso

Dettagli

3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1

3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1 3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE E. Amaldi Fondamenti di R.O. Politecnico di Milano 1 Scopo: Stimare l onere computazionale per risolvere problemi di ottimizzazione e di altra natura

Dettagli

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA ESERCIZIO 1 La tabella seguente contiene i dati relativi alla composizione degli occupati in Italia relativamente ai tre macrosettori di attività (agricoltura, industria e altre attività) negli anni 1971

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

Relazioni tra variabili

Relazioni tra variabili Università degli Studi di Padova Facoltà di Medicina e Chirurgia Corso di Laurea in Medicina e Chirurgia - A.A. 009-10 Scuole di specializzazione in: Medicina Legale, Medicina del Lavoro, Igiene e Medicina

Dettagli

Regressione logistica

Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello

Dettagli

Probabilità Calcolo combinatorio, probabilità elementare, probabilità condizionata, indipendenza, th delle probabilità totali, legge di Bayes

Probabilità Calcolo combinatorio, probabilità elementare, probabilità condizionata, indipendenza, th delle probabilità totali, legge di Bayes Sessione Live #3 Settimana dal 7 all 11 marzo 2003 Probabilità Calcolo combinatorio, probabilità elementare, probabilità condizionata, indipendenza, th delle probabilità totali, legge di Bayes Lezioni

Dettagli

Progettazione concettuale

Progettazione concettuale Progettazione concettuale Strategie top-down A partire da uno schema che descrive le specifiche mediante pochi concetti molto astratti, si produce uno schema concettuale mediante raffinamenti successivi

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com

Dettagli

Servizi di consulenza specialistica per IGRUE 2009 2012

Servizi di consulenza specialistica per IGRUE 2009 2012 Allegato 9A Metodo della stima delle differenze Descrizione della procedura Il metodo della stima delle differenze è indicato qualora il controllore ritenga che la popolazione sia affetta da un tasso di

Dettagli

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e Alberi di decisione Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e lanciarlo con i parametri di default.

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Modelli descrittivi, statistica e simulazione

Modelli descrittivi, statistica e simulazione Modelli descrittivi, statistica e simulazione Master per Smart Logistics specialist Roberto Cordone (roberto.cordone@unimi.it) Statistica descrittiva Cernusco S.N., giovedì 21 gennaio 2016 (9.00/13.00)

Dettagli

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010 elementi di teoria dei grafi anno acc. 2009/2010 Grafi semplici Un grafo semplice G è una coppia ordinata (V(G), L(G)), ove V(G) è un insieme finito e non vuoto di elementi detti vertici o nodi di G, mentre

Dettagli

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Regressione Logistica: un Modello per Variabili Risposta Categoriali : un Modello per Variabili Risposta Categoriali Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 1 / 54 Introduzione Premessa I modelli di regressione

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

Relazioni tra tabelle

Relazioni tra tabelle Relazioni tra tabelle Una delle caratteristiche principali di Access è la possibilità di definire le relazioni fra tabelle in modo molto semplice vista l interfaccia grafica visuale. Le relazioni possono

Dettagli

Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME

Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME Politecnico di Milano Facoltà di Ingegneria dell Informazione AGENTI AUTONOMI E SISTEMI MULTIAGENTE Appello COGNOME E NOME 5 luglio 2006 RIGA COLONNA MATRICOLA Il presente plico pinzato, composto di quattro

Dettagli

Introduzione al MATLAB c Parte 2

Introduzione al MATLAB c Parte 2 Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione

Dettagli

Algoritmi e Strutture Dati

Algoritmi e Strutture Dati Elementi di Programmazione Dinamica Maria Rita Di Berardini, Emanuela Merelli 1 1 Dipartimento di Matematica e Informatica Università di Camerino Il problema La CMC produce automobili in uno stabilimento

Dettagli

Domande a scelta multipla 1

Domande a scelta multipla 1 Domande a scelta multipla Domande a scelta multipla 1 Rispondete alle domande seguenti, scegliendo tra le alternative proposte. Cercate di consultare i suggerimenti solo in caso di difficoltà. Dopo l elenco

Dettagli

Un modello matematico di investimento ottimale

Un modello matematico di investimento ottimale Un modello matematico di investimento ottimale Tiziano Vargiolu 1 1 Università degli Studi di Padova Liceo Scientifico Benedetti Venezia, giovedì 30 marzo 2011 Outline 1 Investimento per un singolo agente

Dettagli

5.3 TABELLE 5.3.1 RECORD 5.3.1.1 Inserire, eliminare record in una tabella Aggiungere record Eliminare record

5.3 TABELLE 5.3.1 RECORD 5.3.1.1 Inserire, eliminare record in una tabella Aggiungere record Eliminare record 5.3 TABELLE In un sistema di database relazionali le tabelle rappresentano la struttura di partenza, che resta poi fondamentale per tutte le fasi del lavoro di creazione e di gestione del database. 5.3.1

Dettagli