Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Transcript

1 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati con il me della classe di appartenenza (ting set) L obiettivo della classificazione è trovare un profilo descrittivo per ogni classe, che permetta di assegnare oggetti di classe igta alla classe appropriata DATA MIIG: CLASSIFICAZIOE - 1 Database and data mining group, Database and data mining group, Definizione generale DataBase and Data Mining Group of Ting set La classificazione è un processo in due passi Creazione del modello Costruzione del modello a partire dal ting set, si definisce un modello la qualità del modello è validata mediante una porzione del ting set n utilizzata per la costruzione del modello (test set) Uso del modello mediante il modello si assegna l etichetta di classe a nuovi dati n etichettati Il modello può essere definito mediante Età Tipo auto Classe rischio alberi di decisione reti neurali probabilità regole di associazione support vector machines (SVM) DataBase and Data Mining Group of DATA MIIG: CLASSIFICAZIOE - 2 THE Rischio = IF Età 26 THE Rischio = THE Rischio = DATA MIIG: CLASSIFICAZIOE - 3 Database and data mining group, Database and data mining group, DATA MIIG: CLASSIFICAZIOE - 4 DataBase and Data Mining Group of DataBase and Data Mining Group of Test set Validazione del modello Età Tipo auto berlina Classe rischio Età Tipo auto Classe rischio 35??? THE Rischio = IF Età 26 THE Rischio = THE Rischio = DATA MIIG: CLASSIFICAZIOE - 5 uovo dato THE Rischio = IF Età 26 THE Rischio = THE Rischio = ag. 1 DATA MIIG: CLASSIFICAZIOE - 6

2 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of reparazione dei dati Valutazione delle tecniche di classificazione Accuratezza ulizia dei dati qualità della predizione riduzione del rumore gestione dei dati mancanti Efficienza tempo di costruzione del modello tempo di classificazione Trasformazione dei dati Scalabilità rmalizzazione dell intervallo di variazione rispetto alla dimensione del ting set rispetto al numero di attributi necessaria per alcuni algoritmi (reti neurali,...) Feature selection Robustezza eliminazione di gestione di rumore e dati mancanti Interpretabilità attributi irrilevanti (esempio: codice fiscale) attributi ridondanti comprensibilità del modello compattezza del modello DATA MIIG: CLASSIFICAZIOE - 7 Database and data mining group, Database and data mining group, DataBase and Data Mining Group of age Struttura ad albero in cui i di interni deta un test su un attributo ogni ramo rappresenta un possibile risultato del test unti di forza modello interpretabile buona accuratezza buona efficienza algoritmi recenti con buona scalabilità unti deboli può essere sensibile a dati mancanti income student credit_rating fair excellent fair fair fair excellent excellent fair fair fair excellent excellent fair excellent DATA MIIG: CLASSIFICAZIOE - 10 Database and data mining group, student? DataBase and Data Mining Group of Algoritmo base costruzione dell albero all inizio tutti i dati di ting so alla radice ripetizione iterativa dei passi selezione dell attributo migliore di partizionamento partizionamento del ting set in base all attributo credit rating? excellent fair fi a quando il do contiene solo esempi della stessa classe n ci so più attributi per il partizionamento (classe di maggioranza) n ci so più dati di ting pruning dell albero riduzione del numero di rami serve per evitare l overfitting DATA MIIG: CLASSIFICAZIOE - 11 DataBase and Data Mining Group of age? DataBase and Data Mining Group of Database and data mining group, buys_computer DATA MIIG: CLASSIFICAZIOE - 9 DATA MIIG: CLASSIFICAZIOE - 8 ag. 2 DATA MIIG: CLASSIFICAZIOE - 12

3 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, Selezione dell attributo di partizionamento (split) DataBase and Data Mining Group of DataBase and Data Mining Group of Regole di classificazione Ogni percorso nell albero rappresenta una regola if... then Information gain adatto per attributi categorici basato sul concetto di entropia corpo dato dalla congiunzione dei predicati derivati dai di interni testa data dall etichetta di classe del do foglia quantità d informazione necessaria per classificare il ting set prima e dopo aver applicato lo split sull attributo considerato Gini index IF age = AD student = THE buys_computer = IF age = AD student = THE buys_computer = IF age = THE buys_computer = IF age = AD credit_rating = excellent THE buys_computer = IF age = AD credit_rating = fair THE buys_computer = adatto per attributi continui valuta l insieme di tutti i possibili punti di split per ogni attributo necessarie tecniche per individuare i punti di split migliori DATA MIIG: CLASSIFICAZIOE - 13 DATA MIIG: CLASSIFICAZIOE - 14 Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of associativa baiana Modello definito mediante regole di associazione Basata sul calcolo delle probabilità unti di forza testa della regola è l etichetta di classe le regole so selezionate mediante soglie di supporto, confidenza, correlazione database coverage: procedimento di copertura dei dati di ting mediante le regole estratte, ordinate second opportuni criteri unti di forza modello interpretabile accuratezza maggiore degli alberi di decisione considera contemporaneamente la correlazione di più attributi unti di debolezza classificazione efficiente insensibile a dati mancanti buona scalabilità nella dimensione del ting set la generazione del modello di riferimento è computazionalmente intrattabile unti di debolezza ipotesi semplificativa: ipotesi naïve generazione delle regole può essere lenta scarsa scalabilità nel numero degli attributi modello di riferimento, se calcolato in modo completo modello facilmente aggiornabile in modo incrementale classificazione efficiente modello con interpretabilità discreta ipotesi naïve riduce significativamente l accuratezza DATA MIIG: CLASSIFICAZIOE - 15 DATA MIIG: CLASSIFICAZIOE - 16 Database and data mining group, Database and data mining group, baiana DataBase and Data Mining Group of baiana Applicazione del teorema di Ba Outlook (C X) = probabilità che X=<x1,,xk> appartenga alla classe C Assegnazione a X della classe per cui (C X) è massima Teorema di Ba (C X) = (X C) (C) / (X) (X) costante per tutte le C (C) probabilità a priori di C (X C) n può essere computata in modo esaustivo Ipotesi naïve indipendenza statistica degli attributi x1,,xk n è sempre verificata la qualità del modello può essere affetta Reti baiane permetto di specificare un sottinsieme di dipendenze tra attributi DataBase and Data Mining Group of Temperature Humidity Windy Class rmal rmal rmal rmal rmal rmal rmal DATA MIIG: CLASSIFICAZIOE - 17 ag. 3 DATA MIIG: CLASSIFICAZIOE - 18

4 DataBase and Data Mining Group of Database and data mining group, outlook Database and data mining group, baiana DataBase and Data Mining Group of (p) = 9/14 ( p) = 2/9 ( p) = 3/9 (n) = 5/14 neuroni come unità di elaborazione sinapsi come rete di collegamento ( n) = 2/5 temperature ( p) = 2/9 ( n) = 2/5 ( p) = 4/9 ( n) = 2/5 ( p) = 3/9 ( n) = 1/5 humidity ( p) = 3/9 ( n) = 4/5 (rmal p) = 6/9 (rmal n) = 2/5 windy ( p) = 3/9 ( n) = 3/5 ( p) = 6/9 ( n) = 2/5 unti di forza Dato da classificare X = <,,, > (X p) (p) = ( p) ( p) ( p) ( p) (p) = 3/9 2/9 3/9 6/9 9/14 = accuratezza elevata robusto in presenza di outliers e rumore efficienza di classificazione output discreto o continuo unti di debolezza (X n) (n) = ( n) ( n) ( n) ( n) (n) = 2/5 2/5 4/5 2/5 5/14 = processo di apprendimento lento modello n interpretabile difficile introdurre coscenza del dominio applicativo Tratto da Han, Kamber, Data mining; Concepts and Techniques, Morgan Kaufmann 2002 DATA MIIG: CLASSIFICAZIOE - 19 DataBase and Data Mining Group of Ispirate alla struttura del cervello uma ( n) = 3/5 ( p) = 4/9 ( n) = 0 Reti neurali DATA MIIG: CLASSIFICAZIOE - 20 Database and data mining group, Database and data mining group, Struttura della rete neurale DataBase and Data Mining Group of DataBase and Data Mining Group of Struttura di un neurone Vettore di output - µk odi di output x0 w0 x1 w1 xn wn odi hidden peso wij Vettore Vettore di input x pesi w odi di input f output y Somma pesata Funzione di attivazione Vettore di input: xi DATA MIIG: CLASSIFICAZIOE - 21 DATA MIIG: CLASSIFICAZIOE - 22 Database and data mining group, Database and data mining group, Misure di qualità DataBase and Data Mining Group of Costruzione della rete neurale Obiettivo DataBase and Data Mining Group of Misura di qualità per il modello di classificazione definire un insieme ottimale di pesi e offset Accuratezza = num. dati classifica ti correttame nte num. dati classifica ti Algoritmo di base Assegnazione iniziale di valori casuali a pesi e offset Elaborazione delle istanze del ting set una per volta n adatta per distribuzioni sbilanciate delle etichette di classe importanza diversa delle classi er ogni neurone, calcolo del risultato dell applicazione di pesi, offset e funzione di attivazione per l istanza ropagazione in avanti fi al calcolo dell output Confronto con l output atteso e calcolo dell errore ropagazione all indietro dell errore (backpropagation), ricalcolando pesi e offset Misure di qualità per una singola classe C Richiamo= num. dati classificati correttamente in C num. dati appartenenti a C Il processo termina quando recisione = num. dati classificati correttamente in C num. dati assegnati a C % di accuratezza sopra soglia data % di errore sotto soglia data numero massimo di epoche raggiunto DATA MIIG: CLASSIFICAZIOE - 23 ag. 4 DATA MIIG: CLASSIFICAZIOE - 24

5 DataBase and Data Mining Group of DataBase and Data Mining Group of D B DATA MIIG: CLASSIFICAZIOE - 25 Database and data mining group, Validazione di un classificatore artizionamento dei dati in dati di ting, utilizzati per costruire il modello dati di test, utilizzati per validare il modello generato Tecniche di partizionamento partizionamento fisso ting set 2/3 test set 1/3 adatto per dataset molto grandi cross validation (K-fold) divisione del ting set in k sottinsiemi, detti folds a rotazione su tutti i K fold, 1 fold è utilizzato per il test e gli altri K-1 per il ting bootstrapping (leave-one-out) cross validation con un solo record di test per volta richiede la generazione di un numero di classificatori pari alla cardinalità del dataset adatto per dataset molto piccoli D B M G ag. 5