Algoritmi di Classificazione e Reti Neurali

Transcript

1 29/01/ Algoritmi di Classificazione e Reti Neurali Lezione introduttiva 15 gennaio 2008

2 Contenuti del corso Introduzione alla teoria dell`apprendimento imparare dai dati Reti neurali (L. Grippo) Support Vector Machines (L.Palagi) 29/01/2008 2

3 Classificazione e Regressione Regressione - approssimazione Classificazione Tipicamente classificazione e regressione vengono usate per lo sviluppo di modelli matematici per il supporto decisionale* nel marketing (previsione dei comportamenti di acquisto, identificazione dei target per promozioni, nuovi prodotti...) identificazione di frodi credit risk detection diagnostica medica *Ricerca Operativa 29/01/2008 3

4 Esempio di classificazione riconoscimento di caratteri manoscritti 29/01/2008 4

5 Riconoscimento di caratteri manoscritti Lo scopo è costruire una macchina che prende in ingresso l immagine di un carattere e produce uno degli elementi dell insieme {0,1,2.,9} some output ogni elemento di ingresso corrisponde a un immagine pxp (28 x28, 256x256) pixel e quindi e` rappresentabile da un vettore a p 2 (=784, 65536) valori reali che rappresentano i livelli di grigio (0=bianco, 1=nero) rappresentabili ad es. con 8-bit La difficoltà è l alta variabilità delle forme e l alto numero di diversi elementi (2 28 x28 x8,2 256 x256 x8 ) 29/01/2008 5

6 Approssimazione/regressione I dati sono coppie di N valori reali di (x,t) che si suppone abbiano una regolarità sottostante, tipicamente corrotta da rumore (ad es. errori di misura), ovvero si suppone che esista una funzione t=f(x) incognita, i cui valori possono essere alterati da un basso valore di rumore. 1 0 Si vuole determinare la funzione che meglio approssima questi dati (si parla di approssimazione in assenza di rumore) /01/2008 6

7 Classificazione e Regressione La classificazione individua l appartenenza ad una classe. Per esempio un modello potrebbe predire che il potenziale cliente X rispondera ad un offerta. Con la classificazione l output predetto (la classe) e categorico ossia puo assumere solo pochi possibili valori come Sì, No, Alto, Medio, Basso... La regressione predice un valore numerico specifico. Ad esempio un modello potrebbe predire che il cliente X ci portera un profitto di Y lire nel corso di un determinato periodo di tempo. Le variabili in uscita possono assumere un numero illimitato (o comunque una grande quantita ) di valori. Spesso queste variabili in uscita sono indicate come continue anche se talvolta non lo sono nel senso matematico del termine (ad esempio l età di una persona) 29/01/2008 7

8 Apprendimento e statistica statistica classica modelli basati su principi primi uso dei dati per verificare la veridicità del modello e per stimare parametri difficili da misurare in modo diretto. modelli parametrici tipicamente lineari nei parametri data mining Non sono noti principi primi uso dei dati per derivare il modello stesso modelli non predefiniti e non lineari nei parametri 29/01/2008 8

9 Apprendimento dai dati terminologia regressione (statistica) classificazione (statistica) o pattern recognition (ingegneria) riconosicmento di configurazioni Reti neurali SVM.. intelligenza artificiale (utilizzo logica simbolica) (computer science = informatica) storicamente ( ) reti neurali --- analogia neurone biologico (1992-oggi) ritorno alla teoria statistica 29/01/2008 9

10 Sviluppo del Data Mining Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu capaci piu economici (dischi, CD) hanno consentito l archiviazione di grosse quantità di dati Simili volumi di dati superano di molto la capacità di analisi dei metodi manuali tradizionali, come le query ad hoc. Tali metodi possono creare report informativi sui dati ma non riescono ad analizzare il contenuto dei report per focalizzarsi sulla conoscenza utile. 29/01/

11 Data Mining (DM) (Wikipedia) Il termine data mining (letteralmente: estrazione di dati) è diventato popolare nei tardi anni '90 come versione abbreviata per rintracciare (ed accorpare) dati e relazioni significativi sepolti sotto una montagna di informazioni irrilevanti. (mining = estrazione in miniera) Oggi data mining ha una duplice valenza Estrazione, con tecniche analitiche di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi/regole/configurazioni) caratterizzanti i dati e non evidenti. 29/01/

12 Il DM è la non banale estrazione di informazione implicita, precedentemente sconosciuta e potenzialmente utile attraverso l utilizzo di differenti approcci tecnici (Frawley, Piatetsky-Shapiro e Matheus, 1991). Il DM consiste nell uso di tecniche statistiche da utilizzare con i databases aziendali per scoprire modelli e relazioni che possono essere impiegati in un contesto di business (Trajecta lexicon). Il DM è l esplorazione e l analisi, attraverso mezzi automatici e semiautomatici, di grosse quantità di dati allo scopo di scoprire pattern (schemi/regole/configurazioni/modelli) significativi (Berry, Linoff, 1997). Estrazione, con tecniche analitiche di informazione implicita da dati già strutturati, per renderla disponibile e direttamente utilizzabile; Il DM è la ricerca di relazioni e modelli globali che sono presenti in grandi database, ma che sono nascosti nell immenso ammontare di dati, come le relazioni tra i dati dei pazienti e le loro diagnosi mediche. Queste relazioni rappresentano una preziosa conoscenza del database e, se il database è uno specchio fedele, del mondo reale contenuto nel database. (Holshemier e Siebes,1994). Il DM si riferisce all uso di una varietà di tecniche per identificare pepite di informazione e di conoscenza per il supporto alla decision making. L estrazione di tale conoscenza avviene in modo che essa possa essere usata in diverse aree come supporto alle decisioni, previsioni e stime. I dati sono spesso voluminosi ma, così come sono, hanno un basso valore e nessun uso diretto può esserne fatto; è l informazione nascosta nei dati che è utile (Clementine user guide). 29/01/

13 Ambiti applicativi DM segmentazione della clientela Individuzione raggruppamenti omogenei in termini di comportamento d acquisto e di caratteristiche socio-demografiche customer retention Individuazione clienti a rishcio di abbandono fraud detection Individuazione di comportamenti frudolenti Analisi delle associazioni individuazione dei prodotti acquistati congiuntamente competitive intelligence analisi di testi 29/01/

14 Data Mining Data Mining è solo una parte del processo di estrazione della conoscenza Il termine knowledge discovery in databases, o KDD, indica l'intero processo di ricerca di nuova conoscenza dai dati, cioè l insieme di tecniche e strumenti per assistere in modo intelligente e automatico gli utenti decisionali nell'estrazione di elementi di conoscenza dai dati. Il processo di KDD prevede Formulazione del problema Generazione dei dati Cleaning dei dati e preprocessing Data mining Interpretazione del modello (analisi dei pattern) Il termine di data mining (DM) si riferisce ad una fase fondamentale del processo KDD tanto che spesso è difficile distinguere il processo KDD dal DM che possono essere usati come sinonimi 29/01/

15 Apprendimento statistico Distinguiamo due fasi in un sistema di apprendimento automatico fase di apprendimento/stima (dai dati di esempio) fase di utilizzo/predizione su esempi nuovi. Due tipi di apprendimento supervisionato non supervisionato 29/01/

16 Apprendimento automatico nel DM Supervisionato = esiste un insegnante Classificazione (pattern recognition) sono noti a priori dei pattern rappresentativi di diverse classi, cioè per ogni valore di input è noto un valore di output Regressione/Approssimazione sono note a priori delle coppie (punto,valore) (pattern,target) rappresentative di un funzione incognita a valori reali. Non supervisionato = nessun insegnante Clustering non sono noti a priori i valori di oputput cio è i pattern rappresentativi delle classi. Si vuole determinare il numero di classi di similitudine e la corrispondente classe di appartenenza. 29/01/

17 ESEMPIO DI CLASSIFICAZIONE SUPERVISIONATA (riconoscimento di caratteri) Dati un insieme di N elementi manoscritti rappresentati dalla matrice di pixel, ovvero dai vettori e la Categoria di appartenenza 0,1,2,3,4,5,6,7,8,9 training set classificazione 29/01/

18 ESEMPIO DI CLASSIFICAZIONE NON SUPERVISIONATA (riconoscimento di caratteri) Dati: un insieme di N elementi manoscritti rappresentati dalla matrice di pixel, ovvero dai vettori training set clustering 29/01/

19 ESEMPIO DI CLASSIFICAZIONE NON SUPERVISIONATA (diagnosi medica) Pattern: paziente afflitto da una determinata patologia e descritto da M fattori clinici (caratteristiche) Dati disponibili: insieme di N pazienti Obiettivo: raggruppare i pazienti in K gruppi i cui elementi presentino caratteristiche simili 29/01/

20 ESEMPIO DI APPROSSIMAZIONE Input: vettore a valore reali a N componenti rappresentate correnti elettriche che circolano in un dispositivo magnetico Output: valore del campo magnetico in un determinato punto interno al dispositivo Obiettivo: determinare una funzione analitica che approssimi il legame funzionale tra il campo magnetico e il valore delle correnti 29/01/

21 Formulazione del problema di apprendimento Distribuzione degli esempi (Sampling distribution) fattori non osservabili che influenzano output Generatore esempi con densità di probabilità sconosciuta e fissata Sistema Produce un output con densità di probabilità condizionale sconosciuta e fissata Il sistema di apprendimento NON ha controllo sul processo di generazione dei dati Outliers presenza di dati spuri non consistenti con la maggior parte delle osservazioni (dovuti a errori di misura grossolani, errori di codifica/memorizzazione, casi abnormali). 29/01/

22 Apprendimento supervisionato I dati sono coppie input-output generati in modo indipendente e identicamente distribuiti (i.i.d) secondo una funzione di probabilita (sconosciuta) Il problema di apprendimento supervisionato: dato il valore di un vettore ottenere una buona predizione del vero output Learning Una macchina per apprendimento osserva i Machine dati di training e costruisce una funzione in 29/01/

23 Macchina per apprendimento Più formalmente una macchina per apprendimento realizza una classe di funzioni, che dipende dalla struttura della macchina scelta, in cui α rappresenta un vettore di parametri che individua una particolare funzione nella classe. La macchina è deterministica 29/01/

24 Macchina per apprendimento: regressione parametrica Le funzioni sono un polinomio di grado fissato M 29/01/

25 Macchina per apprendimento La scelta ideale della funzione di approssimazione dovrebbe riflettere la conoscenza a priori sul sistema, MA in problemi di DM questa conoscenza è difficile o impossibile. Metodi adattativi del DM utilizzano una classe molto ampia e flessibile di funzioni di approssimazione Modelli non lineari nei parametri una semplice macchina per apprendimento 29/01/

26 Processo di apprendimento Fissata una macchina per apprendimento ovvero una classe di funzioni Il processo di apprendimento consiste nello scegliere un particolare valore dei parametri α* che seleziona una funzione f α* nella classe scelta. Lp1 L obiettivo è creare un modello del processo che sia in grado di dare risposte corrette e coerenti anche (e soprattutto) su dati mai analizzati (generalizzazione) e non di interpolare (= riconoscere con certezza ) i dati di training (FUNZIONE PREDITTIVA) 29/01/

27 positiva 26 1 Laura palagi; 18/01/2007

28 Regressione parametrica Consideriamo dati generati artificialmente dalla funzione corrotta da rumore Usiamo come approssimatori i polinomiodi gradofissatom Quale dei due è meglio? 29/01/

29 Misura di qualità Per scegliere tra tutte le possibili funzioni del parametro α è necessario definire un criterio di qualità da ottimizzare. Si definisce la Loss function una funzione che misura la discrepanza tra il valore previsto f α (x) e il valore effettivo y. Per definizione la perdita è non negativa, quindi valori positivi alti significano cattiva approssimazione. Assegnati i parametri α, il valore della loss function (intesa come funzione delle sole x, y) quantifica l ERRORE risultante dalla realizzazione della coppia (x, y) 29/01/

30 Minimizzazione del rischio Il criterio di qualità per scegliere i parametri α èilvalore atteso dell errore dovuto alla scelta di una particolare funzione di perdita Il valore atteso della perdita dipende dalla distribuzione P ed è dato dall integrale La funzione è il rischio effettivo che vorremmo minimizzare al variare di α (cioè al variare di ) 29/01/

31 Esempi di funzioni di perdita (Loss functions) classificazione con 29/01/

32 Esempi di funzioni di perdita (Loss functions) regressione 29/01/

33 Apprendimento determinare la funzione che minimizza il rischio tra nella classe di funzioni supportate dalla macchina per l apprendimento utilizzando un numero finito di dati di training è inerentemente mal posto La difficoltà è scegliere la giusta complessità per descrivere i dati a disposizione Principi induttivi minimizzazione del rischio empirico structural risk minimization early stopping rules 29/01/

34 Il rischio empirico Il rischio effettivo non si può calcolare (né quindi minimizzare) perché la funzione di distribuzione di probabilità è sconosciuta ma sono note solo l osservazioni corrispondenti a variabili random i.i.d Cerchiamo una funzione che approssimi il rischio effettivo e richieda solo l uso dei dati disponibili 29/01/

35 Principio Induttivo Scegliere una classe di funzioni Definire una loss function Determinare la funzione rischio tra tutte le che minimizza il 29/01/

36 Il rischio empirico Si definisce rischio empirico Il rischio empirico dipende SOLO dai dati e dalla funzione La distribuzione di probabilità non interviene nella definizione del rischio empirico che fissati è un valore preciso (errore di training). 29/01/

37 Ancora l esempio Regressione parametrica Scelto un modello (ad esempio un polinomio di grado M) Si può valutare l errore quadratico; detti i valori noti si ha: L errore sui dati di training può idealmente diventare nullo, ma che succede su dati nuovi (dati di test)? 29/01/

38 Andamento errore Graficando l andamento dell errore sui dati di training e di test Ridurre errore di training può significare errori significativi sui dati di test: fenomeno di Over-fitting 29/01/

39 Regressione parametrica Aumentoilnumerodi datidi training Polinomio di grado M=9: andamento migliore 29/01/

40 Regressione parametrica Aumentoilnumerodi datidi training Polinomio di grado M=9: l andamento riesce quasi a seguire la funzione sottostante La maggiore complessità della macchina (grado del polinomio) in relazione al miglior uso predittivo dipendono dal numero di dati disponibili 29/01/

41 Consistenza del rischio empirico In generale Interesse: trovare una relazione tra le soluzioni dei problemi di ottimizzazione imponderabile calcolabile La speranza è che l errore sui dati di traning possa fornire delle indicazioni sulla probabilità di errore su una nuova istanza 29/01/

42 Minimizzazione del rischio empirico Quando l è finito la minimizzazione del rischio empirico può non garantire una minimizzazione del rischio effettivo La scelta della funzione in una classe che minimizza il rischio empirico non è unica Entrambe le funzioni hanno Rischio empirico nullo Il rischioeffettivosu nuove istanze è diverso 29/01/

43 Complessità della classe Un altro aspetto correlato alla minimizzazione del rischio empirico è la complessità della classe di funzioni Una funzione molto complessa può descrivere molto bene i dati di training, ma può non generalizzare bene su nuovi dati più complessa più semplice 29/01/

44 Over and under fitting Dati di training: 2 classi più semplice più compless Aggiungo nuovi dati underfitting classe f α troppo semplice overfitting classe f α troppo complessa 29/01/

45 Fonti bibliografiche Pattern Recognition and Machine Learning C. Bishop, Springer (2006). Learning from Data: Concepts, theory, and Methods - V. Cherkassky, F. Mulier, John Wiley and Sons, Inc. (1998). Cineca Consorzio Interuniversitario La Gestione delle Informazioni e della Conoscenza 29/01/