e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Documenti analoghi
e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

Valutazione delle Prestazioni di un Classificatore. Performance Evaluation

Riconoscimento e recupero dell informazione per bioinformatica

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Valutazione di modelli

Classificazione bio-molecolare di tessuti e geni come problema di apprendimento automatico e validazione dei risultati

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Analisi Discriminante Strumenti quantitativi per la gestione

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Progettazione di un Sistema di Machine Learning

Progettazione di un Sistema di Machine Learning

Regressione K-Nearest Neighbors. Strumenti quantitativi per la gestione

Analisi Discriminante. Strumenti quantitativi per la gestione

Selezione del modello Strumenti quantitativi per la gestione

Luigi Santoro. Hyperphar Group S.p.A., MIlano

Corso di Riconoscimento di Forme. Sommario: Matrice di confusione Cross validation Prestazioni nel KNN

Strumenti quantitativi per la gestione (121210) A.a / 2019.

Naïve Bayesian Classification

Data mining: classificazione

Misura della performance di ciascun modello: tasso di errore sul test set

Business Intelligence per i Big Data

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Tecniche di riconoscimento statistico

Statistical learning. Strumenti quantitativi per la gestione. Emanuele Taufer

Statistical learning. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Riconoscimento automatico di oggetti (Pattern Recognition)

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Lecture 10. Combinare Classificatori. Metaclassificazione

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Confronto tra due algoritmi di machine learning, Random Forest e Support Vector Machine, applicati al telerilevamento da drone

Classificazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Classificazione e regressione

Classificazione introduzione

Data Journalism. Analisi dei dati. Angelica Lo Duca

Riconoscimento e recupero dell informazione per bioinformatica

Apprendimento basato sulle istanze

Computazione per l interazione naturale: macchine che apprendono

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Rilevazione di messaggi spam con algoritmo Naive-Bayes

Rischio statistico e sua analisi

Lecture 8. Combinare Classificatori

Valutazione dei Modelli

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi

Tecniche di riconoscimento statistico

Apprendimanto automatico

Analisi discriminante in R Strumenti quantitativi per la gestione

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018

Analisi dei dati diagnostici

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Computazione per l interazione naturale: Regressione probabilistica

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

6. Partial Least Squares (PLS)

Computazione per l interazione naturale: Regressione probabilistica

Vivisezione di un algoritmo di machine learning. Francesco ESPOSITO Youbiquitous

Apprendimento Automatico (Intro)

Esercizio: apprendimento di congiunzioni di letterali

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Richiamo di Concetti di Apprendimento Automatico ed altre nozioni aggiuntive

Centro e Programma Regionale Biomarcatori Ospedale SS Giovanni e Paolo, Venezia, Aulss13 Serenissima

Riconoscimento e recupero dell informazione per bioinformatica

Capitolo 12 La regressione lineare semplice

Stima dei parametri di modelli lineari

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

L'implementazione delle ROC Curve nei modelli GAMLSS come strumento di previsione per i Big Data

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

LA DISTRIBUZIONE NORMALE

Modelli e Metodi per la Simulazione (MMS)

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Alberi di Decisione (2)

Apprendimento Automatico

(f o -f a ) f a fo = frequenza osservata fa = frequenza attesa per effetto del caso (cioè se è vera l'ipotesi nulla) DISEGNI CON UNA SOLA VARIABILE

Applicazioni statistiche in ambito bancario

Clustering. Leggere il Capitolo 15 di Riguzzi et al. Sistemi Informativi

Apprendimento Automatico (Intro)

Lezione 6. Tabelle funzionali. Utilizziamo il nostro sistema a portata di mano e ben controllabile

Quiz di verifica Classificazione

Determinazione di DON in campioni di frumento duro mediante naso elettronico

Computazione per l interazione naturale: Regressione probabilistica

INTRODUZIONE ALLA STATISTICA

Data Science A.A. 2018/2019

Esempi di applicazioni di reti neurali

Valutazione dei risultati della classificazione

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati

Apprendimento Automatico (Lezione 1)

Alberi di Decisione (2)

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua

Valutazione e Selezione del Modello

Laboratorio di Chimica Fisica. Analisi Statistica

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Campionamento. Una grandezza fisica e' distribuita secondo una certa PDF

Strumenti quantitativi per la gestione. Introduzione al corso A.A

Metodo dei Minimi Quadrati. Dott. Claudio Verona

analisi di sensibilità lezione 22

Transcript:

e applicazioni al dominio del Contact Management Parte IV: valutazione dei Università degli Studi di Udine Cross- In collaborazione con dott. Enrico Marzano, CIO Gap srl progetto Active Contact System 1/26

Contenuti Parte IV: Cross- valutazione dei : concetto di errore; insiemi di training, test e ; cross-; Boostrap; curve ROC. 2/26

La valutazione dei ha un importanza fondamentale nel processo di : supervised learning: dato l attributo obiettivo, è possibile valutare l accuratezza delle predizioni, ad esempio: numero di predizioni corrette nel caso di classificazione; MSE o RMSE nel caso di regressione. Cross- unsupervised learning: non essendoci un attributo obiettivo, la è principalmente affidata ad un esperto del dominio (significatività del risultato); dimensione del modello, tempo di calcolo,... concentriamoci sul caso del supervised learning. 3/26

Errore in sample VS errore out of sample Nel valutare i, dobbiamo tenere conto di due fondamentali categorie d errore: in sample: errore che si ottiene applicando il modello sullo stesso dataset sul quale è stato costruito (detto anche errore di risostituzione); Cross- out of sample: errore che si ottiene applicando il modello su un diverso (ed indipendente) dataset, rispetto a quello su cui è stato costruito. L errore in sample sarà sempre ottimistico e rispetto a quello out of sample, in quanto gli algoritmi tendono ad effettuare un tuning sul dataset di traning (overfitting, caratteristica indesiderata). 4/26

SPAM vs HAM e overfitting Numero di lettere maiuscole in 10 esemplari del dataset (rosso=spam, nero=ham): Cross- 5/26

SPAM vs HAM e overfitting (2) Modello di predizione con accuratezza del 100% sul dataset ristretto: CapitalAve > 2.7 spam CapitalAve < 2.4 nonspam CapitalAve between 2.4 and 2.45 spam CapitalAve between 2.45 and 2.7 nonspam Cross- Performance sull intero dataset: Predizione/Classe nonspam spam nonspam 2141 588 spam 647 1225 588 + 647 = 1235 errori di classificazione 6/26

SPAM vs HAM e overfitting (3) Modello di predizione alternativo (e più semplice): CapitalAve > 2.4 spam CapitalAve <= 2.4 nonspam Cross- Performance sull intero dataset: Predizione/Classe nonspam spam nonspam 2224 642 spam 564 1171 642 + 564 = 1206 errori di classificazione 7/26

SPAM vs HAM e overfitting (4) Ciò è dovuto al fenomeno dell overfitting: il modello è tarato troppo specificamente sul dataset di training. In particolare, all interno dei dataset distinguiamo: segnale: la parte che vogliamo utilizzare per addestrare un modello per effettuare predizioni; rumore variazioni random nel dataset, inutili se non dannose per i nostri fini. Cross- Il goal principale in fase di training è considerare il segnale escludendo, per quanto possibile, il rumore. 8/26

Metriche per il calcolo dell errore Per la regressione è possibile utilizzare misure quali MSE o RMSE. Nel caso della classificazione: problema di classificazione binario, ad esempio stabilire gli individui affetti da una patologia; Cross- insieme I di istanze; ciascuna istanza mappata nell insieme {p, n} di risultati positivi e negativi (reali); il modello di classificazione permette di ottenere un mapping fra I e l insieme {Y, N} delle classi previste. 9/26

Metriche per il calcolo dell errore (2) Dato un classificatore ed un istanza, vi sono 4 possibili tipologie di risultato: Cross- La confusion matrix (tabella di contingenza) si estende al caso della classificazione multiclasse. 10/26

Insiemi di tranining, test e Definito il concetto di errore, vediamo come calcolarlo il più accuratamente possibile. Suddividiamo i dati a disposizione in 2 (o 3) sottoinsiemi indipendenti: Cross- training: addestramento del modello; test: singola prova (errore OOS), o tuning del modello se vi è l insieme di ; (opzionale): singola prova del modello per stimare l errore OOS. 11/26

Generazione degli insiemi ciascun insieme dovrebbe rispecchiare la frequenza delle classi tipica dell intera popolazione (stratificazione); ad esempio, generazione con selezione casuale senza reinserimento; Cross- il minimo numero necessario di istanze varia da problema a problema; empiricamente, a seconda della mole di dati a disposizione, si possono stabilire i seguenti rapporti fra gli insiemi: grande: 60% training, 20% test, 20% media: 60% training, 40% test piccola: utilizzo di cross- o bootstrap 12/26

Generazione degli insiemi (2) Al decrescere della mole di dati a disposizione riveste sempre maggiore importanza la selezione delle istanze per ciascun insieme, ai fini dell addestramento del modello e della stima dell errore out of sample. Esempio con dataset di 392 elementi, diviso in due sottoinsiemi (training+test): Cross- 13/26

Cross- Metodologia per stimare l errore out of sample quando non è disponibile un vero e proprio insieme di test. K-fold cross-validation: 1. si parte da un singolo dataset; 2. suddividi casualmente il dataset in k partizioni; 3. ripeti per k volte i seguenti passi: 3.1 seleziona, a rotazione, una delle k partizioni come insieme di test, tenendo le altre k 1 come insieme di training; 3.2 genera un modello utilizzando l insieme di training; 3.3 valuta il modello utilizzando l insieme di test; 3.4 registra la stima dell errore calcolata; 4. calcola la media delle k stime d errore; V. costruisci un modello utilizzando l intero dataset; VI. restituisci il modello generato al passo precedente, assieme alla stima dell errore. Cross- 14/26

Cross- (2) in generale, eseguendo più volte la cross-, si ottengono stime diverse dell errore; tipicamente, utilizzare k = 10 dà buoni risultati; se si desiderano risultati estremamente affidabili, è possibile ripetere la 10-fold cross-validation per 10 volte. Cross- Oltre alla k-fold, esistono altre tipologie di cross : random subsampling: per n volte, seleziona casualmente senza reinserimento un insieme di istanze di training, e con le rimanenti forma l insieme di test; leave one out: per dataset volte, seleziona a rotazione un istanza che verrà utilizzata per il test, utilizzando le altre 1 dataset istanze per il training. 15/26

(0.632 ) Utile per la stima dell errore nel caso di dataset molto piccoli, si basa sulla selezione con reinserimento delle istanze. è dato un dataset con n istanze; si selezionano con reinserimento da esso n istanze, ottenendo un multinsieme; il multinsieme di istanze selezionate costituirà il training set; le istanze mai selezionate (ciascuna con probabilità (1 1/n) n ) costituiranno l insieme di test. Cross- Si osservi che (1 1/n) n e 1 0.368. Dunque, per dataset ragionevolmente grandi, l insieme di training sarà composto da circa il 63.2% delle istanze (contate in modo distinto). 16/26

(2) intuitivamente, utilizzare una sottoparte del dataset originario per la generazione del modello porta ad una sovrastima dell errore out of sample, rispetto al modello finale; tale sovrastima viene compensata attraverso l errore di risostituzione (in-sample): Cross- err stimato = 0.632 err out_of _sample + 0.368 err in_sample in situazioni di forte overfitting, l intero addendo destro della formula tende a scomparire, portando ad una sottostima dell errore; la variante 0.632+ aumenta, al crescere dell overfitting, il peso dato all errore out of sample, diminuendo l altro. 17/26

acronimo per: Receiver Operating Characteristic; utilizzate per la prima volta durante la seconda guerra mondiale, con l obiettivo di individuare i nemici utilizzando il radar; Cross- 18/26

(2) intuitivamente la curva ROC mostra l andamento del tradeoff fra benefici (TP Rate) e costi (FP Rate); esso riveste particolare importanza nei casi in cui gli errori commessi da un algoritmo di classificazione possono avere gravità diverse; Cross- le curve ROC sono inoltre utili per confrontare le prestazioni di diversi classificatori; osserviamo che, essendo basate su FP Rate e TP Rate, esse sono insensibili alla distribuzione dei valori della classe su cui si vuole fare predizione. trattiamo le curve ROC nel caso di classificatori binari, ma esistono tecniche per la loro applicazione al caso multiclasse. 19/26

e classificatori discreti Un classificatore discreto produce una singola confusion matrix, dunque un unica coppia (FP Rate, TP Rate). Cross- Casi: esame medico VS concessione di un prestito 20/26

e classificatori continui L output di alcuni algoritmi di classificazione non è costituito da una risposta unica, ma dalla probabilità che l istanza classificata appartenga ad una determinata classe; stabilendo una soglia di cutoff, si può dunque decidere di assegnare tutti i valori sopra una certa soglia ad una classe piuttosto che all altra; Cross- al variare della soglia di cutoff, cambierà l output fornito dall algoritmo, ed in particolare i suoi valori di TP e FP Rate; dunque, variando la threshold è possibile disegnare la curva dell algoritmo nello spazio ROC. 21/26

e classificatori continui (2) Cross- Il punto alle coordinate (0.1, 0.5) produce la più alta accuratezza (70%, 14 su 20 istanze sono correttamente classificate). 22/26

e classificatori continui (3) Esempio di confronto fra diversi classificatori utilizzando le curve ROC: Cross- Tipicamente si valuta il valore dell area sotto la curva (> 0.8 buono). 23/26

Bias-Variance Trade-Off Quanto è possibile ridurre l errore del modello? Due componenti intuitive d errore: bias: parte fissa e non eliminabile dell errore, dovuta ad esempio alla capacità del modello di matchare il problema. variance: parte variabile dell errore, dipende dal particolare training set usato per costruire il modello. Cross- 24/26

Altri parametri di valutazione di un modello Oltre a quanto presentato, possiamo considerare: grandezza del modello; Cross- interpretabilità del modello; tempo di costruzione del modello; altre tipologie di curve, oltre alla ROC;... 25/26

I. H. Witten, E. Frank, M. A. Hall: : Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers, 3rd edition, 2011. Cross- G. James, D. Witten, T. Hastie, R. Tibshirani: An Introduction to Statistical Learning with Applications in R. Springer, 2013. T. Fawcett: An introduction to ROC analysis. Pattern Recognition Letters 27, pp. 861-874, 2006. 26/26