Rischio statistico e sua analisi

Documenti analoghi
10 Proprietà di Equipartizione Asintotica

Support Vector Machines

8 Derivati dell entropia

Statistica inferenziale

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Online Gradient Descent

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica

Stima dei parametri. I parametri di una pdf sono costanti che caratterizzano la sua forma. r.v. parameter. Assumiamo di avere un campione di valori

Funzioni kernel. Docente: Nicolò Cesa-Bianchi versione 18 maggio 2018

Apprendimento Automatico

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Statistica Inferenziale

Computazione per l interazione naturale: Regressione probabilistica

15 Informazione e Predizione

Teoria dei Fenomeni Aleatori AA 2012/13

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi

Online Gradient Descent

Esercizio 1. La variabile casuale G, somma di due V.C. normali, si distribuisce anch essa come una normale.

o Si sceglie il modello che meglio si adatta alla realtà osservata, cioè quello per il quale risulta più probabile la realtà osservata.

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Naïve Bayesian Classification

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

non solo otteniamo il valore cercato per la validità della (1.4), ma anche che tale valore non dipende da

Statistica Applicata all edilizia: Stime e stimatori

P ( X n X > ɛ) = 0. ovvero (se come distanza consideriamo quella euclidea)

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Distribuzione Gaussiana - Facciamo un riassunto -

La media campionaria. MEDIA CAMPIONARIA Date n v.a. X 1,..., X n indipendenti e identicamente distribuite (in breve i.i.d.), la v.a.

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Corso di Laurea Triennale in Matematica Calcolo delle Probabilità I (docenti G. Nappo, F. Spizzichino)

STIME STATISTICHE. Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali. p. 2/2

LA MEDIA CAMPIONARIA 14-1

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2016/17 - Prova del

STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE

Esercizi di Probabilità e Statistica

c) Ancora in corrispondenza allo stesso valore di p e ponendo Y = minorazione, fornita dalla diseguaglianza di Chebichev, per la probabilita

Corso di Statistica - Prof. Fabio Zucca IV Appello - 5 febbraio Esercizio 1

Campionamento e stima di parametri

Il Teorema del limite Centrale (TLC)

lezione 4 AA Paolo Brunori

Metodo dei Minimi Quadrati. Dott. Claudio Verona

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Analisi di Regressione Multipla

Campionamento. Una grandezza fisica e' distribuita secondo una certa PDF

Contenuto del capitolo

Computazione per l interazione naturale: Modelli dinamici

p. 1/2 STIME STATISTICHE Consideriamo il caso della misura di una grandezza fisica che sia affetta da errori casuali.

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Università di Siena. Corso di STATISTICA. Parte seconda: Teoria della stima. Andrea Garulli, Antonello Giannitrapani, Simone Paoletti

Elementi di Probabilità e Statistica - 052AA - A.A

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

La regressione lineare semplice

Esercizi su variabili aleatorie discrete

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2016/17 - Prova del

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Statistica (parte II) Esercitazione 4

Corso in Statistica Medica

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

L indagine campionaria Lezione 3

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Esercizi di statistica

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2016/17 - Prima prova in itinere

I modelli probabilistici

Correlazione e regressione

Esame di Probabilità e Statistica del 21 marzo 2007 (Corso di Laurea Triennale in Matematica, Università degli Studi di Padova).

Statistica ARGOMENTI. Calcolo combinatorio

Esercitazione del 29 aprile 2014

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Corso di Statistica - Prof. Fabio Zucca V Appello - 19 febbraio 2015

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

DISTRIBUZIONI DI PROBABILITA (parte 3) 1 / 34

Distribuzioni campionarie. Antonello Maruotti

Teoria dell Informazione II Anno Accademico Lezione 6-7

CP210 Introduzione alla Probabilità: Esonero 2

Computazione per l interazione naturale: fondamenti probabilistici (2)

Stima dell intervallo per un parametro

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Corso di Laurea a Distanza in Ingegneria Elettrica Corso di Comunicazioni Elettriche Teoria della probabilità A.A

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Presentazione dell edizione italiana

STATISTICA ESERCITAZIONE

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A

Richiami di Statistica

Approccio statistico alla classificazione

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

Verifica delle ipotesi

ECONOMETRIA: Laboratorio I

Propagazione delle incertezze statistiche. Dott. Claudio Verona

Microeconometria Day # 3 L. Cembalo. Regressione con due variabili e metodo dei minimi quadrati

Transcript:

F94 Metodi statistici per l apprendimento Rischio statistico e sua analisi Docente: Nicolò Cesa-Bianchi versione 7 aprile 018 Per analizzare un algoritmo di apprendimento dobbiamo costruire un modello formale di generazione dei dati etichettati, ovvero un modello di generazione degli esempi x, y. Nel modello statistico di apprendimento assumiamo che ogni esempio x, y sia ottenuto tramite un estrazione indipendente da una distribuzione di probabilità su X Y fissata ma ignota. Per evidenziare il fatto che x e y sono variabili casuali spesso scriveremo X, Y. È abbastanza plausibile modellare con una distribuzione di probabilità il fatto che non tutti i dati x sono osservati con la stessa frequenza pensate al caso in cui x è un immagine o un testo. Analogamente, dato che come abbiamo detto le etichette sono per varie ragioni affette da rumore, è pure plausibile modellare con una distribuzione di probabilità la varietà di etichette a cui un dato può essere associato. Dato che nel modello statistico ogni esempio X, Y è ottenuto tramite un estrazione indipendente dalla stessa distribuzione di probabilità congiunta, ogni dataset p.es., training set o test set sarà un campione casuale nel senso statistico del termine. In generale, l assunzione di indipendenza è comoda dal punto di vista della trattabilità analitica del problema, ma poco plausibile in realtà. Si pensi ad esempio al problema di categorizzare le notizie di prodotte da un agenzia giornalistica. È ovvio che, queste non saranno statisticamente indipendenti, ma seguiranno i diversi temi che di volta in volta si alterneranno. Le prestazioni di un predittore h : X Y rispetto ad un modello statistico dato ed a una funzione di perdita l : Y Y R data vengono valutate con il rischio statistico, definito da erh = E [ ly, hx ] ovvero, il valore atteso della funzione di perdita rispetto ad un esempio X, Y generato dal modello statistico. Ipotizzando di conoscere il modello statistico, possiamo costruire il predittore Bayesiano ottimo f : X Y. Esso è definito come f x = argmin E [ ly, ŷ X = x ] ŷ Y ovvero la predizione ŷ che minimizza il rischio condizionato, cioè la perdita attesa rispetto alla distribuzione di Y condizionata su X = x. Si noti che, per definizione di f, vale E [l Y, f x ] X = x E [l Y, hx ] X = x per ogni classificatore h : X Y. Dato che la disuguaglianza sopra vale per ogni x X, vale anche in media rispetto all estrazione di X. Ma siccome la media del rischio condizionato coincide col rischio, abbiamo che erf erh. Il rischio erf del predittore Bayesiano ottimo è detto Bayes error. In generale il Bayes error è maggiore di zero in quanto i predittori sono deterministici mentre le etichette sono probabilistiche. 1

Iniziamo ora a calcolare il predittore Bayesiano ottimo per la funzione di perdita quadratica ly, ŷ = y ŷ nel caso Y R, f x = argmin E [ Y ŷ X = x ] ŷ R = argmin E [ Y X = x ] + ŷ ŷ E [ Y X = x ] ŷ R = argmin ŷ ŷ E [ Y X = x ] scartando il termine che non dipende da ŷ ŷ R = E [ Y ] X = x minimizzando la funzione F ŷ = ŷ ŷ E [ Y ] X = x. Ovvero, il predittore Bayesiano ottimo per la funzione di perdita quadratica è il valore atteso dell etichetta condizionato sull istanza. Sostituendo nella formula del rischio condizionato E [ Y f X X = x ] il predittore ottimo f x = E[Y X = x] otteniamo [ Y E f X ] [ Y ] X = x = E E[Y x] X = x = Var [ Y X = x ]. Ovvero il rischio condizionato del predittore Bayesiano ottimo per la perdita quadrata è la varianza dell etichetta condizionata sull istanza. Focalizziamoci ora sul caso di classificazione binaria, dove Y = { 1, +1}. In questo caso è conveniente specificare una distribuzione congiunta sugli esempi X, Y con la coppia D, η, dove D è la marginale su X e η rappresenta la distribuzione su { 1, +1} condizionata su X. Dato che η è una distribuzione concentrata su due valori, possiamo rappresentarla con la funzione η : X [0, 1] dove ηx = P Y = +1 X = x è la probabilità che x assuma l etichetta +1. Sia I{A} {0, 1} la funzione indicatrice di un evento A: I{A} = 1 se e solo se A è vero. Il rischio statistico rispetto alla funzione di perdita zero-uno ly, ŷ = I{ŷ y} risulta quindi essere erh = E [ ly, hx ] = E [ I{hX Y } ] = P hx Y. In altre parole, il rischio di h è la probabilità che h sbagli a classificare un X estratto dalla distribuzione D su X e avente etichetta Y estratta a caso dalla distribuzione {1 ηx, ηx} su { 1, +1}. Ipotizzando di conoscere il modello statistico D, η, possiamo costruire il classificatore Bayesiano ottimo f : X { 1, +1}. Allora f x = argmin E [ ly, ŷ ] X = x = argmin E [ I{Y = +1}I{ŷ = 1} + I{Y = 1}I{ŷ = +1} ] X = x = argmin = argmin = PY = +1 X = xi{ŷ = 1} + PY = 1 X = xi{ŷ = +1} ηxi{ŷ = 1} + 1 ηx I{ŷ = +1} { 1 se ηx < 1/, +1 se ηx 1/.

Quindi il classificatore Bayesiano ottimo predice l etichetta che massimizza la probabilità condizionata sull istanza. Non è difficile verificare che il Bayes error è pari a erf = E [ min{ηx, 1 ηx} ]. Stima del rischio per classificazione binaria. Passiamo ora a capire come valutare il rischio di un algoritmo di apprendimento. Per interpretare il modello statistico, possiamo pensare che ogni esempio x, y disponibile sia ottenuto attraverso un estrazione indipendente di x X secondo la { distribuzione } D seguito dall attribuzione dell etichetta y { 1, +1} secondo la distribuzione 1 qx, qx. Dovrebbe esssere chiaro che, dato un qualunque classificatore h, non possiamo calcolare direttamente il suo rischio erh rispetto ad un modello statistico D, η. Infatti, il calcolo di erh richiede di conoscere esattamente D e η. Ma se conoscessimo η potremmo direttamente trovare il classificatore Bayesiano ottimo per il problema. Consideriamo ora il problema di stimare il rischio di un dato classificatore h. Per calcolare questa stima si usa un cosiddetto test set, ovvero un insieme x 1, y 1,..., x n, y n di dati etichettati. Quindi, si stima er D,η h con il test error, ovvero la frazione degli esempi del test set scorrettamente classificati da h, ẽrh = 1 n l y n t, hx t. t=1 Sotto l ipotesi che il test set sia stato generato mediante estrazioni indipendenti dal modello statistico D, η, il test error altro non è che la media campionaria del rischio in quanto, per ogni t = 1,..., n abbiamo che X t, Y t è un estrazione indipendente da D, η. Quindi [ E l Y t, hx t ] = P hx t Y t = erh. Per valutare la precisione con la quale possiamo vedere il test error come stima del rischio per una data taglia di test set utilizziamo il risultato seguente legato alla legge dei grandi numeri. Lemma 1 Chernoff-Hoeffding Siano Z 1,..., Z n variabili casuali indipendenti, identicamente distribuite con media µ, e tali che 0 Z t 1 per ogni t = 1,..., n. Allora, per ogni ε > 0 fissato, 1 n P Z t > µ + ε e ε n 1 n e P Z t < µ ε e εn. n n t=1 Utilizzando il maggiorante di Chernoff-Hoeffding con Z t = ly t, hx t dove l è la funzione di perdita per classificazione binaria, possiamo quindi valutare la precisione della nostra stima come segue P erh ẽrh > ε = P erh ẽrh > ε + P ẽrh erh > ε e ε n 1 dove la probabilità è calcolata rispetto all estrazione del test set. Questa disuguaglianza ci dice che la misura secondo D e η dei test set che producono stime ẽrh che differiscono dal valor medio erh per più di ε descresce rapidamente con l aumentare di n, cioè del numero di esempi nel test set. t=1 3

In particolare, ponendo la parte destra di 1 pari a δ, per un qualunque δ 0, 1 fissato, otteniamo che erh ẽrh 1 n ln δ vale con probabilità almeno 1 δ rispetto all estrazione del test set. La disuguaglianza 1 ci indica come stimare il rischio di un ipotesi prodotta da un qualche algoritmo di apprendimento mediante un test set. Viceversa, la stessa disuguaglianza ci mostra come il test set, che è il modo con cui in pratica misuriamo le prestazioni di un classificatore su dati ignoti, sia ben correlato col rischio nel modello di apprendimento statistico. Studiamo ora un algoritmo di apprendimento nel modello statistico che abbiamo appena delineato e verifichiamo se compare l overfitting. Come di consueto, assumiamo che l algoritmo riceva in ingresso un training set x 1, y 1,..., x m, y m, dove x t, y t X { 1, +1}, e generi un classificatore h : X { 1, +1} appartenente a un dato spazio di modelli H. Sotto queste ipotesi, la cosa migliore che può fare l algoritmo è scegliere il miglior classificatore possibile h H, ovvero il classificatore h tale che erh = min erh. Grazie alla legge dei grandi numeri, sappiamo che il training error êrh è vicino a erh con alta probabilità rispetto all estrazione del training set su cui êrh viene calcolato. Consideriamo l algoritmo che sceglie ĥ H in modo da minimizzare il training error, ovvero ĥ = argmin êrh. Putroppo non possiamo applicare direttamente a ĥ il maggiorante di Chernoff-Hoeffding al fine di dimostrare che erĥ è vicino a êrĥ, per poi concludere che erĥ è vicino a erh. Il motivo è che ĥ è una funzione del training set e quindi una variabile casuale. Chernoff-Hoeffding dice che êrh è vicino a erh per ogni h fissato, mentre ĥ non è fissato, ma dipende dal campione rispetto al quale calcoliamo la probabilità. Per analizzare il rischio di ĥ procediamo allora come segue: erĥ = erĥ erh errore di varianza + erh erf errore di bias + erf Bayes error dove f è il classificatore Bayesiano ottimo per il modello statistico D, η soggiacente. Il Bayes error non è controllabile, dato che dipende unicamente dal modello D, η. L errore di bias dipende dal fatto che H può non contenere il classificatore Bayesiano ottimo. L errore di varianza dipende dal fatto che erĥ è generalmente diverso dall errore di ĥ sul training set. Di conseguenza, scegliere ĥ comporta un errore dovuto al fatto che la frazione di esempi classificati scorrettamente nel training set da un classificatore h è soltanto una stima possibilmente imprecisa del rischio erh. 4

Procediamo quindi a controllare l errore di varianza. Per ogni training set fissato, abbiamo che erĥ erh = erĥ êrĥ + êrĥ erh erĥ êrĥ + êrh erh erĥ êrĥ + êrh erh max êrh erh dove abbiamo usato l ipotesi che ĥ minimizza êrh in H. Quindi, per ogni ε > 0, erĥ erh > ε max êrh erh > ε h H : êrh erh > ε. Dato che la catena di implicazioni qui sopra vale per qualsiasi realizzazione del training set, possiamo scrivere P erĥ erh > ε P h H : êrh erh > ε. Studiamo il caso H <, ovvero lo spazio dei modelli contiene un numero finito di classificatori. Dato che l evento h H : êrh erh > ε è l unione su ogni h H degli eventi non necessariamente disgiunti êrh erh > ε usando la regola della somma PA 1 A n n PA i che vale per qualsiasi collezione A 1,..., A n di eventi, abbiamo che P h H : êrh erh > ε = P êrh erh > ε P êrh erh > ε i=1 H max P êrh erh > ε H e mε / dove nell ultimo passo abbiamo usato il maggiorante di Chernoff-Hoeffding. Quindi, in conclusione, otteniamo che P erĥ erh > ε P h H : êrh erh > ε H e mε /. 3 Ponendo il membro destro di 3 uguale a δ e risolvendo rispetto a ε, otteniamo che erĥ H erh + ln m δ 5

vale con probabilità almeno 1 δ rispetto all estrazione casuale di un training set di cardinalità m. Vediamo quindi che il rischio di ĥ si scompone in due contributi: erh H e m ln δ. In mancanza H di informazioni su D, η, e per una fissata cardinalità m del training set, per ridurre m ln δ, ovvero il maggiorante sull errore di varianza, dobbiamo ridurre H. Ma questo fa potenzialmente aumentare erh e quindi l errore di bias. La necessità di bilanciare l errore di varianza e l errore di bias per controllare il rischio di ĥ è il materializzarsi nella teoria del fenomeno dell overfitting. Nella dimostrazione del maggiorante sull errore di varianza abbiamo anche dimostrato in che h H êrh erh 1 H ln m δ con probabilità almeno 1 δ rispetto all estrazione del training set. Questo significa che quando la cardinalità m del training set è abbastanza grande rispetto a ln H, allora il training error êrh diventa una buona stima del rischio erh simultaneamente per tutti i classificatori h H. In queste condizioni, cioè quando la legge dei grandi numeri vale uniformemente rispetto alla scelta h H, è chiaro che qualsiasi algoritmo che sceglie classificatori da H è protetto dall overfitting. 6