Valutazione e Selezione del Modello

Похожие документы
Kernel Methods. Corso di Intelligenza Artificiale, a.a Prof. Francesco Trovò

Regressione Lineare e Regressione Logistica

Apprendimento Automatico

Apprendimento statistico (Statistical Learning)

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Apprendimento statistico (Statistical Learning)

Metodi computazionali per i Minimi Quadrati

Algoritmi di classificazione supervisionati

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Introduzione alle Reti Neurali

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Esercitazione di Calcolo Numerico 1 27 Maggio Calcolare la fattorizzazione P A = LU della matrice A =

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Progettazione di un Sistema di Machine Learning

Università di Pavia Econometria. Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Statistica Applicata all edilizia: il modello di regressione

Statistica Inferenziale

Stima della qualità dei classificatori per l analisi dei dati biomolecolari

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Risoluzione di sistemi lineari sparsi e di grandi dimensioni

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Teoria e tecniche dei test. Concetti di base

Statistica di base per l analisi socio-economica

Apprendimento Automatico (Feature Selection e Kernel Learning)

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Metodi di regressione multivariata

Progettazione di un Sistema di Machine Learning

Statistica 1 A.A. 2015/2016

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Metodi di Iterazione Funzionale

Derivazione numerica. Introduzione al calcolo numerico. Derivazione numerica (II) Derivazione numerica (III)

Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di

Regressione Lineare Semplice e Correlazione

Capitolo 3: Ottimizzazione non vincolata parte III. E. Amaldi DEI, Politecnico di Milano

Транскрипт:

Valutazione e Selezione del Modello Fondamenti Matematici della Teoria dell Apprendimento Statistico Laura Lo Gerfo Dipartimento di Informatica e Scienze dell Informazione 18 maggio 2007 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 1 / 44

Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 2 / 44

Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 3 / 44

Introduzione Il problema di selezionare un modello Quale è la capacità di generalizzazione dell algoritmo di learning su nuovi dati? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 4 / 44

Problema di regressione Modello Statistico y = f 0 (x) + ɛ x: Input y: Output ɛ: errore Goal: approssimazione ˆf di f 0 che costituisca la relazione input output. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 5 / 44

Regressione Lineare Modello di regressione lineare x = (x 1,..., x d ) d f (x) = β 0 + x j β j j=1 Soluzione ai minimi quadrati Coefficienti: β = (β 0, β 1,..., β d ) Training Set: x i = (x i1, x i2,..., x in ) quindi X è una matrice di dimensione N (d + 1), aggiungendo un vettore di 1 nella prima posizione Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 6 / 44

Regressione lineare ˆβ = (X T X) 1 X T y ŷ = X ˆβ Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 7 / 44

Regressione quadratica f (x) = β 0 + t j=1 x j β j + d j=t+1 x j 2 β j Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 8 / 44

Interpolazione E interpolando i dati? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 9 / 44

Quale è meglio? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 10 / 44

Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 11 / 44

Metodi di Selezione del Modello Che cosa vogliamo? Idealmente vorremmo studiare il rischio atteso legato al modello ˆf In generale, minimizzare l errore empirico non dà garanzie sulla capacità di generalizzazione del metodo Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 12 / 44

Errore Quadratico medio MSE MSE(x) = E S [y ˆf (x)] 2 EPE(x) = E y x E S [y ˆf (x)] 2 Decomposizione Bias-Variance Funzione di regressione: f 0 (x) = E y x (y) Termine di Bias: Bias = f 0 E S (ˆf (x)) Termine di Variance: Var S = Var(ˆf (x)) Si può verificare che: EPE(x) = Var y x (y) + Variance + Bias 2 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 13 / 44

Errore di Test e di Training Complessità del modello Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 14 / 44

Obbiettivi principali Selezione del modello Stimare la performance di modelli differenti allo scopo di scegliere la migliore approssimazione Stima del modello Una volta stabilito il modello ottimale, stimare l errore di predizione su nuovi dati Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 15 / 44

Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 16 / 44

Approccio Quando ho tanti dati Training Set: modella lo stimatore Validation Set: seleziona il modello tramite l analisi dell errore Test Set: verifica l errore di generalizzazione Se ho pochi dati: usiamo soltanto il Test... Lati positivi: Semplice e veloce Sottostima errore di generalizzazione Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 17 / 44

Metodi per approssimare la fase di validazione Tecniche analitiche AIC (Akaike Information Criterion) BIC (Bayesian Information Criterion) MDL (Minimum Description Length) SRM (Structural Risk Minimization) Tecniche basate sul riutilizzo appropriato dei dati CROSS VALIDATION BOOTSTRAP Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 18 / 44

Cross Validation Stimare l errore di generalizzazione: Err = E[L(Y,ˆf (X))] LOOCV(Leave-one-out Cross Validation) For k = 1 a N 1 Sia (x k, y k ) il k-esimo elemento di S 2 Rimuoverlo da S 3 Calcolare ˆf rispetto agli N-1 punti del dataset 4 Calcolare l errore rispetto alla loss-function scelta di (x k, y k ) Ottenuti tutti gli errori calcolare una media Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 19 / 44

Cross Validation LOOCV cont d Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 20 / 44

Cross Validation LOOCV vs. Test set method Test-set: Stima dell errore di generalizzazione inaffidabile (pochi dati) LOOCV: Costoso al livello computazionale, devo calcolare uno stimatore per insieme di N-1 dati Se non si hanno abbastanza dati ma vogliamo una stima affidabile? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 21 / 44

K-fold Cross Validation K-fold Cross Validation Si splittano i dati in K parti K - 1 parti si usano per il training set Denotiamo con ˆf k (x) la funzione calcolata. La stima dell errore dato dalla cross validation è CV = 1 N N L(y i,ˆf k(i) (x i )) i=1 Se il mio modello dipende da un parametro...come lo scelgo? Dato un insieme di stime ˆf (x, λ) descritte da un parametro lambda CV (λ) = 1 N N L(y i,ˆf k(i) (x i, λ)) i=1 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 22 / 44

K-fold Cross Validation K-fold Cross Validation cont d Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 23 / 44

Scelta di K Trade-off Bias Variance? K grande( N): (LOOCV) BIAS basso, VARIANZA alta.. K piccolo( 2): BIAS alto, VARIANZA bassa Allora come scelgo K? 1 Dipende dallo stimatore e dall inclinazione della curva dell errore (ipotetico) al crescere dei dati di training Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 24 / 44

GCV - cross validation generalizzata GCV Approssima LOOCV (caso loss quadratica, fitting lineare) Non è più necessario valutare le ˆf sui sottoinsiemi ma: 1 N ( N y i ˆf (x i ) 1 trace(p)/n i=1 ) 2 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 25 / 44

Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 26 / 44

Dati Dati X: matrice dei dati N x d X i dato i-esimo, estrazione di una riga Funzioni Kernel Lineare: k(x i, X j ) = Xi tx j Polinomiale: k(x i, X j ) = (Xi tx j + 1) d Gaussiano: k(x i, X j ) = e ( X i X j 2 σ 2 ) Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 27 / 44

Minimi quadrati Goal Trovare la ˆf che minimizza: min f H 1 2 N (f (X i ) Y i ) 2 + λ 2 f 2 K i=1 Nota: stiamo minimizzando tutto, non solo la loss media (ora non consideriamo il fattore 1/N) Per il teorema di rappresentazione: min β R 1 2 Y K β 2 2 + λ 2 βt K β Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 28 / 44

Soluzione RLS Soluzione RLS classica β = (K + λi) 1 Y Ŷ = K β Soluzione RLS in termini di filtro G λ β = G 1 λ Y Ŷ = K β Usiamo la SVD: K = QΛQ t, dove Q t Q = I e Λ ii 0 che implica G 1 λ = Q(Λ + λi) 1 Q t G λ = K + λi = QΛQ t + λi = Q(Λ + λi)q t Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 29 / 44

Risolvere RLS a parametri fissati Sistema Il sistema lineare da risolvere è: (K + λi)β = Y Attenzione: Non provate ad invertire direttamente la matrice! Il tutto costa O(N 3 ) Cholesky (K + λi) = L t L Il sistema (K + λi)β = Y diventa: L t Lβ = Y { L t γ = Y Lβ = γ Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 30 / 44

Risolvere RLS al variare del parametro Algoritmo Calcola SVD K : O(N 3 ) e per diversi valori di λ: Calcola β λ = Q(Λ + λi) 1 Q t Y : O(N 2 ) Ma devo farlo troppe volte!!!! Validazione: Svantaggi e Soluzioni LOOCV: Il tutto deve essere fatto per diversi valori del parametro λ su training set con N 1 dati Ottenere l errore leave-one-out per RLS è più facile! LOOE = Si può ulteriormente semplificare LOOE = Y KG 1 λ Y diag(i KG 1 λ ) β diag(g 1 λ ) Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 31 / 44

Il costo di calcolare LOOE Calcolo K = QΛQ t in O(N 3 ) Per calcolare il LOOE: in O(N 2 ) Calcolo β λ = Q(Λ + λi) 1 Q t Y Calcolo il denominatore come segue: G ii = 1 Λ ii + λ E devo farlo al variare del parametro lambda... Nel caso di Kernel lineare N si può sostituire con d ma le cose rimangono pesanti, soprattutto se vogliamo fare Cross Validation. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 32 / 44

Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 33 / 44

Idea Funzionale Si minimizza il funzionale K β Y 2 n per mezzo di una procedura iterativa. Devo minimizzare il funzionale dei minimi quadrati: K β Y 2 n = 0 Mi muovo in direzione opposta al gradiente di un certo passo. Più passi facciamo più ci avviciniamo alla vera soluzione: quella che minimizza il rischio empirico. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 34 / 44

Procedura iterativa Algoritmo β (0, 0,..., 0); Per i 1,..., t (denota il numero di iterazioni) τ 1 (fisso il passo) β β + τ(y K β) Parametro di regolarizzazione τ non è importante per la regolarizzazione (esiste un τ ottimo fissato) t è fondamentale per la regolarizzazione e corrisponde a λ 1 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 35 / 44

CROSS VALIDATION per Landweber t è un parametro fondamentale perché Definisce il numero di iterazioni e quindi la regolarizzazione Mi permette di calcolare automaticamente le t soluzioni precedenti (utile per CV) Procedure con K-fold Cross Validation Spezzo K in K train e K test rispetto all algoritmo di KCV Per i 1,..., k Per j 1,..., t τ 1 β β + τ(y K train β) ERR(i, j) = K test β Y test Calcolo l errore di generalizzazione facendo la media per riga Trovo t opt che lo minimizza Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 36 / 44

Vantaggi computazionali Costi per la fase di training Non è più necessario invertire la matrice K o farne la decomposizione in valori singolari Mi servono O(tN 2 ) operazione per calcolare i coefficienti β Costi per la validazione La ricerca del parametro ottimo si fonde con il calcolo della soluzione Il costo computazionale non aumenterà nel caso in cui si voglia trovare il parametro ottimo O(tkN 2 ) (k è trascurabile, di solito 5 o 10) Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 37 / 44

Procedura iterativa ν-method ν = 1 Per i 1,..., t u (i 1)(2i 3)(2i+2ν 1) (i+2ν 1)(2i+4ν 1)(2i+2ν 3) w 4 (2i+2ν 1)(i+ν 1) (i+2ν 1)(2i+4ν 1) β β i 1 u(β i 1 βi 2) + w N (Y K β i 1); ν è il parametro di qualificazione t in questo caso vale λ 2 quindi la velocità di convergenza del metodo è maggiore di landweber Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 38 / 44

Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 39 / 44

Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 39 / 44

Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 39 / 44

Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 39 / 44

Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 39 / 44

Risultati #Train #Test Dim #Resampl. Banana 400 4900 2 100 B.Canc. 200 77 9 100 Diabet. 468 300 8 100 F.Solar 666 400 9 100 German 700 300 20 100 Heart 170 100 13 100 Image 1300 1010 18 20 Ringn. 400 7000 20 100 Splice 1000 2175 60 20 Thyroid 140 75 5 100 Titanic 150 2051 3 100 Twonorm 400 7000 20 100 Wavef. 400 4600 21 100 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 40 / 44

Risultati Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 41 / 44

Risultati cont d LANDWEBER ν RLS TSVD BANANA 11.70 ± 0.68 10.67 ± 0.53 11.22 ± 0.61 11.74 ± 0.63 σ = 1 t = 116 t = 70 t = 350 t = 301 B.CANC. 25.38 ± 4.21 25.35 ± 4.24 25.12 ± 4.32 26.81 ± 4.32 σ = 2 t = 5 t = 5 t = 41 t = 120 DIABET. 23.70 ± 1.80 23.60 ± 1.82 24.40 ± 1.79 24.29 ± 0.2 σ = 2 t = 18 t = 11 t = 400 t = 300 F.SOLAR 34.27 ± 1.57 34.25 ± 1.59 34.31 ± 1.607 32.43 ± 0.90 σ = 1 t = 25 t = 8 t = 51 t = 140 GERMAN 23.20 ± 2.28 23.14 ± 2.34 23.37 ± 2.11 24.67 ± 2.60 σ = 3 t = 119 t = 16 t = 600 t = 1150 HEART 15.94 ± 3.37 15.48 ± 3.25 15.71 ± 3.20 15.58 ± 3.41 σ = 12 t = 63 t = 16 t = 500 t = 170 RINGN. 9.09 ± 0.89 3.09 ± 0.42 4.68 ± 0.7 2.85 ± 0.33 σ = 3 t = 514 t = 37 t = 820 t = 510 THYROID 4.53 ± 2.34 4.55 ± 2.35 4.48 ± 2.33 4.49 ± 2.21 σ = 1 t = 65 t = 28 t = 100 t = 200 TWONORM 2.39 ± 0.13 2.36 ± 0.13 2.42 ± 0.14 2.39 ± 0.13 σ = 3 t = 20 t = 7 t = 100 t = 61 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 42 / 44

Esperimenti: Classificazione facce Patches di Immagini Dati usati 2000 dati di training Split: I dati per la validazione sono stati ricampionati (come sopra) e splittati in training e test Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 43 / 44

Risultati facce #TRAIN + #TEST 600+1400 700+1300 800+1200 CLASSIFIER RBF-SVM 2.41 ± 1.39 1.99 ± 0.82 1.60 ± 0.71 σ = 800 C = 1 σ = 1000 C = 0.8 σ = 1000 C = 0.8 ν-method 1.63 ± 0.32 1.53 ± 0.33 1.48 ± 0.34 σ = 341 t = 85 σ = 341 t = 89 σ = 300 t = 59 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 44 / 44