Valutazione e Selezione del Modello

Valutazione e Selezione del Modello Fondamenti Matematici della Teoria dell Apprendimento Statistico Laura Lo Gerfo Dipartimento di Informatica e Scienze dell Informazione 18 maggio 2007 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 1 / 44

Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 2 / 44

Introduzione Il problema di selezionare un modello Quale è la capacità di generalizzazione dell algoritmo di learning su nuovi dati? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 4 / 44

Problema di regressione Modello Statistico y = f 0 (x) + ɛ x: Input y: Output ɛ: errore Goal: approssimazione ˆf di f 0 che costituisca la relazione input output. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 5 / 44

Regressione Lineare Modello di regressione lineare x = (x 1,..., x d ) d f (x) = β 0 + x j β j j=1 Soluzione ai minimi quadrati Coefficienti: β = (β 0, β 1,..., β d ) Training Set: x i = (x i1, x i2,..., x in ) quindi X è una matrice di dimensione N (d + 1), aggiungendo un vettore di 1 nella prima posizione Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 6 / 44

Regressione lineare ˆβ = (X T X) 1 X T y ŷ = X ˆβ Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 7 / 44

Regressione quadratica f (x) = β 0 + t j=1 x j β j + d j=t+1 x j 2 β j Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 8 / 44

Interpolazione E interpolando i dati? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 9 / 44

Quale è meglio? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 10 / 44

Metodi di Selezione del Modello Che cosa vogliamo? Idealmente vorremmo studiare il rischio atteso legato al modello ˆf In generale, minimizzare l errore empirico non dà garanzie sulla capacità di generalizzazione del metodo Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 12 / 44

Errore Quadratico medio MSE MSE(x) = E S [y ˆf (x)] 2 EPE(x) = E y x E S [y ˆf (x)] 2 Decomposizione Bias-Variance Funzione di regressione: f 0 (x) = E y x (y) Termine di Bias: Bias = f 0 E S (ˆf (x)) Termine di Variance: Var S = Var(ˆf (x)) Si può verificare che: EPE(x) = Var y x (y) + Variance + Bias 2 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 13 / 44

Errore di Test e di Training Complessità del modello Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 14 / 44

Obbiettivi principali Selezione del modello Stimare la performance di modelli differenti allo scopo di scegliere la migliore approssimazione Stima del modello Una volta stabilito il modello ottimale, stimare l errore di predizione su nuovi dati Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 15 / 44

Approccio Quando ho tanti dati Training Set: modella lo stimatore Validation Set: seleziona il modello tramite l analisi dell errore Test Set: verifica l errore di generalizzazione Se ho pochi dati: usiamo soltanto il Test... Lati positivi: Semplice e veloce Sottostima errore di generalizzazione Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 17 / 44

Metodi per approssimare la fase di validazione Tecniche analitiche AIC (Akaike Information Criterion) BIC (Bayesian Information Criterion) MDL (Minimum Description Length) SRM (Structural Risk Minimization) Tecniche basate sul riutilizzo appropriato dei dati CROSS VALIDATION BOOTSTRAP Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 18 / 44

Cross Validation Stimare l errore di generalizzazione: Err = E[L(Y,ˆf (X))] LOOCV(Leave-one-out Cross Validation) For k = 1 a N 1 Sia (x k, y k ) il k-esimo elemento di S 2 Rimuoverlo da S 3 Calcolare ˆf rispetto agli N-1 punti del dataset 4 Calcolare l errore rispetto alla loss-function scelta di (x k, y k ) Ottenuti tutti gli errori calcolare una media Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 19 / 44

Cross Validation LOOCV cont d Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 20 / 44

Cross Validation LOOCV vs. Test set method Test-set: Stima dell errore di generalizzazione inaffidabile (pochi dati) LOOCV: Costoso al livello computazionale, devo calcolare uno stimatore per insieme di N-1 dati Se non si hanno abbastanza dati ma vogliamo una stima affidabile? Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 21 / 44

K-fold Cross Validation K-fold Cross Validation Si splittano i dati in K parti K - 1 parti si usano per il training set Denotiamo con ˆf k (x) la funzione calcolata. La stima dell errore dato dalla cross validation è CV = 1 N N L(y i,ˆf k(i) (x i )) i=1 Se il mio modello dipende da un parametro...come lo scelgo? Dato un insieme di stime ˆf (x, λ) descritte da un parametro lambda CV (λ) = 1 N N L(y i,ˆf k(i) (x i, λ)) i=1 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 22 / 44

K-fold Cross Validation K-fold Cross Validation cont d Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 23 / 44

Scelta di K Trade-off Bias Variance? K grande( N): (LOOCV) BIAS basso, VARIANZA alta.. K piccolo( 2): BIAS alto, VARIANZA bassa Allora come scelgo K? 1 Dipende dallo stimatore e dall inclinazione della curva dell errore (ipotetico) al crescere dei dati di training Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 24 / 44

GCV - cross validation generalizzata GCV Approssima LOOCV (caso loss quadratica, fitting lineare) Non è più necessario valutare le ˆf sui sottoinsiemi ma: 1 N ( N y i ˆf (x i ) 1 trace(p)/n i=1 ) 2 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 25 / 44

Dati Dati X: matrice dei dati N x d X i dato i-esimo, estrazione di una riga Funzioni Kernel Lineare: k(x i, X j ) = Xi tx j Polinomiale: k(x i, X j ) = (Xi tx j + 1) d Gaussiano: k(x i, X j ) = e ( X i X j 2 σ 2 ) Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 27 / 44

Minimi quadrati Goal Trovare la ˆf che minimizza: min f H 1 2 N (f (X i ) Y i ) 2 + λ 2 f 2 K i=1 Nota: stiamo minimizzando tutto, non solo la loss media (ora non consideriamo il fattore 1/N) Per il teorema di rappresentazione: min β R 1 2 Y K β 2 2 + λ 2 βt K β Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 28 / 44

Soluzione RLS Soluzione RLS classica β = (K + λi) 1 Y Ŷ = K β Soluzione RLS in termini di filtro G λ β = G 1 λ Y Ŷ = K β Usiamo la SVD: K = QΛQ t, dove Q t Q = I e Λ ii 0 che implica G 1 λ = Q(Λ + λi) 1 Q t G λ = K + λi = QΛQ t + λi = Q(Λ + λi)q t Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 29 / 44

Risolvere RLS a parametri fissati Sistema Il sistema lineare da risolvere è: (K + λi)β = Y Attenzione: Non provate ad invertire direttamente la matrice! Il tutto costa O(N 3 ) Cholesky (K + λi) = L t L Il sistema (K + λi)β = Y diventa: L t Lβ = Y { L t γ = Y Lβ = γ Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 30 / 44

Risolvere RLS al variare del parametro Algoritmo Calcola SVD K : O(N 3 ) e per diversi valori di λ: Calcola β λ = Q(Λ + λi) 1 Q t Y : O(N 2 ) Ma devo farlo troppe volte!!!! Validazione: Svantaggi e Soluzioni LOOCV: Il tutto deve essere fatto per diversi valori del parametro λ su training set con N 1 dati Ottenere l errore leave-one-out per RLS è più facile! LOOE = Si può ulteriormente semplificare LOOE = Y KG 1 λ Y diag(i KG 1 λ ) β diag(g 1 λ ) Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 31 / 44

Il costo di calcolare LOOE Calcolo K = QΛQ t in O(N 3 ) Per calcolare il LOOE: in O(N 2 ) Calcolo β λ = Q(Λ + λi) 1 Q t Y Calcolo il denominatore come segue: G ii = 1 Λ ii + λ E devo farlo al variare del parametro lambda... Nel caso di Kernel lineare N si può sostituire con d ma le cose rimangono pesanti, soprattutto se vogliamo fare Cross Validation. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 32 / 44

Idea Funzionale Si minimizza il funzionale K β Y 2 n per mezzo di una procedura iterativa. Devo minimizzare il funzionale dei minimi quadrati: K β Y 2 n = 0 Mi muovo in direzione opposta al gradiente di un certo passo. Più passi facciamo più ci avviciniamo alla vera soluzione: quella che minimizza il rischio empirico. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 34 / 44

Procedura iterativa Algoritmo β (0, 0,..., 0); Per i 1,..., t (denota il numero di iterazioni) τ 1 (fisso il passo) β β + τ(y K β) Parametro di regolarizzazione τ non è importante per la regolarizzazione (esiste un τ ottimo fissato) t è fondamentale per la regolarizzazione e corrisponde a λ 1 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 35 / 44

CROSS VALIDATION per Landweber t è un parametro fondamentale perché Definisce il numero di iterazioni e quindi la regolarizzazione Mi permette di calcolare automaticamente le t soluzioni precedenti (utile per CV) Procedure con K-fold Cross Validation Spezzo K in K train e K test rispetto all algoritmo di KCV Per i 1,..., k Per j 1,..., t τ 1 β β + τ(y K train β) ERR(i, j) = K test β Y test Calcolo l errore di generalizzazione facendo la media per riga Trovo t opt che lo minimizza Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 36 / 44

Vantaggi computazionali Costi per la fase di training Non è più necessario invertire la matrice K o farne la decomposizione in valori singolari Mi servono O(tN 2 ) operazione per calcolare i coefficienti β Costi per la validazione La ricerca del parametro ottimo si fonde con il calcolo della soluzione Il costo computazionale non aumenterà nel caso in cui si voglia trovare il parametro ottimo O(tkN 2 ) (k è trascurabile, di solito 5 o 10) Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 37 / 44

Procedura iterativa ν-method ν = 1 Per i 1,..., t u (i 1)(2i 3)(2i+2ν 1) (i+2ν 1)(2i+4ν 1)(2i+2ν 3) w 4 (2i+2ν 1)(i+ν 1) (i+2ν 1)(2i+4ν 1) β β i 1 u(β i 1 βi 2) + w N (Y K β i 1); ν è il parametro di qualificazione t in questo caso vale λ 2 quindi la velocità di convergenza del metodo è maggiore di landweber Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 38 / 44

Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 39 / 44

Risultati #Train #Test Dim #Resampl. Banana 400 4900 2 100 B.Canc. 200 77 9 100 Diabet. 468 300 8 100 F.Solar 666 400 9 100 German 700 300 20 100 Heart 170 100 13 100 Image 1300 1010 18 20 Ringn. 400 7000 20 100 Splice 1000 2175 60 20 Thyroid 140 75 5 100 Titanic 150 2051 3 100 Twonorm 400 7000 20 100 Wavef. 400 4600 21 100 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 40 / 44

Risultati Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 41 / 44

Risultati cont d LANDWEBER ν RLS TSVD BANANA 11.70 ± 0.68 10.67 ± 0.53 11.22 ± 0.61 11.74 ± 0.63 σ = 1 t = 116 t = 70 t = 350 t = 301 B.CANC. 25.38 ± 4.21 25.35 ± 4.24 25.12 ± 4.32 26.81 ± 4.32 σ = 2 t = 5 t = 5 t = 41 t = 120 DIABET. 23.70 ± 1.80 23.60 ± 1.82 24.40 ± 1.79 24.29 ± 0.2 σ = 2 t = 18 t = 11 t = 400 t = 300 F.SOLAR 34.27 ± 1.57 34.25 ± 1.59 34.31 ± 1.607 32.43 ± 0.90 σ = 1 t = 25 t = 8 t = 51 t = 140 GERMAN 23.20 ± 2.28 23.14 ± 2.34 23.37 ± 2.11 24.67 ± 2.60 σ = 3 t = 119 t = 16 t = 600 t = 1150 HEART 15.94 ± 3.37 15.48 ± 3.25 15.71 ± 3.20 15.58 ± 3.41 σ = 12 t = 63 t = 16 t = 500 t = 170 RINGN. 9.09 ± 0.89 3.09 ± 0.42 4.68 ± 0.7 2.85 ± 0.33 σ = 3 t = 514 t = 37 t = 820 t = 510 THYROID 4.53 ± 2.34 4.55 ± 2.35 4.48 ± 2.33 4.49 ± 2.21 σ = 1 t = 65 t = 28 t = 100 t = 200 TWONORM 2.39 ± 0.13 2.36 ± 0.13 2.42 ± 0.14 2.39 ± 0.13 σ = 3 t = 20 t = 7 t = 100 t = 61 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 42 / 44

Esperimenti: Classificazione facce Patches di Immagini Dati usati 2000 dati di training Split: I dati per la validazione sono stati ricampionati (come sopra) e splittati in training e test Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 43 / 44

Risultati facce #TRAIN + #TEST 600+1400 700+1300 800+1200 CLASSIFIER RBF-SVM 2.41 ± 1.39 1.99 ± 0.82 1.60 ± 0.71 σ = 800 C = 1 σ = 1000 C = 0.8 σ = 1000 C = 0.8 ν-method 1.63 ± 0.32 1.53 ± 0.33 1.48 ± 0.34 σ = 341 t = 85 σ = 341 t = 89 σ = 300 t = 59 Laura Lo Gerfo (DISI) FMAS 18 maggio 2007 44 / 44