Valutazione e Selezione del Modello

Транскрипт

1 Valutazione e Selezione del Modello Fondamenti Matematici della Teoria dell Apprendimento Statistico Laura Lo Gerfo Dipartimento di Informatica e Scienze dell Informazione 18 maggio 2007 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

2 Sommario 1 Introduzione Il problema di selezionare il modello Regressione Lineare 2 BiasVariance Trade-off Bias Variance 3 Approcci con dati reali Approccio Generale Cross Validation 4 Minimi quadrati regolarizzati Minimi quadrati regolarizzati Minimi quadrati regolarizzati: scelta del parametro 5 Filtri iterativi Landweber Nu-method Esperimenti Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

4 Introduzione Il problema di selezionare un modello Quale è la capacità di generalizzazione dell algoritmo di learning su nuovi dati? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

5 Problema di regressione Modello Statistico y = f 0 (x) + ɛ x: Input y: Output ɛ: errore Goal: approssimazione ˆf di f 0 che costituisca la relazione input output. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

6 Regressione Lineare Modello di regressione lineare x = (x 1,..., x d ) d f (x) = β 0 + x j β j j=1 Soluzione ai minimi quadrati Coefficienti: β = (β 0, β 1,..., β d ) Training Set: x i = (x i1, x i2,..., x in ) quindi X è una matrice di dimensione N (d + 1), aggiungendo un vettore di 1 nella prima posizione Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

7 Regressione lineare ˆβ = (X T X) 1 X T y ŷ = X ˆβ Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

8 Regressione quadratica f (x) = β 0 + t j=1 x j β j + d j=t+1 x j 2 β j Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

9 Interpolazione E interpolando i dati? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

10 Quale è meglio? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

12 Metodi di Selezione del Modello Che cosa vogliamo? Idealmente vorremmo studiare il rischio atteso legato al modello ˆf In generale, minimizzare l errore empirico non dà garanzie sulla capacità di generalizzazione del metodo Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

13 Errore Quadratico medio MSE MSE(x) = E S [y ˆf (x)] 2 EPE(x) = E y x E S [y ˆf (x)] 2 Decomposizione Bias-Variance Funzione di regressione: f 0 (x) = E y x (y) Termine di Bias: Bias = f 0 E S (ˆf (x)) Termine di Variance: Var S = Var(ˆf (x)) Si può verificare che: EPE(x) = Var y x (y) + Variance + Bias 2 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

14 Errore di Test e di Training Complessità del modello Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

15 Obbiettivi principali Selezione del modello Stimare la performance di modelli differenti allo scopo di scegliere la migliore approssimazione Stima del modello Una volta stabilito il modello ottimale, stimare l errore di predizione su nuovi dati Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

17 Approccio Quando ho tanti dati Training Set: modella lo stimatore Validation Set: seleziona il modello tramite l analisi dell errore Test Set: verifica l errore di generalizzazione Se ho pochi dati: usiamo soltanto il Test... Lati positivi: Semplice e veloce Sottostima errore di generalizzazione Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

18 Metodi per approssimare la fase di validazione Tecniche analitiche AIC (Akaike Information Criterion) BIC (Bayesian Information Criterion) MDL (Minimum Description Length) SRM (Structural Risk Minimization) Tecniche basate sul riutilizzo appropriato dei dati CROSS VALIDATION BOOTSTRAP Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

19 Cross Validation Stimare l errore di generalizzazione: Err = E[L(Y,ˆf (X))] LOOCV(Leave-one-out Cross Validation) For k = 1 a N 1 Sia (x k, y k ) il k-esimo elemento di S 2 Rimuoverlo da S 3 Calcolare ˆf rispetto agli N-1 punti del dataset 4 Calcolare l errore rispetto alla loss-function scelta di (x k, y k ) Ottenuti tutti gli errori calcolare una media Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

20 Cross Validation LOOCV cont d Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

21 Cross Validation LOOCV vs. Test set method Test-set: Stima dell errore di generalizzazione inaffidabile (pochi dati) LOOCV: Costoso al livello computazionale, devo calcolare uno stimatore per insieme di N-1 dati Se non si hanno abbastanza dati ma vogliamo una stima affidabile? Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

22 K-fold Cross Validation K-fold Cross Validation Si splittano i dati in K parti K - 1 parti si usano per il training set Denotiamo con ˆf k (x) la funzione calcolata. La stima dell errore dato dalla cross validation è CV = 1 N N L(y i,ˆf k(i) (x i )) i=1 Se il mio modello dipende da un parametro...come lo scelgo? Dato un insieme di stime ˆf (x, λ) descritte da un parametro lambda CV (λ) = 1 N N L(y i,ˆf k(i) (x i, λ)) i=1 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

23 K-fold Cross Validation K-fold Cross Validation cont d Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

24 Scelta di K Trade-off Bias Variance? K grande( N): (LOOCV) BIAS basso, VARIANZA alta.. K piccolo( 2): BIAS alto, VARIANZA bassa Allora come scelgo K? 1 Dipende dallo stimatore e dall inclinazione della curva dell errore (ipotetico) al crescere dei dati di training Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

25 GCV - cross validation generalizzata GCV Approssima LOOCV (caso loss quadratica, fitting lineare) Non è più necessario valutare le ˆf sui sottoinsiemi ma: 1 N ( N y i ˆf (x i ) 1 trace(p)/n i=1 ) 2 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

27 Dati Dati X: matrice dei dati N x d X i dato i-esimo, estrazione di una riga Funzioni Kernel Lineare: k(x i, X j ) = Xi tx j Polinomiale: k(x i, X j ) = (Xi tx j + 1) d Gaussiano: k(x i, X j ) = e ( X i X j 2 σ 2 ) Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

28 Minimi quadrati Goal Trovare la ˆf che minimizza: min f H 1 2 N (f (X i ) Y i ) 2 + λ 2 f 2 K i=1 Nota: stiamo minimizzando tutto, non solo la loss media (ora non consideriamo il fattore 1/N) Per il teorema di rappresentazione: min β R 1 2 Y K β λ 2 βt K β Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

29 Soluzione RLS Soluzione RLS classica β = (K + λi) 1 Y Ŷ = K β Soluzione RLS in termini di filtro G λ β = G 1 λ Y Ŷ = K β Usiamo la SVD: K = QΛQ t, dove Q t Q = I e Λ ii 0 che implica G 1 λ = Q(Λ + λi) 1 Q t G λ = K + λi = QΛQ t + λi = Q(Λ + λi)q t Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

30 Risolvere RLS a parametri fissati Sistema Il sistema lineare da risolvere è: (K + λi)β = Y Attenzione: Non provate ad invertire direttamente la matrice! Il tutto costa O(N 3 ) Cholesky (K + λi) = L t L Il sistema (K + λi)β = Y diventa: L t Lβ = Y { L t γ = Y Lβ = γ Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

31 Risolvere RLS al variare del parametro Algoritmo Calcola SVD K : O(N 3 ) e per diversi valori di λ: Calcola β λ = Q(Λ + λi) 1 Q t Y : O(N 2 ) Ma devo farlo troppe volte!!!! Validazione: Svantaggi e Soluzioni LOOCV: Il tutto deve essere fatto per diversi valori del parametro λ su training set con N 1 dati Ottenere l errore leave-one-out per RLS è più facile! LOOE = Si può ulteriormente semplificare LOOE = Y KG 1 λ Y diag(i KG 1 λ ) β diag(g 1 λ ) Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

32 Il costo di calcolare LOOE Calcolo K = QΛQ t in O(N 3 ) Per calcolare il LOOE: in O(N 2 ) Calcolo β λ = Q(Λ + λi) 1 Q t Y Calcolo il denominatore come segue: G ii = 1 Λ ii + λ E devo farlo al variare del parametro lambda... Nel caso di Kernel lineare N si può sostituire con d ma le cose rimangono pesanti, soprattutto se vogliamo fare Cross Validation. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

34 Idea Funzionale Si minimizza il funzionale K β Y 2 n per mezzo di una procedura iterativa. Devo minimizzare il funzionale dei minimi quadrati: K β Y 2 n = 0 Mi muovo in direzione opposta al gradiente di un certo passo. Più passi facciamo più ci avviciniamo alla vera soluzione: quella che minimizza il rischio empirico. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

35 Procedura iterativa Algoritmo β (0, 0,..., 0); Per i 1,..., t (denota il numero di iterazioni) τ 1 (fisso il passo) β β + τ(y K β) Parametro di regolarizzazione τ non è importante per la regolarizzazione (esiste un τ ottimo fissato) t è fondamentale per la regolarizzazione e corrisponde a λ 1 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

36 CROSS VALIDATION per Landweber t è un parametro fondamentale perché Definisce il numero di iterazioni e quindi la regolarizzazione Mi permette di calcolare automaticamente le t soluzioni precedenti (utile per CV) Procedure con K-fold Cross Validation Spezzo K in K train e K test rispetto all algoritmo di KCV Per i 1,..., k Per j 1,..., t τ 1 β β + τ(y K train β) ERR(i, j) = K test β Y test Calcolo l errore di generalizzazione facendo la media per riga Trovo t opt che lo minimizza Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

37 Vantaggi computazionali Costi per la fase di training Non è più necessario invertire la matrice K o farne la decomposizione in valori singolari Mi servono O(tN 2 ) operazione per calcolare i coefficienti β Costi per la validazione La ricerca del parametro ottimo si fonde con il calcolo della soluzione Il costo computazionale non aumenterà nel caso in cui si voglia trovare il parametro ottimo O(tkN 2 ) (k è trascurabile, di solito 5 o 10) Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

38 Procedura iterativa ν-method ν = 1 Per i 1,..., t u (i 1)(2i 3)(2i+2ν 1) (i+2ν 1)(2i+4ν 1)(2i+2ν 3) w 4 (2i+2ν 1)(i+ν 1) (i+2ν 1)(2i+4ν 1) β β i 1 u(β i 1 βi 2) + w N (Y K β i 1); ν è il parametro di qualificazione t in questo caso vale λ 2 quindi la velocità di convergenza del metodo è maggiore di landweber Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

39 Esperimenti su dati reali Procedura Ricampionamenti (N r ) in training e test set (Bootstrap) Fase di validazione: 5CV su m ricampionamenti. Scelta del parametro ottimo: mediana degli m calcolati al passo precedente Uso i restanti ricampionamenti per calcolare l errore di generalizzazione Ho N r m errori di test, calcolo statistiche, media e deviazione standard dell errore. Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

44 Risultati #Train #Test Dim #Resampl. Banana B.Canc Diabet F.Solar German Heart Image Ringn Splice Thyroid Titanic Twonorm Wavef Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

45 Risultati Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

46 Risultati cont d LANDWEBER ν RLS TSVD BANANA ± ± ± ± 0.63 σ = 1 t = 116 t = 70 t = 350 t = 301 B.CANC ± ± ± ± 4.32 σ = 2 t = 5 t = 5 t = 41 t = 120 DIABET ± ± ± ± 0.2 σ = 2 t = 18 t = 11 t = 400 t = 300 F.SOLAR ± ± ± ± 0.90 σ = 1 t = 25 t = 8 t = 51 t = 140 GERMAN ± ± ± ± 2.60 σ = 3 t = 119 t = 16 t = 600 t = 1150 HEART ± ± ± ± 3.41 σ = 12 t = 63 t = 16 t = 500 t = 170 RINGN ± ± ± ± 0.33 σ = 3 t = 514 t = 37 t = 820 t = 510 THYROID 4.53 ± ± ± ± 2.21 σ = 1 t = 65 t = 28 t = 100 t = 200 TWONORM 2.39 ± ± ± ± 0.13 σ = 3 t = 20 t = 7 t = 100 t = 61 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

47 Esperimenti: Classificazione facce Patches di Immagini Dati usati 2000 dati di training Split: I dati per la validazione sono stati ricampionati (come sopra) e splittati in training e test Laura Lo Gerfo (DISI) FMAS 18 maggio / 44

48 Risultati facce #TRAIN + #TEST CLASSIFIER RBF-SVM 2.41 ± ± ± 0.71 σ = 800 C = 1 σ = 1000 C = 0.8 σ = 1000 C = 0.8 ν-method 1.63 ± ± ± 0.34 σ = 341 t = 85 σ = 341 t = 89 σ = 300 t = 59 Laura Lo Gerfo (DISI) FMAS 18 maggio / 44