Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Transcript

1 Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25

2 Introduzione Gli approcci di selezione visti finora cercano di ridurre la variabilità di riducendo il numero di predittori usati: f^ selezionandone un sottoinsieme (best subset) riducendo alcuni coefficienti a zero, o prossimi allo zero (LASSO e ridge) Un terzo approccio ricorre all uso di nuove variabili definite attraverso opportune trasformazioni dei predittori L obiettivo è quello di ottenere un numero di variabili trasformate inferiore al numero di predittori p che siano comunque altamente informative nella previsione di Y In questo caso parliamo di tecniche di riduzione della dimensionalità file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 2/25

3 Combinazioni lineari Siano dati i predittori,,, X1 Siano Z1 Z M, M < p, delle nuove variabili (combinazioni lineari dei predittori) Z m ϕ1m, ϕ2m, ϕ pm p X p = m = 1,, M j=1 ϕ jm X j delle costanti (da determinare) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 3/25

4 Regressione lineare sulle variabili trasformate L idea è quella di stimare f (semplicemente con OLS) con un modello di regressione lineare M y i θ0 θ m z m m=1 = + +, i = 1,, n In questo caso i parametri da stimare sono : θ0, θ1, θ M Il problema si semplifica notevolmente se M << p: anziché stimare p + 1 coefficienti β0, β1,, β p si stimano solo gli M + 1 coefficienti θ0, θ1, θ M. La tecnica risulta molto efficace se le combinazioni lineari Z1, Z M, M < p preservano adeguatamente l informazione contenuta nei predittori originali. ε i M + 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 4/25

5 Dettaglio teorico Si noti che possiamo riscrivere M m=1 θ m z m = M m=1 = p j=1 = p j=1 p θ m j=1 ϕ jm x j M θ m ϕ jm x j m=1 β j x j dove β j = M m=1 θ mϕ jm In termini pratici si adatta un modello di regressione con dei vincoli sui coefficienti β, che devono soddisfare le relazioni β j M m=1 θ mϕ jm, j = 1, 2,, p. = L introduzione di vincoli, come abbiamo già visto, riduce la flessibilità del modello e pertanto ci si deve aspettare un incremento del bias a fronte di una riduzione della varianza Ancora una volta la tecnica cerca di agire sul trade-off biasvarianza per ottenere una stima ottimale di f file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 5/25

6 Metodi I metodi di riduzione della dimensionalità hanno pertanto due fasi: costruzione di un numero ridotto di variabili Z1 Z2 Z M, M < p utilizzo di Z1, Z2,, Z M per la stima di un modello di regressione lineare Se M = p il modello costruito sulle variabili Z è equivalente a quello costruito usando i predittori X. Due tecniche di base per la riduzione della dimensionalità sono Le componenti principali (CP) I minimi quadrati parziali (PLS),,, file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 6/25

7 Analisi delle componenti principali (PCA) La PCA è una tecnica di riduzione della dimensionalità di un insieme di dati rappresentati da una matrice X di dimensioni n p Ha applicazioni in diversi contesti: dall analisi esplorativa dei dati alla compressione di grossi file di dati (es. immagini) e riconscimento facciale. In questa sede discuteremo di alcune caratteristiche che ci servono per la sua applicazione nel contesto dell analisi di regressione. Nel caso di una matrice di dati n p possiamo pensare a n punti in uno spazio p-dimensionale. Se p è elevato l obiettivo è quello di ridurre la rappresentazione dei punti ad uno spazio di dimensioni più ridotte ma che mantenga nel miglior modo possibile la struttura dei punti originari. Le nuove dimensioni sono individuate dalla componenti principali: se lo spazio ridotto è bidimensionale vi saranno due componenti principali, se a tre dimensioni, tre componenti e così via. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 7/25

8 Criterio di riduzione Nella tecnica della PCA il miglior modo possibile consiste nella determinazione della combinazione lineare delle variabili originarie che massimizza una misura di variabilità. In altre parole la tecnica della PCA cerca una prima combinazione lineare con varianza massima possibile, dati alcuni vincoli. Successivamente cerca una seconda combinazione lineare che massimizzi la variabilità dati i vincoli e la prima componente e così via. In termini più formali, la prima componente principale per le variabili è la combinazione lineare normalizzata X1, X2,, X p Z1 = ϕ11x1 + + ϕ p1x p che ha variabilità massima. La normalizzazione è riferita al vincolo p j=1 ϕ2 j1 = 1 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 8/25

9 Coefficienti Le costanti principale, ϕ11 ϕ p1 sono i pesi (loadings) della prima componente La soluzione è determinabile attraverso la decomposizione della matrice di varianza-covarianza di X in autovalori e autovettori. Per ogni singola riga della matrice X ( n unità di osservazione) è possibile calcolare il corrispondente punteggio (score) fattoriale e utilizzarlo, ad esempio, in una rappresentazione (approssimata) unidimensionale della matrice X. z i1 = ϕ11x i1 + ϕ21x i2 + + ϕ p1x ip file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 9/25

10 Esempio: Advertising Spesa in pubblicità e popolazione per n = 100 città in USA X1 X2 = Popolazione in decine di migliaia = Spesa in pubblicità in migliaia di $ Z1 = X X2 Tipicamente le variabili sono standardizzate prima di calcolare le CP file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 10/25

11 Punteggi della prima CP file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 11/25

12 Seconda CP La seconda componente principale è la combinazione lineare normalizzata che ha varianza massima ed è incorrelata con la prima componente principale. Formalmente: tale che Z2 = ϕ12x1 + + ϕ p2x p p j=1 ϕ2 j2 = 1 e Cor( Z1, Z2) = 0 I punteggi fattoriali della seconda CP possono essere utilizzati assieme ai punteggi fattoriali della prima CP, ad esempio, in una rappresentazione (approssimata) bidimensionale della matrice X di dimensione n p. z i2 = ϕ12x i1 + ϕ22x i2 + + ϕ p2x ip file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 12/25

13 Standardizzazione delle variabili nella PCA Le CP possono essere interpretate in diversi modi. Ad esempio, la prima CP identifica la direzione in cui i dati hanno variabilità maggiore. Se la distanza tra punti è misurata con la distanza Euclidea, la prima componente può anche essere interpretata come la retta più vicina alle n osservazioni nello spazio p-dimensionale. Se alcune variabili X hanno, per l unità di misura usata, variabilità molto maggiore rispetto ad altre tendono a dominare la costruzione delle CP. Per evitare quest effetto dovuto semplicemente alla scala con cui sono misurate e variabili, è opportuno procedere ad una standardizzazione di tutte le variabili prima di effettuare una PCA file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 13/25

14 Percentuale di varianza spiegata Poichèle CP sono calcolate massimizzando la varianza, una misura della bontà dell approssimazione dello spazio p-dimensionale originario è data dalla percentuale di variabilità totale presente nella matrice X spiegata dalle prime M componenti principali. La variabilità totale nella matrice (standardizzata) è data da e la varianza spiegata dalla CP m, m = 1, 2,, M è X p V ar( X j ) = j=1 1 n n i=1 z 2 im = 1 ( n n i=1 p j=1 1 n n i=1 x 2 ij ) p j=1 ϕ jm x ij 2 quindi la percentuale di varianza spiegata (PVE) dalla n i=1( p ) j=1 ϕ 2 jmx ij m-esima CP è p j=1 n i=1 x2 ij Per la varianza spiegata dalle prime corrispondenti PVE. In totale ci sono della loro PVE è pari a 1. CP basta sommare le CP e la somma M min(n 1, p) file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 14/25

15 Scree plot Sinistra: scree plot (PVE delle singole CP) Destra: PVE cumulata file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 15/25

16 Regressione con le CP (PCR) L approccio alla regressione con le CP consiste nel costruire M CP dai p predittori e utilizzarle come nuovi predittori in un modello di regressione lineare Poichè le CP cercano di preservare al massimo la variabilità dei predittori, l assunzione di base, non necessariamente vera, è che questo preservi al massimo anche la relazione con Y,, Se l assunto di base della PCR tiene, l uso di Z1 Z M porta a risultati migliori rispetto all uso di X1,, X p, poiché la maggior parte o tutta l informazione dei dati su Y è contenuta in Z1,, e stimando solo M << p coefficienti si mitiga l overfitting. La PCR, utilizzando nuove variabili incorrelate tra loro è una tecnica appropriata anche in caso di forte multicollinearità tra i predittori originali. Z M file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 16/25

17 Esempio: dati simulati Sinistra: dati simulati con, - tutti i predittori legati a p = 45 n = 50 Y Destra: dati simulati con, - solo 2 predittori legati a Y p = 45 n = 50 file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 17/25

18 Confronti La PCR non è una tecnica di selezione delle variabili poichè usa sempre tutti i predittori originali nella costruzione delle combinazioni lineari In questo senso è molto simile alla regressione ridge E opportuno procedere ad una standardizzazione dei predittori prima di calcolare le CP La tecnica funziona bene quando poche componenti riescono a riassumere una parte sostanziale della variabilità totale nei p predittori Il numero M di variabili da usare nella PCR è tipicamente scelto con cross-validazione file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 18/25

19 PCR - Ridge - LASSO Dati imulati in cui le prime 5 CP di l informazionesu Y. X contengono tutta file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 19/25

20 Esempio: PCR sui dati Credit Sinistra: stime dei coefficienti standardizzati sui dati di Credit per diversi valori di M. Destra: MSE ottenuto da 10-fold cross-validazione utilizzando PCR, in funzione di M. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 20/25

21 Minimi quadrati parziali (PLS) Il metodo delle CP non considera la relazione esistente tra X1,, X p e Y nella costruzione delle variabili Z1,, Z M. Il metodo dei minimi quadrati parziali cerca di considerare quest aspetto. Il metodo delle CP può essere visto come una tecnica di statistical learning unsupervised mentre il metodo PLS è una tecnica supervised file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 21/25

22 Prima combinazione lineare PLS Dati p predittori standardizzati, il coefficiente ϕ j1 è calcolato da una regressione semplice di Y su X j, j = 1,, p e la prima combinazione lineare: Riassumendo: Z1 = ϕ11x1 + + ϕ p1x p Nella PCA i coefficienti di Z1 sono calcolati massimizzando la varianza della combinazione linere sotto vincolo di normalizzazione (somma dei quadrati pari a uno) Nei PLS ogni coefficiente di Z1 è calcolato da regressioni lineari semplici di Y su ciascuno dei predittori file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 22/25

23 Confronto PLS e PCA Continuo: prima componente PLS Tratteggiato: prima componente PCA file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 23/25

24 PLS successive Per identificare la seconda direzione (componente) ciascun predittore viene prima depurato dall effetto di Z1, regredendo ogni variabile su Z1 e calcolandone i residui. Z2 è calcolato sui residui esattamente nello stesso modo in cui è stato calcolato Z1 sui dati originali Questo approccio iterativo può essere ripetuto M identificare più componenti PLS Z1,, Z M Infine, si usano le variabili PLS modo come per la PCR,, Z1 Z M volte per esattamente nello stesso Il numero M di minimi quadrati parziali da utilizzare è determinato con cross-validazione Spesso i PLS non producono risultati sensibilmente migliori rispetto alla regressione ridge o PCR. Infatti, sebbene la riduzione della dimensionalità supervised dei PLS possa ridurre il bias, è anche possibile che aumenti la varianza, cosìcché il beneficio complessivo dei PLS rispetto alla PCR è minimo. file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 24/25

25 Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 25/25