Statistica multivariata Donata Rodi 21/11/2016
PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di un gruppo di dati multivariati correlati (X) in funzione di variabili latenti non correlate (Y), le Componenti Principali (o Scores) Per variabili quantitative Es. 10 variabili, 100 persone: 10.000 dati!!!
PCA vs Analisi Fattoriale Tecniche strettamente correlate PCA: scinde i dati in componenti principali Analisi Fattoriale: identificazione di fattori di fondo (dimensioni sottese) che spieghino i dati, riduzione della dimensione dello spazio di rappresentazione PCA: unico risultato FA: più modelli per un unico data set
PCA
PCA Ipotesi: i valori di p variabili originarie sono determinate da un più piccolo numero di variabili indipendenti tra loro Y: combinazione lineare delle variabili X Y1: a11x1 + a12x2+ + a1pxp Y2: a21x1 + a22x2+ + a2pxp Yk: ak1x1 + ak2x2+ + akpxp Yn: an1x1 + an2x2+ + anpxp
PCA Ogni componente viene derivata in ordine di importanza decrescente La prima componente Y1 spiega la quota più alta di variazione nei dati originali Scopo: ottenere un piccolo gruppo di variabili per riassumere i dati (le prime PC), con la minor perdita di informazioni possibile Controllo del trade off tra perdita di informazioni e semplificazione del problema
Matrice di Correlazione Se la quota di varianza in comune è sufficiente, occorrono poche PC Occorre costruire una Matrice di Correlazione tra tutte le coppie di variabili R di Pearson tra le variabili Range: -1.0 a +1.0 Question 1 - ARI Question 2 - VI Question 3 - SL Question 4 - ARI Question 5 - VI Question 1 - ARI 1.000.157.077.165.069 Question 2 - VI.157 1.000.261.109.211 Question 3 - SL.077.261 1.000.157.017 Question 4 - ARI.165.109.157 1.000.098 Question 5 - VI.069.211.017.098 1.000
Verifica della validità del dataset KMO Indice di adeguatezza del campionamento Confronta I valori di correlazione tra le variabili e quelli delle correlazioni parziali Più sono vicini a 1, meglio lavora la PCA 0.70: adeguato Bartlett s test Test di Sfericità basato sul chi quadro Rifiuto di H0: mancanza di sufficiente correlazione tra le variabili Testa se la matrice di correlazione differisce dalla matrice identità ovvero se c è ridondanza tra le variabili che vengono sintetizzate nei pochi fattori Perfetta correlazione: basta un fattore Kaiser-Meyer-Olkin Measure of Sampling Adequacy..861 Bartlett's Test of Sphericity Approx. Chi-Square 9193.879 df 990 Sig..000
PCA: autovalori e autovettori Ogni componente principale è rappresentata da un autovalore λ Si hanno tanti autovalori quante sono le variabili X Ognuno degli autovalori p rappresenta la quantità di varianza standardizzata catturata da una componente
PCA: autovalori e autovettori A ogni autovalore è associato un autovettore in cui sono riportati i pesi componenziali (component loadings): esprimono il peso di ogni variabile rispetto alle PC Equivalenti ai coefficienti bivariati di correlazione lineare tra variabili e componenti L autovettore principale dalla scomposizione dei vettori della matrice di correlazione o della covarianza descrive una serie di combinazioni lineari non correlate delle variabili che contengono la maggior parte della varianza
Estrazione delle Componenti principali Da p variabili: p component (non correlate) La prima PC spiega la quantità di varianza maggiore possibile La seconda cattura il più possibile di quanto rimasto, e cosi via La prima componente viene estratta dalla matrice di correlazioni originale, la seconda da quella delle correlazioni ottenuta depurando la quota di varianze e covarianze riprodotta dalla prima componente principale Segue che le PC sono ortogonali e riproducono in ordine decrescente la massima quota di varianza ottenibile
Estrazione delle Componenti principali
Estrazione della Componente principale 2 Ogni variabile ha una varianza standardizzata a 1 La varianza standardizzata totale nelle p variabili = p Tutta la varianza dei dati viene estratta Per ogni componente, la proporzione di varianza estratta = autovalore / p Sommando gli autovalori (dalla matrice delle correlazioni) si ottiene la varianza totale della matrice di correlazioni originaria Rapporto autovalore/varianza totale * 100: percentuale di varianza riprodotta da ogni componente principale
Quante componenti tenere? Spesso si mantiene un set più piccolo di PC in una regressione lineare o logistica per evitare problemi di multicollinearità Vari approcci: Componenti con autovalori 1 (contributo significativo ai dati) Regola dell 80%: componenti che spiegano almeno l 80% della varianza totale Scree test: in grafico autovalori con il rispettivo numero di componenti, si mantiene il numero di PC prima del break in the plot (es. al cambio di pendenza)
PCA: requisiti Non devono essere correlate Cov(Yk, Yk) = 0 Devono essere ordinate in base alla quantità di variabilità complessiva che ciascuna può sintetizzare V(Y1) V(Y2) V(Yp) La variabilità dei due sistemi di riferimento deve coincidere Le variabili X sono tra loro correlate: sistema ridondante, è sufficiente considerare le prime m PC (m<p)
PCA: requisiti Ogni asse rappresenta una componente Asse x: prima componente Asse y: componente successiva Assi da -1 a +1 (campo di variazione dei pesi componenziali): semiasse positivo (da 0 a +1) e negativo (da -1 a 0) Il punto di intersezione (0,0) è il baricentro
Steps in PCA 1. Preparazione della matrice dati 2. Matrice di correlazione dati osservati 3. Verifica statistica per la validità del dataset per PCA (KMO, Bartlett s) 4. Estrazione dei fattori 5. Rotazione dei fattori 6. Assegnazione dei nomi ai fattori 7. Interpretazione dei punteggi dei fattori
Esempio 2
Variabile latente Variabile latente: non misurabile direttamente ma in modo indiretto attraverso alcune variabili osservate Es. Intelligenza: memoria a breve termine, capacità di parola, scrittura, lettura, abilità di comprensione etc. Soddisfazione del paziente: variabile latente Risposte su scala Likert, punteggio da 1 a 5 Sottogruppo di variabili latenti per aspetti specifici di quella generale
Esempio N = 10 Score da 0 a 100
Matrice dati
Esempio 3: scatter plot
Esempio 3: matrice di correlazione La varianza totale è pari al numero delle variabili (ogni variabile ha varianza = 1), essendo queste standardizzate Le covarianze sono date dalla matrice di correlazione bivariata tra le stesse Regola pratica: covarianza > 0.3
SPSS
Output
Communalities coefficients Quantità di varianza nella variabile influenzata da tutti i fattori Coefficiente maggiore: variabile definite dai fattori Coefficiente minore: variabile non predetta dai fattori Percentuale di variabilità attribuita al modello
Varianza spiegata Elenco delle singole componenti (n = numero di variabili) con autovalori e varianza spiegata Criterio di Kaiser: si mantengono solo le componenti con autovalori maggiori di 1
Scree plot Pesi delle PC senza rotazione
Output Piccoli residui: poca differenza tra le correlazioni riprodotte e la correlazione realmente osservate tra le variabili Fino a che punto le componenti importanti riescono a spiegare le correlazioni osservate tra le variabili?
Output
Output La rotazione distribuisce l importanza dei due fattori in modo simile Dipende dall estrazione di un appropriato numero di fattori
Output Quantità di rotazione dei fattori Cos 45 = 0,707
Output: plot variabili/pc PC 1: outgoingness (estroversione, avventura, socializzazione PC2: Neuroticism (ansia, agorafobia, aracnofobia)
Output Es. n8: -1.68 sul primo fattore, basso in ogutgoingness -1.37 sul secondo fattore, basso in neuroticism
Esempio Studio sul fitness: 9 componenti principali X1: Weight X2 Height X3: Age X4: Waist X5: cigerettes/day X6: Systolic Blood Pressure X7: Daistolic Blood Pressure X8: Pulse rate X9: Respiratory rate
Esempio Extraction folder Principal Componentes Unrotated factor solution
Estrazione: ogni variabile ha lo stesso peso
Varianza Totale Spiegata: quota di variabilità spiegata dalle singole componenti
Contributo di ogni variabile a ogni componente (da 7 a 9, escluse) La componente 1 ha un contributo simile da tutte le variabili: descrive il punteggio unfitness PCA 2: peso negativo su alcune variabili (caratteristiche fisiche) La prima componente fornisce la media pesata dei dati
Template I, score folders, template III Save the variables, regression Vengono generate 9 variabili nuove
Scatter Plot delle due componenti principali
Scree plot