Assunzioni (Parte I) A M D Marcello Gallucci marcello.gallucci@unimib.it Lezione 10
Modello Lineare Generale La regressione semplice e multipla e l'anova sono sottocasi del modello lineare generale (GLM) La validità del GLM applicato ai propri dati dipende dalla soddisfazione di alcune assunzioni relative ai dati Se le assunzioni sono violate, i risultati saranno distorti
Assunzioni della Regressione Semplice Quando conduciamo una regressione o una ANOVA, facciamo implicitamente alcune assunzioni sui dati: Scopo dell operazione Stimiamo gli effetti di relazione Assunzione associata La relazione è lineare Stimiamo la varianza spiegata La varianza di errore è uguale per tutti i valori predetti Testiamo la significatività Gli errori della regressione sono normalmente distribuiti
Assunzioni e Conseguenze La violazione di queste assunzioni (se non sono vere) porta a risultati non corretti Assunzione Se violata La relazione è lineare Non apprezziamo la relazione La varianza di errore è uguale per tutti i valori predetti La varianza spiegata sarà distorta Gli errori della regressione sono normalmente distribuiti Il valore-p sarà diverso dal vero rischio di commettere un errore nel rifiutare H0
Assunzione 1: Linearità Come visto precedentemente, la relazione che riusciamo a catturare con la regressione è una relazione lineare
Relazioni non lineari Le relazioni non lineari non sono catturate dalla correlazione/regressione Le variabili A e B sono associate in maniera perfetta, eppure la loro correlazione è solo 0.2 B La correlazione/regressione è in grado di quantificare solo le relazioni lineari A
Relazioni non lineari La parte non lineare della relazione si perde in quanto le concordanza tra scostamenti (covarianza) è diversa ai diversi valori delle variabili Incrementa qui 5,0 4,0 r=0.1 Incrementa qui Decrementa qui 3,0 0 Z(q) 2,0 1,0 Incrementa qui 0,0-1,0 Incrementa qui 0 In media incrementa di.8 dev.stand. per ogni dev.stad. dell altra -2,0-4,0-2,0 0,0 2,0 4,0 Z(x) In media incrementa di solo.1 dev.stand. Per ogni dev.stad. dell altra Lezione: 7
Assunzione 2: Omoschedasticità Quando stimiamo la varianza spiegata assumiamo che la varianza di errore sia uguale per tutti i valori predetti, cioè gli errori siano omoschedastici
Assunzione 2: Omoschedasticità Consideriamo una regressione con atteggiamento verso il wrestling come VD e classe di età (giovani, adulti, anziani) come VI Varianza VD per giovani 15.00 10.00 = valore predetto attewrest 5.00 0.00 Varianza VD per adulti -5.00-10.00 Varianza VD per anziani 0.00 0.50 1.00 1.50 2.00 classeeta
Assunzione 2: Omoschedasticità Ricordiamo (lezione 9) che la varianza spiegata può essere intesa come varianza totale meno varianza di errore 15.00 R 2 è dato dalla percentuale di varianza non di errore s 2 =s 2 2 s y reg e s 2 =s 2 2 s reg y e R 2 = s y 2 s e 2 s y 2 attewrest 10.00 5.00 0.00-5.00-10.00 0.00 0.50 1.00 1.50 2.00 classeeta
Assunzione 2: Omoschedasticità classeeta.00 1.00 2.00 Totale Ricordiamo che la varianza spiegata può essere intesa come varianza totale meno varianza di errore Se le varianze sono diverse ai diversi valori della VI, la varianza di errore sarà diversa per i diversi valori Report Deviazione std. Deviazione std. Deviazione std. Deviazione std. Errore per i diversi livelli di VI attewrest z 1.59371.46257963 5.15549 1.496396 2.15933.62675264 3.44527 1.000000 attewrest 15.00 10.00 5.00 0.00-5.00-10.00 Errore piccolo per i giovani e anziani Errore grande per gli adulti 0.00 0.50 1.00 1.50 2.00 classeeta
Violazione Omoschedasticità Ricordiamo (lezione 9) che la varianza spiegata può essere intesa come varianza totale meno varianza di errore Dunque l R 2 non sarà accurato, in quanto a diversi valori spiegheremo quantità di verse di varianza Modello 1 Riepilogo del modello R-quadrato Errore std. R R-quadrato corretto della stima.142 a.020.010 3.42795 a. Stimatori: (Costante), classeeta attewrest 15.00 10.00 5.00 0.00-5.00-10.00 0.00 0.50 1.00 1.50 2.00 classeeta
Assunzione 3: Normalità Quando testiamo l ipotesi nulla sui coefficienti di regressione, assumiamo che gli errori associati alla regressione siano distribuiti normalmente
Errori di regressione Ricordiamo che la predizione non corrisponde di norma ai valori osservati Discrepanza osservati-predetti y i =a b yx x i predetti y i y i =y i a b yx x i errore Dunque i valori osservati di Y possono essere espressi come somma dei valori predetti e l errore y i = a b yx x i y i y i retta errore
Distribuzione degli errori Tali errori si assume essere distribuiti normalmente. Cioè se facciamo un istogramma degli errori per tutti i soggetti, otteniamo uan distribuzione fatta a campana 8.00 Istogramma Variabile dipendente: attewrest 20 6.00 15 attetv 4.00 2.00 Frequenza 10 0.00 5-2.00 0.00 0.50 1.00 1.50 2.00 classeeta 0-3 -2-1 0 1 2 3 Regressione Residuo standardizzato Mean = -5.31E-16 Std. Dev. = 0.995 N = 100 Attegiamento TV = classe eta
Violazione normalità Se tali errori non sono distribuiti normalmente, il test di significatività non sarà corretto 10.00 Istogramma Variabile dipendente: attepol 8.00 30 25 attepol 6.00 4.00 Frequenza 20 15 2.00 10 0.00 5-2.00 0.00 0.50 1.00 1.50 2.00 classeeta 0-2 -1 0 1 2 3 4 5 Regressione Residuo standardizzato Mean = -6.33E-17 Std. Dev. = 0.995 N = 100 Attegiamento politico = classe eta
Test delle assunzioni
Analisi dei residui Per determinare se e quanto le assunzioni sono rispettare, è possible analizzare i residui della regressione/anova y i y i =y i a b yx x i
Calcolare i residui Il calcolo dei residui (di norma fatto dal software automaticamente) consta nella mera sottrazione, per ogni soggetto, del punteggio predetto da quello osservato y i y i =y i a b yx x i
Calcolare i residui Nell'interfaccia SPSS, accediamo all'opzione Salva
Calcolare i residui Chiediamo di salvare i residui ed i valori predetti Cosi' facendo verranno create due variabili PRE= valori predetti RES= valori residui
Controllo assunzioni Linearità e omoschedasticità: Se la relazione tra le variabili è lineare e l'assunzione di omoschedasticità è rispettata, lo scatterplot dei predetti vs residui deve avere una forma a casuale rispetto all'asse delle X
Omoschedastico Sembrano distribuiti a caso
Possibili violazioni Non sembrano distribuiti a caso
Esempi VI Continua Sembrano distribuiti a caso Non Sembrano distribuiti a caso
Esempi VI categorica Non Sembrano distribuiti a caso
Possibili violazioni Presenza di casi estremi outlier
Outlier Outlier o influential points sono residui di molto discordanti con la distribuzione nel campione. Essi corrispondono a soggetti con valori estremi o nella variabile dipendente o nella indipendente. Gli outlier si eliminano dall'analisi
Outlier Outlier o influential points sono residui di molto discordanti con la distribuzione nel campione. Essi corrispondono a soggetti con valori estremi o nella variabile dipendente o nella indipendente. Gli outlier si eliminano dall'analisi
Normalità dei residui Per verificare la normalità dei residui (cioè che si distribuiscano secondo una distribuzione Gaussiana normale), osserveremo l'istogramma
Test di Normalità E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia normale: test di Kolmogorov-Smirnov Il test di Kolmogorv-Smirnov testa la differenza tra la distribuzione dei residui e una normale gaussiana
Test di Normalità E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia normale: test di Kolmogorov-Smirnov Il test di Kolmogorv-Smirnov testa la differenza tra la distribuzione dei residui e una normale gaussiana Se il test NON è significativo, l'assunzione di normalità è rispettata
Normalità dei residui Per verificare la normalità dei residui (cioè che si distribuiscano secondo una distribuzione Gaussiana normale), osserveremo l'istogramma
Test di Normalità E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia normale: test di Kolmogorov-Smirnov Il test di Kolmogorv-Smirnov testa la differenza tra la distribuzione dei residui e una normale gaussiana
Verifica assunzioni Per poter affermare che i risultati della nostra regressione/anova sono validi, è necessario che i dati rispettino le assunzioni É possibile verificare le assunzioni analizzando i residui della regressione/anova Il diagramma di dispersione che lega i valori predetti ai residui deve avere un andamento piatto, simetrico e regolare (banda costante senza outliers) La distribusione dei residui deve essere normale (test di Kolmogorov-Smirnov) Nella prossima lezione affronteremo dei possibili rimedi alla violazione delle assunzioni
Fine Fine della Lezione X