Introduzione all Analisi della Varianza (ANOVA) AMD Marcello Gallucci marcello.gallucci@unimib.it
Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa e, per quello che abbiamo visto, anche le variabili indipendenti 1 Variabili quantitative 9 8 7 6 ˆ y i a b x yx i 5 4 3 SORRISI 1 - -1 1 3 4 5 6 7 8 9 1 11 1 BIRRE
Regressione NS La retta di regressione rappresenta la predizione lineare (o dipendenza lineare) tra una variabile indipendente ed una dipendente, espressa nelle unità di misura originali 1 9 8 7 6 5 4 3 SORRISI 1 - -1 1 3 4 5 6 7 8 9 1 11 1 BIRRE
Variabili Nominali (categoriche) Nelle variabili nominali i valori indicano sono delle qualità, cioè sono equivalenti a delle etichette Punteggi N di birre Regione di Provenienza Aumentare di una unità significa solo cambiare quantità Media, varianza non hanno senso 3 nord 4 nord nord 1 nord 3 centro 4 centro 6 centro 7 centro nord 3 nord
Variabili Nominali Esempi di variabili nominali: Sesso (Donne=1 Uomini=) Nazionalità (es. Francese=1, Tedesco= e Italiano=3) Facoltà (es. Psicologia=1, Informatica=, Medicina=3) Gruppi sperimentali (es. Trattamento=1, Placebo=) In generale, le variabili nominali indicano in quale gruppo il soggetto appartiene
Variabili Nominali Nelle variabili nominali, l unità di misura non ha la stessa interpretazione ad ogni livello della scala di misura Passare da Italiano a Francese, non è la stessa cosa che passare da Francese a Tedesco Qualunque numero che distingua i gruppi rappresenta la stessa qualità In generale, i valori numerici dati ai soggetti sono arbitrari
Effetti delle Variabili Nominali Consideriamo il caso in cui la variabile indipendente sia nominale, e intendiamo stimare l effetto di tale variabile su una variabile quantitativa In sostanza, ci proponiamo di esaminare se ci sono differenze fra i gruppi della variabile nominale
Esperimento Variabili nominali si trovano spesso negli esperimenti Nel seguente esperimento testiamo l effetto di un ancoraggio cognitivo sulla stima delle quantità numeriche: Domanda 1 a tutti i soggetti: Secondo te, le nazioni africane alle nazioni unite sono più o meno del X %. Ancora Var. Dipendente Domanda : Quante sono le nazioni africane in percentuale alle nazioni unite Gruppo 1: ancora 1%. Gruppo : ancora 8% Condizione sperimentale
Esperimento: Risultati 1 1 8 6 4 Quesito sperimentale: L ancoraggio ha un effetto significativo sulla stima numerica? ANSWER ANCHOR 1 8 Totale Report Deviazione Media N std. 17,447 85 1,897 44,888 85 19,68864 3,9368 17,9144 ANSWER ANCHOR 4 6 8 1 C e un differenza significativa? Quanto spieghiamo con tale differenza?
Regressione Partiamo da ciò che sappiamo: Regressione Codifichiamo la variabile indipendente come Gruppo ancora 1% X= Gruppo ancora 8% X=1 1 1 8 6 4 Stimiamo la regressione ANSWER -1 ANCHORD 1
Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione 1 1 8 6? ANSWER 4-1? 1 ANCHORD
Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione Ricordiamo che la regressione è la retta che minimizza la distanza tra i punti osservati e quelli stimati 1 1 8 6 4 Ricordiamo che in una distribuzione, la media è il valore che minimizza la distanza tra i punteggi osservati e se stessa ANSWER -1 ANCHORD 1
Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione Ricordiamo che la regressione è la retta che minimizza la distanza tra i punti osservati e quelli stimati 1 1 8 6 4 Ricordiamo che in una distribuzione, la media è il valore che minimizza la distanza tra I punti osservati e se stessa ANSWER -1 ANCHORD Questa non è altro che la distribuzione di Y per X= 1
Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione Ricordiamo che la regressione è la retta che minimizza la distanza tra i punti osservati e quelli stimati 1 1 8 6 4 Questa non è altro che la distribuzione di Y per X=1 Ricordiamo che in una distribuzione, la media è il valore che minimizza la distanza tra I punti osservati e se stessa ANSWER -1 ANCHORD Questa non è altro che la distribuzione di Y per X= 1
Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione 1 Dunque la regressione passerà necessariamente per la media di Y per il gruppo X= e per la media di Y per il gruppo X=1 1 8 6 4 Y 1 ANSWER -1 1 Y o ANCHORD
Coefficiente di Regressione Quale valore indicherà il coefficiente di regressione? 1 Ricordiamo che B indica il cambiamento atteso in Y al variare di X di una unità 1 8 6 Y 1 Cambiamento in Y ANSWER 4-1 1 Y o ANCHORD Aumento X di una unità
Coefficiente di Regressione Quale valore indicherà il coefficiente di regressione? Y a b X 1 X= cioè gruppo 1% 1 Y a B a Y o 8 X=1 cioè gruppo 8% 6 Y 1 Y Y B 1 Y 1 Differenza B Y 1 Y o ANSWER 4-1 ANCHORD 1 Y o
Coefficiente di Regressione Se la variabile indipendente è dicotomica, il coefficiente ci indica la differenza tra i gruppi 1 1 Differenza tra le medie dei gruppi 8 6 Y 1 B Y 1 Y o ANSWER 4-1 1 Y o ANCHORD
Inferenza statistica Se il coefficiente è significativo (possiamo rifiutare l ipotesi nulla b=), allora diremo che esiste una differenza significativa tra i gruppi Report ANSWER ANCHOR 1 8 Totale Deviazione Media N std. 17,447 85 1,897 44,888 85 19,68864 3,9368 17,9144 Test inferenziale Coefficienti a Modello 1 (Costante) ANCHOR Coefficienti non standardizzati a. Variabile dipendente: ANSWER Coefficienti standardizzati B Errore std. Beta t Sig. 17,45 1,697 1,45, 7,784,4,666 11,579, Significatività
Inferenza statistica ANSWER ANCHOR 1 8 Totale Concluderemo che esiste un effetto dell ancora sulle stime delle quantità Report Deviazione Media N std. 17,447 85 1,897 44,888 85 19,68864 3,9368 17,9144 C è un differenza significativa tra le medie dei gruppi Test inferenziale Modello 1 (Costante) ANCHOR Coefficienti non standardizzati a. Variabile dipendente: ANSWER Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig. 17,45 1,697 1,45, 7,784,4,666 11,579, Significatività
Test sulla varianza Guardiamo ora il test fatto sulla varianza spiegata Modello 1 Modello 1 Riepilogo del modello R-quadrato Errore std. R R-quadrato corretto della stima,666 a,444,441 15,6436 a. Stimatori: (Costante), ANCHOR Regressione Residuo Totale a. Stimatori: (Costante), ANCHOR b. Variabile dipendente: ANSWER ANOVA b Somma dei Media dei quadrati df quadrati F Sig. 388,181 1 388,181 134,63, a 41113,33 168 44,7 7391,513 169 Test inferenziale Ricordiamo il significato della F? Significatività
Test per il coefficiente R Come si ottiene la F Varianza spiegata Varianza errore F Rxy n k 1 R k xy Gdl errore 1 # variabili indipendenti Il rapporto fra varianza spiegata e varianza di errore (moltiplicato per il rapporto fra gradi di libertà) si distribuisce secondo una distribuzione F con k e n-k-1 gdl Lezione: 1
Test per il coefficiente R Come si ottiene la F Varianza spiegata Varianza errore f R 1 xy 1 R xy n k k Gdl errore # variabili indipendenti s ez Y zz s regz X z
Rapporto varianza Se la variabile indipendente è dicotomica, la varianza di errore sarà la somma delle varianza dentro i gruppi 1 Varianza non catturata dalla regressione 1 8 var gruppo 1 ( Y 1 ) i Yo n 6 4 Y 1 Varianza dentro i gruppi (within groups) ANSWER -1 ANCHORD Y o 1 var gruppo 1 ( Y1 Y 1 n 1 ) i 1
Rapporto varianza Se la variabile indipendente è dicotomica, la varianza spiegata è la varianza tra i punteggi predetti 1 Varianza catturata regressione 1 Media totale di Y 8 var bet ( Y g df Y Varianza tra i gruppi (between groups) ) ANSWER 6 4-1 1 Y 1 Y o ANCHORD
Varianza tra i gruppi Equivalentemente, testiamo la bontà della predizione che noi facciamo dando ad ogni soggetto il punteggio medio del gruppo (variabilità dovuta ai gruppi), rispetto all errore che facciamo 1 Per tutti i soggetti in gruppo=1 viene predetto 1 lo stesso punteggio 8 Per tutti i soggetti in gruppo= viene predetto lo stesso punteggio 6 4 Y 1 Ciò è il punteggio che otterremmo se le differenze fossero solo dovute al gruppo di appartenenza ANSWER -1 ANCHORD 1 Y o
Varianze nei gruppi Equivalentemente, stimiamo la bontà della predizione che noi facciamo dando ad ogni soggetto il punteggio medio del gruppo (variabilità dovuta ai gruppi), rispetto all errore che facciamo 1 Errore è la distanza tra il punteggio vero e la 1 media del gruppo 8 La variabilità dentro i gruppi è l errore che commettiamo 6 4 Y 1 ANSWER -1 1 Y o ANCHORD
Rapporto varianze Il rapporto tra le varianze, pesato per i gradi di libertà, equivale al test F var var between within ( Y ( Y g Y Y ) g ) / df / df bet. wit. F ANOVA b var between Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), ANCHOR b. Variabile dipendente: ANSWER Somma dei Media dei quadrati df quadrati F Sig. 388,181 1 388,181 134,63, a 41113,33 168 44,7 7391,513 169 df within df bet var within
Variabili Nominali Quando la variabile indipendente ha più di due gruppi, lasceremo la rappresentazione in termine di retta, ma manteniamo i concetti di varianza tra i gruppi e varianza nei gruppi Testeremo le differenze tra i gruppi in termini di F Ciò si chiama analisi della varianza (Analysis Of Variance)
Perdiamo la retta Perdiamo la rappresentazione in termini di una retta in quanto la variabile indipendente non è ordinabile in maniera univoca 9, 9, 8, 8, 7, 7, 6, birre birre 6, 5, 5, 4, 4, 3, 3,,,, Italia,5 1, rnazione Germania 1,5, Francia, Italia,5 1, nazione Francia 1,5, Germania
Perdiamo la retta Ed un unica retta (non spezzata) non potrebbe rappresentare i dati a nostra disposizione 9, 9, 8, 8, 7, 7, 6, birre birre 6, 5, 5, 4, 4, 3, 3,,,, Italia,5 1, rnazione Germania 1,5, Francia, Italia,5 1, nazione Francia 1,5, Germania
Manteniamo i rapporti di varianza Possiamo comunque testare le differenze tra le medie mediante il rapporto F Medie dei gruppi = punteggi predetti 9, 8, Distanze dalla media del gruppo di appartenenza = errore di predizione 7, birre 6, 5, 4, Rapporto varianza predetto/ varianza errore ci da la F 3,,, Italia,5 1, rnazione Germania 1,5, Francia
ANOVA in pratica In SPSS useremo una routine più generale della regressione, che consente di analizzare anche le variabili indipendenti nominali (modello lineare generalizzato) Modello Lineare Generalizzato: Univariato
ANOVA in pratica Variabile dipendente Variabile indipendente
Output Gradi di libertà Test F Variabilità dovuta a.. Variabile dipendente: birre Sorgente Modello corretto Intercetta nazione Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Tipo III df quadrati F Sig. 38,114 a 19,57 14,48, 897,454 1 897,454 166,8, 38,114 19,57 14,48, 19,74 97 1,338 356,398 1 167,854 99 a. R quadrato =,7 (R quadrato corretto =,11) Concluderemo che tra i tre gruppi c è una differenza significativa Valore-p: significatività Almeno due medie sono diverse
Ricerca Anoressia In ricerca sull anoressia* sono state misurate su un campione di 85 donne la propria figura reale, la figura ideale e l autostima. Pictorial Body Image Scale Il campione era formato da donne normo-peso e donne anoressiche
Ricerca Anoressia Group Validi A C Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 39 45.9 45.9 45.9 46 54.1 54.1 1. 85 1. 1. Vogliamo stabilire se ci sono delle differenze tra i due gruppi nel BIPS attuale e ideale Report Group A C Totale Media N Deviazione std. Media N Deviazione std. Media N Deviazione std. figura_reale figura_ideale 3.74.9 39 39 1.35.87 3.91 3.35 46 46.839.48 3.84 3.15 85 85 1.1.681
Distribuzione per gruppo BIPS reale Le medie di queste due distribuzioni sono uguali?
ANOVA Variabile dipendente: figura_reale Sorgente Modello corretto Intercetta Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale.66 a 1.66.498.483.6 137.31 1 137.31 115.915..94.66 1.66.498.483.6 11.88 83 1.18 135. 85 11.694 84 a. R quadrato =.6 (R quadrato corretto = -.6) Non vi sono differenze tra le medie dei due gruppi
Attenzione al grafico Il software produce un grafico delle medie che è sempre espanso e potrebbe far sembrare che vi sia una differenze Se l effetto non è significativo, il grafico non va guardato Notare la scala
BIPS ideale BIPS ideale Le medie di queste due distribuzioni sono uguali?
ANOVA Variabile dipendente: figura_ideale Sorgente Modello corretto Intercetta Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 3.88 a 1 3.88 8.977.4.98 89.97 1 89.97 1956.814..959 3.88 1 3.88 8.977.4.98 35.4 83.44 884. 85 39.1 84 a. R quadrato =.98 (R quadrato corretto =.87) Vi sono differenze tra le medie dei due gruppi Che spiegano circa 1% della varianza
Notare la scala Grafico delle medie
Analisi della covarianza Si potrebbe dubitare che la differenza sia dovuta alla differenza tra autostima possibile nei due gruppi Testiamo prima se vi è una differenza tra i gruppi nell autostima Poi testiamo le differenze nei tra PIBS ideale al netto dell autostima
ANOVA Variabile dipendente: Autostima Sorgente Modello corretto Intercetta Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 54.78 a 1 54.78 33.877..9 136.344 1 136.344 87.839..97 54.78 1 54.78 33.877..9 134.18 83 1.617 1549. 85 189. 84 a. R quadrato =.9 (R quadrato corretto =.81) Group Variabile dipendente: Autostima Group A C Limite Limite Media Errore std. inferiore superiore 3.18.4.73 3.533 Intervallo di confidenzale ragazze anoressiche hanno una 95% autostima più bassa 4.739.187 4.366 5.11
ANCOVA Ora proviamo a testare BIPS ideale tenendo costante la autostima Cioè facciamo una ANOVA ed inseriamo anche una variabile indipendente continua (come nella regressione) L effetto di GROUP sarà dunque la differenza tra Anoressiche e Controllo nel BIPS ideale tenendo costante le differenze in autostima (come se Anoressiche e Controllo fossero uguali nell autostima y a b GROUP b AS ˆi 1 GROUP=[ 1] AS=continua
ANCOVA Variabile dipendente: figura_ideale Sorgente Modello corretto Intercetta Autostima Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 4.55 a.17 5.19.9.19 66.538 1 66.538 156.978..657.447 1.447 1.54.38.13 1.65 1 1.65 3.89.5.45 34.757 8.44 884. 85 39.1 84 a. R quadrato =.19 (R quadrato corretto =.87) Al netto della autostima, le differenze tra gruppi si riducono
Riduzione delle differenze Eta-quadro per i gruppi Eta-quadro gruppi dopo parzializzato autostima
ANCOVA Ora proviamo a testare BIPS ideale tenendo costante BISP reale Variabile dipendente: figura_ideale Sorgente Modello corretto Intercetta figura_reale Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 8.433 a 4.16 11.36..16 34. 1 34. 91.763..58 4.65 1 4.65 1.4.1.131 3.167 1 3.167 8.49.5.94 3.579 8.373 884. 85 39.1 84 a. R quadrato =.16 (R quadrato corretto =.197)
Dunque Le ragazze anoressiche non si percepiscono come più magre delle ragazze normopese Le ragazze anoressiche hanno una immagine ideale molto più magra delle normopeso La differenza nella immagine ideale non dipende dalla percezione della immagine reale La differenza nella immagine ideale dipende in parte dalla propria autostima
Fine Fine della Lezione V