Introduzione all Analisi della Varianza (ANOVA)

Documenti analoghi
Analisi Multivariata dei Dati. Regressione Multipla

Il modello di regressione

Il modello di regressione

Metodologie Quantitative

Assunzioni (Parte I)

Analisi della Varianza Fattoriale. (Cap. 8)

Regressione Lineare Semplice e Correlazione

Analisi delle medie post ANOVA. (cap. 4 e 8)

Analisi Multivariata dei Dati

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Corso in Statistica Medica

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Analisi della Varianza Fattoriale

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Verifica delle ipotesi

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Analisi avanzate basate sulla regressione (Cap. 7)

1. variabili dicotomiche: 2 sole categorie A e B

Analisi delle medie (post ANOVA)

Regressione lineare semplice

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

PROBABILITÀ ELEMENTARE

Esercitazione del

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Tecniche statistiche di analisi del cambiamento

Elementi di Psicometria con Laboratorio di SPSS 1

Capitolo 12 La regressione lineare semplice

Argomenti della lezione:

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Metodi statistici per le ricerche di mercato

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Metodologie Quantitative

Statistica descrittiva: analisi di regressione

Analisi della varianza

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Il modello lineare misto

STATISTICA. Regressione-4 ovvero Macron!

ANALISI MULTIVARIATA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

STATISTICA A K (60 ore)

Tecniche statistiche di analisi del cambiamento

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

viii Indice generale

Test delle Ipotesi Parte I

Regressione & Correlazione

Statistica multivariata Donata Rodi 17/10/2016

Esercizi di statistica

Dispensa di Statistica

Test F per la significatività del modello

Analisi Multivariata dei Dati. Regressione Multipla (cap. 3)

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

La regressione lineare semplice

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Fasi del modello di regressione

Prefazione Ringraziamenti

Analisi della varianza a una via

Modelli Log-lineari Bivariati

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Matematica Lezione 22

Teoria e tecniche dei test. Concetti di base

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

Misure Ripetute. Partizione della Varianza. Marcello Gallucci

Analisi avanzate della regressione: la moderazione (Cap. 5 )

ESERCIZIO 1. Di seguito vengono riportati i risultati di una regressione multipla effettuata secondo il metodo standard (o per blocchi )

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

STATISTICA. Regressione-2

STATISTICA. Regressione-2

Statistica Inferenziale

Analisi della Varianza - II

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Introduzione al Corso

Rappresentazioni grafiche di distribuzioni doppie

Analisi della Varianza - II

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Stima dei parametri di modelli lineari

COGNOME.NOME...MATR..

LABORATORI DI STATISTICA SOCIALE

STATISTICA. Esercizi vari

Esercizi di statistica inferenziale

Statistica economica

Tecniche statistiche di analisi del cambiamento

Transcript:

Introduzione all Analisi della Varianza (ANOVA) AMD Marcello Gallucci marcello.gallucci@unimib.it

Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa e, per quello che abbiamo visto, anche le variabili indipendenti 1 Variabili quantitative 9 8 7 6 ˆ y i a b x yx i 5 4 3 SORRISI 1 - -1 1 3 4 5 6 7 8 9 1 11 1 BIRRE

Regressione NS La retta di regressione rappresenta la predizione lineare (o dipendenza lineare) tra una variabile indipendente ed una dipendente, espressa nelle unità di misura originali 1 9 8 7 6 5 4 3 SORRISI 1 - -1 1 3 4 5 6 7 8 9 1 11 1 BIRRE

Variabili Nominali (categoriche) Nelle variabili nominali i valori indicano sono delle qualità, cioè sono equivalenti a delle etichette Punteggi N di birre Regione di Provenienza Aumentare di una unità significa solo cambiare quantità Media, varianza non hanno senso 3 nord 4 nord nord 1 nord 3 centro 4 centro 6 centro 7 centro nord 3 nord

Variabili Nominali Esempi di variabili nominali: Sesso (Donne=1 Uomini=) Nazionalità (es. Francese=1, Tedesco= e Italiano=3) Facoltà (es. Psicologia=1, Informatica=, Medicina=3) Gruppi sperimentali (es. Trattamento=1, Placebo=) In generale, le variabili nominali indicano in quale gruppo il soggetto appartiene

Variabili Nominali Nelle variabili nominali, l unità di misura non ha la stessa interpretazione ad ogni livello della scala di misura Passare da Italiano a Francese, non è la stessa cosa che passare da Francese a Tedesco Qualunque numero che distingua i gruppi rappresenta la stessa qualità In generale, i valori numerici dati ai soggetti sono arbitrari

Effetti delle Variabili Nominali Consideriamo il caso in cui la variabile indipendente sia nominale, e intendiamo stimare l effetto di tale variabile su una variabile quantitativa In sostanza, ci proponiamo di esaminare se ci sono differenze fra i gruppi della variabile nominale

Esperimento Variabili nominali si trovano spesso negli esperimenti Nel seguente esperimento testiamo l effetto di un ancoraggio cognitivo sulla stima delle quantità numeriche: Domanda 1 a tutti i soggetti: Secondo te, le nazioni africane alle nazioni unite sono più o meno del X %. Ancora Var. Dipendente Domanda : Quante sono le nazioni africane in percentuale alle nazioni unite Gruppo 1: ancora 1%. Gruppo : ancora 8% Condizione sperimentale

Esperimento: Risultati 1 1 8 6 4 Quesito sperimentale: L ancoraggio ha un effetto significativo sulla stima numerica? ANSWER ANCHOR 1 8 Totale Report Deviazione Media N std. 17,447 85 1,897 44,888 85 19,68864 3,9368 17,9144 ANSWER ANCHOR 4 6 8 1 C e un differenza significativa? Quanto spieghiamo con tale differenza?

Regressione Partiamo da ciò che sappiamo: Regressione Codifichiamo la variabile indipendente come Gruppo ancora 1% X= Gruppo ancora 8% X=1 1 1 8 6 4 Stimiamo la regressione ANSWER -1 ANCHORD 1

Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione 1 1 8 6? ANSWER 4-1? 1 ANCHORD

Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione Ricordiamo che la regressione è la retta che minimizza la distanza tra i punti osservati e quelli stimati 1 1 8 6 4 Ricordiamo che in una distribuzione, la media è il valore che minimizza la distanza tra i punteggi osservati e se stessa ANSWER -1 ANCHORD 1

Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione Ricordiamo che la regressione è la retta che minimizza la distanza tra i punti osservati e quelli stimati 1 1 8 6 4 Ricordiamo che in una distribuzione, la media è il valore che minimizza la distanza tra I punti osservati e se stessa ANSWER -1 ANCHORD Questa non è altro che la distribuzione di Y per X= 1

Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione Ricordiamo che la regressione è la retta che minimizza la distanza tra i punti osservati e quelli stimati 1 1 8 6 4 Questa non è altro che la distribuzione di Y per X=1 Ricordiamo che in una distribuzione, la media è il valore che minimizza la distanza tra I punti osservati e se stessa ANSWER -1 ANCHORD Questa non è altro che la distribuzione di Y per X= 1

Regressione Dove passerà la regressione? Quali valori di Y saranno indicati dalla regressione 1 Dunque la regressione passerà necessariamente per la media di Y per il gruppo X= e per la media di Y per il gruppo X=1 1 8 6 4 Y 1 ANSWER -1 1 Y o ANCHORD

Coefficiente di Regressione Quale valore indicherà il coefficiente di regressione? 1 Ricordiamo che B indica il cambiamento atteso in Y al variare di X di una unità 1 8 6 Y 1 Cambiamento in Y ANSWER 4-1 1 Y o ANCHORD Aumento X di una unità

Coefficiente di Regressione Quale valore indicherà il coefficiente di regressione? Y a b X 1 X= cioè gruppo 1% 1 Y a B a Y o 8 X=1 cioè gruppo 8% 6 Y 1 Y Y B 1 Y 1 Differenza B Y 1 Y o ANSWER 4-1 ANCHORD 1 Y o

Coefficiente di Regressione Se la variabile indipendente è dicotomica, il coefficiente ci indica la differenza tra i gruppi 1 1 Differenza tra le medie dei gruppi 8 6 Y 1 B Y 1 Y o ANSWER 4-1 1 Y o ANCHORD

Inferenza statistica Se il coefficiente è significativo (possiamo rifiutare l ipotesi nulla b=), allora diremo che esiste una differenza significativa tra i gruppi Report ANSWER ANCHOR 1 8 Totale Deviazione Media N std. 17,447 85 1,897 44,888 85 19,68864 3,9368 17,9144 Test inferenziale Coefficienti a Modello 1 (Costante) ANCHOR Coefficienti non standardizzati a. Variabile dipendente: ANSWER Coefficienti standardizzati B Errore std. Beta t Sig. 17,45 1,697 1,45, 7,784,4,666 11,579, Significatività

Inferenza statistica ANSWER ANCHOR 1 8 Totale Concluderemo che esiste un effetto dell ancora sulle stime delle quantità Report Deviazione Media N std. 17,447 85 1,897 44,888 85 19,68864 3,9368 17,9144 C è un differenza significativa tra le medie dei gruppi Test inferenziale Modello 1 (Costante) ANCHOR Coefficienti non standardizzati a. Variabile dipendente: ANSWER Coefficienti a Coefficienti standardizzati B Errore std. Beta t Sig. 17,45 1,697 1,45, 7,784,4,666 11,579, Significatività

Test sulla varianza Guardiamo ora il test fatto sulla varianza spiegata Modello 1 Modello 1 Riepilogo del modello R-quadrato Errore std. R R-quadrato corretto della stima,666 a,444,441 15,6436 a. Stimatori: (Costante), ANCHOR Regressione Residuo Totale a. Stimatori: (Costante), ANCHOR b. Variabile dipendente: ANSWER ANOVA b Somma dei Media dei quadrati df quadrati F Sig. 388,181 1 388,181 134,63, a 41113,33 168 44,7 7391,513 169 Test inferenziale Ricordiamo il significato della F? Significatività

Test per il coefficiente R Come si ottiene la F Varianza spiegata Varianza errore F Rxy n k 1 R k xy Gdl errore 1 # variabili indipendenti Il rapporto fra varianza spiegata e varianza di errore (moltiplicato per il rapporto fra gradi di libertà) si distribuisce secondo una distribuzione F con k e n-k-1 gdl Lezione: 1

Test per il coefficiente R Come si ottiene la F Varianza spiegata Varianza errore f R 1 xy 1 R xy n k k Gdl errore # variabili indipendenti s ez Y zz s regz X z

Rapporto varianza Se la variabile indipendente è dicotomica, la varianza di errore sarà la somma delle varianza dentro i gruppi 1 Varianza non catturata dalla regressione 1 8 var gruppo 1 ( Y 1 ) i Yo n 6 4 Y 1 Varianza dentro i gruppi (within groups) ANSWER -1 ANCHORD Y o 1 var gruppo 1 ( Y1 Y 1 n 1 ) i 1

Rapporto varianza Se la variabile indipendente è dicotomica, la varianza spiegata è la varianza tra i punteggi predetti 1 Varianza catturata regressione 1 Media totale di Y 8 var bet ( Y g df Y Varianza tra i gruppi (between groups) ) ANSWER 6 4-1 1 Y 1 Y o ANCHORD

Varianza tra i gruppi Equivalentemente, testiamo la bontà della predizione che noi facciamo dando ad ogni soggetto il punteggio medio del gruppo (variabilità dovuta ai gruppi), rispetto all errore che facciamo 1 Per tutti i soggetti in gruppo=1 viene predetto 1 lo stesso punteggio 8 Per tutti i soggetti in gruppo= viene predetto lo stesso punteggio 6 4 Y 1 Ciò è il punteggio che otterremmo se le differenze fossero solo dovute al gruppo di appartenenza ANSWER -1 ANCHORD 1 Y o

Varianze nei gruppi Equivalentemente, stimiamo la bontà della predizione che noi facciamo dando ad ogni soggetto il punteggio medio del gruppo (variabilità dovuta ai gruppi), rispetto all errore che facciamo 1 Errore è la distanza tra il punteggio vero e la 1 media del gruppo 8 La variabilità dentro i gruppi è l errore che commettiamo 6 4 Y 1 ANSWER -1 1 Y o ANCHORD

Rapporto varianze Il rapporto tra le varianze, pesato per i gradi di libertà, equivale al test F var var between within ( Y ( Y g Y Y ) g ) / df / df bet. wit. F ANOVA b var between Modello 1 Regressione Residuo Totale a. Stimatori: (Costante), ANCHOR b. Variabile dipendente: ANSWER Somma dei Media dei quadrati df quadrati F Sig. 388,181 1 388,181 134,63, a 41113,33 168 44,7 7391,513 169 df within df bet var within

Variabili Nominali Quando la variabile indipendente ha più di due gruppi, lasceremo la rappresentazione in termine di retta, ma manteniamo i concetti di varianza tra i gruppi e varianza nei gruppi Testeremo le differenze tra i gruppi in termini di F Ciò si chiama analisi della varianza (Analysis Of Variance)

Perdiamo la retta Perdiamo la rappresentazione in termini di una retta in quanto la variabile indipendente non è ordinabile in maniera univoca 9, 9, 8, 8, 7, 7, 6, birre birre 6, 5, 5, 4, 4, 3, 3,,,, Italia,5 1, rnazione Germania 1,5, Francia, Italia,5 1, nazione Francia 1,5, Germania

Perdiamo la retta Ed un unica retta (non spezzata) non potrebbe rappresentare i dati a nostra disposizione 9, 9, 8, 8, 7, 7, 6, birre birre 6, 5, 5, 4, 4, 3, 3,,,, Italia,5 1, rnazione Germania 1,5, Francia, Italia,5 1, nazione Francia 1,5, Germania

Manteniamo i rapporti di varianza Possiamo comunque testare le differenze tra le medie mediante il rapporto F Medie dei gruppi = punteggi predetti 9, 8, Distanze dalla media del gruppo di appartenenza = errore di predizione 7, birre 6, 5, 4, Rapporto varianza predetto/ varianza errore ci da la F 3,,, Italia,5 1, rnazione Germania 1,5, Francia

ANOVA in pratica In SPSS useremo una routine più generale della regressione, che consente di analizzare anche le variabili indipendenti nominali (modello lineare generalizzato) Modello Lineare Generalizzato: Univariato

ANOVA in pratica Variabile dipendente Variabile indipendente

Output Gradi di libertà Test F Variabilità dovuta a.. Variabile dipendente: birre Sorgente Modello corretto Intercetta nazione Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Tipo III df quadrati F Sig. 38,114 a 19,57 14,48, 897,454 1 897,454 166,8, 38,114 19,57 14,48, 19,74 97 1,338 356,398 1 167,854 99 a. R quadrato =,7 (R quadrato corretto =,11) Concluderemo che tra i tre gruppi c è una differenza significativa Valore-p: significatività Almeno due medie sono diverse

Ricerca Anoressia In ricerca sull anoressia* sono state misurate su un campione di 85 donne la propria figura reale, la figura ideale e l autostima. Pictorial Body Image Scale Il campione era formato da donne normo-peso e donne anoressiche

Ricerca Anoressia Group Validi A C Totale Percentuale Percentuale Frequenza Percentuale valida cumulata 39 45.9 45.9 45.9 46 54.1 54.1 1. 85 1. 1. Vogliamo stabilire se ci sono delle differenze tra i due gruppi nel BIPS attuale e ideale Report Group A C Totale Media N Deviazione std. Media N Deviazione std. Media N Deviazione std. figura_reale figura_ideale 3.74.9 39 39 1.35.87 3.91 3.35 46 46.839.48 3.84 3.15 85 85 1.1.681

Distribuzione per gruppo BIPS reale Le medie di queste due distribuzioni sono uguali?

ANOVA Variabile dipendente: figura_reale Sorgente Modello corretto Intercetta Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale.66 a 1.66.498.483.6 137.31 1 137.31 115.915..94.66 1.66.498.483.6 11.88 83 1.18 135. 85 11.694 84 a. R quadrato =.6 (R quadrato corretto = -.6) Non vi sono differenze tra le medie dei due gruppi

Attenzione al grafico Il software produce un grafico delle medie che è sempre espanso e potrebbe far sembrare che vi sia una differenze Se l effetto non è significativo, il grafico non va guardato Notare la scala

BIPS ideale BIPS ideale Le medie di queste due distribuzioni sono uguali?

ANOVA Variabile dipendente: figura_ideale Sorgente Modello corretto Intercetta Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 3.88 a 1 3.88 8.977.4.98 89.97 1 89.97 1956.814..959 3.88 1 3.88 8.977.4.98 35.4 83.44 884. 85 39.1 84 a. R quadrato =.98 (R quadrato corretto =.87) Vi sono differenze tra le medie dei due gruppi Che spiegano circa 1% della varianza

Notare la scala Grafico delle medie

Analisi della covarianza Si potrebbe dubitare che la differenza sia dovuta alla differenza tra autostima possibile nei due gruppi Testiamo prima se vi è una differenza tra i gruppi nell autostima Poi testiamo le differenze nei tra PIBS ideale al netto dell autostima

ANOVA Variabile dipendente: Autostima Sorgente Modello corretto Intercetta Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 54.78 a 1 54.78 33.877..9 136.344 1 136.344 87.839..97 54.78 1 54.78 33.877..9 134.18 83 1.617 1549. 85 189. 84 a. R quadrato =.9 (R quadrato corretto =.81) Group Variabile dipendente: Autostima Group A C Limite Limite Media Errore std. inferiore superiore 3.18.4.73 3.533 Intervallo di confidenzale ragazze anoressiche hanno una 95% autostima più bassa 4.739.187 4.366 5.11

ANCOVA Ora proviamo a testare BIPS ideale tenendo costante la autostima Cioè facciamo una ANOVA ed inseriamo anche una variabile indipendente continua (come nella regressione) L effetto di GROUP sarà dunque la differenza tra Anoressiche e Controllo nel BIPS ideale tenendo costante le differenze in autostima (come se Anoressiche e Controllo fossero uguali nell autostima y a b GROUP b AS ˆi 1 GROUP=[ 1] AS=continua

ANCOVA Variabile dipendente: figura_ideale Sorgente Modello corretto Intercetta Autostima Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 4.55 a.17 5.19.9.19 66.538 1 66.538 156.978..657.447 1.447 1.54.38.13 1.65 1 1.65 3.89.5.45 34.757 8.44 884. 85 39.1 84 a. R quadrato =.19 (R quadrato corretto =.87) Al netto della autostima, le differenze tra gruppi si riducono

Riduzione delle differenze Eta-quadro per i gruppi Eta-quadro gruppi dopo parzializzato autostima

ANCOVA Ora proviamo a testare BIPS ideale tenendo costante BISP reale Variabile dipendente: figura_ideale Sorgente Modello corretto Intercetta figura_reale Group Errore Totale Totale corretto Test degli effetti fra soggetti Somma dei quadrati Media dei Eta quadrato Tipo III df quadrati F Sig. parziale 8.433 a 4.16 11.36..16 34. 1 34. 91.763..58 4.65 1 4.65 1.4.1.131 3.167 1 3.167 8.49.5.94 3.579 8.373 884. 85 39.1 84 a. R quadrato =.16 (R quadrato corretto =.197)

Dunque Le ragazze anoressiche non si percepiscono come più magre delle ragazze normopese Le ragazze anoressiche hanno una immagine ideale molto più magra delle normopeso La differenza nella immagine ideale non dipende dalla percezione della immagine reale La differenza nella immagine ideale dipende in parte dalla propria autostima

Fine Fine della Lezione V