L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Documenti analoghi
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Analisi della varianza

Regressione lineare semplice

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Argomenti della lezione:

Metodi statistici per le ricerche di mercato

lezione 4 AA Paolo Brunori

Corso in Statistica Medica

Esercizi di statistica

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Capitolo 12 La regressione lineare semplice

Statistica multivariata Donata Rodi 17/10/2016

Analisi della varianza

Tecniche statistiche di analisi del cambiamento

Corso di Psicometria Progredito

La regressione lineare semplice

ESERCITAZIONI N. 3 corso di statistica

Correlazione e regressione

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

STATISTICA. Esercitazione 5

Argomenti della lezione:

Indipendenza, Dipendenza e interdipendenza

REGRESSIONE E CORRELAZIONE

Regressione & Correlazione

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

La regressione lineare. Rappresentazione analitica delle distribuzioni

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Regressione Lineare Semplice e Correlazione

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Teoria e tecniche dei test. Concetti di base

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

Rappresentazioni grafiche di distribuzioni doppie

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Statistica economica

STATISTICA MULTIVARIATA SSD MAT/06

Esercitazione del

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Metodologie Quantitative

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Analisi della varianza a una via

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

TECNICHE DI ANALISI DEI DATI

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Elementi di Psicometria con Laboratorio di SPSS 1

Premessa: la dipendenza in media

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

STATISTICA. Regressione-2

Ulteriori Conoscenze di Informatica e Statistica

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Dispensa di Statistica

Esercizi su Regressione e Connessione

Contenuti: Capitolo 14 del libro di testo

Modelli e procedure per l educazione degli adulti

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Matematica Lezione 22

Lezione 4 a - Misure di dispersione o di variabilità

Statistica descrittiva: analisi di regressione

Elementi di Psicometria (con laboratorio software 1)

Test F per la significatività del modello

Casa dello Studente. Casa dello Studente

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Statistica multivariata Donata Rodi 08/11/2016

Metodi statistici per le ricerche di mercato

ESERCITAZIONI N. 3 corso di statistica

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Cognome e nome Tempo disponibile: 75 minuti

Analisi della varianza

STATISTICA A K (60 ore)

LA REGRESSIONE LINEARE SEMPLICE

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Metodi statistici per le ricerche di mercato

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica descrittiva

L'analisi monovariata

SCOPO DELL ANALISI DI CORRELAZIONE

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Ringraziamenti dell Editore

Relazioni Statistiche

Transcript:

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale

L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni fra una variabile categoriale (nominale oppure ordinale) e una variabile cardinale (o quasi cardinale) si chiama analisi della varianza. L analisi della varianza serve a studiare la relazione tra una variabile categoriale (X) e una variabile cardinale (Y): X è in ipotesi indipendente, le sue singole categorie (modalità) si definiscono gruppi ; Y è in ipotesi dipendente da X. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 2

L analisi della varianza (ANOVA) Le modalità di una variabile cardinale sono troppo numerose perché una tavola di contingenza risulti leggibile, d altro canto è possibile utilizzare misure di sintesi (medie e varianze) non utilizzabili per le variabili categoriali. Dunque se la X è categoriale e la Y è cardinale possiamo confrontare queste misure di sintesi calcolate per la Y entro i gruppi definiti dalla X. Lo scopo dell analisi della varianza è testare l ipotesi che la varianza di Y dipenda da X, o in altre parole che le medie dei gruppi costituiti dalle modalità di X sulla variabile Y siano significativamente differenti. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 3

L analisi della varianza (ANOVA) Esempio: i tassi di omicidio dipendono dal tipo di città nei quali avvengono. L analisi della varianza verifica l ipotesi nulla: H 0 : tutte le medie sono uguali tra di loro Cioè: H 0 : il tasso di omicidi non dipende dal tipo di città dove si verificano L ipotesi alternativa è: Cioè: H 1 : almeno una media è diversa dalle altre H 1 : esiste almeno un gruppo identificato dal tipo di città per cui il tasso di omicidi ha una media diversa da quella di un altra. L ipotesi nulla viene rifiutata se c è almeno un gruppo con una media significativamente diversa da quella di un altro. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 4

Modello teorico: la devianza La devianza rappresenta la somma dei quadrati degli scostamenti tra ogni punteggio e la media. La formula della devianza: N i=1 SQ = y i Ym 2 Viene riferita alle sue due componenti: I diversi tipi di devianza: la devianza totale è la somma dei quadrati degli scarti (differenza tra i singoli punteggi e la media generale della variabile); devianza tra i gruppi: è la somma dei quadrati degli scarti (differenza tra i punteggi medi di gruppo e la media generale), ovvero la variabilità tra i diversi gruppi; devianza entro i gruppi: è la somma dei quadrati degli scarti tra i punteggi di ogni soggetto e la relativa media di gruppo, ovvero alla variabilità dei soggetti all interno di ogni gruppo Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 5

La scomposizione della varianza y i y m = (y i y m ) + (y i y m ) Ossia: singolo valore media generale = (singolo valore media entro il gruppo) + (media di gruppo media generale). Elevando al quadrato entrambi i membri dell equazione, si ottiene la devianza, ossia il numeratore della varianza. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 6

p n å i j=1 La scomposizione della varianza å ( y ij - y) 2 º ån ( i y i - y) 2 Å y ij - y i i=1 p i=1 p å i=1 n å i j=1 ( ) 2 Dove p è il numero dei gruppi, n è il numero dei casi, y ij il singolo valore della distribuzione, ŷ la media generale, ŷ i la media dei gruppi. Somma interna dei quadrati (devianza non spiegata) Somma esterna dei quadrati (devianza spiegata) Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 7

Devianza spiegata e non spiegata Il concetto di devianza spiegata (e quello di devianza non spiegata) fa riferimento alla capacità esplicativa della variabile categoriale (indipendente): la devianza spiegata è la parte di variabilità della variabile dipendente attribuibile alla variabile indipendente (nell esempio è la parte della variabilità del tasso di omicidi attribuibile al tipo di città); la devianza non spiegata è la parte di variabilità di Y non attribuibile a X (cioè la parte di variabilità del tasso di omicidi non attribuibile al tipo di città). Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 8

La devianza totale La variabilità totale della variabile dipendente Y è descritta dalla devianza totale (cioè dalla somma dei quadrati degli scarti dalla media). La somma dei quadrati (SQ) di quanto il tasso di omicidi di ciascuna città si discosta dalla media generale del tasso di omicidi. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 9

La devianza spiegata La variabilità fra i gruppi (definiti dalle modalità di X) è descritta dalla devianza tra i gruppi (cioè dalla somma dei quadrati degli scarti tra le medie dei gruppi e la media generale, detta anche somma esterna dei quadrati o devianza spiegata): La somma dei quadrati di quanto il tasso di omicidi di ciascun gruppo individuato dal tipo di città si discosta dalla media generale del tasso di omicidi. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 10

La scomposizione della varianza Ad ognuna delle devianze sono associati i gradi di libertà: la devianza totale ha n 1 gradi di libertà (dove n è la numerosità dei casi); la devianza tra gruppi ha p 1 gradi di libertà (dove p è il numero dei gruppi); la devianza entro i gruppi ha n p gradi di libertà. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 11

La scomposizione della varianza Dividendo la devianza per i gradi di libertà si ottiene la stima della varianza della popolazione. p ån i i=1 ( y i - y) 2 p-1 p å i=1 n å i ( y ij - y ) 2 i j=1 n- p Varianza tra i gruppi Varianza entro i gruppi Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 12

I gradi di libertà Per ottenere le stime della variabile dipendente, una volta che si hanno le somme dei quadrati, sarà sufficiente dividere ciascuna di esse per il numero dei gradi di libertà. N 1 = (N k) + (k 1) Gradi di libertà totali Gradi di libertà interni Gradi di libertà esterni Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 13

L analisi della varianza (ANOVA) Tassi di omicidio Città industriali Città commerciali Città politiche Totali 4,3 5,1 12,5 2,8 6,2 3,1 12,3 1,8 1,6 16,3 9,5 6,2 5,9 4,1 3,8 7,7 3,6 7,1 9,1 11,2 11,4 10,2 3,3 1,9 Somme 68,6 44,8 47,6 161,0 Medie 8,58 5.60 5,95 6,71 Numero casi 8 8 8 24 Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 14

L analisi della varianza (ANOVA): somma dei quadrati interna Tassi di omicidio Città industriali Città commerciali Città politiche Totali (4,3-8,58) 2 (5,1-5,60) 2 (12,5 5,95) 2 (2,8-8,58) 2 (6,2-5,60) 2 (3,1 5,95) 2 (12,3-8,58) 2 (1,8-5,60) 2 (1,6 5,95) 2 (16,3-8,58) 2 (9,5-5,60) 2 (6,2 5,95) 2 (5,9-8,58) 2 (4,1-5,60) 2 (3,8 5,95) 2 (7,7-8,58) 2 (3,6-5,60) 2 (7,1 5,95) 2 (9,1-8,58) 2 (11,2-5,60) 2 (11,4 5,95) 2 (10,2-8,58) 2 (3,3-5,60) 2 (1,9 5,95) 2 Somme 136,15 73,16 122,06 331,235 Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 15

L analisi della varianza (ANOVA): somma dei quadrati esterna Tassi di omicidio Città industriali Città commerciali Città politiche Totali (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 (8,58 6,71) 2 (5,60 6,71) 2 (5,95 6,71) 2 Somme 27,9752 9,8568 4,6208 42,4528 Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 16

L analisi della varianza (ANOVA): somma dei quadrati totale SQ totale = SQ interna + SQ esterna SQ totale = 331,235 + 42,303 = 373,538 SQ GL Stima Totale 373,538 N 1 = 23 Esterna 42,453 K 1 = 2 21,23 Interna 331,235 N k = 20 16,56 Rapporto F 21,23/16,53 1,28 Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 17

Il test F di Fisher Infine, si calcola il test F, che serve a verificare l ipotesi di uguaglianza delle medie confrontando varianza spiegata e varianza non spiegata: varianza tra gruppi F = varianza entro i gruppi Se l ipotesi nulla è vera le due stime della varianza sono uguali; se è falsa la stima esterna è maggiore di quella interna. La statistica F ha una distribuzione campionaria conosciuta, segue una distribuzione F di Fisher, cioè si conosce il suo valore critico in base al quale respingere o accettare H 0 a seconda dei gradi di libertà delle due stime. Esistono tabelle dei valori critici a seconda della significatività e la regola decisionale è: Rifiuto H 0 se F (calcolato) > Fα (tabulato). Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 18

La forza della relazione: eta quadrato Il confronto tra le medie dei gruppo può rendere conto della forza della relazione: tanto più le medie differiscono tra loro maggiore sarà la forza della relazione. Esistono però diversi coefficienti per quantificare questa forza, il più semplice è l eta-quadrato, dato dal rapporto tra la somma dei quadrati esterna (cioè la devianza spiegata) e la somma dei quadrati totale (la devianza totale). η 2 = SQ esterna SQ totale Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 19

La forza della relazione: eta quadrato Varia tra 0 (assenza di relazione) e 1 (relazione perfetta, tutta la devianza di Y è attribuibile a X) ed è chiamato anche rapporto di correlazione di Pearson. L eta-quadrato risente del numero delle categorie della variabile categoriale, quindi si deve fare attenzione nel confrontare etaquadrati di una stessa Y con X aventi un numero di modalità differenti, inoltre presenta dei problemi se il numero dei casi in ogni gruppo è troppo ridotto. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 20

Correlazione e regressione Nel caso entrambe le variabili siano cardinali è possibile analizzare sia la forza che la forma della relazione, ma è necessario utilizzare due differenti strumenti: la correlazione serve ad analizzare la forza di una relazione; la regressione (la più semplice e utilizzata è quella lineare) permette di analizzarne la forma. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 21

Relazione lineare diretta Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 22

Relazione lineare inversa Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 23

Relazione non lineare Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 24

Assenza di relazione Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 25

Correlazione e regressione Questi due strumenti si differenziano anche per quanto riguarda la direzione della relazione: la correlazione serve a quantificare la forza della relazione, dunque non dipende dalla sua direzione (il valore del coefficiente è lo stesso sia che Y dipenda da X sia che X dipenda da Y); la regressione identificando la forma della relazione cambia a seconda della sua direzione: se ipotizziamo che Y dipenda da X avremo una funzione diversa di quella che otterremmo ipotizzando che X dipenda da Y. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 26

Il coefficiente di correlazione Il coefficiente di correlazione r, detto anche coefficiente di correlazione di Bravais- Pearson, misura la forza di una relazione tra due variabili cardinali: Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 27

Il coefficiente di correlazione E il rapporto tra la covarianza fra X e Y e il prodotto delle deviazioni standard di X e di Y (se infatti dividiamo tutto per N, cioè per la numerosità campionaria otteniamo la covarianza al numeratore e il prodotto tra le varianze al denominatore). Questo coefficiente non dipende dalla direzione della relazione, e assume valore +1 in caso di perfetta relazione positiva; -1 in caso di perfetta relazione negativa e 0 in assenza di relazione (in caso di relazione perfetta i punti sono tutti allineati su una retta di regressione). Si tratta inoltre di un numero puro, quindi non risente dell unità di misura delle due variabili in analisi. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 28

Coefficiente di correlazione di Pearson Il coefficiente di correlazione di Pearson ha diversi pregi: È insensibile ai mutamenti di scala È sensibile alla vicinanza dei punti alla retta di regressione e quindi misura l esattezza con cui tale retta riproduce i valori di Y sulla base dei valori di y, ossia misura il grado di adattamento. Il suo valore oscilla tra -1 (massima correlazione negativa) e +1 (massima correlazione positiva) Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 29

La regressione lineare semplice Descrive la relazione che associa due variabili Viene identificata una funzione matematica (retta) che esprime i valori assunti da un carattere come funzione dei valori assunti da un altro carattere Si cerca di individuare la retta che rappresenti al meglio i punti empirici (dati) viene usato il metodo dei minimi quadrati che minimizza la somma degli scarti tra i valori osservati e quelli teorici (sulla retta). la retta di regressione migliora la previsione del carattere dipendente quando si conosce la modalità del carattere indipendente. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 30

La regressione lineare semplice Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 31

La regressione lineare semplice: distorsioni imputabili agli outliers Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 32

Il coefficiente di determinazione La devianza totale di un modello di regressione può essere scomposta in due termini: devianza della regressione attribuibile cioè alla relazione che sussiste fra y ed Y, calcolata come differenza dalla retta di regressione dal valore medio. devianza dell errore (devianza residua) che non è imputabile alla relazione fra y ed Y ma ad altri fattori. Calcolata come differenza tra il valore osservato di Y e quello stimato. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 33

Il coefficiente di determinazione R 2 In formula: Il coefficiente di determinazione R 2 : 0 R 2 1 Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 34

Il coefficiente di determinazione R 2 Il quadrato del coefficiente r è l Rquadrato. Dunque, se r è pari a 0,5 da un lato possiamo dire che il 25% della variazione della variabile dipendente è spiegata da quella della variabile indipendente, dall altro non possiamo interpretare un r = 0,5 come pari alla metà della correlazione perfetta. Prof. Stefano Nobile L'analisi bivariata (analisi della varianza e correlazione) 35