PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA COME INDIPENDENTE) E UNA VARIABILE CARDINALE (ASSUNTA COME DIPENDENTE) OBIETTIVO: STIMARE SE E IN QUALE MISURA LA VARIABILITA (IN SENSO STRETTO LA VARIANZA) DELLA VARIABILE CARDINALE (Y) SIA ATTRIBUIBILE ALLA VARIABILE NOMINALE (X) DALLA QUALE SI IPOTIZZA CHE ESSA DIPENDA (SE L IPOTESI PRENDE IN CONSIDERAZIONE UNA SOLA VARIABILE INDIPENDENTE SI PARLA DI ANALISI DELLA VARIANZA A UNA VIA O A UNA DIMENSIONE - ANOVA). PREMESSA: LA VARIANZA TOTALE DELLA VARIABILE INDIPENDENTE PUO ESSERE SCOMPOSTA IN DUE COMPONENTI: A) VARIANZA INTRA-GRUPPO, RELATIVA/INTERNA A CIASCUNA CATEGORIA DELLA VARIABILE INDIPENDENTE B) VARIANZA INTER-GRUPPO, RELATIVA ALLE DIVERSE CATEGORIE DELLA VARIABILE INDIPENDENTE IPOTESI CONDIZIONALE : SE X Y ALLORA LA VARIANZA INTRA-GRUPPO DEL CARATTERE DIPENDENTE SARA MINIMA O COMUNQUE NOTEVOLMENTE INFERIORE RISPETTO ALLA VARIANZA INTER-GRUPPO 1

ES: SI IPOTIZZI CHE LA PERCENTUALE DEI VOTI ASSEGNATI AD UN DATO PARTITO (a) IN CASO DI ELEZIONI POLITICHE PRESENTI, NEL NOSTRO PAESE, FORTI DIFFERENZIAZIONI TERRITORIALI, CONSIDERATE LA DIVERSA STRUTTURA SOCIO-ECONOMICA E LA DIVERSA CULTURA POLITICA DELLE PROVINCE ITALIANE. DA CUI X = ZONA GEO-POLITICA: variabile nominale che classifica/raggruppa le province italiane considerate in quattro categorie : ZONA A, ZONA B, ZONA C, ZONA D Y= % DI VOTO AL PARTITO (a): variabile cardinale, il cui andamento in funzione della X è esaminato nella Tabella seguente: (Tab. 13.23, in Corbetta, 1999, p. 600) E POSSIBILE DIMOSTRARE CHE: lo scarto di ogni singolo valore dalla media generale è uguale allo scarto dello stesso valore dalla media del gruppo cui appartiene + lo scarto della media del gruppo cui appartiene dalla media generale: ES: 37,1 39,0 = (37,1 38,2) + (38,2 39,0) = -1,9 = (- 1,1) + (- 0,9) E POSSIBILE DIMOSTRARE ANCHE CHE: la somma dei quadrati degli scarti di tutti i valori dalla media generale (somma dei quadrati o devianza = SQ totale) è uguale alla somma dei quadrati degli scarti dei singoli valori dalla rispettiva media di gruppo (SQ interna o intra-gruppo) + la somma dei quadrati degli scarti delle medie di gruppo dalla media generale (SQ esterna o inter-gruppo) == 2

TEOREMA FONDAMENTALE DELLA VARIANZA SQtotale= SQinterna o intra-gruppo + SQ esterna o inter-gruppo SQ interna = devianza non spiegata SQ esterna = devianza spiegata dalla variabile indipendente DA CUI 1. Quanto più i gruppi sono omogenei al loro interno, tanto più bassa sarà la SQ interna e tanto più la SQ totale sarà spiegata dalla SQ esterna: in tal caso la relazione di associazione tra le due variabili sarà perfetta ; 2. Quanto più i gruppi sono omogenei tra loro, tanto più bassa sarà la SQ esterna tanto più la SQ totale sarà dovuta alla SQ interna :in tal caso tra le due variabili ci sarà assenza di associazione. PASSI PROCEDURALI 1. Si calcolano la SQ interna e la SQ esterna della distribuzione bivariata presa in esame (Cfr. Tab. 13.24, in Corbetta, p. 602) 2. Di entrambe le componenti della varianza si calcolano i quadrati medi (QM)( mean squares) dividendo ciascuna somma di quadrati (devianza) per il relativo numero di gradi di libertà (Gl) Gl della devianza esterna = k (n dei gruppi = modalità della variabile indipendente) 1 Gl della devianza interna = N (dei casi) k Gl totale= N-1 QM interna o intragruppo = SQ interna / N-k QM esterna o intergruppo = SQ esterna / k-1 3

3. I risultati del calcolo vengono sintetizzati in una tavola ANOVA riassuntiva (cfr. Tab. 13.25 in Corbetta,p. 603) 4. Si stima la significatività della relazione Si parte dall ipotesi nulla secondo la quale le medie di gruppo provengono tutte dalla stessa popolazione Quindi nessuna parte della varianza osservata nella variabile dipendente è dovuta agli effetti di gruppo se l ipotesi nulla è vera allora QM interna o intragruppo = QM esterna o intergruppo se l ipotesi nulla è falsa allora QM interna o intragruppo QM esterna o intergruppo Problema: Quanto deve essere maggiore QM esterna o intergruppo rispetto a QM interna o intragruppo per poter rifiutare l ipotesi nulla? Si calcola il rapporto tra le due stime (rapporto F): QM esterna o intergruppo F = ------------------------------------ QM interna o intragruppo Il valore di F che si ottiene deve essere confrontato con il valore critico che corrisponde al punto di intersezione tra i Gl delle due stime nella tabella di distribuzione F. Tale tabella presenta in genere i valori critici corrispondenti ai livelli di probabilità ( ) dello 0,05 e dello 0,01. (cfr. Corbetta, pag. 631) 4

a) Se il valore ottenuto di F è uguale al valore critico che corrisponde ad 0,05 possiamo concludere che in caso di ipotesi nulla: abbiamo una probabilità pari allo 0,05 di avere un valore uguale a quello ottenuto ; b) se il valore ottenuto di F è maggiore a quello critico, la probabilità è ancora minore (e quindi è ancora meno plausibile l ipotesi di indipendenza tra le due variabili); c) se il valore ottenuto di F è inferiore rispetto a quello critico, allora è più probabile che le due variabili siano effettivamente indipendenti tra loro. Se F ci dà una misura della significatività della relazione, non ci dice però quale sia la forza dell associazione tra le due variabili; a tal fine si procede al calcolo del quoziente (o rapporto) di correlazione o eta-quadrato o 2 2 = rapporto fra la somma dei quadrati esterna (spiegata) e la somma dei quadrati totali Il valore di 2 è sempre compreso fra 0 e 1 SQ esterna o intergruppo 2 = ----------------------- SQ totale Interpretazione di 2 = il valore ottenuto viene interpretato in termini di percentuale della varianza della variabile dipendente che può essere spiegata dalla variabile indipendente ; si tende a considerare 2 rilevante a partire dal valore 0,10 (considerato che nelle scienze sociali, in generale, non si supera mai il valore di 2 0,30). 5

B) ANALISI DELLA CORRELAZIONE MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI VINCOLI CHE SI IMPONGONO ALLA SUA UTILIZZAZIONE: 1. la relazione deve essere lineare, cioè la progressione dei valori delle distribuzioni considerate può essere rappresentata, su un piano cartesiano, da una linea retta 2. la distribuzione dei valori considerati deve essere normale, cioè deve registrare la frequenza massima nell area centrale (intorno alla media) e quelle minime in corrispondenza dei valori estremi 3. la distribuzione deve essere omoscedastica, cioè la varianza di X deve risultare distribuita più o meno equamente lungo tutti i i valori di Y, e non essere asimmetricamente concentrata su certi valori invece che su altri PERCHE QUESTI VINCOLI? Perché solo a queste condizioni le medie su cui si basano l indice di correlazione e gli strumenti di analisi quantitativa da esso derivati costituiscono valori autenticamente centrali e rappresentativi delle distribuzioni esaminate nella loro relazione reciproca. N.B. Distribuzioni che non presentano queste caratteristiche possono essere normalizzate e linearizzate mediante apposite operazioni di trasformazione (quando ciò non sia possibile e/o opportuno si ricorre ad altre misure di associazione). 6

Le caratteristiche di una distribuzione si esaminano mediante un diagramma di dispersione (scattergram) che consiste in una rappresentazione grafica elementare effettuata mediante punti (cfr. Corbetta, figure pag. 607) Per misurare la forza della relazione di associazione tra due variabili cardinali o quasi-cardinali (ricordiamo essa può essere positiva, nel senso che le due variabili covariano nella medesima direzione, o negativa nel senso che controvariano) si utlizza il coefficiente di correlazione r = coefficiente di correlazione di Bravais-Pearson Formula di calcolo Coefficiente di correlazione lineare = r xy = cov( x, y) s x * s y CAMPO DI VARIAZIONE: 1/+1 = Rapporto fra la covarianza fra X e Y = N i 1 ( x x)( y e il prodotto delle deviazioni standard di X e Y i N i y) = cov(x,y) La misura di r può assumere valori compresi tra +1 e 1 : +1 = perfetta correlazione positiva o diretta: x e y variano nella stessa direzione 0 = la distribuzione è del tutto casuale: X ed Y sono reciprocamente indipendenti -1 = perfetta correlazione negativa o inversa: x e y variano in direzione opposta 7

Criteri orientativi per l interpretazione dei valori intermedi - fino a +/- 20 = correlazione molto bassa, relazione di associazione irrilevante - +/- 0,21-0,40 = correlazione bassa, relazione di associazione modesta - +/- 0,41-0,70 = correlazione media, relazione di associazione sostantiva - +/- 071-0,90 = correlazione alta, relazione di associazione marcata - +/- 0,91-1 = correlazione molto alta, relazione di associazione molto forte AVVERTENZE A) r come tutte le misure statistiche è molto sensibile ai valori di una distribuzione metrica B) r è artificiosamente basso se la varianza è bassa, e viceversa C) r tende ad essere particolarmente alto, quanto più N è basso pertanto si consiglia di eseguire l analisi grafica e accompagnare al valore di r XY le rispettive deviazioni standard e le rispettive varianze N.B. Il valore di r XY ci segnala la forza della relazione di associazione tra X e Y. Esso è tuttavia un test simmetrico, nel senso che il suo calcolo non è vincolato alla individuazione di quale fra X e Y costituisca la variabili dipendente e quale quella indipendente. Per di più, la loro relazione di associazione potrebbe essere dovuta all intervento di altre variabili >>>> coefficiente di correlazione parziale >>>> analisi multivariata Proprio perché test simmetrico, il valore di r elevato al quadrato (r 2 ) può essere interpretato in termini di varianza di Y spiegata da X e viceversa!! = qual è la percentuale di variazione di ciascuna delle due variabili che può essere attribuita a, ovvero spiegata da la variazione dell altra 8

r 2 = coefficiente di determinazione Es: se r = 0,60 condividono > r 2 = 0,36 = percentuale di variabilità che le due variabili infine Anche per r si può stimare il relativo livello di significatività, ricorrendo ad un apposita tavola di distribuzione dei valori critici di r, per verificare l ipotesi che il valore di r stimato nel campione sia, nella popolazione da cui il campione è stato estratto, significativamente diverso da 0,00 9