70 3000 500 000 1500 1000 500 A B C D (a) Capitolo Terzo A B C D 500 1000 1500 000 5003000 3500 Fig. 1 - Ortogramma a colonne (a) e ortogramma a nastri (b) 4. MISURE DI ASSOCIAZIONE E DI COGRADUAZIONE Per misurare la forza o intensità della relazione tra due variabili la statistica ha approntato delle misure; a tal proposito si distingue: se le variabili sono nominali, si parla di misure di associazione; se le variabili sono ordinali, si parla di misure di cograduazione. La distinzione non è tassativa in quanto le misure di associazione possono essere applicate anche alle variabili ordinali. Per misurare la forza di tale relazione andiamo ad analizzare il concetto di indipendenza in statistica. È noto dalla matematica che una variabile Y si dice indipendente da una variabile X se la prima rimane costante al variare dei valori assunti dalla seconda. In caso contrario si dice che Y è funzione di X. Per analizzare l indipendenza tra variabili ci serviremo di un esempio, basta solo premettere che gli indici statistici in grado di evidenziare l indipendenza di una variabile da un altra sono basati sulle frequenze osservate e attese o teoriche, ed esprimono la forza della relazione tra le stesse. Essi assumono valori tanto più piccoli quanto più esiste indipendenza tra i caratteri investigati. (b)
Analisi bivariata Sia data la seguente tabella a doppia entrata: Tabella delle frequenze osservate Variabile X Variabile Y Totale Y 1 Y Y 3 X 1 5 15 X 4 14 10 8 X 3 7 6 1 5 Totale 13 5 37 75 71 Tabella Nella tabella, nella cella all incrocio della modalità Y 1 di Y e della modalità X 1 di X è riportato il valore numerico ; lo stesso sta a indicare che sono le unità che presentano simultaneamente la modalità Y 1 di Y e la modalità X 1 di X. Il valore numerico è una frequenza osservata f o effettivamente. Andiamo a calcolare la corrispondente frequenza attesa f e sotto l ipotesi di indipendenza tra variabili. Essa si ottiene dalla seguente proporzione: dove: f e : 13 = : 75 13 è una frequenza marginale e sta a indicare il numero di unità che presentano la modalità Y 1 di Y a prescindere da X; è una frequenza marginale e sta a indicare il numero di unità che presentano la modalità X 1 di X a prescindere da Y; 75 è il totale generale e indica il numero totale di unità statistiche. Pertanto, il valore della frequenza attesa è: 13 f e = = 3, 813 75
7 Capitolo Terzo In maniera analoga sono calcolate le restanti frequenze attese riportate nella tabella seguente: Tabella delle frequenze teoriche Variabile X Variabile Y Totale Y 1 Y Y 3 X 1 3,813 7,333 10,853 X 4,853 9,333 13,813 8 X 3 4,333 8,333 1,333 5 Totale 13 5 37 75 Tabella 3 L indice chi-quadrato, o χ, elaborato da Karl Pearson (1857-1936), costituisce un criterio di valutazione della differenza esistente tra frequenze teoriche e frequenze osservate; la sua espressione analitica è la seguente: χ ( ) = f f o f Con riferimento alla distribuzione riportata nella tabella, esso assume valore: ( 3, 813) ( 5 7, 333) ( 6 8,333) ( 1 1, 333) χ = + +... + + = 9, 09 3, 813 7, 333 8, 333 1, 333 Le applicazioni dell indice in statistica sono molteplici. È un indice assoluto, ammette valore minimo 0 se esiste indipendenza tra le variabili, ma non ammette valore massimo in senso matematico, ovvero ammette il massimo relativo che dipende dalla numerosità dei casi. È proprio questo un limite all applicabilità dell indice nel confronto tra distribuzioni diverse, per ovviare ad un simile inconveniente si ricorre ad indici che costituiscono delle trasformazioni dell indice di Pearson. L indice normalizzato di Cramer si ottiene dalla radice quadrata seguente: V = e e χ N k 1 ( ) dove k è uguale al minore tra il numero r di righe e numero c di colonne nella tabella.
Analisi bivariata Quali sono i valori minimo e massimo dell indice? L indice varia tra 0 (indipendenza) e 1 (dipendenza massima). Con riferimento alla distribuzione in tabella, l indice assume valore: V = 9, 09 75( 3 1) = 0, 45 Il valore trovato indica una prossimità all indipendenza tra le variabili. 4.1 Associazione tra variabili dicotomiche Quanto esposto finora si riferiva al caso in cui i dati sperimentali fossero classificati secondo due criteri, rispettivamente, con r e c livelli. Nelle situazioni pratiche, nella ricerca sociale, si ha a che fare con dati classificati secondo due livelli, ossia con variabili dicotomiche. In questo caso i dati sono rappresentati mediante tabelle doppie del tipo: X Y Totale 1 1 a b a+b c d c+d Totale a+c b+d N=a+b+c+d In questo caso, l espressione del χ χ L indice di Cramer sarà: = χ V = = N è la seguente: N( ad bc) a+ b c d a c b d ( )( + )( + )( + ) ad bc ( a+ b) ( c+ d) ( a+ c) ( b+ d) 73 Tabella 4
74 ESEMPIO Capitolo Terzo Volendo valutare la relazione tra possesso di un diploma di laurea e occupazione, nella tabella seguente sono riportati i dati relativi a 65 individui, raggruppati in base al possesso o meno del diploma di laurea e allo stato occupazionale. Laureati Non laureati Totale Occupati 30 6 36 Non occupati 17 1 9 Totale 47 18 65 Tabella 5 Calcoliamo l indice di Cramer per misurare l associazione tra diploma di laurea e occupazione. Il valore del χ è: χ per cui l indice di Cramer è: 4. Misure di cograduazione ( ) ( )( + )( + )( + ) = 4, 899 65 30 1 6 17 = 30+ 6 17 1 30 17 6 1 4, 899 V = = 0, 75 65 Si è già detto che, se entrambe le variabili sono ordinali, esistono altre misure atte a valutare la forza della relazione tra le stesse: le misure di cograduazione. Esse sono basate sui valori assunti dalle variabili X e Y su tutte le possibili coppie di casi. In particolare, una coppia di casi si dice concordante se su un caso i valori delle variabili X e Y sono entrambi maggiori (o minori) dei valori di entrambe sull altro caso. Analogamente, una coppia si dice discordante se una variabile assume, rispetto a un caso, un valore minore mentre l altra variabile assume un valore minore rispetto ai valori assunti sull altro caso.
Analisi bivariata Tra queste misure riteniamo degna di attenzione, il gamma γ 75 ( ) di Goodman e Kruskal (1954), che è una misura simmetrica della differenza tra numero di coppie concordanti (C) e numero di coppie discordanti (D) e la cui espressione analitica è la seguente: Gamma assume: C D γ = C + D valore minimo 1 nel caso di perfetta relazione negativa; valore massimo + 1 nel caso di perfetta relazione positiva. Esso assume valore 0 se non esiste relazione. 5. RAPPORTI DI PROBABILITÀ E ODDS RATIO Si è visto ampiamente che una proporzione (o frequenza relativa) è data dal rapporto tra una data frequenza e il numero totale dei casi; a questo punto introduciamo un rapporto tra frequenze, il rapporto di probabilità (odds), indicato con la lettera greca omegaω, esso si istituisce tra la frequenza di una data categoria e la frequenza di una categoria alternativa per una variabile dicotomica, oppure tra la probabilità che un unità della popolazione appartenga a una data categoria e la probabilità che non appartenga alla stessa. Un esempio può essere il seguente: se una distribuzione di frequenza è fondata su una variabile Diploma di laurea si può stabilire un rapporto tra laureati e non laureati. In simboli si ha: dove: Rapporto di probabilità f p 1 i ( odds)= ω = = f p 1 i f 1 è la frequenza di una data categoria; f è la frequenza della categoria alternativa; p i è la probabilità della i esima unità di appartenere a una data categoria; 1 p i è la probabilità della i-esima unità di non appartenere a quella categoria.
76 Capitolo Terzo Mentre le probabilità variano tra 0 e 1, gli odds assumono valore minimo 0 ma non ammettono valore massimo. Un rapporto di probabilità assume valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi. Inoltre, assume: valori inferiori a 1 se la probabilità che si verifichi un evento è inferiore alla probabilità che non si verifichi; valori superiori a 1 se la probabilità che si verifichi un evento è superiore alla probabilità che non si verifichi. È particolarmente usato in medicina nello studio casi/controlli. Il rapporto di probabilità può essere riferito anche a due variabili ed è una misura dell associazione tra le stesse. Con riferimento alla tabella 5 istituiamo i rapporti di probabilità condizionati (o odds condizionati): Laureati: ω = a = 30 1 17 =1, c 765 Non laureati: ω = b = 6 d 1 = 05, Mentre, le corrispondenti probabilità condizionate (percentuali di riga e di colonna) sono: Laureati: Non laureati: p p 1 a 30 = = = 0, 638 a + c 47 b 6 = = = 0, 333 b + d 18 Il rapporto tra gli odds condizionati si chiama odds ratio e può essere tradotto in italiano come rapporto di associazione; è pari a: Rapporto di associazione ( odds ratio)= = ω 1 ac ad 30 1 = = = = 3, 59 ω bd bc 617 Il suo significato è il seguente: posto pari a 1 il rapporto occupati/disoccupati tra coloro che posseggono un diploma di laurea, esso assume valore
Analisi bivariata 3,59 tra coloro che non posseggono il diploma di laurea. È più del triplo il rapporto occupati/disoccupati dei possessori di diploma di laurea rispetto a quelli che non ne sono in possesso. Il rapporto di associazione può assumere valore minimo pari a 0 e valore massimo pari a +. Se assume valore 1 si verifica indipendenza tra le variabili. Glossario Correlazione: grado di dipendenza lineare tra due variabili X e Y, per cui al variare di X varia anche Y e viceversa. La forza di tale legame si misura con il coefficiente di correlazione lineare. Si parla di correlazione multipla quando si vuole indicare la dipendenza di una variabile da più altre; di correlazione parziale per indicare la dipendenza di una variabile da un altra al netto delle eventuali relazioni lineari esistenti tra le rimanenti. 77