Università degli Studi di Padova Facoltà di Psicologia, L4, Psicometria, Modulo B Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 02/04/2011
Tabelle di contingenza Percentuali di riga e di colonna Rappresentazioni grafiche Relazioni tra variabili Forma della relazione 5-2
8-3
In precedenza ci siamo posti l obiettivo di trovare degli indici descrittivi che riguardano i diversi aspetti della distribuzione di una singola variabile. Ci occuperemo ora della statistica descrittiva multivariata, ovvero degli indici che ci consentono di mettere in relazione due o più variabili. 8-4
Il problema più semplice consiste nella rappresentazione dei dati relativi a due variabili in una tabella. Il primo problema che ci poniamo, dunque, è quello di costruire e interpretare una tabella che contiene i dati relativi a due variabili. 8-5
Date due variabili X e Y, categoriali, ordinali, o cardinali ricondotte in classi, il problema è stabilire come si distribuiscono i casi sulla variabile X all interno di ciascuna modalità della variabile Y e viceversa. Una distribuzione doppia di frequenza associa una frequenza a ciascuna coppia (X i, Y j ). 8-6
C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-7
Variabile Y indice j Variabile X indice i 8-8
Nelle celle sono riportate le frequenze congiunte (frequenze di cella). I pedici indicano quale modalità della variabile X e quale modalità della variabile Y sono coinvolte. Il primo pedice riguarda la posizione della modalità della variabile posta sulle righe (i); il secondo riguarda la posizione della della variabile posta sulle colonne (j). 8-9
Ogni riga e ogni colonna costituisce una distribuzione condizionata (o parziale). Per esempio, la prima colonna riporta la distribuzione della variabile X quando la variabile Y assume la modalità Y 1 : X Y 1. 8-10
Variabile Y indice j Y 1 Variabile X indice i 8-11
Nelle frequenze marginali di riga e di colonna il punto come pedice indica una somma. n. j = n i. = I! n ij i=1 J! n ij j=1 = marginale della j-esima colonna = marginale della i-esima riga 8-12
C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-13
Le frequenze marginali di riga e di colonna non sono altro che le distribuzioni di frequenze semplici delle variabili X e Y. I J =.. = i= 1 j= 1 n j n ij n i n ij 8-14
C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-15
La somma di tutte le frequenze marginali di riga e di colonna, infine, è uguale all ampiezza del collettivo, N. I! n = n =! n = n = N i.. j. j ij i=1 J j=1 I! i=1 J! j=1 8-16
C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-17
Consumo di droghe Non consumatori Droghe lecite Droghe leggere Droghe pesanti Totale Carriera scolastica Mai bocciato/a 50 186 34 11 281 Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-18
8-19
Percentuali di riga Percentuali di colonna Percentuali sul totale 8-20
Le percentuali di riga si ottengono dividendo ciascun valore di cella per il rispettivo marginale di riga e moltiplicando il risultato ottenuto per 100. Per esempio, 50 / 281 100 = 17,8% 8-21
Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 17,8 66,2 12,1 3,9 100 bocciato/a Bocciato/a 11,1 48,5 21,2 19,2 100 Totale 16,1 61,5 14,5 7,9 100 In questo modo si possono valutare le differenze nel consumo di droga tra gli studenti mai bocciati e quelli che lo sono stati almeno una volta. 8-22
Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 17,8 66,2 12,1 3,9 100 bocciato/a Bocciato/a 11,1 48,5 21,2 19,2 100 Totale 16,1 61,5 14,5 7,9 100 Es., tra i consumatori di droghe leggere, il numero di bocciati è maggiore del numero di mai bocciati. 8-23
Utilizzando le percentuali di riga, dunque, confrontiamo i valori di righe diverse all interno di una singola colonna. 8-24
Le percentuali di colonna si ottengono dividendo ciascun valore di cella per il rispettivo marginale di colonna e moltiplicando il risultato ottenuto per 100. Per esempio, 50 / 61 100 = 82,0% 8-25
Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 50 186 34 11 281 bocciato/a Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-26
Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 82,0 79,5 61,8 36,7 73,9 bocciato/a Bocciato/a 18,0 20,5 38,2 63,3 26,1 Totale 100 100 100 100 100 In questo modo possiamo vedere come varia la percentuale di bocciati a seconda del tipo di consumatori. 8-27
Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 82,0 79,5 61,8 36,7 73,9 bocciato/a Bocciato/a 18,0 20,5 38,2 63,3 26,1 Totale 100 100 100 100 100 Es., tra gli studenti bocciati almeno una volta, vediamo che la percentuale di bocciati è maggiore per i consumatori di droghe leggere che per i non consumatori. 8-28
Utilizzando le percentuali di colonna, dunque, confrontiamo i valori di colonne diverse all interno di una singola riga. 8-29
In conclusione, quando calcoliamo le percentuali di riga siamo autorizzati a fare confronti all interno delle singole colonne; Quando calcoliamo le percentuali di colonna siamo autorizzati a fare confronti all interno delle singole righe. 8-30
Le percentuali sul totale si ottengono dividendo ciascun valore di cella per l ampiezza del collettivo e moltiplicando il risultato ottenuto per 100. Per esempio, 50 / 380 100 = 13,2% 8-31
Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 50 186 34 11 281 bocciato/a Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-32
Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 13,2 48,9 8,9 2,9 73,9 bocciato/a Bocciato/a 2,9 12,6 5,5 5,0 26,1 Totale 16,1 61,5 14,5 7,9 100 Le percentuali sul totale sono particolarmente utili quando dall incrocio delle due variabili si vuole ricavare una tipologia. 8-33
In molti casi non è possibile attribuire in modo univoco ad una delle due variabili il ruolo di variabile indipendente. Non possiamo sapere se il consumo di droghe influenza il rendimento scolastico o se sono gli insuccessi scolastici a predisporre verso il consumo di droghe o se si tratta di un influenza reciproca. In questi casi è bene presentare entrambi i tipi di percentuali. 8-34
Diagramma di dispersione 8-35
Il diagramma di dispersione è un diagramma cartesiano nel quale i punti rappresentano i casi e le variabili costituiscono gli assi. 8-36
Caso Anno Temperatura 1 1950 23.5 2 1953 26.9 3 1956 23.9 temperatura 24 25 26 27 1950 1960 1970 1980 1990 anno 8-37
Gli anni sono rappresentati in ascissa e la temperatura è stata rappresentata in ordinata. Il numero di punti rappresentati è pari al numero di anni considerati. Il punto evidenziato rappresenta un caso. 8-38
Nozione di indipendenza nel caso di variabili nominali 8-39
L analisi bivariata ha come scopo lo studio della relazione tra due variabili. Nel caso di assenza di relazione parliamo di indipendenza tra due variabili. 8-40
Per il livello di misura nominale, i dati di due variabili vengono rappresentati in una tabella di contingenza. In una tabella di contingenza si ha indipendenza tra le due variabili se ciascuna distribuzione parziale è uguale alla corrispondente distribuzione marginale. 8-41
Nel caso dell esempio precedente, se le due variabili carriera scolastica e consumo di droghe fossero indipendenti, allora la distribuzione di frequenze relativa al consumo di droghe per i giovani bocciati dovrebbe essere uguale a quella che riguarda i giovani che non sono mai stati bocciati. 8-42
Se indichiamo con Y la variabile consumo di droghe (colonne) e con X la variabile carriera scolastica (righe) dovremmo osservare la seguente relazione: Y X 1 = Y X 2 8-43
Y X 1 = Y X 2 Variabile Y Variabile X X 1 8-44
Y X 1 = Y X 2 Variabile Y Variabile X X 2 8-45
Y X 1 = Y X 2 = Y.j Variabile Y Variabile X Y.j 8-46
Allo stesso modo, le distribuzioni parziali della variabile carriera scolastica (righe) dovrebbero essere uguali all interno delle cinque modalità della variabile consumo di droghe (colonne) ed essere uguali alla distribuzione marginale di riga: X Y 1 = X Y 2 = X Y 3 = X Y 4 = X Y 5 8-47
X Y 1 = X Y 2 = X Y 3 = X Y 4 = X Y 5 Y 1 Variabile Y Variabile X 8-48
X Y 1 = X Y 2 = X Y 3 = X Y 4 = X Y 5 Y 2 Variabile Y Variabile X 8-49
Consumo di droghe (Y) Carriera scolastica (X) Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 50 186 34 11 281 bocciato/a Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-50
Dati i due vincoli precedenti, conoscendo le frequenze marginali, possiamo dunque calcolare i valori di cella che dovremmo aspettarci nel caso di completa indipendenza tra le due variabili. 8-51
Per una generica cella n ij la frequenza teorica in base all ipotesi di indipendenza si calcola come: marginale di riga marginale di colonna nˆ ij = n i. N n. j 8-52
Per i dati precedenti, le frequenze teoriche attese sono: Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 45,1 173,0 40,7 22,2 281 bocciato/a Bocciato/a 15,9 61,0 14,3 7,8 99 Totale 61 234 55 30 380 8-53
Nella teoria della probabilità, due eventi A e B sono detti indipendenti se la seguente relazione si verifica: P(A B) = P(A) P(B) 8-54
La probabilità teorica, P(A), può essere approssimata dalla probabilità empirica corrispondente al rapporto tra la frequenza con cui si verifica l evento A e la grandezza dello spazio campione Ω. P(A) = A / Ω 8-55
Nel caso di una tabella di contingenza, la frequenza dell evento A i, ovvero A i, è il numero di volte in cui l evento A i viene osservato nel collettivo, ovvero il totale marginale corrispondente ad A i. Per es., il numero di studenti mai bocciati è 281. Quindi, A i = 281. 8-56
La grandezza dello spazio campione, ovvero Ω, è semplicemente la grandezza del collettivo, N. Nell esempio, il numero totale di studenti è 380. Quindi, Ω = 380. 8-57
La probabilità di estrarre uno studente a caso da questo collettivo e osservare uno studente che non è mai stato bocciato (A i ) è P(A i ) = A i / Ω = 281 / 380 =.74 8-58
La probabilità di estrarre uno studente a caso da questo collettivo e osservare uno studente che è un consumatore di droghe leggere (B j ) è P(B j ) = B j / Ω = 55 / 380 =.145 8-59
Se gli eventi A i e B j sono indipendenti, la probabilità di estrarre uno studente a caso da questo collettivo e osservare uno studente che non è mai stato bocciato ed è un consumatore di droghe leggere è P(A i B j ) = P(Ai)P(B j ) =.74.145 =.107 8-60
Data la probabilità P(A i B j ) =.107, la frequenza teorica si calcola semplicemente moltiplicando la probabilità per l ampiezza del collettivo: ˆn ij = P( A i! B j )" N =.107" 380 = 40.7 8-61
Questo stesso risultato si ottiene: 8-62 ( ) ( ) ( ) 40.7 ˆ.... = = = = = N n n N N n N n N B P A P N B A P n j i j i j i j i ij
Indipendenza per variabili ordinali o cardinali 8-63
Consideriamo ora il caso di due variabili a livello ordinale o cardinale e chiediamoci cosa si intenda con la nozione di indipendenza in questo caso. Due variabili (ordinali o cardinali) sono indipendenti se al crescere dei valori in una variabile non corrisponde un aumento o una diminuzione sistematica dei valori sull altra. 8-64
Y Y X X 8-65
Se una delle due variabili è cardinale, possiamo dire che la variabile Y (cardinale) è indipendente in media dalla variabile X (di qualsiasi tipo) se, per ogni valore di X, la media dei valori di Y è costante. 8-66
Y Y X X 8-67
Chiarito che cosa si intende con la nozione di indipendenza nel caso delle variabili nominali, ordinali e cardinali, chiediamoci ora come si può descrivere la relazione tra due variabili, nel caso in cui non ci sia indipendenza. In generale parliamo di una relazione tra due variabili se i valori di una variabile variano in modo sistematico con i valori dell altra. 8-68
Per variabili ordinali o cardinali è possibile valutare, oltre all intensità e alla direzione, anche la forma della relazione tra due variabili. Un primo passo in questa direzione si può compiere esaminando il diagramma di dispersione. 8-69
Y Assenza di relazione. X 8-70
Y Y X Relazione lineare positiva. X Relazione lineare negativa. 8-71
Una relazione lineare tra due variabili (X e Y) può essere approssimata attraverso l equazione di una retta che metta in corrispondenza i valori di X e di Y nel modo seguente: Y = a + b X 8-72
Y In questo caso la funzione più adeguata per approssimare la distribuzione dei punti e quella di una iperbola: Y = 1 / X X 8-73
Y In questo caso la funzione più adeguata per approssimare la distribuzione dei punti e quella di una parabola: Y = a + b X + c X 2 X 8-74
In psicologia, gran parte delle analisi dei dati empirici si basa sullo studio delle relazioni lineari tra le variabili. Questo argomento sarà trattato nello studio della regressione e della analisi della varianza. 8-75