Fondamenti di psicometria Corso di Laurea triennnale (classe 34) CORRELAZIONE NON PARAMETRICA
Spesso capita di non avere a disposizione delle misure di tipo metrico per le due variabili, X e Y, che si pensa possano essere associate Se si hanno scale dicotomiche o ordinali, vi sono una varietà di coefficienti concettualmente simili alla r di Pearson Se si dispone di frequenze, un coefficiente calcolato su una tabella di contingenza consente di indagare ipotesi di associazione
Misure ordinali Immaginiamo di aver osservato i comportamenti aggressivi e quelli oppositivi di 14 adolescenti durante le loro interazioni con i genitori. Preferiamo misurare le due variabili come due graduatorie (dal meno aggressivo al più aggressivo; dal meno oppositivo al più oppositivo). Non possiamo utilizzare r di Pearson (la graduatoria indica il livello di misura ordinale; non abbiamo misure metriche). Sogg. 1 3 4 5 6 7 8 9 10 11 1 13 14 x 1 4 3 14 8 6 1 11 10 5 7 13 9 y 7 1 3 14 4 10 9 8 11 6 5 13 1
Misure ordinali I coefficienti non parametrici devono essere utilizzati anche quando una sola delle due variabili in relazione non raggiunge il livello metrico di misurazione
Misure ordinali Correlazione fra misure ordinali (1): r s di Spearman il coefficiente di correlazione r s va calcolato quando i dati sono costituiti da ranghi (graduatorie) oppure quando una delle variabili è ordinale, e l altra metrica (previa trasformazione in rango; dopo la vediamo)
Misure ordinali Correlazione fra misure ordinali (1): r s di Spearman quando i ranghi delle due graduatorie coincidono tutte le d=0 quindi 6 d =0 e r s =1-0=1 (correlazione positiva perfetta) quando le posizioni in graduatoria sono esattamente opposte il coefficiente sarà=-1 (correlazione negativa perfetta)
Esempio Ciascun soggetto è stato classificato sulla base di due variabili ordinali (graduatorie) Il coefficiente risulta: Correlazioni non parametriche Misure ordinali Sogg. x y d d 1 1 7 6 36 4 1 3 9 3 3 3 0 0 4 14 14 0 0 5 4 4 6 8 6 4 7 6 10 4 16 8 1 9 3 9 9 11 8 3 9 10 10 11 1 1 11 5 6 1 1 1 7 5 4 13 13 13 0 0 14 9 1 3 9 N=14 Tot=134 r s 1 6x134 14196 1 0.9
Misure ordinali VERIFICA DI IPOTESI Per la verifica delle ipotesi sul coefficiente r s la procedura è simile a quella illustrata per il coefficiente r di Pearson Vanno però distinti due casi: se n 30 i valori sono tabulati per due livelli di a (.05 e.01) e ipotesi monodirezionale in funzione del numero dei soggetti (non gdl) Se n>30, così come per il coefficiente r di Pearson, esiste una relazione tra r s e t di Student
Misure ordinali VERIFICA DI IPOTESI PROCEDURA Si definisce l ipotesi: H 0 : s =0 H 1 : s > 0 Si fissa Si delinea la regione di rifiuto di H 0 trovando r s critico sullatavola i valori critici tabulati sono quelli delle ipotesi monodirezionali
nell esempio: r s =.9 Si definisce l ipotesi: H 0 : s=0 H 1 : s >0 Si fissa =.01 Correlazioni non parametriche Misure ordinali VERIFICA DI IPOTESI ESEMPIO Si delinea la regione di rifiuto di H 0, per n=14, trovando r s crit =.645 Poiché r s < r s critico si accetta l ipotesi nulla
Misure ordinali VERIFICA DI IPOTESI ESEMPIO Se i dati campionari dell esempio precedente fossero relativi a 40 soggetti avremmo usato la formula: t r s N 1 r s t 40. 9 1 9.9 38.9 1.86
Misure ordinali VERIFICA DI IPOTESI PROCEDURA Si definisce l ipotesi: H 0 : s=0 H 1 : s>0 Si fissa =.01 Si calcolano i gdl gdl=40-=38 Si delinea la regione di rifiuto di H 0 trovando t critico =.43
Misure ordinali VERIFICA DI IPOTESI DECISIONE Se il valore di t è significativo lo è anche il valore di r s se t<t critico si accetta H 0 la relazione tra le due variabili non è significativa se t>t critico si rifiuta H 0 la relazione tra le due variabili è significativa poiché : t=1.86< t critico =.467 Si accetta H 0
Misure ordinali Quando una o entrambe le variabili non costituiscono già una graduatoria, dobbiamo trasformale in ranghi Esempio: Misuriamo su sei pazienti Self-consciousness (0 bassa ; 6 alta ) e insonnia (numero di notti in una settimana in cui si ha difficoltà ad addormentarsi). Sono associate? ( =.05) Le due variabili non costituiscono in questa forma delle graduatorie. Se tuttavia consideriamo ordinali le due misure (o almeno una: l autostima) debbo trasformarle in ranghi prima di calcolare la loro associazione Self- Pazienti Autostima consciousness Insonnia 1 0 1 6 3 3 0 4 3 1 5 5 6 6 4
Punteggi a parimerito Correlazioni non parametriche Misure ordinali Trasformazione in ranghi Rango medio: Posizioni (1+)/ = 1.5 Paziente S-C Posizione Ranghi SC 1 0 1 1,5 3 0 1,5 6 3 3 4 3 4 4 5 5 5 5 6 6 6 Ordino i soggetti in modo crescente, e assegno i ranghi. In caso di pareggio di due punteggi, assegno il rango medio delle posizioni coinvolte
Misure ordinali Trasformazione in ranghi Punteggi a parimerito Rango medio: Posizioni (1+)/ = 1.5 Paziente Insonnia Pozizione Ranghi In. 1 1 1 1,5 4 1 1,5 3 3 3 3 4 4 6 4 5 5 5 6 6 6 Ordino i soggetti in modo crescente, e assegno i ranghi. In caso di pareggio di due punteggi, assegno il rango medio delle posizioni coinvolte
Misure ordinali Unisco le due graduatorie in un unica tabella, stando attento a mantenere sulla stessa riga i punteggi e i ranghi del medesimo soggetto Calcolo quindi la correlazione r s r s 6 n i 1 1 n n d i 1 Pazienti Selfconsciousness Autostima Insonnia Ranghi autostima Ranghi insonnia Insonnia D D D d 1 0 1 1,5 1,5 0 0 1,5 6 3 6 4 4 6 3 0 1,5 3-1,5,5 1,5 4 3 1 4 1,5,5 6,5 4 5 5 6 5 6-1 1 5 6 4 3 5-4 3 17,5 17.5 r s 1 6 17.5 6 35 1 105 10 1.50.50
Misure ordinali Unisco le due graduatorie in un unica tabella, stando attento a mantenere sulla stessa riga i punteggi e i ranghi del medesimo soggetto Calcolo quindi la correlazione r s r s 6 n i 1 1 n n d i 1 Pazienti Selfconsciousness Autostima Insonnia Ranghi autostima Ranghi insonnia Insonnia D D D d 1 0 1 1,5 1,5 0 0 1,5 6 3 6 4 4 6 3 0 1,5 3-1,5,5 1,5 4 3 1 4 1,5,5 6,5 4 5 5 6 5 6-1 1 5 6 4 3 5-4 3 17,5 17.5 r s 1 6 17.5 6 35 1 105 10 1.50.50
Misure ordinali Per testare l ipotesi nulla possiamo: Usare un approssimazione alla t (per grandi campioni) Usare una tavola con valori esatti (per n piccoli) La tavola però prevede valori critici solo per ipotesi monodirezionali Consigliamo quindi di usare la trasformazione in t (gdl = n - ) n t r 4 s t.50 1. 15 1 rs.75
Correlazione fra due variabili nominali dicotomiche: coefficiente di correlazione r Questo coefficiente misura la relazione fra due variabili nominali dicotomiche, ad es. la relazione tra due item di un test con risposta giusto/sbagliato
coefficiente di correlazione r Esempio In un gruppo di pazienti cerebrolesi si vuole valutare se la presenza di deficit del campo visivo è in relazione con il lato della lesione Lesione DX/SN=variabile dicotomica A Deficit di campo visivo SI/NO=variabile dicotomica B Si costruisce la tabella di contingenza x con le frequenze osservate Lato lesione (var A) deficit (var B) DX (A1) SN (A) TOTALI si (B1) 60 30 90 no (B) 10 40 50 TOTALI 70 70 140
coefficiente di correlazione r Esempio La generica tabella di contingenza x (var A) (var B) (A1) (A) TOTALI (B1) A1B1 AB1 Tot B1 (B) A1B AB TotB TOTALI Tot A1 Tot A N
coefficiente di correlazione r Il calcolo si basa sul conteggio delle frequenze; la formula è: r f A1B1 f tota1 xf xf AB totb1 f f AB1 tota Lato lesione (var A) xf xf A1B totb deficit (var B) DX (A1) SN (A) TOTALI si (B1) 60 30 90 (tot B1) no (B) 10 40 50 (tot B) TOTALI 70 (tot A1) 70 (tot A) 140 (N)
coefficiente di correlazione r Esempio Lato lesione (var A) deficit (var B) DX (A1) SN (A) TOTALI si (B1) 60 30 90 (tot B1) no (B) 10 40 50 (tot B) TOTALI 70 (tot A1) 70 (tot A) 140 (N) Si calcola il coefficiente r r 60x40 70x90 30x10 70x50.447
Significatività di r Phi (r ) La significatività viene valutata con il chi quadrato Lato lesione (var A) deficit (var B) DX (A1) SN (A) TOTALI si (B1) 60 30 90 (tot B1) 45 45 no (B) 10 40 50 (tot B) 5 5 TOTALI 70 (tot A1) 70 (tot A) 140 (N) f tij f i. f n.j O con la formula normale O, meglio, con la correzione di Yates Più adatta, visto che la tabella è X i r 1 j c 1 f oij f tij f tij r i 1 8 c j 1 f oij f f tij tij.5 6.16 Oppure con la breve formula: nr 140.447 7.97 8
Significatività di r Phi (r ) Come per il chi quadrato, i gradi di libertà sono pari a (r 1)(c 1) = 1; considerando =.01 gdl.05.01.001 1 3.84 6.64 10.83... 3....... 10 18.31 3.1 9.59........ Lato lesione (var A) deficit (var B) DX (A1) SN (A) TOTALI si (B1) 60 30 90 (tot B1) 45 45 no (B) 10 40 50 (tot B) 5 5 TOTALI 70 (tot A1) 70 (tot A) 140 (N) Siccome osservato > critico: Rifiuto l ipotesi nulla Ne concludo che la presenza del deficit è associato alla localizzazione della lesione Osservando i valori attesi, capisco che la lesione a destra è più spesso associata alla presenza del deficit, mentre la lesione a sinistra più spesso non procura deficit
coefficiente di correlazione r L associazione massima si ha quando tutte le frequenze cadono negli incroci della tabella e le frequenze marginali sono uguali (var A) (var B) (A1) (A) TOTALI (B1) 70 0 70 (tot B1) (B) 0 70 70 (tot B) r =1 TOTALI 70 (tot A1) 70 (tot A) 140 (N)
coefficiente di correlazione r L associazione massima si ha quando tutte le frequenze cadono negli incroci della tabella e le frequenze marginali sono uguali (var A) (var B) (A1) (A) TOTALI (B1) 0 70 70 (tot B1) (B) 70 0 70 (tot B) r =-1 TOTALI 70 (tot A1) 70 (tot A) 140 (N)
coefficiente di correlazione r L associazione è positiva quando nella diagonale da sinistra a destra sono presenti frequenze maggiori rispetto a quelle attese Lato lesione (var A) deficit (var B) DX (A1) SN (A) TOTALI r =.447 si (B1) 60 30 90 (tot B1) 45 45 no (B) 10 40 50 (tot B) 5 5 TOTALI 70 (tot A1) 70 (tot A) 140 (N)
coefficiente di correlazione r L associazione è negativa quando nella diagonale da destra a sinistra sono presenti frequenze maggiori rispetto a quelle attese Lato lesione (var A) deficit (var B) SN (A1) DX (A) TOTALI r =-.447 si (B1) 30 60 90 (tot B1) 45 45 no (B) 40 10 50 (tot B) 5 5 TOTALI 70 (tot A1) 70 (tot A) 140 (N)
Esercizio Ci interessa indagare la comorbilità fra disturbo d ansia e narcisismo, in un campione di 37 pazienti Ansia Presenza disturbo Assenza disturbo Totali Narcisismo 1 7 19 No Narcisismo 6 1 18 Totali 18 19 37 H0: r = 0 H1: r 0
Esercizio Se chiamiamo le diverse celle A,B,C e D, nel seguente modo: Ansia Presenza disturbo Assenza disturbo Totali Narcisismo 1 A 7 B 19 A + B No Narcisismo 6 C 1 D 18 C + D Totali 18 A + C 19 B + D 37 Il coefficiente si calcola tramite: r A B AD C D BC A C B D
Esercizio Facendo i calcoli: Ansia Presenza disturbo Assenza disturbo Totali Narcisismo 1 A 7 B 19 A + B No Narcisismo 6 C 1 D 18 C + D Totali 18 A + C 19 B + D 37 r 1 19 1 18 6 18 7 19 144 19 18 4 18 19 10 34.98
Esercizio La significatività viene valutata con il chi quadrato, con 1 gdl r c i 1 j 1 f oij f tij f tij 3.9 Ansia Presenza disturbo Assenza disturbo Totali Narcisismo 1 9.4 7 9.76 19 No Narcisismo 6 8.76 1 9.4 18 Totali 18 19 37
Esercizio Oppure, il chi quadrato è anche ottenibile direttamente da r : nr 37.98 3.9 Come interpreto il risultato?