IL LEGAME TRA DUE VARIABILI I METODI DELLA CORRELAZIONE
CORRELAZIONE Legame - Assocazone - Accordo Relazone tra varabl valutare l grado d recproca nfluenza tra due varabl; valutare l grado d assocazone d due varabl che sono nfluenzate entrambe da una causa esterna.
La relazone esstente tra due varabl può essere analzzata grafcamente ponendo dat osservat n un dagramma a dspersone : Y X Y Y X X
IL COEFFICIENTE DI CORRELAZIONE La msura della forza della assocazone tra le due varabl è data dal coeffcente d correlazone d Pearson: r ( )( ( ) ( ) ) Con 1 r +1 La correlazone studa l assocazone lneare esstente tra due varabl.
+ r = +1 : massma correlazone con proporzonaltà dretta tra le due varabl, al crescere della X cresce anche la Y
+ r = -1 : massma correlazone con proporzonaltà nversa tra le due varabl, al crescere della X decresce la Y (e vceversa).
+ r = 0 : vuol dre che non esste correlazone tra le due varabl. Y X
+ Se s può assumere che le due varabl seguano una dstrbuzone normale bvarata allora la non correlazone sgnfca anche ndpendenza + Se non s può assumere la dstrbuzone normale bvarata allora s deve pensare ad un altra forma d legame (parabola, esponenzale, sgmode, ).
IL TEST DI VERIFICA DI IPOTESI Il valore d r è comunque una stma camponara del coeffcente d correlazone r della popolazone. E possble esegure un test d verfca relatva alla sgnfcatvtà del nostro r camponaro. Tale test verfca anche l ndpendenza delle due varabl se s assume che queste seguano una dstrbuzone normale bvarata. ASSUNZIONI + La dstrbuzone d X e Y congunte è una dstrbuzone normale bvarata.
LA DISTRIBUZIONE NORMALE BIVARIATA La funzone che descrve la dstrbuzone normale bvarata è caratterzzata da 5 parametr: 1. la meda d X. la devazone standard d X 3. la meda d Y 4. la devazone standard d Y 5. l coeffcente r f r r r 1 1 ep 1 1 ), (
Se r = 0 allora s ha: 1 ep 1 ), ( f Applcando la propretà degl esponenzal secondo la quale l esponenzale d una somma è uguale al prodotto degl esponenzal: ep (a+b) = ep (a) ep (b) posso rscrvere la formula: 1 ep 1 ep 1 ), ( f Rcordando che π =π π e raggruppando opportunamente avrò: f(,) = f() f() Conclusone: solo se s può assumere la dstrbuzone normale bvarata l rsultato r = 0 sgnfca ndpendenza delle varabl.
IPOTESI H 0 : r = 0 H 1 : r 0 STATISTICA TEST T r n 1 r
DISTRIBUZIONE DELLA STATISTICA TEST La statstca test ha una dstrbuzone t-student con n- grad d lbertà. REGOLA DI DECISIONE Conoscendo la dstrbuzone della statstca test, suo grad d lbertà e l lvello d sgnfcatvtà (a = 0,05), ndvduerò l valore tabulato con cu confrontare l valore calcolato. Se t calc > t tab allora rfuto H 0.
S vogla studare l legame esstente tra lvell d alcoolema n mg % ml stmata con l etlometro e con prelevo d sangue venoso. Etlometro (X) Prelevo (Y) 44 44 65 69 50 56 153 154 88 83 180 185 35 36 494 50 49 49 04 08
prelevo Provamo a porre dat del nostro esempo n un dagramma a dspersone : etlometro
n n n r ) ( ) ( ) )( ( Per effettuare pù faclmente calcol convene modfcare la formula come segue:
Etlometro (X) Prelevo (Y) XY X Y 44 44 1936 1936 1936 65 69 7185 705 7361 50 56 64000 6500 65536 153 154 356 3409 3716 88 83 7304 7744 6889 180 185 33300 3400 345 35 36 160 15 196 494 50 47988 44036 5004 49 49 6001 6001 6001 04 08 443 41616 4364 196 1986 555068 54709 5638
0,99 165444,48 1654148 10 1986 5638 10 196 54709 10 196 1986 555068 ) ( ) ( ) )( ( n n n r
T r n 8 0,99 19,84 1 r 1 0,99 t tab a=0,05;gl=8 =,306 t calc > t tab rfuto H 0 Decsone del rcercatore: valor d alcoolema determnat con l prelevo e con l etlometro sono correlat, qund msurano lo stesso ndcatore pur con metod e su substrat dvers.
IL COEFFICIENTE DI CORRELAZIONE DI SPEARMAN Nel caso n cu non sa possble fare assunzon sulla dstrbuzone delle varabl l coeffcente d correlazone da usare è : r s 6 1 n n d 1 Con 1 r s +1 dove d sono le dfferenze de rangh attrbut a valor delle due varabl.
L potes nulla è d non correlazone delle due varabl. La decsone verrà presa confrontando l valore d r s calcolato con l valore d r s tabulato. Il valore tabulato s cerca sulle tavole d Spearman n corrspondenza del lvello d sgnfcatvtà del test (α = 0,05) e del numero d coppe d osservazon delle due varabl Se r s calc > r s tab rfuterò l potes nulla.
S ordnano n manera crescente valor della varable Y S assegnano rangh a valor della varable Y S ordnano n manera crescente valor della varable X S assegnano rangh a valor della varable X A valor ugual s assegneranno rangh par alla meda de rangh che valor avrebbero avuto se fossero stat dvers S determnano le dfferenze d tra rangh assegnat alla varable X e rangh assegnat alla varable Y e s calcola l coeffcente d correlazone d Spearman r s r s n 6 1 n d 1 S ndvdua l valore tabulato per a fssato (0,05) e l numero d coppe d osservazon S confronta r s calcolato con l valore tabulato: se rsulta maggore s rfuta l potes nulla d ndpendenza
I dat del problema con calcol da effettuare sono rportat nella seguente tabella N sg. Peso Rangh Rangh d d fumate (X) neonato (Y) X Y 1 3864 1 10 9 81 3318 5 3 9 3 377 3 9 6 36 4 3636 4 8 4 16 5 955 5 4-1 1 6 3364 6 6 0 0 7 3591 7 7 0 0 8 818 8 3-5 5 9 545 9 1-8 64 10 773 10-8 64 96
r s 1 n 6 n d 1 1 6(96) 10(10 1) 1 1776 990 0,794 Nel nostro caso r s tab = 0,648 < 0,794 Rfuto l potes nulla, c è correlazone tra le due varabl.
VERIFICA DI IPOTESI SUL LEGAME TRA VARIABILI QUALITATIVE DATI S vuole verfcare l esstenza d un legame tra l gruppo sangugno e la gravtà d una certa patologa. S dspone del numero d ndvdu che presentano contemporaneamente la patologa ad certo grado d gravtà e un dato gruppo sangugno. Gruppo sangugno Patologa A B AB 0 Totale Assente 543 11 90 476 130 Meda 44 8 31 105 Grave 8 9 7 31 75 Totale 615 4 105 538 1500
La generalzzazone della tabella precedente è: crtero 1 crtero 1 j c Tot. 1 O 11 O 1 O 1j O 1c n 1. O 1 O O j O c n. O 1 O O j O c n. r O r1 O r O rj O rc n r. Tot. n. 1 n. n. j n. c N
ASSUNZIONI Le varabl d cu dsponamo sono qualtatve. Se consderamo una sola cella la presenza contemporanea delle due caratterstche è l successo, sugl N cas possbl: s può assumere una dstrbuzone bnomale. I dat n tabella nel loro nseme seguono una dstrbuzone multnomale. IPOTESI p j = O j / N p = n. / N p j = n. j / N H 0 : H 1 : p j = p p j p j p p j Se le due varabl sono ndpendent la probabltà d avere la caratterstca 1 e la caratterstca sarà data dal prodotto delle probabltà (legge del prodotto).
I VALORI ATTESI Vera l potes nulla e posta l assunzone d dstrbuzone bnomale n cascuna cella allora posso calcolare l valore atteso E j ( meda ) per cascuna cella: E j =N p j = N p p j = N (n. j / N) (n. / N) = (n. j n.)/ N S può qund costrure una tabella d valor attes: crtero 1 crtero 1 j c Tot. 1 E 11 E 1 E 1j E 1c n 1. E 1 E E j E c n. E 1 E E j E c n. r E r1 E r1 E rj E rc n r. Tot. n. 1 n. n. j n. c N
STATISTICA TEST C j O j E j E j DISTRIBUZIONE DELLA STATISTICA TEST La dstrbuzone della statstca test è una C ed è caratterzzata da grad d lbertà. Zona d accettazone Zona d rfuto C tab
REGOLA DI DECISIONE Fssato α accettablmente pccolo (0,05), troverò sulle tavole X un valore n corrspondenza d α prescelto e de grad d lbertà della statstca. Se l valore calcolato è maggore del valore tabulato rfuterò l potes nulla, se nvece l valore calcolato è mnore del tabulato accetterò l potes nulla.
I GRADI DI LIBERTA In questo caso grad d lbertà sono: g.l. = (r-1) (c-1) dove r = numero delle rghe c = numero delle colonne Σp.j = Σn.j / N = 1 Σp. = Σn. / N = 1 fssato N potrò cambare lberamente n., total d rga, meno 1 che m deve garantre la somma delle probabltà d rga (Σp = 1). fssato N potrò cambare lberamente n.j, total d colonna, meno 1 che m deve garantre la somma delle probabltà d colonna (Σp j = 1).
Tabella valor osservat Gruppo sangugno Patologa A B AB 0 Totale Assente 543 11 90 476 130 Meda 44 8 31 105 Grave 8 9 7 31 75 Totale 615 4 105 538 1500 Tabella valor attes Gruppo sangugno Patol. A B AB 0 Totale Assente 541, 1,96 9,40 473,44 130 Meda 43,05 16,94 7,35 37,66 105 Grave 30,75 1,10 5,5 6,90 75 Totale 615 4 105 538 1500
CALCOLO DELLA STATISTICA TEST C... 543 541, 11 1,96 90 9,40 541, 31 6,90 6,90 1,96 5,1 9,40 C a=0,05, gl 6 = 1,59 DECISIONE STATISTICA 5,1<1,59 accetto l potes nulla, le due varabl sono ndpendent DECISIONE DEL RICERCATORE Non c è una evdenza d assocazone tra un gruppo sangugno e l essere affetto dalla malatta n esame.
) ( ) ( ) ( ) ( 0,5 ) ( ) ( ) ( ) ( d b c a d c b a N bc ad N d b c a d c b a bc ad N C C IPOTESI Nella seconda formula c è la correzone per la contnutà d Yates STATISTICA TEST H 0 : p j =p 1 p H 1 : p j =p 1 p
TEST PER IL CONFRONTO DI PIU PROPORZIONI Nel caso d Tabelle d contngenza k dove k rappresentano grupp da porre a confronto e s hanno due possbl rsposte, l precedente test del può essere usato per verfcare: La statstca test H 0 : p 1 =p =.p k =p H 1 : p r p s C j O j E j E j ha una dstrbuzone con k-1 grad d lbertà