Correlazone, Regressone, Test non parametrc Correlazone 1
Anals della Correlazone L anals della Correlazone è usata per msurare la forza dell assocazone (relazone lneare) tra due varabl Correlazone rguarda solo la forza della relazone Correlazone non mplca un effeeo casuale Anals della Correlazone Il coeffcente d correlazone della popolazone è ndcato con ρ Il coeffcente d correlazone camponaro è dove s xy r = s s x xy s y (x x)(y = n 1 y)
Verfca d Ipotes sulla Correlazone Per verfcare l potes nulla d assenza d assocazone lneare, H 0 :ρ = la stamsmca test ha una dstrbuzone t d Student con (n ) grad d lbertà: 0 T = r (n ) ( 1 r ) Regole d Decsone Verfca d Ipotes sulla Correlazone Test Coda Snstra: H 0 : ρ 0 H 1 : ρ < 0 Test Coda Destra: H 0 : ρ 0 H 1 : ρ > 0 Test Blaterale: H 0 : ρ = 0 H 1 : ρ 0 α α α/ α/ - t α t α - t α/ t α/ Rfutare H 0 se t < - t n-, α Rfutare H 0 se t > t n-, α Rfutare H 0 se t < - t n-, α/ o t > t n-, α/ Dove r (n ) T = ha n - gdl ( 1 r ) 3
Regressone Introduzone all anals d regressone Anals d Regressone usata per: Prevedere l valore d una varable dpendente sulla base del valore d almeno una varable ndpendente Spegare l mpaeo d cambamenm nella varable ndpendente sulla varable dpendente Varable Dpendente: la varable che desderamo spegare (anche chamata varable endogena) Varable Indpendente: la varable usata per spegare la varable dpendente (anche chamata varable esogena) 4
Modello d Regressone Lneare La relazone tra X e Y è descrea da una funzone lneare S assume che cambamenm n Y sano causam da cambamenm n X Equazone del modello d regressone lneare per la popolazone y = β + β x + ε 0 1 β 0 e β 1 sono coeffcenm del modello ed ε è la vc errore Modello d Regressone Lneare Semplce Il modello d regressone lneare semplce: Varable Dpendente InterceEa y = β + β x + Coeffcente angolare 0 1 Varable Indpendente ε Errore Aleatoro Componente Lneare Componente dell errore aleatoro 5
Modello d Regressone Lneare Semplce Y Valore Osservato d Y n corrspondenza d x y = β + β x + ε 0 1 Valore Prevsto d Y n corrspondenza d x ε Errore Aleatoro per l valore x Pendenza = β 1 InterceEa = β 0 X X Modello d Regressone Lneare Semplce Il modello d regressone lneare semplce può essere smmato della reea d regressone dervata da dam del campone Valore smmato (o prevsto) d y n corrspondenza della - ma osservazone SMma dell nterceea y * = β 0 * +β 1 * x L errore aleatoro ndvduale e ha meda zero e = ( y -y * ) = y -(β 0 * +β 1 * x ) SMma del coeffcente angolare Valore d x n corrspondenza della - ma osservazone 6
SMmator de Mnm QuadraM β 0 * e β 1 * sono oeenum trovando valor β 0 e β 1 che mnmzzano la somma de quadram delle dfferenze tra y e y * : mn SSE = mn e = mn (y y * ) = mn [y (β * 0 +β * 1 x )] S fa uso del calcolo dfferenzale per oeenere gl smmator de coeffcenm β 0 e β 1 che mnmzzano SSE SMmator de Mnm QuadraM Lo smmatore del coeffcente angolare è β 1 * = 1 n 1 n =1 1 n 1 (x x)(y y) n =1 (x x) = Cov(XY) Var(X) La smma della costante o nterceea è β 0 * = y β 1 * x La reea d regressone passa sempre per l punto d coordnate (x, y) 7
Modello d Regressone Lneare Ipotes 1 La forma della vera relazone per la popolazone è lneare (Y è una funzone lneare d X, pù un errore aleatoro) I termn d errore, ε sono ndpendenm da valor d X 3 I termn d errore sono varabl aleatore con meda 0 e varanza costante, σ (la propretà d varanza costante è chamata omoschedasmctà) E[ε ] = 0 e E[ε ] = σ = 1,,n 4 I termn aleator d errore, ε, non sono correlam fra loro, qund E[ε ε ] = 0 j per ogn j Interpretazone del Coeffcente Angolare e dell InterceEa β 0 * è l valore medo smmato d Y quando l valore d X è zero (se X = 0 è nell ntervallo d valor osservam per X) β 1 * è la smma della varazone d Y relamva a una varazone untara d X 8
Regressone Lneare Semplce Esempo Un vendtore d auto usate vuole studare la relazone tra Km effeeuam e l prezzo dell auto usata E stato selezonato un campone casuale d 100 auto S voglono smmare parametr della reea d regressone Auto Km Prezzo 1 37388 5318 44758 5061 3 45833 5008 4 3086 5795 5 31705 5784 6 34010 5359 Varable ndpendente X Varable dpendente Y Dagramma d dspersone 6000 Prezzo 5500 5000 4500 19000 9000 39000 49000 Km 9
Regressone Lneare Semplce Esempo Per determnare β 0 * e β 1 * bsogna calcolare: x = 36009,45; y = 5411,41; (x s x = x) = 4358,688 Cov(X,Y ) = n 1 dove n = 100 β 1 * = Cov(X,Y ) s x = 1356,56 4358,688 = 0,031 ( ) x y x y n 1 β 0 * = y β 1 * x = 5411,41 ( 0,031)(36009,45) = 6533 = 1356,56 L equazone del modello smmato è: y * = β 0 * + β 1 * x = 6533 0,031x Interpretazone de rsultam della smma de parametr 6533 Prezzo 0 No dat 6000 5500 5000 4500 19000 9000 39000 49000 Km y * = 6533 0,031x L ntercetta è 6533 L ntercetta può essere nterpretata come: Il prezzo delle auto quando km percors sono par a zero (auto nuove o a Km zero) Tale prezzo dpende, qund, da tutte le altre varabl non ncluse nel modello d regressone che possono nfluenzare l prezzo delle auto (marca, modello, ecc) Il coeffcente d regressone può essere nterpretato come: per ogn chlometro addzonale, l prezzo decresce n meda d 0,031 10
Msure d Varazone La varazone totale (somma de quadram degl scarm d Y) è composta da due parm: SST = SSR + SSE Somma de QuadraM Totale Somma de QuadraM della Regressone Somma de QuadraM degl Error SST = (y y SSR = (yˆ y SSE = (y yˆ dove: y ) ) = Valore medo della varable dpendente ) y = Valor osservam per la varable dpendente ŷ (equvalente d y* ) = Valore prevsto per Y n corrspondenza d un dato valore d x Msure d Varazone SST = somma de quadram degl scarm tra y e l suo valore medo Msura la varazone de valor y rspeeo alla loro meda, y SSR = somma de quadram della regressone Msura quanta parte della varabltà d SST può essere aerbuta alla relazone lneare tra X e Y SSE = somma de quadram degl error Msura quanta parte della varabltà d SST è aerbuta a faeor dvers da SSR 11
y Y y _ y _ SST = (y - y) Msure d Varazone SSE = (y - y ) _ SSR = (y - y) y _ y x X Coeffcente d determnazone lneare, R Il coeffcente d determnamone lneare è la porzone della varazone totale della varable dpendente (SST) che è spegata dalla varazone della varable ndpendente (SSR) Il coeffcente d determnazone è anche chamato R- quadrato ed è ndcato con R R = SSR SST = somma de quadrat della regressone somma de quadrat totale = 1 SSE SST 0 R 1 1
Esemp d Valor ApprossmaM d R Y R = 1 Y R = 1 X Relazone lneare perfe;a tra X e Y: 100% della varazone d Y è spegata dalla varazone d X R = 1 X Esemp d Valor ApprossmaM d R Y 0 < R < 1 Relazon lnear debol tra X e Y: X Parte ma non tu;a la varazone d Y è spegata dalla varazone d X Y X 13
Esemp d Valor ApprossmaM d R Y R = 0 R = 0 X Nessuna relazone lneare tra X e Y: Il valore d Y non dpende da X (La varazone d Y non è spegata per nente dalla varazone d X) Calcolo d R Indce d determnazone lneare per l modello d regressone che msura la dpendenza del prezzo delle auto da Km precors SSR = β 1 * ( ) n (x x) = β 1 * =1 ( ) (n 1)s x SSR = ( 0,031) 99 4358,688 = 4194,884 R = SSR SST = 4194,884 = 0,6518 0,65 99 64,999 Il 65% della varabltà del prezzo delle auto è spegata (dpende) dalla varabltà de Km percors Il restante 35% della varabltà d Y non vene spegato dal modello smmato 14
SMma della Varanza dell Errore del Modello Lo smmatore per la varanza dell errore del modello per la popolazone è n e σ ε * = s =1 e = n = SSE ( n 1)s Cov( X,Y ) y n = s x n La dvsone per n nvece d n 1 derva dal faeo che l modello d regressone lneare semplce usa due smme per parametr, β 0 e β 1, nvece d una s e = s e è chamato errore standard delle smme Confronto fra Error Standard s e è una msura della varazone del valore osservato d Y usando la reea d regressone Y Y s e pccolo X s e grande X La varabltà d s e dovrebbe essere sempre gudcata n relazone alla varabltà de valor camponar d Y 15
Relazone tra prezzo delle auto e Km percors: smma d σ e * Calcolamo l errore standard delle spme per la relazone tra Km effe;uap e l prezzo d un auto usata SSE = SST SSR SSE = ( n 1)s Y SSR = 99 64,999 4194,88 = 40,0 Dunque, s e = SSE n 40,0 98 = 4,78 Il modello approssma bene dat, soprattutto se confrontamo s ε con la meda camponara d Y s ε = 4,78; y = 5411,4 Inferenza sul Modello d Regressone La varanza del coeffcente angolare della reea d regressone (β 1 ) è smmato da s = β 1 s e (x x) s e = (n 1)s x s e dove: s β1 = SMma dell errore standard del coeffcente angolare β 1 SSE = = Errore Standard della smma n 16
Confronto fra Error Standard del Coeffcente Angolare S β1 è una msura della varazone del coeffcente angolare della reea d regressone per dvers possbl campon Y Y X S β1 pccolo S β1 grande X Inferenza sul Coeffcente Angolare: Test T e ntervallo d confdenza Test T sul coeffcente angolare della popolazone C è una relazone lneare tra X e Y? Ipotes nulla e alternamva H 0 : β 1 = 0 (nessuna relazone lneare) H 1 : β 1 0 (esste una relazone lneare) StaMsMca test T = β * β 1 1 ~ t S ( n ) β1 β 1 * = coeffcente angolare smmato β 1 = pendenza pomzzata s β1 = errore standard d β 1 Intervallo d confdenza per β 1 β 1 * t n,α / s β1 < β 1 < β 1 * + t n,α / s β1 17
Relazone tra prezzo delle auto e Km percors: nferenza su β 1 Test d potes su β 1 α=005; α/=005; n- =98 Valore crpco: t ( α,n ) = t ( 005,98) z ( 0,975) =1,96 H 0 : β 1 = 0; H 1 : β 1 0 Regola d decsone - 196 < T < +196 s acce;a H 0 T - 196 oppure T +196 s rfuta H 0 s β1 = s e (n 1)s x = 4,78 ( ) = 0,011 T = 99 4358,688 β * 1 β 1 = 0,031 0 =,84 s β1 0,011 S rfuta H 0 Intervallo d confdenza per l coeffcente d regressone β 1 α=0,05; α/=0,05; n- =98 s * β1 ) # &, ), + β * 1 ± t ( α,n ) % s s * = ε ( + % β 1 $ (n 1)!s ( + 0,031 ±1,96 4,78 + * x '- * + 99 ( 4358,688) ) * 0,0357; -0,067, - - Prevsone Il modello d regressone lneasre può essere usato per prevedere un valore d Y, n corrspondenza d un parmcolare valore d X Per uno specfco valore, x n+1, l valore prevsto è y* n+1 = β 0 * +β 1 * x n+1 Prevsone del prezzo d vendta d un auto che ha percorso 40000 Km ( y * X = 40000) = 6533 0,031X = 6533 0,031(40000) = 585 18
Test non parametrc Tabelle d ConMngenza Usate per classfcare le osservazon camponare secondo due caraeersmche Anche chamate tabelle cross- classfcamon or cross- tabulamon Assumamo c sano r categore per la caraeersmca A e c categore per la caraeersmca B Allora c sono (r x c) possbl cross- classfcazon 19
Tabella d ConMngenza r x c Caratterstca B Caratterstca A 1 C Total 1 r Total O 11 O 1 O r1 C 1 O 1 O O r C O 1c O c O rc C c R 1 R R r n Test d Assocazone Consdera n osservazon tabulate n una tabella d conmngenza r x c DenoMamo con O j l numero d osservazon nella cella che corrsponde alla ma rga e j ma colonna L potes nulla è H 0 : Assenza d assocazone fra ledue caratterstchenella popolazone L approprato test è un test ch- quadrato con (r- 1)(c- 1) grad d lbertà 0
Test d Assocazone Sano R e C j total per rga e per colonna Il numero aeeso d osservazon nella cella che corrsponde alla rga e alla colonna j, dato che H 0 è vera, è E j = R C Un test d assocazone al lvello d sgnfcamvtà α è basato sulla dstrbuzone ch- quadrato e la seguente regola d decsone n j Rfutare H 0 se χ r c = = 1 j= 1 (O j E E j j ) > χ (r 1)c 1), α Esempo Tabella d ConMngenza Essere mancn vs Genere Mano Domnante : Snstra vs Destra Genere: Mascho vs Femmna H 0 : Assenza d assocazone tra mano domnante e sesso H 1 : Mano domnante non è ndependente dal sesso 1
Esempo Tabella d ConMngenza RsultaM camponar organzzam n una tabella d conmngenza: Dmensone campone = n = 300: 10 Femmne, d cu 1 mancne 180 Masch, d cu 4 mancn Mano domnante Genere Snstra Destra Femmna 1 108 10 Mascho 4 156 180 36 64 300 Logca del Test H 0 : Assenza d assocazone tra mano domnante e genere H 1 : mano domnante non è ndependente dal sesso Se H 0 è vera, allora la proporzone d donne mancne dovrebbe concdere con la proporzone d uomn mancn Le due proporzon precedenm dovrebbero concdere con la proporzone generale d persone mancne
Frequenze AEese 10 Femmne, d cu 1 mancne 180 Masch, d cu 4 mancn Se non c è assocazone, allora In generale: P(mancno) = 36/300 = 0,1 P(Mancno Femmna) = P(Mancno Mascho) = 0,1 Qund c aspeeeremmo che l 1% delle 10 femmne e l 1% de 180 masch sano mancn e, c aspe;eremmo (10)(1) = 144 femmne mancne (180)(1) = 16 masch mancn E Frequenze AEese Frequenza aeesa delle celle: R C j j = = n Esempo: ma ma (totale Rga )(totale j Colonna) Dmensone Totale del campone (10)(36) E 11 = = 144 300 3
Frequenze Osservate vs AEese Frequenze osservate vs frequenze aeese: Genere Femmna Mascho Snstra Osservate = 1 Attese = 144 Osservate = 4 Attese = 16 Mano domnante Destra Osservate = 108 Attese = 1056 Osservate = 156 Attese = 1584 10 180 36 64 300 La StaMsMca Test Ch- Quadrato La stamsmca test ch- quadrato è: χ = r c = 1 j= 1 (O E ) j E j j con g d l = ( r 1)( c 1) dove: O j = frequenza osservate nella cella (, j) E j = frequenza aeesa nella cella (, j) r = numero d rghe c = numero d colonne 4
Sesso Femmna Mascho Frequenze Osservate vs AEese Snstra Osservate = 1 Attese = 144 Osservate = 4 Attese = 16 Mano domnante Destra Osservate = 108 Attese = 1056 Osservate = 156 Attese = 1584 10 180 36 64 300 χ (1 144) = 144 (108 1056) + 1056 (4 16) + 16 (156 1584) + 1584 = 06848 Anals d ConMngenza χ = 06848 con gdl = ( r -1)( c -1) = (1)(1) = 1 Regola d Decsone: Se χ > 3841, rfutare H 0, altrmenm, non rfutare H 0 α = 005 χ 05 = 3841 Non rfutare H 0 Rfutare H 0 χ Qu, χ = 06848 < 3841, qund non rfumamo H 0 e concludamo che genere e mano domnante non sono assocate 5
Test sulla Bontà d AdaEamento I dam camponar conformano con una dstrbuzone pomzzata? Esemp: I rsultam camponar conformano con specfcate probabltà aeese? Il numero d chamate d supporto tecnco è lo stesso per tu{ gorn della se{mana? (e, le chamate hanno una dstrbuzone unforme?) Le msurazon relamve ad un processo d produzone seguono una dstrbuzone normale? Test sulla Bontà d AdaEamento Il numero d chamate d supporto tecnco è lo stesso per tu{ gorn della se{mana? (e, le chamate hanno una dstrbuzone unforme?) Per cascun gorno della se{mana, raccoglamo dam camponar relamv a 10 gorn: Somma delle chamate per quesp gorn: Luned 90 Marted 50 Mercoled 38 Goved 57 Venerd 65 Sabato 30 Domenca 19 Σ = 17 6
Logca del Test sulla Bontà d AdaEamento Se le chamate sono dstrbute unformemente, le 17 chamate dovrebbero essere equamente dvse fra 7 gorn: 17 = 7 46 chamate attese per gorno se unforme Test ch- quadrato sulla bontà d adaeamento: test per vedere se rsultam camponar sono consstenm con rsultam aees Luned Marted Mercoled Goved Venerd Sabato Domenca Frequenze Osservate vs AEese Osservate O 90 50 38 57 65 30 19 Attese E 46 46 46 46 46 46 46 TOTALE 17 17 7
StaMsMca Test Ch- Quadrato H 0 : La dstrbuzone delle chamate è unforme rspeeo a gorn della se{mana H 1 : La dstrbuzone delle chamate non è unforme La stamsmca test è K (O E) χ = E = 1 dove: K = numero d categore O = frequenza osservata per categora E = frequenza aeesa per categora (dove gdl = K 1) Rfutare H 0 se La Regone d Rfuto H 0 : La dstrbuzone delle chamate è unforme rspeeo a gorn della se{mana H 1 : La dstrbuzone delle chamate non è unforme χ = χ K = 1 (O E ) E > χ α α (con k 1 grad d lbertà) χ 0 Non rfutare H 0 χ α Rfutare H 0 8
StaMsMca Test Ch- Quadrato H 0 : La dstrbuzone delle chamate è unforme rspeeo a gorn della se{mana H 1 : La dstrbuzone delle chamate non è unforme χ (90 46) = 46 (50 46) + 46 (19 46) + + 46 = 305 k 1 = 6 (7 gorn della se{mana) qund usamo 6 grad d lbertà: χ 05 = 15916 Conclusone: χ = 305 > χ α = 15916 qund rfupamo H 0 e concludamo che la dstrbuzone non è unforme 0 Non rfutare H 0 α = 05 Rfutare H 0 χ χ 05 = 15916 Test sulla Bontà d AdaEamento, Parametr della Popolazone non NoM Idea: Verfcare se dam hanno una specfca dstrbuzone (per esempo bnomale, Posson, o normale) senza assumere che parametr della popolazone sano nom Usamo dam camponar per smmare parametr della popolazone che non sono nom 9
Test sulla Bontà d AdaEamento, Parametr della Popolazone non NoM Supponamo che l potes nulla specfch probabltà per le categore che dpendono dalla smma (da dam) d m parametr non nom della popolazone L approprato test sulla bontà d adaeamento è uguale a quello fornto precendentemente χ = = 1 (O E ) E tranne che l numero d grad d lbertà per la varable ch- quadrato è Grad d Dove K è l numero d categore K Lbertà = (K m 1) 30