Statistica multivariata Donata Rodi 4//6
La rgrssion logistica Costruzion di un modllo ch intrprti la dipndnza di una variabil catgorial dicotomica da un insim di variabili splicativ Trasformazioni da applicar alla variabil catgorial affinché possa ssr opportunamnt insrita com variabil dipndnt di un modllo Stima di paramtri dl modllo loro intrprtazion Rodi, 6
La rgrssion logistica I modlli logistici appartngono alla famiglia di modlli linari gnralizzati ch allargano l uso di modlli di rgrssion linar all variabili casuali non normali, in particolar binomiali. Scopo: trovar il modllo intrpolant ch mglio si adatta ai dati, pr dscrivr la rlazion tra la variabil dipndnt la variabil indipndnt. Stssi principi gnrali usati nlla rgrssion linar Diffrnz nlla sclta dl modllo paramtrico nll assunzioni Rodi, 6
Modlli di rgrssion Rodi, 6
La rgrssion logistica Insrimnto di una variabil catgorial in un modllo di rgrssion: occorr una trasformazion in modo ch acquisisca la natura di variabil quantitativa.. Codifica: assgnazion di un valor numrico all catgori (si introduc un lmnto di arbitrarità);. Uso dll frqunz (rlativ) con cui l catgori (o modalità) dlla variabil si prsntano all ossrvazion Rodi, 6
Esmpio AgGroup n CHD Absnt (Y=) CHD Prsnt (Y=) Man (Proportion) -9 9. 3-34 5 3.3 35-39 9 3.5 4-44 5 5.33 45-49 3 7 6.46 Man proporzion di prson ch hanno la carattristica y= (dato ) nl campion 5-54 8 3 5.63 55-59 7 4 3.76 6-69 8.8 Total 57 43.43 Rodi, 6
Stima di valori condizionati Man: stima di valori attsi condizionati E(y ) E y π() proporzion ignota nlla popolazion di soggtti ch assumono la carattristica di intrss y fissato. l proporzioni calcolat nlla colonna Man sono stim pr π() Rodi, 6
Forma dlla funzion logistica E(Y= X) La proporzion di disturbi cardiaci aumnta al aumntar dll tà Forma sigmoidal Crscnt o dcrscnt Asintoto alto basso Rodi, 6
Modllo di rgrssion logistica La rlazion tra mdia condizionata (CHD) tà non ha andamnto linar E(y ) π () Il modllo di rgrssion pr y è: Rodi, 6
Il paramtro Y,9,8,7,6,5,4,3,, = - -5 5 = X Y,9,8,7,6,5,4,3,, - -5 5 X, Titolo ass,8,6,4 = 4, - -5 5 Titolo ass Rodi, 6
Il paramtro π() > > <.. π(t) " Il paramtro dtrmina il tasso di crscita o di dcrmnto dlla curva Rodi, 6
π() π - π() π() ln π() logit Rodi, 6 ()
Funzion logistica Funzion flssibil di facil uso L sponnzial di logit (π() è il rapporto tra du probabilità (Odds) odds() π() π() Rodi, 6
Odds Ratio π( ) odds( ) π( ) OR() odds() π() π() (), Rapporto tra du odds in cui il numrator è dfinito pr qualunqu incrmnto unitario di X risptto al dnominator Rodi, 6
Esmpio Confronto tra odds non tra probabilità!!! L vnto tra l donn accad 4 volt più facilmnt ch tra gli uomini Rodi, 6
Rgrssion linar Rgrssion logistica sprim l ntità dll fftto dlla variabil X sul valor attso condizionato di y E il tasso di variazion di E(y ) pr ogni incrmnto unitario di. E(y ) E(y ) ( ), sprim l ntità dll fftto dlla variabil sul logit(()) logit π( ) logitπ() ( ), Rodi, 6
Lgg di distribuzion La variabil dipndnt y non ha lgg di distribuzion Normal: cad anch l ipotsi di normalità dgli rrori La distribuzion brnoulliana dscriv la distribuzion dgli rrori quindi sarà la distribuzion su cui l analisi statistica è incntrata. 7 Rodi, 6
Omoschdasticità L variabili casuali di tipo discrto sono carattrizzat dall'avr mdia varianza lgat da rlazioni naturali Nl caso spcifico, l v.c. di Brnoulli y i i sono carattrizzat dall'avr una mdia pari a i varianza pari a i (- i ) La varianza allora non è più costant ma varia al variar dai valori assunti dalla mdia: troschdasticità. Non è più possibil stimar i cofficinti di rgrssion con il mtodo di minimi quadrati ordinari. Rodi, 6
Stima di paramtri Modllo con una sola variabil indipndnt Funzion di massima vrosimiglianza Rodi, 6
Mtodo di stima Il modllo di minimi quadrati non da stimatori altrttanto fficinti corrtti Critrio dlla massima vrosimiglianza condizionata: dtrminazion di valori pr i paramtri ignoti in modo da massimizzar la funzion di vrosimiglianza Individuar qulla distribuzion di probabilità ch più vrosimilmnt ha gnrato il campion di ossrvazioni. La funzion di vrosimiglianza sprim, infatti, la probabilità ch si vrifichi la n-upla campionaria in funzion di paramtri incogniti. Rodi, 6
Stim di Massima Vrosimiglianza Paramtro Stima Error standard Stima standardizzat a Ep(Est) Intrcpt -5.97.975.6 Ag.5.3.6958. Equazioni dl modllo stimato: forma additiva: logit ˆ( Ag) 5.97. 5 Ag forma moltiplicativa: 5.97.5 Ag odds ( Ag).6(.) Ag Odds ratio: OR( Ag). Rodi, 6
Intrprtazion di logit Significato dlla diffrnza tra du logit π( ) logitπ() Rodi, 6
Matric di covarianza stimata Paramtro Intrcpt Ag Intrcpt.4576 -.474 Ag -.474.533 Standard rror: S ^. E.( ˆ ).4576.975 S ^. E.( ˆ ).533.3 Rodi, 6
Bontà di adattamnto dl modllo Vrifica complssiva Vrifica di confronto tra du modlli Vrifica dlla significatività dl singolo paramtro 4 Rodi, 6
Vrifica complssiva Confronto fra valori ossrvati valori torici Dvianza Nlla rgrssion linar la valutazion dlla bontà di adattamnto dl modllo vin ffttuata con il torma di scomposizion dlla dvianza SSR SST SSE n i n y y y ŷ i i i i Varianza Spigata Rodi, 6
Indic di dtrminazion multipla Rodi, 6 Rgrssion linar n i i n i i i n i i n i i y y ŷ y SST SSE y y y ŷ SST SSR R
Indic di Co Snll R L() L( ˆ) n Rgrssion logistica L(): valor dlla funzion di vrosimiglianza calcolato pr l mptymodl (modllo ch contin solo l intrctta) L(): valor dlla funzion di vrosimiglianza Rodi, 6
Indic di Naglkrk ~ R L() L( ˆ) R R ma L() n n R ma L() n ~ R = adattamnto nullo dl modllo = ma prftto adattamnto dl modllo ai dati Rodi, 6
Significatività di paramtri Liklihood Ratio tst La variabil dipndnt è spigata mglio dal modllo ch contin la variabil indipndnt o da qullo ch non la comprnd? H: = H : j k G L() D Dmod ln l() l(ˆ), L(ˆ) as. G ~ χ k Rodi, 6
Significatività di singoli paramtri Wald tst W j ˆ j ^ S. E.( ˆ j ) Distribuzion dl χ con DF Analisi dll stim di massima vrosimiglianza Paramtro DF Stima Error standard Chi-quadrato Wald Pr > ChiQuadr Ep(Est) Intrcpt -5.97.975.543 <..6 Ag.5.3.789 <.. Rodi, 6