0//04 METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA E LABORATORIO AA 04/05 PROF. V.P. SENESE Sconda Univrsità di Napoli (SUN) Facoltà di Psicologia Dipartimnto di Psicologia METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA Prof. V.P. Sns REGRESSIONE LOGISTICA SEMPLICE E MULTIPLA
Valori prvisti di Y 0//04 Il modllo dlla rgrssion smplic può ssr applicato anch quando la variabil dipndnt è dicotomica (ad s. risposta giusta o sbagliata). Tuttavia quando la variabil dipndnt è dicotomica un modllo non linar sarbb più appropriato. Infatti, sgundo la lina di tndnza dtrminata dal modllo linar (vdi grafico) divin vidnt ch, all aumntar dl puntggio total, sono accttabili valori prvisti maggiori di o minori di 0. In gnral, s la variabil dipndnt è dicotomica s è influnzata dalla variabil allora si dovrbb ossrvar ch pr valori molto alti di (o molto bassi s la rlazion è ngativa) il valor in Y dovrbb ssr molto vicino ad non dovrbb aumntar di molto. In pratica la curva ch rapprsnta la rlazion tra Y dovrbb ssr di tipo logistico. 0 Valori ossrvati di
0//04 La non linarità dlla rlazion tra l variabili non consnt di potr applicar il mtodo OLS a mno ch non si procda ad opportun trasformazioni ch rndano linar la rlazion. Si tratta di rndr linar la rlazion ni trmini di paramtri (Brry & Fldman, 985). Una dll trasformazioni possibili è, ad smpio, la trasformazion logaritmica dlla variabil dipndnt. Dal momnto ch la variabil dipndnt dfinisc l appartnnza a un gruppo (o all altro), i valori ch vngono assgnati ai livlli sono arbitrari. Ciò ch intrssa, dunqu, non è il valor attso (prdtto), ma la probabilità ch un dato soggtto appartnga a mno a uno di du gruppi. Un modo pr suprar qusto problma è qullo di sostituir la probabilità (ad s. di Y = ) con l odds: odds(y = ). L odds è un modo di sprimr la probabilità mdiant un rapporto. Si calcola facndo il rapporto tra l frqunz ossrvat in un livllo con l frqunz ossrvat nll altro. Il valor dll odds sprim il rapporto tra du catgori. Ad smpio, s ci sono 30 uomini donn (n = 4) possiamo dir ch la probabilità di ssr uomini è.74, oppur ch gli uomini sono il 7%, mntr l odds tra uomini donn è.5, oppur ch pr ogni donna ci sono.5 uomini. 30 30 P( M ).74 odds( M ). 5 4 3
0//04 Pr sprimr s la rlazion tra du catgori varia in funzion di un altra variabil (valutar cioè l associazion tra du variabili) è possibil utilizzar un altro indic chiamato odds ratio o rapporto tra gli odds. Tal indic si ottin facndo un rapporto tra gli odds ottnuti (risptto ad una variabil) pr ciascun livllo dlla sconda variabil. Ad smpio, s vogliamo valutar la rlazion tra tipo di lavoro ssso possiamo utilizzar una tablla di contingnza a doppia ntrata rapprsntar la distribuzion di frqunz congiunt. Allora la domanda ch possiamo porci è: il rapporto (odds) tra uomini donn è ugual ni diffrnti lavori? Uomini Donn Inggnri 8 0 Insgnanti 0 30 4 OR 8 0 8 0 7.5 Valori divrsi da indicano un associazion tra l variabili. In qusto caso si può dir ch la proporzion dgli uomini è 7.5 volt maggior tra gli inggnri risptto agli insgnanti. Rlazion tra frqunza, odds logaritmo dll odds 4
0//04 5 Y P ) ( ; non valido P Y ) ( ; 0 non valido Y P 0 Y P ) ( 0; funzion logistica odds Y ln [5] Y odds x x ) ln( Applicando qust trasformazioni, l quazion dlla rtta divin:...... ) ( Y P [6] È important sottolinar ch la probabilità, l odds il logit sono tr diffrnti modi di sprimr sattamnt l stss cos. La trasformazion in logit srv solo a garantir la corrttzza matmatica dll analisi.
0//04 Nlla stima di paramtri dlla rgrssion logistica il mtodo OLS non può ssr applicato (non sono vrificati gli assunti), si utilizza l algoritmo di massima vrosimiglianza (maximum liklihood - ML) ch stima i paramtri in modo da massimizzar la funzion (logliklihood function) ch indica quanto è probabil ottnr il valor attso di Y dati i valori dll variabili indipndnti. La soluzion ottimal vin raggiunta partndo da di valori di prova pr i paramtri (arbitrari) i quali succssivamnt vngono modificati pr vdr s la funzion può ssr migliorata. Il procsso vin riptuto (itration) fino a quando la capacità di miglioramnto dlla funzion è infinitsimal (convrg). Quando l assunzioni dll OLS sono vrificat, l stim di paramtri ottnut mdiant il mtodo OLS il mtodo ML sono idntich (Eliason, 993). In qusto snso il mtodo OLS può ssr considrato un caso particolar dlla ML; quando i paramtri sono stimabili dirttamnt, snza itrazioni. Immaginiamo di volr vrificar la rlazion tra una crta abilità (PLL_T) la risposta ad un dato itm ch misura qulla stssa abilità (PLLd3): Prczion lunghzza lin 6
0//04 REGRESSIONE SEMPLICE REGRESSIONE LOGISTICA REGRESSIONE SEMPLICE PLLd3.36.06(PLL_T) Es. PLL = 0 PLLd3.36.06(0).36? REGRESSIONE LOGISTICA log it PLLd3 6.8.786(PLL_T) Es. PLL = 0 log it PLLd3 6.8.786(0) 6. 8 7
0//04 Nll intrprtazion dl modllo dlla rgrssion logistica ci si avval di statistich dl tutto simili all statistich F R dlla rgrssion linar. Similmnt alla somma di quadrati, nlla rgrssion logistica si utilizza il log liklihood com critrio pr la sclta di paramtri dl modllo. In particolar, pr ragioni matmatich, si utilizza il valor dl log liklihood moltiplicato pr, abbrviato com LL. Valori grandi positivi indicano una bassa capacità di prvision dl modllo. Nl modllo con la sola intrctta il valor dlla statistica LL rapprsnta qullo ch nlla rgrssion linar corrispond alla dvianza (o somma di quadrati total, SST) può ssr indicata com D 0. S: ny numro di casi pr i quali Y = N allora: numro total di casi Y Frq. Y = 7 ny 0 numro di casi pr i quali Y = 0 P( Y ) ny N probabilità ch Y = PY n lnpy 0 D0 ny ln Y 0 [7] D 0 7 ln 7 30 Y = 0 3 Tot. N = 30 D 4. 0 054 3 3ln 30 8
0//04 Nl modllo ch contin sia l intrctta sia la/l variabil/i indipndnt/i, il valor dlla statistica LL rapprsnta la part di variabilità di dati ch non vin spigata dal modllo (dvianza d rror) vin indicata com D M. Lo scarto tra D 0 D M rapprsnta la part di variabilità spigata dalla/ variabil/i indipndnt/i o VARIABILITÀ SPIEGATA DAL MODELLO; vin indicata com G M. D 0 D G M M [8] G M vin anch chiamato Chi-quadrato dl modllo indica la quantità di riduzion dll rror dovuta al modllo; ma solo s i modlli sono nidificati (nstd). Un modllo A (M A ) si dic nstd in un modllo B (M B ) s il modllo A è composto da alcuni di trmini contnuti nl modllo B, non v n sono di divrsi, mntr nl modllo B vi sono anch trmini aggiuntivi. M A M B a b a b c La diffrnza tra i du -LL (G M ), s calcolata su modlli nstd, può ssr intrprtata com statistica dl utilizzata pr la vrifica dll ipotsi nulla dl modllo: H 3 0... k 0 s il G M risulta statisticamnt significativo (cioè quando il valor ha una p <.05) l ipotsi H 0 può ssr rifiutata; val a dir ch la prvision (Y = ) può ssr migliorata s considriamo i prdittori. Pr la vrifica dll ipotsi i gradi di librtà sono dfiniti dal numro di prdittori (gdl = k). 9
0//04 S mantniamo la similitudin tra la statistica LL la dvianza dlla rgrssion, pr ottnr una statistica simil all R si può utilizzar il rapporto di vrosimiglianza (liklihood ratio): R L G D M 0 G M GM D M [9] indic di McFaddn (974) Analogamnt a quanto avvin nlla rgrssion, R L può ssr considrato com la porzion di riduzion dll rror ( LL) dovuta al modllo. Dtto in altri trmini, indica quanto considrar i prdittori riduc la variazion ni dati (stimata a partir dal modllo nullo). In aggiunta all statistich rlativ alla valutazion dll adguatzza dl modllo (goodnss of fit), un ultrior asptto ch vin prso in considrazion è la capacità prdittiva dl modllo. Nlla maggior part di casi siamo intrssati a conoscr s il modllo è in grado di prvdr adguatamnt P(Y i = ). Tuttavia in altri casi possiamo ssr intrssati a vrificar s il modllo è in grado di prvdr adguatamnt l appartnnza di casi ad un gruppo o ad un altro, quindi siamo molto più intrssati alla tablla dll classificazioni. L indic pr la valutazion dlla capacità prdittiva dl modllo maggiormnt impigato si basa sulla valutazion dlla riduzion dll rror in prcntual (proportional chang in rror): Efficinza prdittiva rrori snza il modllo rrori con il modllo rrori snza il modllo 0
0//04 Al pari dlla rgrssion linar, anch nlla rgrssion logistica siamo intrssati a valutar il contributo spcifico di ogni variabil indipndnt sulla variabil dipndnt, tstandon la sua significatività. Pr la valutazion dl contributo di ciascuna variabil si considrano i cofficinti di rgrssion. A tal scopo possiamo considrar sia i cofficinti non standardizzati (s siamo intrssati all unità di misura) sia i cofficinti di rgrssion standardizzati (ch sprimono la rlazion tra l variabili ni trmini dll dviazioni standard). Il modo più utilizzato pr valutar il contributo di ciascun prdittor sulla variabil dipndnt è mdiant la statistica di Wald (W k ): W k b s k b k Tal statistica sgu la distribuzion Chi-quadro. Gdl = W k b s k b k. WPLL 3.44 9. 8847 () = 9.8847; p =.00666 log it 786.50 Corrispond ad un punto z PLLd3 6.8.786(PLL_T)
0//04 log it PLLd3 6.8.786(PLL_T) Prczion lunghzza lin (0-)... P( Y )... minimo 0 log it PLLd3 6.8.786(0) 6. 8 P Y ) 6.8 ( 6. 8.00 0.% massimo log it PLLd3 6.8.786() 3.304 P Y ) 3.304 ( 3. 304.964 96.4%
0//04 b s R s Pr porr a confronto variabili ch hanno dll unità di misura diffrnti è ncssario calcolar i cofficinti di rgrssion standardizzati. Un cofficint standardizzato è un cofficint ch è stato calcolato su variabili ch hanno com unità di misura la dviazion standard. Tali cofficinti indicano di quant dviazioni standard varia la varabil dipndnt pr ogni variazion unitaria (standard) dlla variabil indipndnt. Nl caso dlla rgrssion logistica i cofficinti standardizzati (b * Y) indicano di quant dviazioni standard si modifica il logit dlla Y i pr ogni variazion standard dlla variabil ki. La formula pr il calcolo è la sgunt: Y coff. di rgrssion non stand. dv. st.di YModl ˆ logit( Yˆ ) coff. di rgrssion linar dv. st.di log it( Yˆ) stimato b logit * by s Y s Yˆ R Un ultrior paramtro ch può ssr utilizzato pr l intrprtazion dlla rlazion tra l variabili è l odds ratio ch nll output vin riportato com xp(b). Tal valor sprim la variazion dlla variabil dipndnt in funzion di variazioni dlla variabil indipndnt. S il valor è suprior ad significa ch all aumntar dlla variabil indipndnt aumnta la probabilità di Y =. Al contrario, s il valor è infrior ad significa ch ad aumntar dlla variabil indipndnt dcrsc la probabilità ch Y =. È important sottolinar sia ch l odds ratio ha la stssa intrprtazion dl cofficint di rgrssion sia ch pr confrontar i diffrnti livlli di probabilità (Y = ) ni divrsi livlli dll variabili indipndnti è ncssario calcolar la probabilità non basta rifarsi ai valori dll odds. 3
0//04..PROVIAMO ESERCITAZIONE REGRESSIONE LOGISTICA 4