TECNICHE DI ANALISI DEI DATI AA 16/17 PROF. V.P. SENESE Quest materal sono dsponbl per tutt gl student al seguente ndrzzo: https://goo.gl/rwabbd Seconda Unverstà d Napol (SUN) Dpartmento d Pscologa TECNICHE DI ANALISI DEI DATI Prof. V.P. Senese MODELLI LINEARI LA REGRESSIONE LA REGRESSIONE SEMPLICE (E MULTIPLA) L ANALISI DELLA VARIANZA DISEGNI UNIVARIATI (DISEGNI FATTORIALI SEMPLICI E MISTI) 1
MODELLI LINEARI Quando n una rcerca è possble dstnguere (n base alla teora) tra varabl ndpendent e varabl dpendent l rcercatore può essere nteressato a verfcare la presenza della relazone causale supposta (tra le varabl) ne dat raccolt (osservazon camponare). Prma d nzare un qualsas dscorso sulle relazon d causaltà tra varabl dobbamo rbadre la dstnzone tra covarazone e causazone. MODELLI LINEARI COVARIAZIONE (Covaranza, Correlazone o Assocazone): quando semplcemente osservamo che due varabl presentano varazon concomtant. CAUSAZIONE: quando pensamo che sano propro le varazon della varable X a determnare le varazon della varable Y. Identfchamo la DIREZIONALITÀ e l esstenza del LEGAME DIRETTO tra le due varabl. Mentre la covarazone è osservable la causazone appartene al domno della teora!!!
REGRESSIONE LINEARE Quando la relazone s rfersce a due varabl d tpo quanttatvo (I o R) l anals che può essere mpegata è l anals della regressone lneare. In questo caso l obettvo è quello d voler verfcare se la capactà d prevedere valor d una data varable Y, E(Y), aumenta conoscendo valor assunt da una data varable X. REGRESSIONE LINEARE PREVISIONE DEI PUNTEGGI Sappamo che quando non conoscamo l punteggo Y d un soggetto, la mglore prevsone che possamo fare è usare come valore d rfermento l punteggo medo n Y: Y Y Y E Y Ipotes: Questo modello assume che tutt le osservazon vengono dalla stessa popolazone e che le dfferenze osservate sono dovute solo all errore. 3
REGRESSIONE LINEARE Se supponamo che l punteggo Y dpende dal punteggo X del soggetto, possamo provare a prevedere l valore d Y n base alla seguente formula: E Y Y X In pratca, potzzamo che (mantenendo la componente stocastca) se la teora è vera, allora l valore atteso d Y è funzone lneare d X. REGRESSIONE LINEARE L anals d regressone (lneare) è una tecnca d anals de dat che esamna la relazone tra una (o pù) varabl esplcatve (VI o predttor) e una varable crtero (o VD). Lo studo della relazone può avere un duplce scopo: ESPLICATIVO es. sottoporre a verfca un modello teorco PREDITTIVO es. ndvduare la combnazone lneare d varabl che consentono d stmare n modo ottmale la VD 4
VotoM REGRESSIONE LINEARE La regressone lneare s dce semplce quando abbamo una sola VD (o crtero) e una sola VI (o predttore). L potes che vene formulata rguarda l nfluenza della VI sulla VD. frustrazone predttore aggressvtà crtero crtero coeffcente errore Yˆ x costante predttore REGRESSIONE LINEARE Da un punto d vsta grafco vene ndvduata quella retta che, data la relazone tra le varabl, consente d prevedere al meglo puntegg nella varable dpendente a partre da quell nella varable ndpendente. Dagramma d dspersone 1 9 8 7 6 5 4 5 6 7 8 9 1 11 1 13 14 15 TestA 5
VotoM REGRESSIONE LINEARE Dato un dagramma d dspersone tra due varabl, la retta d regressone è la mglore delle rette nel senso che è quella retta che passa pù vcna a tutt punt (mnmzza tutte le dstanze tra punt e la retta). S scegle n base al metodo de mnm quadrat. S defnsce mglore la retta che rende mnma la somma de quadrat degl error, coè: ( Y Yˆ ) pù pccolo possble Dagramma d dspersone 1 9 8 7 6 5 4 testa 5 6 7 8 9 1 11 1 13 14 15 6
VotoM VotoM Dagramma d dspersone 1 9 8 7 6 5 4 testa 5 6 7 8 9 1 11 1 13 14 15 ( Y Yˆ) Dagramma d dspersone 1 9 8 7 6 5 4 testa 5 6 7 8 9 1 11 1 13 14 15 ( Y Yˆ) 7
VotoM Dagramma d dspersone 1 9 8 7 6 5 4 (ntercetta) valore d y predetto quanto x è zero Dx Dy y' x testa 6 7 8 9 1 11 1 13 14 15 (coeffcente d regressone ) ncremento d y quando aumenta x ndca l angolo che la retta forma con l asse delle ascsse, coè l nclnazone COEFFICIENTE DI REGRESSIONE Esprme la relazone tra X e Y ne termn delle untà d msura delle due varabl. Non è standardzzato (± ) e s nterpreta solo l segno. se = 1 per ogn ncremento untaro d X c è un ncremento untaro d Y (45 ) ; y' x se = per ogn ncremento untaro d X c è un ncremento doppo d Y ( untà) ; se =.5 per ogn ncremento untaro d X c è un ncremento d mezza untà d Y. 8
COEFFICIENTE DI REGRESSIONE STANDARDIZZATO Il coeffcente d regressone standardzzato ( ± 1) esprme la relazone tra la varable dpendente (Y) e la varable ndpendente (X) n untà d msura standard (punt z). N.B. Solo nella regressone semplce corrsponde al coeffcente d correlazone. COEFFICIENTE DI DETERMINAZIONE Il coeffcente d determnazone (r ) ndca la proporzone d varanza (%) della varable crtero (Y) spegata da quella del predttore (X). Il valore è compreso tra e 1. predttore crtero REGRESSIONE LINEARE I coeffcent d regressone e della popolazone vengono stmat a partre da coeffcent d regressone camponar a e b: POPOLAZIONE Y 1x1 CAMPIONE Y a b1 x1 e 9
COEFFICIENTE DI REGRESSIONE Il coeffcente d regressone è smboleggato come: (beta) quando c s rfersce al coeffcente non standardzzato della popolazone; b quando c s rfersce al coeffcente non standardzzato calcolato nel campone; (beta) quando c s rfersce al coeffcente standardzzato (punt z) calcolato nel campone. PARAMETRI Nella regressone semplce le formule per l calcolo de parametr sono le seguent: b n 1 ( X n 1 X )( Y ( X X ) Y ) a Y bx 1
Y depresson e 61; ds 13 54 7 DEPRESSIONE 1 95 9 85 8 75 7 65 Y o E( 6 55 5 45 4 35 3 5 3 35 4 45 5 55 6 65 7 75 8 85 9 95 1 15 ANSIA Y j ) 6 5 Y depresson e 61; ds 13 DEPRESSIONE 54 7 1 95 9 Y 85 8 75 7 65 6 Y 55 5 45 4 35 3 5 3 35 4 45 5 55 6 65 7 75 8 85 9 95 1 15 ANSIA ' 6 5 11
Y depresson e 61; ds 13 DEPRESSIONE 54 7 1 95 9 85 8 75 7 65 6 55 5 45 4 35 3 5 3 35 4 45 5 55 6 65 7 75 8 85 9 95 1 15 ANSIA Yˆ 6 5 SIGNIFICATIVITÀ DELLA PREVISIONE Scomposzone Devanza totale, nelle component d errore e d effetto : SQ tot SQ reg SQ err La somma de quadrat totale (SQ tot ) è data da una componente d errore (SQ err ) e da una componente spegata dalla regressone (SQ reg ) 1
SIGNIFICATIVITÀ DELLA PREVISIONE SQ tot SQ reg SQ err Y Y Y ˆ Y Y Yˆ DEVIANZA SPIEGATA SQ reg SQ tot DEVIANZA TOTALE SQ err DEVIANZA NON SPIEGATA o RESIDUA SIGNIFICATIVITÀ DELLA PREVISIONE Per verfcare la sgnfcatvtà della prevsone, s confrontano le due varanze. La prevsone è sgnfcatva se la varanza spegata dalla regressone è maggore d quella resdua. Le varanze s calcolano dvdendo le devanze per grad d lbertà opportun. GDL tot GDL reg GDL err N 1 ( k) ( N k 1) N = numero d osservazon k = numero d predttor 13
SIGNIFICATIVITÀ DELLA PREVISIONE Per confrontare la due varanze e verfcare se quella spegata dalla regressone è maggore d quella resdua, s calcola la statstca F. La varanza spegata dalla regressone va al numeratore, quella resdua al denomnatore. F var spegata var errore F Var Var reg res N Dev k Dev k reg res 1 H : la varanza spegata H : F 1 H : F 1 1 è uguale a quella resdua (casuale) k gdl F n k 1 SIGNIFICATIVITÀ DELLA PREVISIONE La verfca dell potes nulla (H ) fatta utlzzando la statstca F rguarda l modello complessvo; s assume che tutte le k varabl ndpendent non nfluenzno n modo sgnfcatvo la varable dpendente: H 3 1... k H 3 1 1 o o o... o k 14
SIGNIFICATIVITÀ DELLA PREVISIONE Se la F è sgnfcatva (H 1 ) allora l anals prosegue per verfcare quale predttore ha determnato l effetto. Vene qund defnta una specfca potes nulla (H ) per cascun predttore. H H 1 Solo nella regressone semplce questo test è rdondante dal momento che c è un solo predttore. Il test statstco approprato per la verfca è l valore t (un campone): t b H s b b s b gdl t n k 1 BONTÀ DI ADATTAMENTO La statstca maggormente mpegata per la valutazone della bontà d adattamento del modello (goodness-of-ft) è l R che vene stmato con la seguente formula: R dev spegata dev totale R n j1 n j1 ( Yˆ ( Y j j Y Y ) ) Il coeffcente d determnazone (r ) ndca la proporzone d varanza (%) della varable crtero (Y) spegata da quella del predttore (X). Il valore è compreso tra e 1. 15
ASSUNZIONI Oltre all assunzone d lneartà la regressone multpla s basa sulle seguent assunzon: La meda degl error d predzone (e) attorno ad ogn valore (Y ) predetto deve essere uguale a. Gl error d predzone (e) attorno ad ogn valore (Y ) predetto debbono essere dstrbut normalmente. La varanza degl error d predzone (e) attorno ad ogn valore (Y ) predetto deve essere uguale (omoschedastca). (e) (e) (e) OK (Y ) Non Normaltà (Y ) (Y ) Non Omoschedastctà POWER (k = 1) 16
POWER (k = 3) ESEMPIO #1 Il voto medo n matematca predce l voto al test d statstca? MBQ sqz Regressone semplce con una varable ndpendente (MBQ; VI-I) e una varable dpendente (sqz; VD-I). H H 1.5 17
ESEMPIO #1 Anals grafca della relazone Correlazone ESEMPIO #1 R F test a e b t test CI 95% 18
ESEMPIO #1 ESEMPIO #1 Questo rsultato c porta a respngere l potes nulla e a supportare l potes alternatva. H H 1 Il voto medo n matematca (MBQ) nfluenza sgnfcatvamente l voto al test d statstca (sqz), F(1,83) = 8.85, p <.1, R =.58. In partcolare, dat evdenzano una relazone postva tra le due varabl, b =.93, =.58, 95%CI b [.59;.17], ovvero coloro che hanno un voto n matematca pù alto hanno un voto maggore al test d statstca. 19
ESEMPIO # L età nfluenza la capactà d copare la fgura d Rey? Età ROCF Regressone semplce con una varable ndpendente (Età; VI-R) e una varable dpendente (ROCF; VD-R). H H 1.5 ESEMPIO # Dat real N = 17
ESEMPIO # ESEMPIO # 1
ESEMPIO #