UNIVERSITA DEGLI STUDI DI PERUGIA DIPARTIMENTO DI FILOSOFIA SCIENZE SOCIALI UMANE E DELLA FORMAZIONE Crs di Laurea in Scienze per l'investigazine e la Sicurezza 8. REGRESSIONE E CORRELAZIONE Prf. Maurizi Pertichetti Statistica sciale
8. REGRESSIONE E CORRELAZIONE Cme abbiam già dett, nell'analisi dei dati si è sempre più interessati a studiare se tra due più caratteri, cngiuntamente cnsiderati sulle unità statistiche di una pplazine, vi pssa essere una qualche relazine ed eventualmente quale ne pssa essere la misura. E abbiam anche dett che in particlare vi è interesse a studiare l'esistenza di frme di dipendenza ( indipendenza) attravers l'esplicitazine di una funzine analitica. Nell'analisi statistica per regressine si intende la ricerca di un mdell att a descrivere la relazine esistente tra una variabile dipendente e una più variabili indipendenti esplicative. La scelta dell'una dell'altra variabile cme indipendente nn è arbitraria ma legata alla natura del fenmen, nel sens che si sceglie cme indipendente la variabile che sia lgicamente antecedente rispett all'altra. Per effettuare una regressine si fa riferiment a mdelli terici di vari tip: lineare, parablic, espnenziale, lgaritmic, etc. Per cui una vlta accertata l'esistenza di una relazine tra due variabili, si deve cercare di trvare la funzine statistica, vver l'espressine analitica di tale relazine stt frma di equazine che leghi fra lr le variabili. Per evidenziare il tip di legame tra le variabili è di ntevle ausili il diagramma in crdinate cartesiane, a dispersine, scatter plt, ssia il diagramma empiric cstituit dalle n cppie di sservazini sulle variabili e rappresentate da una nuvla di punti. Generalmente una funzine statistica è rappresentata in termini grafici da una spezzata, in cui si assumn cme variabili indipendenti le mdalità del carattere X, pste sull'asse delle ascisse, e cme variabili dipendenti le crrispndenti mdalità di Y, pste sull'asse delle rdinate. Dall'analisi del diagramma a dispersine è spess pssibile avere una rappresentazine intuitiva del tip di relazine e di cnseguenza di quale mdell teric (lineare, parablic, espnenziale, lgaritmic, etc cme dett) adttare. Cn interplazine si intende l'individuazine di una funzine matematica che passi per tutti i punti (,) dati fra di essi. La funzine csì individuata dvrà rappresentare al megli l'andament espress dai punti.
Il prcediment si attua sia analiticamente sia graficamente: la rappresentazine analitica cnsiste nel trvare una funzine matematica che rappresenti nel miglir md pssibile la distribuzine sservata del fenmen; la rappresentazine grafica cnsiste nel sstituire al diagramma rappresentativ dei dati sservati una curva terica assciata ad una funzine matematica. Per realizzare una crretta rappresentazine analitica in un prcess di interplazine, l statistic deve: mutuare dalla matematica una funzine terica in grad di rappresentare cn una legge matematica la distribuzine empirica, vver una vlta trvata, la legge matematica sstituirà nelle diverse applicazini la legge statistica; determinare numericamente i parametri che cmpain nella funzine matematica; verificare il grad di accstament tra i valri empirici ( sservati) delle frequenze delle intensità e i valri terici ttenuti attravers la funzine matematica. Limiterem l'analisi all'iptesi in cui la relazine tra variabili (causa effett) sia di tip lineare e pertant che la funzine terica atta a rappresentare tale relazine sia un'equazine di prim grad, vver che ad interplare efficacemente la nuvla di punti sia una retta. La retta sarà detta retta di regressine e la sua equazine sarà chiamata equazine di regressine di Y su X. Psta in frma esplicita, la generica equazine cannica di prim grad in due incgnite della retta di regressine è data da: * a+b. Ad gni equazine di quest tip, una vlta assegnati i valri ad a e b, crrispnde una e una sla retta del pian cartesian. Assunta cme variabile indipendente e cme variabile dipendente, dalla gemetria analitica sappiam che a e b sn numeri reali fissati nn cntempraneamente nulli: a b si chiama intercetta della retta sull'asse delle Y, vver il valre della quand ; si chiama ceficiente anglare della retta e da la sua pendenza, vver l'angl che essa frma cn l'asse delle ascisse. i * a+b b a i A secnda del valre assunt dal cefficiente b si desume l'assciazine tra X e Y, infatti se: b >, l'assciazine tra le variabili e è psitiva, nel sens che al crescere di anche cresce; b <, l'assciazine tra le variabili e è negativa, nel sens che al crescere di la variabile decresce; b, nn esiste assciazine lineare tra e. b > b < b
Se dunque è una retta, retta di regressine, il mdell più apprpriat in grad di descrivere la relazine tra le variabili il prblema che si pne è quell di individuare in maniera analitica la miglire retta interplante, ssia la miglire cppia di parametri a e b da utilizzare. Esistn diversi metdi per determinare i parametri di una funzine matematica in un prcediment di interplazine, tuttavia quell più utilizzat è il metd dei minimi quadrati che si definisce cme quel metd che cnsente di determinare valri dei parametri tali per cui la retta terica che ne risulta ha la prprietà di rendere minima la smma dei quadrati degli scarti tra valri terici e valri sservati. Immaginiam di aver effettuat alcune sservazini e di aver riprtat i risultati sul un diagramma in crdinate cartesiane. 11 8 1 12 6 5 2 4 1 1 2 3 4 5 6 7 8 9 1 11 12 Iptizzand l'esistenza di una relazine lineare, il prblema, per descrivere tale relazine tra le variabili, è quell di individuare in maniera analitica la miglire retta interplante. la retta, una vlta trvata, diverrà la reglarità matematica che sstituirà, megli dire apprssimerà, l'esperienza statistica, csicché ciascun dei valri i delle sservazini, vver della distribuzine empirica, in crrispndenza di ciascun valre di i sarà sstituit da quell teric i * del mdell che verrà ad incrciarsi cn la retta.
Se dunque si stabilisce che per ciascun valre di i, i valri terici sn dati dalle i *, mentre i valri sservati sn dati dalle i, e altresì che la funzine interplatrice è Y* f(; a,b), quell dei minimi quadrati è il metd che cnsente di determinare i valri dei parametri di quella retta terica in grad di rendere la (*) 2 min, vver di rendere minima la smma dei quadrati degli scarti (nel grafic che segue, dve ne sn stati presi due a cas cme esempi, gli scarti sn quelli evidenziati in rss) tra valri terici e valri sservati. i j i * j * i i j Date due variabili X e Y, se la funzine terica è lineare, ciè del tip Y* a + bx, la teria dimstra che i parametri a e b determinati cn il metd dei minimi quadrati crrispndn alle seguenti espressini: n b μ n 2 ( ) 2 a bμ E si dimstra altresì che la retta dei minimi quadrati ha la caratteristica di passare per il baricentr della nuvla dei punti identificat dalle crdinate (μ, μ ), vver le medie delle distribuzini dei due caratteri. Esempi di determinazine dell equazine cannica della retta di regressine di Y su X. 4 1 7 3 1 5 11 6 14 8 46 23 4 21 2 16 49 5 1 66 121 112 196 253 482 μ 9,2 μ 4,6 b n n 2 ( ) 2 5*25346*23 27, 5*482(46) 294, 2,741 ppure b /n 253(46*23)/5 253, 211,6 41,4 2 ( ) 2 /n 482(46) 2 /n 482, 423,2 58,8,741 a μ bμ 4,6,741*9,2 1,8776 Y* a + bx Y* 1,8776 +,741X Y* 1,8776 +,741X 1,8776 +,741*9,2 4,6
Ulteriri espressini per il calcl del parametr b. 2 4 1 4 16 7 3 21 49 μ 9,2 1 5 5 1 μ 4,6 11 6 66 121 14 8 112 196 46 23 253 482 (Xμ) 5,2 2,2,8 1,8 4,8, (Yμ) 3,6 1,6,4 1,4 3,4, (Xμ)*(Yμ) 18,72 3,52,32 2,52 16,32 41,4 (Xμ) 2 27,4 4,84,64 3,24 23,4 58,8 (Xμ)*(Yμ) b (Xμ) 2 41,4 58,8,741 Cv (X,Y) b Var (X) (XY)/n(μ *μ ) 253 / 5 9,2 * 4,6 X 2 /n(μ ) 2 482 / 5 84,64 8,28 11,76,741 Una vlta scelta la funzine da adattare alla distribuzine empirica e i relativi parametri, l'esigenza che si pne è quella di valutare il grad di affidabilità del mdell. Si rende pprtun ciè misurare la dispersine dei dati sservati intrn alla retta prescelta. Tra i diversi indici elabrati assume particlare riliev l'indice di determinazine lineare. Si tratta di un indice della bntà di accstament della retta di regressine alla nuvla di punti sservati. In simbli R 2 1 L'indice di determinazine lineare è in grad di frnire la frza della relazine rappresentata dalla retta di regressine. Se vale significa che la variabilità dei valri di Y nn risulta spiegata dalla regressine. Quand vale 1 tutti i punti sperimentali giaccin sulla retta di regressine, per cui la regressine spiega una gran parte della variabilità dei valri di Y e quindi il mdell di regressine è apprpriat per descrivere l'assciazine tra le variabili. Esempi di calcl dell'indice di determinazine R 2 8 1 98 2 1.4 3 1.2 4 1.24 5 1.55 6.81 *8+134 μ 1.135 ( * ) 2 ( μ ) 2 * 8 934 1.68 1.22 1.336 1.47 6.81 * 46 28 2 96 8 (*) 2 2.116 784 4 9.216 6.4 18.52 < R 2 < 1 (μ ) 2 112.225 24.25 9.25 4.225 11.25 172.225 332.75 R 2 1 ( * ) 2 ( μ ) 2 18.52 1 332.75 1,557,9443 Il risultat evidenzia un ttim accstament. Va altresì sttlineat che nel metd dei minimi quadrati applicat al mdell di regressine lineare semplice, la smma dei dati sservati è sempre uguale a quella dei dati terici.
Nell'analisi statistica di una distribuzine dppia di caratteri entrambi quantitativi, una trattazine a parte è dedicata all studi di una particlare relazine: l'interdipendenza. Per misurare la crrelazine tra due variabili è necessari fare riferiment alla cvarianza, la cui espressine è: ρ ( μ Cv(X,Y) Ϭ )( μ ) n La cvarianza è una misura della cntempranea variazine di due caratteri X e Y, che ltre a descrivere la dispersine delle variabili, esprime anche la relazine tra lr. Il su segn, a differenza di quell della varianza che è sempre psitiv, può essere psitiv negativ, a secnda che la relazine tra le due variabili sia, rispettivamente, diretta (ci sia ciè cncrdanza), inversa (se vi è discrdanza). Il numeratre della cvarianza, indicat cn Cd(X,Y), è denminat cdevianza. La cvarianza cstituisce il numeratre di un'imprtante misura del grad di dipendenza lineare tra le due variabili: il cefficiente di crrelazine lineare di BravaisPearsn, la cui espressine è: Ϭ Ϭ Ϭ ( μ )( μ ) ( μ ) 2 * ( μ ) 2 dve Ϭ Ϭ sn l scart quadratic medi, rispettivamente della variabile X e della variabile Y. Il cefficiente di crrelazine assume valri cmpresi tra 1 e +1 : 1 ρ +1 se ρ nn vi è relazine di tip lineare tra i due caratteri (sn linearmente incrrelati). μ ρ μ se ρ ± 1 esiste, tra i due caratteri, un legame lineare perfett di tip cncrde (ρ + 1) discrde (ρ 1). μ ρ +1 ρ 1 μ μ talvlta ρ può assumere un valre elevat pur nn sussistend alcuna relazine tra le variabili, ma per l'influenza esercitata sulle stesse da un più fattri cmuni, in tal cas si dice che esiste una crrelazine spuria.
Il cefficiente di crrelazine lineare di BravaisPearsn, può essere espress anche nel seguente md: ρ n 2 ( ) 2 * n 2 ( ) 2 Riassumend: il cefficiente di crrelazine lineare di BravaisPearsn ρ è un indice della linearità della relazine fra le variabili X e Y. Valri di ρ vicini a +1 1 indican un'elevata linearità della relazine, quindi l'interplazine lineare frnisce un'ttima apprssimazine. Viceversa, valri di ρ vicini all indican indipendenza tra X e Y ppure una relazine nn lineare. Inltre, cme si è vist, se il cefficiente è psitiv, Y tende ad aumentare cn X e l'inclinazine della retta dei minimi quadrati è psitiva, mentre se il cefficiente è negativ Y tende a diminuire all'aumentare di X e l'inclinazine della retta dei minimi quadrati è negativa. Si dimstra che cefficiente di crrelazine lineare di BravaisPearsn, è pari alla radice quadrata dell'indice di determanazine lineare, in simbli: ρ ± R 2 n Piché ρ assume valri fra +1 e 1 e R 2 assume valri fra e +1, tant più R 2 è prssim a +1, tant miglire sarà la rappresentazine di Y tramite le retta di regressine. E' evidente che se R 2 1 ( ciè ρ ± 1), allra Y è linearmente dipendente da X ed esiste una regressine lineare perfetta ( crrelazine lineare perfetta). La retta di regressine è quindi in grad di rappresentare perfettamente Y. Esempi di calcl dell'indice di determinazine R 2 e di ρ * * (*) 2 (μ ) 2 8 8 112.225 1 98 934 46 2.116 24.25 2 1.4 1.68 28 784 9.25 3 1.2 1.22 2 4 4.225 4 1.24 1.336 96 9.216 11.25 5 1.55 1.47 8 6.4 172.225 15 6.81 6.81 18.52 332.75 μ 1.135 *8+134 R 2 ρ 33 225 Il risultat fa rilevare una crrelazine diretta tra le due variabili. Si dimstra anche che: ρ 1 ( * ) 2 18.52 ( μ ) 2 1 332.75 n n 2 ( ) 2 * n 2 ( ) 2 116.22 * 12.15 ± R 2 ±,9443,9718 48.372.6 1 2 1 4 9 16 25 55,557 2 64. 96.4 1.81.6 1.44. 1.537.6 2.42.5 8.62.1,9443 6*19.37 15*6.81 6*55 (15 ) 2 * 6*8.62.1 (6.81) 2 46.376.1 14.7 14.478,691 98 2.8 3.6 4.96 7.75 19.37,9718
Altri esempi di calcl dell'indice di determinazine di ρ 2 2 1 2 1 4 2 4 4 1.6 3 6 9 3.6 4 8 16 6.4 5 1 25 1. 15 3 55 22. 2 8 18 32 5 1.1 n ρ n 2 ( ) 2 * n 2 ( ) 2 6*1.1 15*3 6*55 (15 ) 2 * 6*22. (3) 2 6.6 4.5 33 225 * 132. 9. 2.1 1, 2.1 2 2 25 62.5 1 8 1 64. 8 2 5 4 25 1 3 9 4 6 16 3.6 24 5 25 15 1.115 55 76.125 1.5 ρ n n 2 ( ) 2 * n 2 ( ) 2 6 * 1.5 15 * 1.115 6 * 55 225 * 6 * 76.125 1.243.225 6.3 33 225 * 16.725 4.236.75 1.243.225 1.425 17.729,1,588