Regressioe e correlazioe Regressioe e correlazioe I molti casi si osservao gradezze che tedoo a covariare, ma () Se c è ua relazioe di dipedeza fra due variabili, ovvero se il valore di ua variabile (dipedete) si può determiare come fuzioe di ua secoda variabile (idipedete), allora si può usare ua regressioe. Esempio: la pressioe arteriosa dipede dall età del soggetto () Se o c è ua relazioe di dipedeza fra le variabili, ovvero se essua delle due è causa delle variazioi dell altra, la tedeza a covariare si misura i termii di correlazioe. Esempio: lughezza e peso di u orgaismo
Età 4 48 56 6 67 70 Pressioe 8 0 5 4 4 5 Pressioe 60 50 40 0 0 0 40 50 60 70 80 Età Per misurare l itesità di ua relazioe (lieare) si usa il coefficiete di correlazioe di Bravais-Pearso. Per u campioe: r Per ua popolazioe: ρ (rho) r e ρ variao fra + e - Proporzioalità diretta: r tede a + Proporzioalità iversa: r tede a - Nessua relazioe: r tede a 0 Nessua relazioe lieare: r tede a 0
r = (ΣXY) - (ΣX)(ΣY) [(ΣX ) - (ΣX) ][(ΣY ) - (ΣY) ] Per l esempio sulla pressioe arteriosa: Soggetto Età(X) PA(Y) XY X Y A 4 8 5504 849 684 B 48 0 C 56 5 D 6 4 E 67 4 F 70 5 ΣX=45 ΣY=89 ΣXY=4764 ΣX =099 ΣY =44 r =.897 Cioè: forte relazioe positiva Se r =.897 idica ua forte relazioe positiva, si può affermare che questa relazioe o è frutto del caso ed è quidi sigificativa?
Ipotesi da testare per la sigificatività di ua correlazioe: H 0 : ρ = 0 H : ρ 0 t = r N - = 4.059 - r t crit(.05, df=) =.776 Poichè t=4.059>.776, si rigetta H 0 e si coclude che esiste ua correlazioe positiva e sigificativa fra età e pressioe arteriosa. Attezioe! Ua correlazioe positiva e sigificativa o implica u rapporto causale. 4
Regressioe lieare Aalizza la atura e l itesità di ua relazioe lieare fra due variabili, di cui ua dipede dall altra (o almeo ua è misurata seza errore). Iterpoliamo ua retta Ua retta qualsiasi è descritta dall equazioe: Y = a +bx (per u campioe) Y = α + βx (per ua popolazioe) Per determiare la retta che meglio si adatta ai dati, si usa il metodo dei miimi quadrati. 5
d 6 d 7 Per determiare la retta che meglio si adatta ai dati, si usa il metodo dei miimi quadrati. d 8 d 6 d 7 d 5 d 4 d d d Si calcola la distaza di ogi puto dalla retta ello spazio della variabile dipedete (Y) La somma d 8 d +d +d +d 4 +d 5. d 8 ovvero d 5 d d 4 d d Σ[Y f(x)] deve essere miimizzata (N.B. Questa somma è ua compoete della somma dei quadrati e quidi della variaza della variabile Y) 6
7 Nell equazioe Y = a + bx, a è l itercetta sull asse Y b è la pedeza della retta o coefficiete di regressioe stessa b - differete a stessa a - differete b Esiste ua retta di regressioe per qualsiasi isieme di dati. Immagiiamo ua popolazioe di dati per cui β = 0
8 Se u campioe casuale compredesse i puti (), la retta Y = a + bx che si iterpolerebbe avrebbe b 0 Esiste ua retta di regressioe per qualsiasi isieme di dati. Immagiiamo ua popolazioe di dati per cui β = 0 Qual è la probabilità che l isieme di puti i rosso sia stato estratto dalla popolazioe studiata e che esso descriva accuratamete la relazioe fra X e Y? Defiiamo l ipotesi ulla e l ipotesi alterativa: H 0 : β = 0 H : β 0 Quidi usiamo u ANOVA
) Si calcola la somma dei quadrati ovvero la variabilità complessiva di Y SS T = Σ(Y i -Y) ) Si calcola la somma dei quadrati per la regressioe (cioè per il modello usato) SS R = ΣX i Y i ΣX i ΣY i ΣX i -(ΣX i ) ) Si calcola la somma dei quadrati per i residui (scarti dalla regressioe) SS D = SS T -SS R 4) Si calcolao i quadrati medi per la regressioe e per i residui MS x = SS x /df x dove df T = -, df R =, df D = df T df R 5) Si determia F: F = MS R /MS D 6) Si determia il valore di p corrispodete 7) Il coefficiete di determiazioe r = SS R /SS D è la proporzioe di variaza totale spiegata dalla regressioe Relazioi o lieari Se ua retta o descrive la relazioe fra due variabili, si deve usare ua fuzioe o lieare Spesso a questo fie si usao delle trasformazioi o lieari dei dati, per esempio i logaritmo U caso tipico è quello di ua relazioe lieare fra i logaritmi delle due variabili, tale che la curva che si iterpola è: Y = a X b [cioè log(y)=a+b log(x)] Esempio: relazioi peso-lughezza i pesci 9
8000 0000 7000 6000 y = 0.09x.574 R = 0.986 000 y = 0.09x.574 R = 0.986 Peso (g) 5000 4000 000 000 000 0 0 0 40 60 80 00 0 Lughezza (cm) Peso (g) 00 0 0 00 Lughezza (cm) Ua relazioe peso-lughezza si descrive co la regressioe lieare log-log, ovvero co ua fuzioe di poteza Y=aX b Domada #: il peso dipede dalla lughezza? Domada #: se accettiamo di usare la lughezza come variabile idipedete (è più facile da misurare), possiamo affermare che l errore di misura della lughezza è ullo? Domada #: possiamo affermare che l errore di misura della lughezza è << di quello del peso? 0
d 6 d 7 d 6 d 7 Il peso o dipede dalla lughezza (e viceversa). Cosa sappiamo: soo gradezze che covariao quidi i valori dell ua possoo essere utili per stimare i valori dell altra etrambe le misure soo affette da errore l ordie di gradezza dell errore ella stima della lughezza (assuta come variabile idipedete) può variare i fuzioe del metodo di misura e degli orgaismi da misurare Il peso o dipede dalla lughezza (e viceversa). Quidi, la regressioe lieare o è u metodo adatto a descrivere questa relazioe, a meo che l errore di misura della lughezza o sia << di quello del peso. d 8 d 8 d 5 d d 4 d 5 d d 4 d d d d Regressioe lieare Asse maggiore ridotto
Asse Maggiore e Asse Maggiore Ridotto Regola empirica: se la variaza delle X è >/ di quella delle Y, o si dovrebbe usare la regressioe lieare L Asse Maggiore cosidera sia l errore della X che quello della Y: è la bisettrice dell agolo formato della retta di regressioe della X sulla Y co quella di regressioe della Y sulla X. L Asse Maggiore Ridotto è quasi cocidete co l Asse Maggiore, ma è più semplice da otteere. Asse Maggiore Si miimizza la somma dei quadrati delle proiezioi dei puti sull Asse Maggiore Il calcolo implica: Estrazioe di autovalori ed autovettori dalla matrice di covariaza oppure Calcolo delle regressioi Y su X e X su Y e della bisettrice delle due rette d 6 d 5 d d 4 d d Asse maggiore d 8 d 7
Asse Maggiore Ridotto I pratica, quasi coicide co l Asse Maggiore Il calcolo implica: Calcolo delle regressioi Y su X e X su Y e quidi b RMA = by = f ( X ) bx = f ( Y ) Calcolo delle somme dei quadrati SS x e SS Y o delle variaze b = SS SS = RMA Y X s Y s X I ogi caso: a RMA = Y b RMA X SSx=SX-(SX) / SSxy=SXY-(SX)(SY)/ b=ssxy/ssx a=sy/-b SX/
Dati ordiali e relazioi mootoiche: la correlazioe di rago di Spearma Esperimeto: valutare la relazioe fra qualità dei idi costruiti e tempo di appredimeto 4
Cosa dobbiamo attederci? ua relazioe o lieare (l appredimeto o cosete di migliorare all ifiito) ua relazioe mootoica (co l appredimeto la qualità dei idi o può peggiorare) Qualità del ido (Y) Tempo di appredimeto (X) Dati (fittizi) : Uccello Tempo di appredimeto Qualità del ido A 4 9 B C 0 0 D 8 Qualità del ido Tempo di appredimeto 5
Assegamo dei raghi ai dati : Uccello Tempo di appredimeto Qualità del ido A 4 9 B C 0 4 0 4 D 8 Qualità del ido Tempo di appredimeto Calcolo della correlazioe di Spearma (metodo di base) ) Si assegao i raghi ai valori di X e Y ) Si calcola il coefficiete di Bravais-Pearsoo sui dati trasformati Uccello Tempo di appredimeto Qualità del ido XY A 9 B C 4 4 6 D 4 ΣX = 0 ΣX = ΣXY = SS x = ΣX - (ΣX) = 6 Aalogamete, SS Y = 6 e SP = ΣXY - (ΣX) (ΣY) = 6 Quidi r s = SP =.0 (SS X )(SS Y ) 6
7 d r i i S = = 6 Se o ci soo raghi assegati ex-aequo, il calcolo può essere semplificato, essedo: Calcolo di r S dai raghi dove d è la differeza fra il rago della i-ma osservazioe per il descrittore j e quello per il descrittore k. = = = = = = m h hk hk m h hj hj i i m h hk hk m h hj hj S q q q q d q q q q r ) ( ) ( ) ( ) ( dove m è il umero di raghi e q hj e q hk soo il umero di osservazioi di rago h per il descrittore j e per quello k Calcolo di r S dai raghi Se ci soo (molti) raghi assegati ex-aequo, il calcolo deve essere corretto come segue: