LA REGRESSIONE LINEARE SEMPLICE Nello studo delle relazo tra due (o pù) varabl, oltre a msurare l testà del legame esstete, s è ache teressat ad accertare come vara ua d esse (dpedete) al varare dell altra (dpedete, o delle altre, varabl dpedet), dvduado u opportua fuzoe aaltca che stetzz tale relazoe. Nel caso d ua sola varable dpedete s parla d regressoe semplce; I preseza d due o pù varabl dpedet samo el campo della regressoe multpla.
OBIETTIVI DELLA REGRESSIONE Descrzoe: s vuole rappresetare tramte ua fuzoe l adameto de valor d ua varable al varare dell altra. Iterpretazoe: s cerca d mettere evdeza ess causal fra le varabl, per cofermare (o smetre) ua teora (ecoomca el s. caso). Prevsoe: s teta d valutare maera attedble l valore che assumerà la varable dpedete corrspodeza d u valore oto della varable esplcatva (o delle varabl esplcatve, el caso d regressoe multpla).
Esempo: osservo reddto e spesa su 30 famgle
Relazoe tra due varabl (Regressoe semplce) Dopo aver rappresetato grafcamete dat a mezzo dello scatter-plot se otamo ua regolartà d tpo leare ( put s dspogoo grossomodo attoro ad ua retta mmagara) possamo voler stetzzare tale regolartà medate ua fuzoe aaltca ragoevolmete semplce Il presupposto è che essta ua varable (la " detta dpedete o esogea) che è causa o che comuque agsce sull altra (la " detta dpedete o edogea). La scelta del ruolo delle due varabl è ua scelta extra-statstca
Tpologa d relazo (ua sola varable dpedete) Relazoe Leare Relazoe o leare
Tpologa d relazo Relazoe forte Relazoe debole
Tpologa d relazo Nessua relazoe
Tpologa d modell d regressoe Modell d regressoe Semplce (ua varable esplcatva) Multpla (2 o + varabl esplcatve) Leare No Leare Leare No Leare
APPROCCIO DESCRITTIVO I u approcco descrttvo s cosdera la regressoe come u problema d terpolazoe, coè d adattameto d ua fuzoe ( questo caso la retta) alla uvola de put del dagramma d dspersoe, base a sole cosderazo d atura geometrca.
Regressoe Leare V soo molt cas pratca cu la teora d u feomeo può essere stetzzata da u modello espresso da ua equazoe leare. Ad esempo, " la spesa per cosumo delle famgle e sa " l reddto dspoble. L'dea che l cosumo aumet all aumetare del reddto dspoble può essere espressa dalla relazoe fuzoale: Varable Dpedete Itercetta della Popolazoe Coeffcete agolare della popolazoe Varable Idpedete Errore casuale β ε Compoete Leare
Il modello leare Valore Osservato d per Valore teorco d per ε Errore casuale per questo valore pedeza = β tercetta=
DALLA TEORIA ALLA SIMULAZIONE β ε Il modello qu sopra m dce che tutt possbl soo par a ua fuzoe leare degl, secodo u certo e u certo, a cu s somma u umero casuale e. D fatto, o possamo osservare solo alcue coppe (campoe) d (, ), base alle qual stmare parametr e e l tpo d errore. Partamo però da alcu put ferm (assom d parteza): 1) Fra e c è ua relazoe leare (o perfetta, quato sporcata dall errore) 2) Per og gl error pù e meo tedoo a compesars e la varabltà degl error o dpede da 3) I valor della soo ot seza errore
REGRESSIONE LINEARE Il successo del modello leare dovuto a: 1. Rago d Semplctà: la retta è la pù semplce fuzoe che lega due varabl, è facle da terpretare ed l suo sgfcato è d agevole compresoe. 2. Esgeze d stes 3. Approssmazoe fuzoale (effettva leartà): molte relazo soo lear o assa vce alla leartà. 4. Trasformazo: spesso è possble otteere ua relazoe approssmatvamete leare trasformado ua o etrambe le varabl modo opportuo (ad esempo, cosderado logartm d azché valor). 5. Lmtatezza dell tervallo: ache se la relazoe tra due varabl o è leare, cosderado u tervallo lmtato de valor d e d, la retta forsce spesso u approssmazoe soddsfacete
INTERPRETAZIONE Nel modello d regressoe leare s assume che cascu valore osservato della varable dpedete sa esprmble come fuzoe leare del corrspodete valore della varable esplcatva, pù u terme resduo che traduce l capactà del modello d rprodurre co esattezza la realtà osservata. l terme e" è l rsultato d: 1. Error e careze ella msurazoe e ella rlevazoe d e d 2. Iadeguatezza della "semplce" relazoe leare 3. Isuffceza del solo fattore a "spegare" da solo la
Quale retta? Questa? Oppure questa? Questa certamete o! 23
Abbamo 4 osservazo su cu msuramo due varabl: la (var.dp.) e la (var. dp.) Voglamo stetzzare la relazoe tra e medate ua retta. Vedamo tre possbl «caddate» Quale è la mglore? La blu la rossa o la verde?
Provamo a gudcare quato è «buoa» la blu No c teressao tato le «dstaze vertcal» de put dalla retta Ma QUADRATI d queste dstaze (metodo de mm quadrat) 1 9 16 4+1+9+16=30 SSQ=0+2 4 Ok, la «dstaza complessva» della blu è 30. Forse la rossa è mglore?
Abbamo 4 osservazo su cu msuramo due varabl: la (var.dp.) e la (var. dp.) 4 0 4 4 SSQ=0+0,5 4+0+4+4=12 Sì, la rossa ha complessvamete ua somma de quadrat delle dstaze more, ma come s comporta la verde?
1 SSQ=6+1 0+1+4+1=6 0 1 4 La verde è la mglore delle tre! Ha fatt ua SSQ pù bassa ( realtà potremmo dmostrare che la sua SSQ è la mma assoluta, ovvero è la RETTA DEI MINIMI QUADRATI)
VALORI TEORICI Ua volta scelta la retta (ovvero ua volta scelt parametr a e b), corrspodeza d og valore d x s possoo calcolare valor teorc yˆ a b x ( 1, 2,, )
Idvduazoe della retta mglore (ovvero de parametr) Occorre stablre u crtero che c permetta d sceglere quella che passa pù vco a put ovvero s adatta meglo allo scatter-plot osservato Og scelta determa degl error dovut alla sosttuzoe d u valore presuto o teorco ad u valore osservato 28
Metodo de mm quadrat La retta mglore è quella che pù s avvca all seme de put corrspodet alle coppe d valor (x, y ). Per la stma de parametr e s mpega abtualmete l metodo de mm quadrat, che cosste ella scelta della retta che rede mma la somma de quadrat de resdu: 2 e 1 1 ( y yˆ ) 2 m
CALCOLO DEI PARAMETRI 2 1 1 2 1 1 1 2 1 1 2 1 1 1 1 2 x x y x y x b x x y x x x y a S può dmostrare che la soluzoe del problema d ottmo vsto precedeza è data da:
PROPRIETA I La somma de valor teorc è uguale alla somma de valor osservat: Da cò cosegue che ache la meda de valor teorc e la meda de valor osservat soo ugual e, oltre, che la somma de resdu de mm quadrat è detcamete ulla: 1 yˆ y 1 1 e ( y 1 yˆ ) 0
PROPRIETA II Nel dagramma d dspersoe la retta d regressoe passa sempre per l puto avete per coordate la meda d e la meda d, coè el puto (M x, M y )
Modello d regressoe leare semplce L equazoe della retta de m.q. forsce ua stma della retta d regressoe Stma (prevsoe) del valore d per l osservazoe Stma dell tercetta Ŷ a b Stma del coeffcete agolare (pedeza) Valore d per l osservazoe
RESIDUI: DEFINIZIONE I resdu soo deft come la dffereza tra valor osservat y ed corrspodet valor teorc che s collocao sulla retta d regressoe: e y yˆ ( 1, 2,, )
RESIDUI: INTERPRETAZIONE Cascu resduo è duque l valore umerco, rferto all utà -esma, eccesso o dfetto, rspetto al corrspodete valore osservato, che o è spegato dalla relazoe leare co la varable dpedete.
ESEMPIO Suppoamo che parametr della retta d regressoe della spesa mesle per almet fuzoe del reddto mesle sao a 796,63 b = 0,483 yˆ 796,63 0, 483 x La coosceza della retta de mm quadrat cosete d stmare valor della spesa corrspodeza d cascu valore del reddto. Ad esempo per ua famgla co reddto d 3529 euro, s ottee: 796,63+ 0,483 3529 = 2195
INTERPRETAZIONE I questo caso, l valore della costate a ha semplcemete u sgfcato geometrco (l ordata all orge); esso dcherebbe la spesa meda (teorca) d ua famgla co u reddto ullo. Il coeffcete b dca che, all aumetare del reddto d 1000 euro, la spesa aua aumeta meda d crca 483 euro.
Botà d adattameto I mm quadrat c garatscoo l mglor adattameto possble, ma samo teressat a quatfcare l grado d scostameto tra valor stmat e valor osservat La verfca della valdtà o botà d adattameto della retta d regressoe è dretta a cotrollare che la retta d regressoe sa realmete grado d spegare l adameto delle osservazo, quato s può sempre adattare ua retta co l metodo de mm quadrat ache e cas cu put o seguoo ua relazoe leare ed queste crcostaze la retta d regressoe ha ua capactà mma, o ulla, d rassumere la relazoe tra le varabl.
SCOMPOSIZIONE DELLA DEVIANZA y yˆ DEV ( ) DEV ( ˆ) DEV ( E) e DEV ( ) 1 ( y M y 2 ) devaza totale de valor della varable dpedete Msura la varazoe de valor d toro alla loro meda DEV ( ˆ ) 1 ( yˆ M y 2 ) devaza de valor stmat: devaza d regressoe Varazoe spegata attrbuble alla relazoe fra la e DEV ( E) 1 ( y yˆ 2 ) 1 e 2 devaza de resdu: devaza resdua Varazoe attrbuble a fattor estrae alla relazoe fra la e
OSSERVAZIONE La devaza DEV() de valor osservat della varable (che msura la varabltà degl scart de valor osservat dalla meda) è l rsultato del cotrbuto d due compoet: 1. la prma è la devaza d regressoe che msura la varabltà degl scart tra valor stmat (sulla retta de mm quadrat) e la meda; 2. la secoda è la devaza resdua, che msura la varabltà de resdu, ovvero degl scart tra valor osservat (scatter d put) e corrspodet valor teorc (sulla retta de mm quadrat)
SCOMPOSIZIONE DELLA DEVIANZA SSE = ( - ) 2 M SST = ( - M ) 2 _ SSR = ( - ) 2 _
MISURA DELLA BONTA DI ADATTAMENTO La devaza d regressoe è quella parte della devaza totale che è spegata dalla relazoe leare co la varable dpedete. Per msurare la botà d adattameto s deve rapportare alla devaza totale, quato l suo valore umerco è fluezato dall orde d gradezza e dall utà d msura della varable dpedete e dal umero d osservazo Ua msura relatva (e ormalzzata) è l dce d determazoe leare che s dca co R 2 (r-squared) ed è l rapporto tra la devaza d regressoe e la devaza totale: R 2 DEV ( ˆ) DEV ( ) 1 DEV ( E) DEV ( ) L dce R 2, essedo u rapporto d ua parte al tutto, può assumere valor compres tra 0 ed 1: se R 2 = 0 l adattameto è pessmo se R 2 = 1 l adattameto è perfetto
Esemp d R 2 R 2 = 1 R 2 = 1 Relazoe leare perfetta fra e : Il 100% della varabltà d è spegata dalla varabltà d R 2 =0,28 R 2 =0,73 Solo ua parte della varabltà d è spegata dalla varabltà d
Esemp d R 2 R 2 = 0 Nessua relazoe leare fra e : R 2 = 0 Il valore d o dpede da. (Nessua varazoe d è spegata da )
OSSERVAZIONI 1. R 2 =0 e R 2 =1 rappresetao de cas lmte. I pratca, s ha u dce d determazoe leare tero all tervallo [0, 1] 2. L dce R 2 o msura se c è ua relazoe tra le 2 varabl, ma solo quato dat osservat possao essere approssmat da ua retta: se l dce d determazoe leare s rvela prossmo ad 1, s può dre che la varabltà d è spegata msura otevole dalla retta d regressoe. Fra e sussste ua relazoe, ma o è d tpo leare: R 2 prossmo allo 0