LA REGRESSIONE LINEARE SEMPLICE

Documenti analoghi
Quale retta? La retta migliore è quella che più si avvicina all insieme dei 115

MEDIA DI Y (ALTEZZA):

LA REGRESSIONE LINEARE SEMPLICE

Caso studio 12. Regressione. Esempio

Il termine regressione fu introdotto da Francis Galton ( ), antropologo (promotore dell eugenetica).

Variabilità = Informazione

Università di Cassino. Esercitazioni di Statistica 1 del 26 Febbraio Dott. Mirko Bevilacqua

Dott.ssa Marta Di Nicola

ρ XY risponde alla domanda esiste un associazione lineare tra le variabili X e Y?

Analisi dei Dati. La statistica è facile!!! Correlazione

Università degli Studi di Napoli Parthenope. Facoltà di Scienze Motorie a.a. 2011/2012. Statistica. Lezione IV

Istogrammi e confronto con la distribuzione normale

Associazione tra due variabili quantitative

12/11/2015 STATISTICA 1. Esercitazione 4. Dott.ssa Vera Gurtovaya

Due distribuzioni, stessa media ma in quale delle due la media rappresenta, sintetizza meglio la situazione?

Lezione 4. La Variabilità. Lezione 4 1

LA FUNZIONE DI VEROSIMIGLIANZA

ANALISI DELLA REGRESSIONE ANALISI BIVARIATA DELLA REGRESSIONE

Caso studio 10. Dipendenza in media. Esempio

Regressione e Correlazione

La Regressione. Y = f ( X ) Le motivazioni che ci spingono alla ricerca di f essenzialmente due: la Previsione ed il Controllo.

Esercitazione 6 del corso di Statistica (parte 1)

DATA MINING PER IL MARKETING (63 ore)

Matematica elementare art.1 di Raimondo Valeri

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 9: Covarianza e correlazione

I percentili e i quartili

Università di Cassino Esercitazioni di Statistica 1 del 5 Febbraio Dott. Mirko Bevilacqua

Gli indici sintetici Forma. Gli indici sintetici. Gli indici sintetici. Qualche considerazione. Qualche considerazione. Tendenza centrale Forma

Contenuti. Facoltà di Economia. Scatterplot o diagramma a dispersione Analisi grafica della relazione tra due. francesco mola.

Compito A1- Soluzioni

Facoltà di Economia - STATISTICA - Corso di Recupero a.a Prof.ssa G. Balsamo CONCETTI di BASE Carattere X [o A ] i = 1

pè via che, lì, la media è sempre eguale risurta che te tocca un pollo all'anno: Me spiego: da li conti che se fanno seconno le statistiche d'adesso

Statistica descrittiva per l Estimo

Gli indici sintetici Forma. Un caso studio. Gli indici sintetici. Qualche considerazione. Qualche considerazione. Tendenza centrale Forma

Capitolo 6 Gli indici di variabilità

Classi di reddito % famiglie Fino a Oltre Totale 100

Analisi di regressione con SAS. Ci interessa. Matrice di covarianza. Esempio: due test su 31 individui PROC CORR PROC GPLOT PROC REG

Capitolo 17. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 17.1: Suggerimento

( ) ( ) ( ) ( ) Mutua variabilità. n n 1. n n 1. n n 1. n n 1

UNIVERSITA DEGLI STUDI MEDITERRANEA DI REGGIO CALABRIA

Stima puntuale Quando un parametro della popolazione incognito è valutato (stimato) da una sola statistica (parametro) tratto da un campione

Interpolazione. Definizione: per interpolazione si intende la ricerca di una funzione matematica che approssima l andamento di un insieme di punti.

6. LA CONCENTRAZIONE

LEZIONI DI STATISTICA MEDICA

Indici di asimmetria. Elementi di Statistica descrittiva Parte IV. Simmetria di una distribuzione di frequenze. Primo indice di asimmetria (1/3)

( ) 2 i 1 X. n(n + 1) a) si determini se sono corretti; b) per quelli non corretti, si calcoli la distorsione d;

Indipendenza in distribuzione

Propagazione di errori

SECONDA PROVA INTERMEDIA DI STATISTICA CLEA gennaio 2005 COMPITO C2

Funzioni di più variabili Massimi e Minimi una funzione definita in un insieme E. Un punto ( x0, y0)

6. LA CONCENTRAZIONE

MISURE DI TENDENZA CENTRALE. Psicometria 1 - Lezione 2 Lucidi presentati a lezione AA 2000/2001 dott. Corrado Caudek

Generalmente sia l ampiezza che il valore medio della sollecitazione sono variabili nel tempo.

INDICI DI VARIABILITA

La media aritmetica. La sua individuazione si basa sulla logica della trasferibilità di un carattere. Se la funzione f( ) corrisponde alla somma:

Regressione. Modelli statistici. Esempio: le automobili si vendono a peso? Esempio: le automobili si vendono a peso? prezzo=a+b*(peso-500)+errore

Statistica per le ricerche di mercato. 13. La regressione lineare semplice

Esercitazione 5 del corso di Statistica (parte 1)

CORSO DI STATISTICA I (Prof.ssa S. Terzi)

Seconda Prova Parziale di STATISTICA Modalità A

Esercizi su Rappresentazioni di Dati e Statistica

Caso studio 2. Le medie. Esercizio. La media aritmetica. Esempio

Le misure di variabilità

Analisi delle distribuzioni doppie: dipendenza

La media aritmetica. Le medie. Esempio. Esempio. Media aritmetica Mediana. Medie analitiche Medie di posizione. x 1

b) Relativamente alla variabile PREZZO, fornire una misura della variabilità della distribuzione attraverso

DI IDROLOGIA TECNICA PARTE II

Sommario. Facoltà di Economia. Obiettivo. Quando studiarla? Lezione n 7. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

La regressione lineare. Rappresentazione analitica delle distribuzioni

III Esercitazione: Sintesi delle distribuzioni semplici secondo un carattere qualitativo ordinale.

Statistica per le ricerche di mercato. 10. La regressione lineare semplice

Il modello di regressione multipla

IL MODELLO DI REGRESSIONE LINEARE MULTIPLA

Teoria dei Fenomeni Aleatori AA 2012/13

Teoria dei Fenomeni Aleatori AA 2012/13

Università degli Studi di Napoli Parthenope. STATISTICA per il Turismo. IV Lezione

Analisi della Dipendenza

exp("# (al posto di n) var Ca Coefficiente di asimmetria, indipendente dal valore dei parametri. f X DISTRIBUZIONE EV1 o DI GUMBEL.

7 STIMATORI DI REGRESSIONE LINEARE 7.1 INTRODUZIONE

Daniela Tondini

Modelli di accumulo del danno dovuto a carichi ciclici

valido se i dati E dato da max(x i )-min(x i )

Elementi di Statistica descrittiva Parte III

LE MEDIE. Quadratica. Italo Nofroni. Statistica medica. Medie. Le medie vengono classificate in

LE MEDIE. Quadratica. Italo Nofroni. Statistica medica. Medie. Le medie vengono classificate in due gruppi

Università della Calabria

Unità 11. Studio di più variabili. Interpolazione. Regressione. Correlazione. Notazione matriciale

SIMULAZIONE DI ESAME ESERCIZI. Cattedra di Statistica Medica-Università degli Studi di Bari-Prof.ssa G. Serio 1

Controlli Automatici A

Dai dati osservati mediante scelta campionaria si giunge ad affermazioni i che riguardano la popolazione da cui essi sono stati prescelti

IL CALCOLO DELLA DOMANDA DI TRASPORTO (Capitolo 4)

CENNI DI STATISTICA DESCRITTIVA BIVARIATA DISTRIBUZIONI MARGINALI RETTA DI REGRESSIONE. Angela Donatiello 1

Capitolo 2 Errori di misura: definizioni e trattamento

Anche le rette raccontano

La classe che mostra la distribuzione più elevata è quella 60-90, che corrisponde a un uso elevato dell automobile. f i fr (= f i/n) fr% (=fr*100)

Il campionamento e l inferenza

IL MODELLO DI REGRESSIONE

CALCOLO DEGLI INDICI STATISTICI

dei quali si conoscono solo la media x e la deviazione standard σ e dato un valore reale positivo K, possiamo affermare che:

Transcript:

LA REGRESSIONE LINEARE SEMPLICE Nello studo delle relazo tra due (o pù) varabl, oltre a msurare l testà del legame esstete, s è ache teressat ad accertare come vara ua d esse (dpedete) al varare dell altra (dpedete, o delle altre, varabl dpedet), dvduado u opportua fuzoe aaltca che stetzz tale relazoe. Nel caso d ua sola varable dpedete s parla d regressoe semplce; I preseza d due o pù varabl dpedet samo el campo della regressoe multpla.

OBIETTIVI DELLA REGRESSIONE Descrzoe: s vuole rappresetare tramte ua fuzoe l adameto de valor d ua varable al varare dell altra. Iterpretazoe: s cerca d mettere evdeza ess causal fra le varabl, per cofermare (o smetre) ua teora (ecoomca el s. caso). Prevsoe: s teta d valutare maera attedble l valore che assumerà la varable dpedete corrspodeza d u valore oto della varable esplcatva (o delle varabl esplcatve, el caso d regressoe multpla).

Esempo: osservo reddto e spesa su 30 famgle

Relazoe tra due varabl (Regressoe semplce) Dopo aver rappresetato grafcamete dat a mezzo dello scatter-plot se otamo ua regolartà d tpo leare ( put s dspogoo grossomodo attoro ad ua retta mmagara) possamo voler stetzzare tale regolartà medate ua fuzoe aaltca ragoevolmete semplce Il presupposto è che essta ua varable (la " detta dpedete o esogea) che è causa o che comuque agsce sull altra (la " detta dpedete o edogea). La scelta del ruolo delle due varabl è ua scelta extra-statstca

Tpologa d relazo (ua sola varable dpedete) Relazoe Leare Relazoe o leare

Tpologa d relazo Relazoe forte Relazoe debole

Tpologa d relazo Nessua relazoe

Tpologa d modell d regressoe Modell d regressoe Semplce (ua varable esplcatva) Multpla (2 o + varabl esplcatve) Leare No Leare Leare No Leare

APPROCCIO DESCRITTIVO I u approcco descrttvo s cosdera la regressoe come u problema d terpolazoe, coè d adattameto d ua fuzoe ( questo caso la retta) alla uvola de put del dagramma d dspersoe, base a sole cosderazo d atura geometrca.

Regressoe Leare V soo molt cas pratca cu la teora d u feomeo può essere stetzzata da u modello espresso da ua equazoe leare. Ad esempo, " la spesa per cosumo delle famgle e sa " l reddto dspoble. L'dea che l cosumo aumet all aumetare del reddto dspoble può essere espressa dalla relazoe fuzoale: Varable Dpedete Itercetta della Popolazoe Coeffcete agolare della popolazoe Varable Idpedete Errore casuale β ε Compoete Leare

Il modello leare Valore Osservato d per Valore teorco d per ε Errore casuale per questo valore pedeza = β tercetta=

DALLA TEORIA ALLA SIMULAZIONE β ε Il modello qu sopra m dce che tutt possbl soo par a ua fuzoe leare degl, secodo u certo e u certo, a cu s somma u umero casuale e. D fatto, o possamo osservare solo alcue coppe (campoe) d (, ), base alle qual stmare parametr e e l tpo d errore. Partamo però da alcu put ferm (assom d parteza): 1) Fra e c è ua relazoe leare (o perfetta, quato sporcata dall errore) 2) Per og gl error pù e meo tedoo a compesars e la varabltà degl error o dpede da 3) I valor della soo ot seza errore

REGRESSIONE LINEARE Il successo del modello leare dovuto a: 1. Rago d Semplctà: la retta è la pù semplce fuzoe che lega due varabl, è facle da terpretare ed l suo sgfcato è d agevole compresoe. 2. Esgeze d stes 3. Approssmazoe fuzoale (effettva leartà): molte relazo soo lear o assa vce alla leartà. 4. Trasformazo: spesso è possble otteere ua relazoe approssmatvamete leare trasformado ua o etrambe le varabl modo opportuo (ad esempo, cosderado logartm d azché valor). 5. Lmtatezza dell tervallo: ache se la relazoe tra due varabl o è leare, cosderado u tervallo lmtato de valor d e d, la retta forsce spesso u approssmazoe soddsfacete

INTERPRETAZIONE Nel modello d regressoe leare s assume che cascu valore osservato della varable dpedete sa esprmble come fuzoe leare del corrspodete valore della varable esplcatva, pù u terme resduo che traduce l capactà del modello d rprodurre co esattezza la realtà osservata. l terme e" è l rsultato d: 1. Error e careze ella msurazoe e ella rlevazoe d e d 2. Iadeguatezza della "semplce" relazoe leare 3. Isuffceza del solo fattore a "spegare" da solo la

Quale retta? Questa? Oppure questa? Questa certamete o! 23

Abbamo 4 osservazo su cu msuramo due varabl: la (var.dp.) e la (var. dp.) Voglamo stetzzare la relazoe tra e medate ua retta. Vedamo tre possbl «caddate» Quale è la mglore? La blu la rossa o la verde?

Provamo a gudcare quato è «buoa» la blu No c teressao tato le «dstaze vertcal» de put dalla retta Ma QUADRATI d queste dstaze (metodo de mm quadrat) 1 9 16 4+1+9+16=30 SSQ=0+2 4 Ok, la «dstaza complessva» della blu è 30. Forse la rossa è mglore?

Abbamo 4 osservazo su cu msuramo due varabl: la (var.dp.) e la (var. dp.) 4 0 4 4 SSQ=0+0,5 4+0+4+4=12 Sì, la rossa ha complessvamete ua somma de quadrat delle dstaze more, ma come s comporta la verde?

1 SSQ=6+1 0+1+4+1=6 0 1 4 La verde è la mglore delle tre! Ha fatt ua SSQ pù bassa ( realtà potremmo dmostrare che la sua SSQ è la mma assoluta, ovvero è la RETTA DEI MINIMI QUADRATI)

VALORI TEORICI Ua volta scelta la retta (ovvero ua volta scelt parametr a e b), corrspodeza d og valore d x s possoo calcolare valor teorc yˆ a b x ( 1, 2,, )

Idvduazoe della retta mglore (ovvero de parametr) Occorre stablre u crtero che c permetta d sceglere quella che passa pù vco a put ovvero s adatta meglo allo scatter-plot osservato Og scelta determa degl error dovut alla sosttuzoe d u valore presuto o teorco ad u valore osservato 28

Metodo de mm quadrat La retta mglore è quella che pù s avvca all seme de put corrspodet alle coppe d valor (x, y ). Per la stma de parametr e s mpega abtualmete l metodo de mm quadrat, che cosste ella scelta della retta che rede mma la somma de quadrat de resdu: 2 e 1 1 ( y yˆ ) 2 m

CALCOLO DEI PARAMETRI 2 1 1 2 1 1 1 2 1 1 2 1 1 1 1 2 x x y x y x b x x y x x x y a S può dmostrare che la soluzoe del problema d ottmo vsto precedeza è data da:

PROPRIETA I La somma de valor teorc è uguale alla somma de valor osservat: Da cò cosegue che ache la meda de valor teorc e la meda de valor osservat soo ugual e, oltre, che la somma de resdu de mm quadrat è detcamete ulla: 1 yˆ y 1 1 e ( y 1 yˆ ) 0

PROPRIETA II Nel dagramma d dspersoe la retta d regressoe passa sempre per l puto avete per coordate la meda d e la meda d, coè el puto (M x, M y )

Modello d regressoe leare semplce L equazoe della retta de m.q. forsce ua stma della retta d regressoe Stma (prevsoe) del valore d per l osservazoe Stma dell tercetta Ŷ a b Stma del coeffcete agolare (pedeza) Valore d per l osservazoe

RESIDUI: DEFINIZIONE I resdu soo deft come la dffereza tra valor osservat y ed corrspodet valor teorc che s collocao sulla retta d regressoe: e y yˆ ( 1, 2,, )

RESIDUI: INTERPRETAZIONE Cascu resduo è duque l valore umerco, rferto all utà -esma, eccesso o dfetto, rspetto al corrspodete valore osservato, che o è spegato dalla relazoe leare co la varable dpedete.

ESEMPIO Suppoamo che parametr della retta d regressoe della spesa mesle per almet fuzoe del reddto mesle sao a 796,63 b = 0,483 yˆ 796,63 0, 483 x La coosceza della retta de mm quadrat cosete d stmare valor della spesa corrspodeza d cascu valore del reddto. Ad esempo per ua famgla co reddto d 3529 euro, s ottee: 796,63+ 0,483 3529 = 2195

INTERPRETAZIONE I questo caso, l valore della costate a ha semplcemete u sgfcato geometrco (l ordata all orge); esso dcherebbe la spesa meda (teorca) d ua famgla co u reddto ullo. Il coeffcete b dca che, all aumetare del reddto d 1000 euro, la spesa aua aumeta meda d crca 483 euro.

Botà d adattameto I mm quadrat c garatscoo l mglor adattameto possble, ma samo teressat a quatfcare l grado d scostameto tra valor stmat e valor osservat La verfca della valdtà o botà d adattameto della retta d regressoe è dretta a cotrollare che la retta d regressoe sa realmete grado d spegare l adameto delle osservazo, quato s può sempre adattare ua retta co l metodo de mm quadrat ache e cas cu put o seguoo ua relazoe leare ed queste crcostaze la retta d regressoe ha ua capactà mma, o ulla, d rassumere la relazoe tra le varabl.

SCOMPOSIZIONE DELLA DEVIANZA y yˆ DEV ( ) DEV ( ˆ) DEV ( E) e DEV ( ) 1 ( y M y 2 ) devaza totale de valor della varable dpedete Msura la varazoe de valor d toro alla loro meda DEV ( ˆ ) 1 ( yˆ M y 2 ) devaza de valor stmat: devaza d regressoe Varazoe spegata attrbuble alla relazoe fra la e DEV ( E) 1 ( y yˆ 2 ) 1 e 2 devaza de resdu: devaza resdua Varazoe attrbuble a fattor estrae alla relazoe fra la e

OSSERVAZIONE La devaza DEV() de valor osservat della varable (che msura la varabltà degl scart de valor osservat dalla meda) è l rsultato del cotrbuto d due compoet: 1. la prma è la devaza d regressoe che msura la varabltà degl scart tra valor stmat (sulla retta de mm quadrat) e la meda; 2. la secoda è la devaza resdua, che msura la varabltà de resdu, ovvero degl scart tra valor osservat (scatter d put) e corrspodet valor teorc (sulla retta de mm quadrat)

SCOMPOSIZIONE DELLA DEVIANZA SSE = ( - ) 2 M SST = ( - M ) 2 _ SSR = ( - ) 2 _

MISURA DELLA BONTA DI ADATTAMENTO La devaza d regressoe è quella parte della devaza totale che è spegata dalla relazoe leare co la varable dpedete. Per msurare la botà d adattameto s deve rapportare alla devaza totale, quato l suo valore umerco è fluezato dall orde d gradezza e dall utà d msura della varable dpedete e dal umero d osservazo Ua msura relatva (e ormalzzata) è l dce d determazoe leare che s dca co R 2 (r-squared) ed è l rapporto tra la devaza d regressoe e la devaza totale: R 2 DEV ( ˆ) DEV ( ) 1 DEV ( E) DEV ( ) L dce R 2, essedo u rapporto d ua parte al tutto, può assumere valor compres tra 0 ed 1: se R 2 = 0 l adattameto è pessmo se R 2 = 1 l adattameto è perfetto

Esemp d R 2 R 2 = 1 R 2 = 1 Relazoe leare perfetta fra e : Il 100% della varabltà d è spegata dalla varabltà d R 2 =0,28 R 2 =0,73 Solo ua parte della varabltà d è spegata dalla varabltà d

Esemp d R 2 R 2 = 0 Nessua relazoe leare fra e : R 2 = 0 Il valore d o dpede da. (Nessua varazoe d è spegata da )

OSSERVAZIONI 1. R 2 =0 e R 2 =1 rappresetao de cas lmte. I pratca, s ha u dce d determazoe leare tero all tervallo [0, 1] 2. L dce R 2 o msura se c è ua relazoe tra le 2 varabl, ma solo quato dat osservat possao essere approssmat da ua retta: se l dce d determazoe leare s rvela prossmo ad 1, s può dre che la varabltà d è spegata msura otevole dalla retta d regressoe. Fra e sussste ua relazoe, ma o è d tpo leare: R 2 prossmo allo 0