IL MODELLO DI REGRESSIONE

Documenti analoghi
y = α + βx + ε Qui ci soffermeremo su un unica classe di modelli, detti modelli statistici lineari. Si veda la seguente figura:

MEDIA DI Y (ALTEZZA):

Istogrammi e confronto con la distribuzione normale

Caso studio 12. Regressione. Esempio

Quale retta? La retta migliore è quella che più si avvicina all insieme dei 115

LA REGRESSIONE LINEARE SEMPLICE

LA FUNZIONE DI VEROSIMIGLIANZA

Università egli Studi di Bergamo Corso di laurea in Ingegneria Edile STATISTICA Stima di massima verosimiglianza

Università degli Studi di Napoli Parthenope. Facoltà di Scienze Motorie a.a. 2011/2012. Statistica. Lezione IV

Esercitazione 6 del corso di Statistica (parte 1)

SECONDA PROVA INTERMEDIA DI STATISTICA CLEA gennaio 2005 COMPITO C2

DATA MINING PER IL MARKETING (63 ore)

Università di Cassino. Esercitazioni di Statistica 1 del 26 Febbraio Dott. Mirko Bevilacqua

Caso studio 10. Dipendenza in media. Esempio

Regressione e Correlazione

ANALISI DELLA REGRESSIONE ANALISI BIVARIATA DELLA REGRESSIONE

Lezione 4. La Variabilità. Lezione 4 1

Ellissi di densità costante. Distribuzione normale multivariata. Ellissoidi di isodensità. Esempio isodensità: X~N 2 (μ,σ) Consideriamo

( ) ( ) ( ) ( ) Mutua variabilità. n n 1. n n 1. n n 1. n n 1

ρ XY risponde alla domanda esiste un associazione lineare tra le variabili X e Y?

Il termine regressione fu introdotto da Francis Galton ( ), antropologo (promotore dell eugenetica).

Dott.ssa Marta Di Nicola

Funzioni di più variabili Massimi e Minimi una funzione definita in un insieme E. Un punto ( x0, y0)

La Regressione. Y = f ( X ) Le motivazioni che ci spingono alla ricerca di f essenzialmente due: la Previsione ed il Controllo.

Stima puntuale Quando un parametro della popolazione incognito è valutato (stimato) da una sola statistica (parametro) tratto da un campione

Analisi dei Dati. La statistica è facile!!! Correlazione

Matematica elementare art.1 di Raimondo Valeri

( ) 2 i 1 X. n(n + 1) a) si determini se sono corretti; b) per quelli non corretti, si calcoli la distorsione d;

Esercitazione 4 del corso di Statistica (parte 1)

Contenuti. Facoltà di Economia. Scatterplot o diagramma a dispersione Analisi grafica della relazione tra due. francesco mola.

Variabilità = Informazione

Classi di reddito % famiglie Fino a Oltre Totale 100

12/11/2015 STATISTICA 1. Esercitazione 4. Dott.ssa Vera Gurtovaya

Università di Cassino Esercitazioni di Statistica 1 del 5 Febbraio Dott. Mirko Bevilacqua

Facoltà di Economia - STATISTICA - Corso di Recupero a.a Prof.ssa G. Balsamo CONCETTI di BASE Carattere X [o A ] i = 1

Seconda Prova Parziale di STATISTICA Modalità A

Indici di asimmetria. Elementi di Statistica descrittiva Parte IV. Simmetria di una distribuzione di frequenze. Primo indice di asimmetria (1/3)

Compito A1- Soluzioni

DI IDROLOGIA TECNICA PARTE II

Due distribuzioni, stessa media ma in quale delle due la media rappresenta, sintetizza meglio la situazione?

1 ANALISI MATEMATICA A - Esercizi della settimana 1

Variabili casuali doppie

Esercizi 12/10/2007. oppure B 0. In modo del tutto analogo AB 0 se e solo se. oppure B 0 B 0. Studio del segno di una disequazione polinomiale.

Unità 11. Studio di più variabili. Interpolazione. Regressione. Correlazione. Notazione matriciale

CORSO DI STATISTICA I (Prof.ssa S. Terzi)

Gli indici sintetici Forma. Un caso studio. Gli indici sintetici. Qualche considerazione. Qualche considerazione. Tendenza centrale Forma

Due distribuzioni, stessa media ma in quale delle due la media rappresenta, sintetizza meglio la situazione?

La media aritmetica. La sua individuazione si basa sulla logica della trasferibilità di un carattere. Se la funzione f( ) corrisponde alla somma:

Interpolazione. Definizione: per interpolazione si intende la ricerca di una funzione matematica che approssima l andamento di un insieme di punti.

Capitolo 13 Il modello di regressione lineare

Sommario. Facoltà di Economia. Generalità sulla variabilità A B C. francesco mola. Lezione n 4. Variabilità e Dispersione. Concetto di variabilità

Gli indici sintetici Forma. Gli indici sintetici. Gli indici sintetici. Qualche considerazione. Qualche considerazione. Tendenza centrale Forma

PROVA SCRITTA DI STATISTICA (COD ) 4 Febbraio 2004 MODALITÀ A APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 9: Covarianza e correlazione

LEZIONI DI STATISTICA MEDICA

exp("# (al posto di n) var Ca Coefficiente di asimmetria, indipendente dal valore dei parametri. f X DISTRIBUZIONE EV1 o DI GUMBEL.

Esercitazione 5 del corso di Statistica (parte 1)

La media aritmetica. Le medie. Esempio. Esempio. Media aritmetica Mediana. Medie analitiche Medie di posizione. x 1

Caso studio 2. Le medie. Esercizio. La media aritmetica. Esempio

7 STIMATORI DI REGRESSIONE LINEARE 7.1 INTRODUZIONE

Generalmente sia l ampiezza che il valore medio della sollecitazione sono variabili nel tempo.

Statistica descrittiva Campioni vettoriali

Statistica per le ricerche di mercato. 10. La regressione lineare semplice

Soluzione degli esercizi del capitolo 11

Facoltà di Farmacia Corso di Matematica con elementi di Statistica Docente: Riccardo Rosso

pè via che, lì, la media è sempre eguale risurta che te tocca un pollo all'anno: Me spiego: da li conti che se fanno seconno le statistiche d'adesso

TEST CHI DI INDIPENDENZA STOCASTICA

FUNZIONI LOGICHE FORME CANONICHE SP E PS

UNIVERSITA DEGLI STUDI MEDITERRANEA DI REGGIO CALABRIA

Alcuni metodi per la risoluzione di sistemi lineari con matrici strutturate.

INDICI DI VARIABILITA

Associazione tra due variabili quantitative

Soluzione degli esercizi sulla statistica descrittiva e gli intervalli di confidenza

ESERCIZI DI STATISTICA

Contenuti: o Specificazione del modello. o Ipotesi del modello classico. o Stima dei parametri. Regressione semplice Roberta Siciliano 2

IL CALCOLO DELLA DOMANDA DI TRASPORTO (Capitolo 4)

Modulo di Fisica Tecnica. Differenze finite per problemi di conduzione in regime instazionario

Gli indici sintetici Forma. Un caso studio. Gli indici sintetici. Qualche considerazione. Qualche considerazione. Tendenza centrale Forma

Var iabili aleatorie continue

Dai dati osservati mediante scelta campionaria si giunge ad affermazioni i che riguardano la popolazione da cui essi sono stati prescelti

Capitolo 6 Gli indici di variabilità

I percentili e i quartili

Propagazione di errori

La regressione lineare. Rappresentazione analitica delle distribuzioni

Aritmetica 2016/2017 Esercizi svolti in classe Quarta lezione

Statistica descrittiva per l Estimo

Analisi Matematica Lezione 30, 4 dicembre 2014 e x2 dx =

Approfondimenti Lezione 3. Mara Bruzzi

Elementi di Statistica descrittiva Parte III

Esercitazione 3 del corso di Statistica (parte 1)

Statistica per le ricerche di mercato. 13. La regressione lineare semplice

Il campionamento e l inferenza

Il modello di regressione multipla

Capitolo 17. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 17.1: Suggerimento

LE MEDIE. Le Medie. Medie razionali. Medie di posizione

IL MODELLO DI REGRESSIONE LINEARE MULTIPLA

Si definisce prodotto di A e B la matrice data da:

CAPITOLO III SISTEMI DI EQUAZIONI LINEARI

12. STATISTICHE CAMPIONARIE

Transcript:

IL MODELLO DI REGRESSIONE Itroduzoe Problema: verfcare l essteza d ua relazoe fra ua data varable (varable edogea o dpedete) ed ua o pù altre varabl (varabl esplcatve o dpedet). Il legame è del tpo cause-effetto che suppoamo d tpo udrezoale. Idchamo co Y la varable dpedete e co X, X,..., X k le k varabl esplcatve Y = f(x, X,..., X k ; β) ove f( ) è ua fuzoe ota a meo del vettore d parametr β: X, X,..., X k le cause Y l effetto β vettore cogto f( ) fuzoe ota D solto su Y, oltre alle k varabl esplcatve (X, X,..., X k ), eserctao la loro flueza ua sere d mcro-cause, compres gl evtabl error d msurazoe de feome. Queste mcro-cause possoo essere rappresetate da ua varable casuale o osservable: e

Nel seguto supporremo che Y è cotua. Esempo R l reddto dvduale, C cosum: Lezoe 6 Y = f(x, X,..., X k ; β) + e C = f(r) + e cosum dvdual soo ua qualche fuzoe del reddto dvduale a cu s somma ua varable scarto che può essere detfcata co dvers gust, la dversa relgoe, error d msurazoe ecc. D domada d u bee, P prezzo del bee, R reddto del cosumatore, P c prezzo bee complemetare, P s prezzo u bee sosttutvo: D = f(p, R, P c, P s ) + e CA cosumo d carburate e CI cldrata d date autovetture: CA = f(ci) + e. Esplctamo f( ) e c poamo così u ambto parametrco: le uche cogte soo parametr β preset el modello. Nel seguto supporremo f( ) leare.

Il modello d regressoe leare La costruzoe del modello d regressoe () è ecessaro dvduare l feomeo su cu s vuole costrure l modello; () dvduare la varable dpedete Y e quelle esplcatve (X, X,..., X k ), qud s raccolgoo formazo statstche su (Y; X, X,..., X k ); (3) esplctare la forma fuzoale f( ); (4) stmare parametr cogt modo quato meo cosstet; (5) verfcare che l modello e stmato sa accettable sottopoedolo ad ua sere d test; (6) usare l modello a f terpretatv, prevsv, descrttv, d cotrollo ecc.

Lezoe 6

Il modello d regressoe leare Modello d regressoe leare semplce Suppoamo che sa Y = β o + β X + e β o + β X rappreseta l equazoe d ua retta co β 0 è l tercetta, β l coeffcete agolare. Per stmare de parametr cogt del modello è ecessaro: (a) avere formazo sulle due varabl osservabl Y ed X, (b) formulare potes sulla varable casuale o osservable e. Cosderamo l campoe casuale d coppe estratte: (x, y ), (x, y ),..., (x, y ). Se l modello è vero s avrà y = β o + β x + e y = β o + β x + e... y = β o + β x + e co e la varable casuale scarto o osservable assocata alla -esma.

Lezoe 6 Esempo Nel caso del cosumo fuzoe del reddto C = β o + β R + e avedo a dsposzoe le coppe d osservazo (c, r): c = β o + β r + e, =,,..., Formulato l modello e otteute le coppe d osservazo è ecessaro stmare parametr cogt. Per poter far questo bsoga formulare le potes classche del modello d regressoe: () l modello è perfettamete specfcato; () la varable X è determstca; (3) E(e ) = 0 per =,,.., ; (4) var(e ) = σ e per,,..., ; (5) cov(e, e j ) = 0 per j=,,...,; (6) e ~N(0, ),,,...,, e soo dpedet fra d loro. σ e

Il modello d regressoe leare σ e I parametr da stmare soo tre: β o, β,. Se l modello d regressoe leare fosse stato co le tre varabl esplcatve X, Z, V, avremmo dovuto avere quadruple d formazo (y, x, z, v ),,,...,: y = β o + β x + β z + β 3 v + e co l agguta dell ulterore potes che fra le x, z, v o v sao legam lear, metre parametr da stmare sarebbero cque: β o, β, β, β 3, Rtorado al caso semplce, s ha E(Y ) = β o + β x,,,..., Y, meda, è ua fuzoe leare della X. Rsulta: var(y ) = var(e ) = σ e,,,..., σ e. che mplca Y ~ N[β o + β x, σ e ],,,..., coè le Y soo ormal dpedet.

Lezoe 6 La stma de parametr del modello Dato l modello d regressoe leare semplce, stmamo due parametr β o e β co Metodo de Mm Quadrat. Cosderamo la rappresetazoe grafca delle coppe d valor osservat (x, y ),,,...,. Il problema è d adattare agl put la retta ottmale. I put passao fte rette e quella ottmale deve essere scelta secodo ua qualche fuzoe obettvo.

Il modello d regressoe leare Il metodo de mm quadrat, sgla OLS (Ordary Least Squares), scegle, fra le fte rette possbl, quella che mmzza la somma de quadrat degl scart. Dalla relazoe s rcavao gl scart: y = β o + β x + e,,,..., e = y - β o - β x,,,..., e qud la somma de loro quadrat: e = = ( y βo β x ) Fra le fte coppe (β o, β ) e qud fra le fte rette possbl sceglamo quella: e = ( y β β x ) = mmo(βo, β ) o

Lezoe 6 La soluzoe d mmo per otteere le stme d β o e β è prettamete matematco- Per trovare questo mmo basta cosderare le dervate prme d e rspetto alle due cogte βo e β, uguaglarle a zero, rsolvere l relatvo sstema d equazo lear. Pù precsamete: βo ( y βo β x ) = ( y βo β x )( ) = = - ( y βo β x ) = 0 β ( y βo β x ) = ( y βo β x )( x ) = = - ( y βo β x ) x = 0.

Il modello d regressoe leare Dervamo l seguete sstema leare elle due cogte β o e β : che posto m xy = x = (y (y β β x o o β β x y m x = x ) = 0 x )x = 0 y = y x può essere scrtto y βo β x = 0 m β xy x β m x = 0

Lezoe 6 βo = y βˆ x m xy (y β x)x = β mx Posto S xy = m xy - : covaraza campoara d (X, Y) x y S x = m x - x : varaza campoara d X s ottee β0 = y β S = β S Rsolvedo: x xy x ˆβ = Sxy S x, ˆβ o = y- β ˆ x

Il modello d regressoe leare L equazoe della retta d regressoe che mmzza la somma de quadrat degl scart è: ŷ = βˆ + ˆ x ο β (a) la retta d regressoe passa sempre per l puto medo ( x, y ) (b) corrspodeza d cascua x osservata s ha la relatva y stmata stuata sulla retta d regressoe: ŷ βˆ ˆ 0 + β x =,,.., (c) da y e da ŷ possamo dervare gl scart stmat ê: ê y - ŷ =,,..,

Lezoe 6 (d) è presumble che le stme così otteute abbao le stesse propretà della stma della meda; (e) la somma degl scart stmat è sempre ulla.

Il modello d regressoe leare Ua mmedata mplcazoe d questa uguaglaza è y = ŷ e dvdedo ambo membr per segue che la meda campoara delle y è uguale alla meda campoara delle ŷ ; (f) le stme βˆ o e βˆ soo fuzo delle sole osservazo campoare e al varare del

Lezoe 6 campoe varao e descrvoo due varabl casual. Le propretà d ˆβ o e ˆβ soo dervate dal comportameto d tal v.c. Esempo Su 7 autovetture a gasolo, scelte a caso da u dato parco macche, è stato verfcato l cosumo, per mgla, prma d u determato terveto (varable X) e dopo l terveto (varable Y) otteedo le 7 coppe d rsultat: (7.; 8.3) (.6; 0.8) (9.5; 0.9) (9.;.) (.9;.7) (8.7; 8.6) (0.3;.9) s vuole verfcare se fra X ed Y esste l legame leare : Y = β o + β X + e I questo caso otamo che l legame logco è del tpo X causa Y, fatt Y è otteuto dopo X. Ioltre, se costruamo la rappresetazoe a scatter (X, Y) s ha:

Il modello d regressoe leare Da questo grafco deducamo che l legame leare potzzato è abbastaza plausble. Icalcol possoo essere orgazzat come ella tabella seguete. x y x x y ŷ ê = y ŷ ê 7. 8.3 95.84 4.76 8.60094-0.300945 0.09.6 0.8 66.56 49.8.07043 -.70433.64 9.5 0.9 80.5 7.55 0.4454 0.48546 0.36 9.. 64.8 4.9 0.0993.00868..7 84 99.4.38584 0.346 0.099 8.7 8.6 49.69 47.8 9.7837 -.8373.40 0.3.9.09 44.57.04536 0.854645 0.73 38.4 44.4 753 868.3 44.39996 0.000033 5.38

Lezoe 6 Dalla tabella dervamo: 38.4 44.4 x = = 9.7749 y = = 0.6857 7 7 753.4 868.3 m x = = 393.300 m xy = = 409.7575 7 7 S x = m x - x =.406 S xy = m xy - =.9008 x y che c permettoo d otteere le stme ˆβ = Sxy S x = 0.7885 ; ˆβ o = y - βˆ x Dervamo le stme della varable dpedete ŷ ˆβ o + ˆβ x ŷ βˆ o βˆ 7 + x7 = 5.0384 ŷ ˆ ˆ = βo + β x= 5.0384 + (0.7885)7.0 = 8.600944 ŷ βˆ ˆ = o + β x= 5.0384 + (0.7885).6 =.07043... = = 5.0384 + (0.7885)0.3 =.045356

Il modello d regressoe leare Da valor stmat ŷ (peultma coloa della tabella sopra rportata) dervamo le stme de resdu ê = y - ŷ ed otteamo la stma d σ e σ ˆ e = 5.38 5 =.0764 3 3 Y Y Y^ 0 0 9 9 8 3 4 5 6 7 8 7 8 9 0 3 X I pratca, calcol sopra rportat ed relatv grafc o vegoo fatt maualmete, ma s utlzzao pacchett software statstco ecoometrc.

Lezoe 6 Il modello d cu voglamo stmare parametr sa y = β o + β x + β z + β 3 v + e,,,.., è ecessaro rsolvere l seguete problema d mmo ( y βo β x β z β3 v ) e = = mmo(β o, β, β, β 3 ) che s ottee rsolvedo rspetto a (β o, β, β, β 3 ) l seguete sstema o omogeeo d quattro equazo lear che ammetterà, sotto l potes che fra le tre varabl esplcatve o v sao perfett legam lear, ua ed ua sola soluzoe.

Il modello d regressoe leare β β = β β β = β β β = β β β = β = = = = = = = = x (y e x (y e x (y e x (y e 0 3 0 0 0 0 = β β = β β = β β = β β 0 )v v z 0 )z v z 0 )x v z 0 ) v z 3 3 3 3

Lezoe 6 Esempo NV MTR MRT CPO NVˆ ê Pemote 7.5 4.9.4.507 8.045-0.543 Valle d'aosta 7.4 4.8 0..0 8.09478-0.6948 Lombarda 8.4 4.7 9.739 8.345 0.05885 Treto-Alto A. 0.5 5. 9 0.879 9.873.387 Veeto 8. 5 9..495 8.84796-0.648 Frul-Ve. Gu. 7. 4.4.5.58 6.5848 0.675 Lgura 6.5 4.7 3.8 3.055 6.955-0.455 Emla-Romaga 7. 4.4.4.503 6.93859 0.64 Toscaa 7 4.6.5.468 7.436-0.436 Umbra 7.9 5..97 8.3368-0.4368 Marche 8. 4.7 0..99 8.0096 0.9804 Lazo 9.7 4.9 8.9 4.835 9.697 0.53703 Abruzzo 9.4 4.8 9.8 3.955 8.55679 0.843 Molse 9. 4.9 0.3 5.6 8.8007 0.39983 Campaa 3.4 6.3 7.8.03 3.053 0.38474 Pugla.7 6. 7.5 7.8.396-0.5396 Baslcata 9.4 5.5 8.3 7.99 0.88 -.48 Calabra 0.9 5.4 8 9.57.0333-0.333 Scla.4 5.7 9. 8.389.0895.305 Sardega 9.3 5 8. 7.006 9.90559-0.6056 Itala 9.4 5. 9.5 4.60 9.4 0

Il modello d regressoe leare Nat Vv (NV) fuzoe d: Tasso Matrmoaltà (MTR), Tasso d Mortaltà (MRT), Tasso Rcerca Prma Occupazoe (CPO) el 993. Le varabl sopra rportate soo state otteute tramte le seguet: NV = umero at vv el993 000 popolazoe meda el993 MTR = MRT = CPO = umero matrmo el993 000 popolazoe meda el993 umero mort el 993 000 popolazoe meda el993 cerca occupazoe el993 00 popolazoe el 993 Osservamo che utlzzamo dat relatv e o assolut vsto che voglamo capre se e- sste u legame fra NV (l effetto) e MTR, MRT, CPO (le cause) e questo ha seso solo se elmamo la dversa umerostà d popolazoe esstete fra le dverse rego talae.

Lezoe 6 NV = β o + β MTR + β MRT + β 3 CPO + e Da u puto d vsta logco c attedamo che: (a) fra Matrmo e Nat vv v sa u legame leare postvo (β >0); (b) l legame sa egatvo fra Mort e Nat vv (β < 0); (c) samo molto scettc a potzzare u legame dretto ed mmedato fra rcerca d prma occupazoe e Nat vv (β 3 > 0). Notamo la forte dcotoma fra le rego del cetro-ord e quelle del sud. I legam a coppe (NV, MTR), (NV, MRT), (NV, CPO) soo rportat egl scatter 5 5 5 3 3 3 NV 0 NV 0 NV 0 8 8 8 5 5 8 0 3 5 5 4.0 4.5 5.0 5.5 6.0 6.5 5 0 5 50 75 00 5

Il modello d regressoe leare Le stme de parametr co l metodo de mm quadrat soo: βˆ ˆ ˆ o =.456; βˆ =.9073; β= - 0.333; β3 = 0.03 ed l sego de valor stmat è quello atteso. Queste stme c hao permesso d otteere valor stmat d NV N Vˆ =.456 +.9073 MTR - 0.333MRT + 0.03CPO I valor d NVˆ e d ê soo rportat elle ultme due coloe della tabella. 4 3 5 3 NV 0 NV 0 9 8 ^ NV 8 7 6 5 0 5 0 NV ^ 5 5 8 0 3 5

Lezoe 6 E ecessaro stmare ache σe, la varaza comue delle varabl casual e : Ua stma accettable d σ e el caso del modello d regressoe leare semplce è s = σˆ e = ê. Co ragoamet del tutto sml s ottee la stma d σ e el caso d modello d regressoe leare multplo s = 4 ê ; s = 9.60 = 0.600688. 6

Il modello d regressoe leare Propretà delle stme de mm quadrat Le stme otteute soo stme meda e dovrebbero possedere le stesse propretà della stma della meda: o dstorsoe e cossteza: (x x)x E( ˆβ o ) = βo + E(e ) = β o S x E( ) = β ( x x) S x ˆβ + - E(e ) = β fatt soo o dstorte. Rcordado quato detto per le combazo d varabl casual correlate co varaza costate s ha var( ˆβ o ) = (x x)x S x var(e ) = σ e m x S x teedo coto che S x = mx - x ; allo stesso modo

Lezoe 6 var( ˆβ ) = ( x x) S x var(e ) = σ e S x e queste stme soo cosstet. Co ua procedura smle s può dmostrare che ache s è o dstorta e cosstete per σ e. Le stme delle varaze de parametr stmat soo date rspettvamete da s βo m s β = s x, = s S x S x Nel caso del modello d regressoe multpla le stme che s ottegoo soo acora BLUE, ma gl svlupp formal soo pù compless. I tal caso l calcolo umerco vee fatto solo tramte computer utlzzado l approprato software.

Esempo Il modello d regressoe leare Nel caso del prmo esempo le stme d s e s soo rspettvamete s β o β o β β o = 6.085; s = 0.43; s = 0.07; = 0.00009304. β β β s = 5.098; s = 0.0638 Nel caso del secodo esempo le stme s soo rspettvamete β s β3

Lezoe 6 La verfca del modello d regressoe Verfcare se, co dat a dsposzoe, effettvamete tutte le varabl esplcatve, o solo alcue d queste, s possoo statstcamete cosderare cause della varable dpedete. Questa verfca può essere eseguta utlzzado strumet dvers. Qu d seguto e aalzzeremo solo tre: test su parametr stmat, u dce d accostameto globale del modello a dat osservat, alcue aals su resdu. Perché u modello sa cosderato accettable e qud doeo ad essere utlzzato è ecessaro che super tutte le verfche. Se qualcua d tal verfche o è superata è ecessaro rformulare l modello. Test su parametr del modello Dato l modello e la stma sottoporre a test y = β o + β x + e ŷ = ˆβ o + ˆβ x H o : β o = 0 verso H : β o 0 H o : β = 0 verso H : β 0

Il modello d regressoe leare Se s dovesse accettare H o : β = 0 vorrebbe dre che la varable X o esercta alcua flueza su Y e l modello va rformulato. Da u puto d vsta tutvo samo portat a rfutare H o se l valore stmato ˆ è grade e lotao da zero, samo portat ad β accettare Ho se βˆ è pccolo e vco a zero. Sotto la codzoe le varabl casual scarto e soo dpedet e dstrbute come ua ormale rsulta: ˆβ ~ N β ; ˆβ ~ N σe ; o Sx β o e σ ; m S x x La dstrbuzoe d ˆβ e ˆβ o, al varare del campoe, è smle (a meo d ua costate moltplcatva della varaza) a quella della meda campoara x sotto l potes d ormaltà: X ~ N σ μ;,

La statstca test per è Lezoe 6 H o : β o = 0 verso H : β o 0 t oc = βˆ o s βo = βˆ o s S m x x S rfuta H o al lvello α se rsulta: t oc > t (-; α/) è La statstca test per H o : β = 0 verso H : β 0 t c = βˆ s β βˆ = s S x S rfuta H o al lvello α se t c > t (-; α/)

Il modello d regressoe leare Per l modello d regressoe leare multplo la logca del test è la stessa, ma o soo pù valde le formule vste. I tal caso, la verfca d mplca ua statstca test del tpo H o : β = 0 verso H : β 0, = 0,,...,k t c = βˆ s β = βˆ s δ x, = 0,,...,k co δ x ua complcata quattà postva fuzoe de valor osservat sulle varabl e- splcatve calcolable umercamete. S rfuterà H o al lvello α se rsulta t c > t (-k-; α/) = 0,,...,k. Esempo

Lezoe 6 Rpredamo l caso rportato ell esempo su cosum e costruamo test: Abbamo gà vsto che è H o : β = 0 verso H : β 0, =0, e qud ˆβ o = 5.0384, ˆβ = 0.7885, s = 5.098, s = 0.0638 5.0384 0.7885 t oc = =.006 e t c = = 3. 5.098 0.0638 β o β ed essedo t (5;.5%) =.57, al lvello α=5%, o s può rfutare l potes H o per =0, ma possamo rfutarla per =. Il modello d regressoe va rformulato: Y = β X + e I tal caso s otterrà ˆβ =.047907 e s = 0.0003975 che mplcao β t c =.047907 = 5.63 0.0003975

Il modello d regressoe leare e rfutamo acora l potes H o che β sa par a zero. I deftva, l modello d regressoe prvo d tercetta potrebbe essere quello doeo per descrvere l feomeo Y fuzoe d X. Osservamo che u modello d regressoe accettable deve avere almeo 5 grad d lbertà co g = -k-. I questo caso grad d lbertà soo solo cque e d cosegueza rsultat soo molto stabl. Rpredamo ora l esempo su at vv co tre varabl esplcatve: ˆβ o βˆ ˆβ ˆβ 3 β o =.456; =.9073; = - 0.333; = 0.03 β s = 6.085; s = 0.43; s = 0.07; s = 0.00009304 β β 3 rcavamo t oc =.456 = 0.53, t c = 6.085.9073 0.43 =.93, t c = 0.333 0.07 =., t 3c = 0.03 0.00009304 =.36 rcordado che è = 0, al lvello α = 5%, avremo t (6;.5%) =. pertato o pos-

Lezoe 6 samo rfutare H o : β = 0 per 0, 3: sa β o che β 3, l coeffcete d COP, o soo statstcamete dvers da zero al lvello del 5%. Rformulamo l modello: e otteamo le stme: NV =β MTR + β MRT + e ˆβ =.487; ˆβ = - 0.3548 rsulta t c = β β s = 0.0948; s = 0.00504.487 0.3548 = 7.85; t c = 0.0948 0.00504 = 5.0 metre è t (8;.5%) =.0 ed etramb cas s può rfutare l potes H o e affermare che due parametr soo statstcamete dvers da zero.

Il modello d regressoe leare Da questo secodo caso possamo trarre alcue utl cosderazo: (a) dato che è corr(nv; CPO) = 0.804 tale legame è d tpo spuro essedo evdetemete gà coglobato MTR; (b) l esclusoe d ua varable può portare a rsultat molto dvers ella stma de parametr, fatt la stma d β passa da.9073 a.487 (c) term d accostameto l esclusoe o l clusoe della varable o sgfcatva CPO o crea grad dffereze, come s può verfcare cotrollado l grafco seguete costruto co β o = β = 0 e quello vsto quado erao preset tutt e quattro parametr. 4 3 0 NV 9 8 NV ^ 7 6 5 0 5 0

Lezoe 6 Msura della botà d adattameto Voglamo calcolare u dce che c dca fo a che puto l modello d regressoe leare stmato, ella sua globaltà, approssma dat osservat. Le stuazo estreme soo schematzzate elle fgure seguet: ) Caso ottmale ) Caso peggore S costrusce u dce d correlazoe multpla, R, e msura l testà del legame leare esstete fra la varable dpedete Y e quelle esplcatve X, X,..., X k.

S dmostra che (y y) Il modello d regressoe leare = ê + (ŷ y) o equvaletemete S y = S ê + S ŷ Se dvdamo ambo membr dell ultma uguaglaza per S y s ottee = ê y S S ŷ + S S y R = S S ŷ y = - S S ê y msura la percetuale della varabltà d Y spegata dal modello d regressoe

Lezoe 6 0 R Aalzzamo due cas estrem: R = 0 ed R =. Caso d R = 0 E equvalete a che equvale a (ŷ y) = 0 ( ŷ y ) = ( ŷ y ) =... = ( ŷ y)= 0 da cu ŷ = ŷ=... = ŷ= y tutt valor terpolat soo ugual fra d loro e cocdoo co la propra meda.

Il modello d regressoe leare ȳ S verfca se e solo se rsulta ˆβ = 0 e qud ˆβ o = y, ma questo vuol dre che al varare d X la Y, meda, o vara e l modello va rformulato. Queste cosderazo possoo essere estese al caso multplo co k varabl e- splcatve. Ifatt, s può dmostrare che R = 0 è equvalete a ˆ = ˆ =... = ˆ = 0 e β β qud βˆ o= y. Questo vuol dre che, meda, essua delle k varabl esplcatve X, X,..., X k esercta ua flueza su Y e l modello va rformulato. βk

Lezoe 6 È possble elaborare u test delle potes: H o : β = β =... = β k = 0 H : almeo uo de β 0, la statstca test ottmale è: F c = R / k = ( R )/( k ) ( k ) S k S ŷ ê che, sotto H o, s dstrbusce come ua v.c. F (k; -k-). Questo vuol dre che: S rgetta l potes H o al lvello α se: F c > F (α; k; -k-)

Caso d R = R = è equvalete a S ê= 0, coè: Il modello d regressoe leare ê e s verfca se e solo se rsulta ê = ê=... = ê = 0 = 0. ^y = ^ β + β ^ x ο Questo rsultato vale, co detca terpretazoe, ache quado s hao k varabl esplcatve.

Lezoe 6 Nelle pratche applcazo pù R è vco a zero, pù l modello globalmete è da rfutare. Per esempo, se ua data applcazoe rsulta R = 0.86 vuol dre che l 86% della varaza d Y è spegato dal modello d regressoe leare, metre l restate 4% è spegato da resdu. Esempo Rpredamo l esempo su cosum Y = β X + e tal caso s ottee R = 0.59: l 59.% della varabltà d Y è spegato dal modello d regressoe utlzzato, l restate 40.8% è dovuto a resdu. Rpredamo l esempo su at vv, samo arrvat alla coclusoe che abba seso l modello NV = β MTR + β MRT + e tal caso s ottee R = 0.846: la varabltà d NV è spegata per l 84.6% dal modello suddetto, metre l restate 5.4% è spegato da resdu.

Il modello d regressoe leare R è ua geeralzzazoe del coeffcete d correlazoe gà aalzzato. Pù precsamete el caso della regressoe leare semplce R cocde co la correlazoe stmata al quadrato: R = r = S xy S x S y Aals de resdu Se e resdu stmat v è acora ua qualche struttura l modello selezoato o resce a catturare completamete l evoluzoe del feomeo e qud va rformulato, r-stmato e r-testato. Prmo grafco I u sstema d ass cartesa s rportao le coppe d put (, ê ) se e resdu stmat v è ua qualche ulterore struttura questa dovrebbe emergere dal relatvo grafco. Nella fgura che segue è rportato l tpco caso cu fra resdu esste ua ulterore struttura che l modello o è ruscto a catturare.

Lezoe 6 Secodo grafco I u sstema d ass cartesa s rappresetao le coppe ( ê, ê ), se e resdu v è ua qualche struttura dovrebbe emergere dal grafco ed l relatvo modello dovrebbe essere rformulato.

Il modello d regressoe leare I questo caso s può otare come la maggor parte de put sao cocetrat el prmo e el terzo quadrate. Terzo grafco Costrure uo scatter rappresetado le coppe d osservazo ( ê, y ). Se l modello utlzzato o è doeo a rappresetare la varable dpedete Y, ello scatter deve essere vsble ua qualche struttura.

Lezoe 6 Le due fgure qu sopra rportate s rferscoo agl scatter ( ê, NV) e ( ê, y ) coess alle stme de modell d regressoe degl esemp precedetemete vst.

Il modello d regressoe leare Modello d regressoe o leare Modell o lear elle esplcatve Questo è l caso pù semplce da affrotare dato che la stma de suo parametr e la relatva verfca o s dscosta sostazalmete da quello leare gà cooscuto. Per essere pù char suppoamo che sa Y = β o + β e X + β V + a co a è la varable casuale scarto o resduo. Come s può otare, questo modello è leare e parametr cogt, ma è o leare elle due varabl esplcatve X e V. Se poamo e X = X*, V = V* coè lavoramo sull espoezale della varable X e su quadrat della varable V, otteamo l uovo modello Y = β o + β X* + β V* + a che rsulta leare e parametr e elle uove varabl esplcatve X*, V*.

Lezoe 6 Modell o lear ma learzzabl I molt cas u modello o leare e parametr può essere rcodotto a quello leare co ua semplce trasformazoe mootoa. Esemp: Y = β o e (β X + β V) a Y = β o X β V β a Y = β + β X o + a Quest modell possoo essere rcodott faclmete alla forma leare: log(y) = log(β o ) + β X + β V + log(a) log(y) = log(β o ) + β log(x) + β log(v) + log(a) = βo +β Y X + a

Il modello d regressoe leare Modell o learzzabl Esstoo molt modell d regressoe o lear e o lea rzzabl. Esempo: Y = β o + X β + V β + a Per procedere è ecessaro utlzzare ua stma o leare de mm quadrat: [ - βo y ] β β - X - V = m(β o, β, β ) I tal caso alcu degl strumet d verfca del modello o soo pù vald.

Esempo Lezoe 6 Captale (CAP), Lavoro (LAV), Fatturato (FT) della produzoe, a prezz costat, d be d abbglameto dal 980 al 000 Itala CAP LAV FT 3950 06.4 34394 4048943 059.0 35868 46667 8.8 360399 47579 39.9 3770 4388399 400.6 4509 4496368 595.6 457306 4605069 783.9 4946 479635 895.6 53874 4847538 3. 599473 498877 0.0 645403 5586 345.6 677885 560057 3608.4 700 5386359 3457. 7449 5470796 749.8 699000 55508 59. 736505 564487 58.3 78778 5744835 600. 80685 5846054 69.5 84346 5955667 95.7 876807 607503 3.5 907064 609550 3454.3 96649

Il modello d regressoe leare 60 50 40 30 0 cap ft 0 00 lav 90 80 8 84 86 88 90 9 94 96 98 00 Adattare ua fuzoe d produzoe o leare: FT t = β o CAP β t ( β t LAV + e ) t I rsultat della stma soo: Stma coeff Errore ST t c Prob. β o 0.735 0.008 7.30883 0.0000 β 0.8484 0.05076 33.8630 0.0000 R 0.98704 Meda d FT 63304.0 S.E. 30.3 S.D. d FT 9766.0 SSR.0E+0

Lezoe 6 Etramb parametr soo da accettare ed l valore d R è molto elevato. Osservat Stmat 000000 800000 600000 60000 400000 40000 0000 00000 0-0000 resdu -40000-60000 80 8 84 86 88 90 9 94 96 98 00 Come s può otare, e resdu è presete ua compoete cclca che rede l modello o accettable. Per catturare questo aspetto del feomeo s è cosderato l modello: FT t = β ( β ) t LAV βo CAP t + et e = φ t + φ et + a t e t

Il modello d regressoe leare co a t è la uova varable casuale errore. La stma o leare de mm quadrat è Coeffcet Std. Error t-statstca Prob. β o 0.654055 0.76 5.4958 0.000 β 0.868796 0.035754 4.9893 0.0000 φ.090955 0.049 5.387668 0.000 φ -0.5760 0.86839-3.084048 0.0076 R 0.99537 Meda FT 6639.0 S.E. 3607.83 S.D. d FT 8575.7 SSR.78E+09 Tutt parametr stmat soo statstcamete dvers da zero e R è molto elevato: questo modello potrebbe essere preferble a quello precedetemete. Osservat Iterpolat 000000 800000 40000 600000 0000 400000 0-0000 resdu 00000-40000 8 84 86 88 90 9 94 96 98 00

Lezoe 6 Modello d regressoe forma matrcale Il modello d regressoe leare può essere rscrtto utlzzado la otazoe matrcale. Cosderamo l caso cu v soo due sole varabl esplcatve: la X e la V: y = β o + β x + β v + e y = β o + β x + β v + e... y = β o + β x + β v + e y...... y y = + β β β o v............ v v e...... e e x...... x x y = X β + e

Il modello d regressoe leare Il modello d regressoe leare s può sempre scrvere: y = X β + e y ed e soo due vettor d elemet, la matrce X ha rghe e (k+) coloe, l vettore β ha (k+) coeffcet da stmare. Per le potes fatte sul modello d regressoe (X è determstca metre E(e) = 0 ) rsulta E(y) = X β. Idchamo co A - l versa d ua matrce quadrata, coè quella per cu s ha AA = I, ove I dca la matrce detca composta da tutt uo sulla dagoale prcpale e zero altrove, e co A' la trasposta d ua matrce qualsas. Premoltplcado ambo membr dell ultma espressoe per X' s ottee s rcava la soluzoe X'E(y) = (X'X)β β = (X'X) - X'E(y)

Lezoe 6 Se al posto d E(y), che è cogto, sosttuamo ua stma, partcolare valor osservat y, s ottee la stma del vettore de parametr: βˆ = (X'X) - X'y questa, per costruzoe, è ua stma meda e qud mmzza la somma de quadrat degl scart ed ha tutte le propretà della stma della meda. Allo stesso modo s ha che: - l vettore delle y stmate è dato da: ŷ= X βˆ - l vettore degl scart stmat è dato da: ê= y - ŷ σ e - la stma o dstorta d è data da: s = eˆ ' eˆ k - l coeffcete d correlazoe multpla è: R = ( yˆ ( y y)' ( yˆ y)' ( y y) = - y) eˆ' eˆ ( y y)' ( y y)

Il modello d regressoe leare - la matrce delle varaze e covaraze d βˆ è: var( βˆ )= σ e (X'X) -. La geeralzzazoe degl altr rsultat llustrat e paragraf precedet s ottee co procedmet sml rcorredo a ot rsultat d algebra leare.