Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Documenti analoghi
Statistica Applicata all edilizia: il modello di regressione

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Test F per la significatività del modello

Esercitazione del

Statistica multivariata Donata Rodi 17/10/2016

Regressione multipla

Analisi della varianza

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica. Alfonso Iodice D Enza

Distribuzioni e inferenza statistica

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Appunti su Indipendenza Lineare di Vettori

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Statistica. Alfonso Iodice D Enza

Tema d esame del 15/02/12

La regressione lineare multipla

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Modelli Multilineari e Misure di adeguatezza del modello

Corso di Statistica Industriale

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

lezione 7 AA Paolo Brunori

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Statistica di base per l analisi socio-economica

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Facoltà di Scienze Statistiche Corso di Laurea in Statistica ed Informatica per l Azienda ESERCIZI DI ALLENAMENTO a.a.

Esercitazioni di statistica

L indagine campionaria Lezione 3

STATISTICA (2) ESERCITAZIONE 2. Dott.ssa Antonella Costanzo

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Esercitazione 8 del corso di Statistica 2

Note sulla probabilità

Ringraziamenti dell Editore

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Il modello di regressione lineare classico

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

LEZIONE 12. v = α 1 v α n v n =

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Analisi della correlazione canonica

Esercitazione: La distribuzione NORMALE

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Università di Pavia. Test diagnostici. Eduardo Rossi

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Distribuzioni campionarie

ESERCITAZIONE IV - Soluzioni

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

ANALISI MULTIVARIATA

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Indagine sulle forze di lavoro nel Comune di Firenze. Nota metodologica

Esercitazioni di Statistica

Il metodo della regressione

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Metodi di regressione multivariata

Analisi della varianza a una via

STATISTICA A K (60 ore)

LE DISTRIBUZIONI CAMPIONARIE

> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))

Esercizi di Probabilità e Statistica

Il confronto fra medie

Intervalli di confidenza

Regressione Semplice. Correlazioni. sconto leverage. sconto Correlazione di Pearson 1,275. Sign. (a due code),141

Il modello di regressione lineare multivariata

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Premessa: la dipendenza in media

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale

Statistica4-29/09/2015

Regressione lineare semplice: inferenza

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Teoria e tecniche dei test. Concetti di base

Capitolo 1. Regressione. 1.1 Premessa

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

Analisi della varianza

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

VALIDAZIONE DEI METODI RADIOCHIMICI. Analisi di alcuni aspetti: 1. Taratura. 2. Ripetibilità. Dott. Maurizio Bettinelli.

Istituzioni di Statistica e Statistica Economica

Bologna 15 settembre. Spazializzazione dati meteo

Il campionamento e l inferenza. Il campionamento e l inferenza

Matricola: Corso: 1. (4 Punti) Stimare la variazione del reddito quando il prezzo del prodotto finale raddoppia.

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Metodi computazionali per i Minimi Quadrati

La regressione logistica

Il test (o i test) del Chi-quadrato ( 2 )

Sistemi sovradeterminati

STATISTICA ESERCITAZIONE

Principi di analisi causale Lezione 3

Transcript:

Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa molto più semplice utilizzando l algebra delle matrici. Il modello di regressione multipla genera però nuovi problemi: 1 scelta delle variabili, 2 multicollinearità, 3 test multipli.

Specificazione del modello (1) Siano: Y = (Y 1, Y 2,..., Y n ) il vettore delle v.c. dipendenti, le cui realizzazioni campionarie saranno contenute nel vettore y = (y 1, y 2,..., y n ) ; X la matrice di dimensione (n (p + 1)), contenente le osservazioni sulle variabili esplicative (regressori) e secondo la notazione usuale x ij indica il valore assunto dalla variabile X j, con j = 1, 2,..., p, relativamente all i-esima unità statistica, i = 1, 2,..., n; ɛ = (ɛ 1, ɛ 2,..., ɛ n ) il vettore delle v.c. ɛ i le cui realizzazioni (scarti) sono contenute nel vettore e = (e 1, e 2,..., e n ) ; β = (β 0, β 1,..., β p ) il vettore dei (p + 1) parametri da stimare.

Specificazione del modello (2) Pertanto, avendo posto: Y 1 1 x 11... x 1p Y 2 1 x 21... x 2p............... Y = X = Y i 1 x i1... x ip............... Y n 1 x n1 x np β = β 0 β 1... β i... β p ɛ = ɛ 1 ɛ 2... ɛ i... ɛ n utilizzando la notazione matriciale, il modello di regressione multipla è dato da Y = Xβ + ɛ, (1) ed esplicitando tale relazione per le singole unità statistiche equivale a Y i = β 0 + β 1 x i1 + β 2 x i2 +... + β p x ip + ɛ i, i = 1, 2,..., n.

Specificazione del modello (3) Sul campione osservato la relazione (1) diventa y = Xβ + e. e, a livello delle singole unità statistiche, si specifica come segue y i = β 0 + β 1 x i1 + β 2 x i2 +... + β p x ip + e i, i = 1, 2,..., n. Il vettore e contiene le realizzazioni del vettore di v.c. ɛ. Tali realizzazioni sono determinabili se conosciamo i parametri β, perchè: e = y Xβ e, ovviamente, si esplicitano nel modo seguente: e i = y i (β 0 +β 1 x i1 +β 2 x i2 +...+β p x ip ) = y i y i (β), i = 1, 2,..., n.

Le ipotesi classiche Le ipotesi del modello di regressione lineare multipla sono 1 Y = Xβ + ɛ; 2 E(ɛ) = 0; 3 Var(ɛ) = E(ɛɛ ) = σ 2 I n ; 4 X è una matrice (non stocastica) tale che r(x) = p + 1. Dopo aver ottenuto le stime ˆβ j per i parametri β j, il modello diventa y i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 +... + ˆβ p x ip + ê i = ŷ i + ê i. I residui ê i sono dati dalla differenza tra i valori osservati y i e i valori stimati ŷ i calcolati secondo il modello di regressione.

Stima dei parametri Per stimare i parametri del modello di regressione multipla, senza fare ulteriori assunzioni circa la forma distributiva degli errori, si utilizza il metodo dei minimi quadrati (LS). Tale metodo consente di trovare il vettore β che minimizza la somma degli scarti al quadrato, ovvero la funzione G(β) data da Sviluppando si ha che G(β) = e e = (y Xβ) (y Xβ). G(β) = y y + β (X X)β 2β X y ed uguagliando a 0 la derivata prima di G(β) rispetto a β si ottiene 0 = G (β) = 2X y + 2(X X)β = ˆβ = (X X) 1 X y.

L iperpiano di regressione Geometricamente l equazione ŷ i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 +... + ˆβ p x ip, i = 1, 2,..., n, definisce un iperpiano nello spazio a p + 1 dimensioni. Per avere un idea del procedimento di stima dei minimi quadrati, il piano rappresentato in figura è, tra gli infiniti piani, quello che rende minima la somma dei quadrati delle lunghezze dei segmenti congiungenti i punti osservati al piano stesso.

Proprietà degli stimatori LS e ML Teorema di Gauss-Markov Sotto le ipotesi del modello di regressione lineare, gli stimatori LS B per i parametri β, sono lineari, non distorti,ed i più efficienti nella classe degli stimatori lineari e non distorti (BLUE). Per applicare il metodo ML, occorre aggiungere l ipotesi che il vettore ɛ N (0, σ 2 I). Si può dimostrare che gli stimatori ML coincidono con quelli LS prima ricavati, che sono lineari, non distorti, sufficienti ed efficienti nella classe di tutti gli stimatori non distorti.

Stima del parametro σ 2 Consideriamo innanzitutto l identità n (y i ȳ) 2 = i=1 n (y i ŷ i ) 2 + i=1 n (ŷ i ȳ) 2, che rappresenta la scomposizione della devianza totale in devianza residua e devianza spiegata (o della regressione), ovvero i=1 SQT = SQE + SQR. La stima della varianza delle v.c. errori è data da s 2 ê ê n = n p 1 = i=1 (y i ŷ i ) 2. n p 1

Test su un singolo parametro Per ottenere la regione critica di un test o un intervallo di confidenza per i parametri del modello di regressione, è necessario ipotizzare, per n finito, che le v.c. errori siano normali e indipendenti, utilizzando quindi gli stimatori ML. Per verificare H 0 : ˆβ i = 0 contro l alternativa H 1 : ˆβ i 0 basta calcolare il rapporto ˆβ i 0 T = s, j = 0, 1, 2,..., p. vj+1,j+1 Infatti la stima della varianza dello stimatore B j per il parametro β j è data da es 2 (B j ) = s 2 v j+1,j+1 dove v j+1,j+1 è l elemento di posto (j + 1, j + 1) sulla diagonale principale della matrice (X X). Tale rapporto, sotto H 0, si distribuisce come una v.c. t di Student con n p 1 gradi di libertà.

ANOVA per un modello di regressione lineare multipla Consiste in un test globale su tutti i parametri del modello (eccetto β 0 ) e in particolare nel confronto tra la devianza del modello saturo Y = Xβ + ɛ e quella del modello vincolato Y = β 0 1 n + ɛ. Le ipotesi saranno: H 0 : β 1 = β 2 = = βp = 0 vs. H 1 : almeno un β j 0 Se indichiamo con Q 1 la devianza della regressione Q 2 la devianza dei residui siamo interessati a valutare la statistica F = Q 1 /p Q 2 /n p 1 che sotto H 0 ha distribuzione F (p, n p 1).

Confronto tra modelli annidati Per confrontare il modello vincolato (ridotto) con in modello non vincolato (saturo) si utilizza un test di tipo ANOVA, in cui il valore della statistica F = (SQE v SQE nv )/(df v df nv ) SQE nv /(df nv ) F α,dfv df nv,df nv. Sia F 1 il modello minimale con la sola intercetta (p = 1). Sia F p il modello corrente con p parametri e sia F p0 un modello ridotto con 1 < p 0 < p. la perdita di bontà di adattamento del modello F p0 rispetto a F p può essere valutata attraverso la statistica: F = (SQE p 0 SQE p )/(p p 0 ) SQE p0 /(n p 0 ) F p p0,n p

Bontà del modello Ricordando che SQT = SQE + SQR, il modello si adatterà tanto più ai dati quanto più modesta sarà la variabilità dell errore rispetto alla variabilità totale. Si introduce pertanto l indice di determinazione multipla R 2 dato da n R 2 i=1 = (ŷ i ȳ) 2 n n i=1 (y i ȳ) 2 = 1 i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2. L indice R 2 varia in [0, 1] e più si avvicina a 1 migliore è l adattamento del modello ai dati. Tuttavia è opportuno sottolineare che il valore R 2 aumenta con l aumentare del numero di regressori, per cui è conveniente considerare la versione corretta dell indice R 2, data da n R 2 i=1 = 1 (y i ŷ i ) 2 /(n p 1) n i=1 (y i ȳ) 2. /(n 1)

Scelta delle variabili esplicative Oltre all indice R 2, vi è l indice proposto da Mallows (1973) C p = (1 R2 p)(n T ) 1 R 2 T [n 2(p + 1)] Quando le variabili esplicative sono molte si ricorre a procedure di tipo stepwise, nelle varianti per inclusione e per eliminazione. In particolare, partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera significativa al miglioramento del modello o si elimina una variabile il cui coefficiente non significativo. Altro approccio è il best-subset, in cui si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo uno dei criteri sopra riportati (R 2 e C p ).

Multicollinearità Si verifica quando il rango della matrice X non è massimo e si traduce nella presenza di un elevata correlazione tra le variabili esplicative. Le variabili collineari non forniscono informazioni aggiuntive e risulta difficile individuare l effetto che ciascuna di esse ha sulla variabile risposta. Una misura della multicollinearità è data dall indice V IF (Variance Inflationary Factor). In particolare, per la j-esima variabile si ha V IF j = 1 1 Rj 2, dove Rj 2 è il coefficiente di determinazione che caratterizza il modello in cui la variabile dipendente è X j e tutte le altre variabili esplicative sono incluse nel modello.

Regressione quadratica e polinomiale Supponiamo ora che tra Y e X non vi sia una relazione di tipo lineare. Tra le relazioni non lineari più comuni vi è quella quadratica. Il modello di regressione quadratica è simile ad un modello di regressione multipla con due variabili esplicative in cui la seconda variabile esplicativa è il quadrato della prima. In particolare: dove Y i = β 0 + β 1 x i1 + β 2 x 2 i2 + ɛ i, i = 1, 2,..., n. β 0 è l intercetta, β 1 è il coefficiente che esprime l effetto lineare su Y, β 2 è il coefficiente che esprime l effetto quadratico su Y, ɛ i è l errore casuale. Tale modello è generalizzabile ad un modello polinomiale.

Variabili dummy Nel caso di variabili esplicative discrete è opportuno ricorrere ad un modello che includa variabili indicatrici (dummy) per poter valutare l effetto di un fenomeno che presenta modalità qualitative su una risposta. Sia E un evento che si suppone abbia un effetto nel modificare Y i. Sia { 1 se per l unità i-esima E è presente D i = 0 altrimenti la variabile indicatrice (dummy). Se consideriamo il modello Y i = β 0 + β 1 x i1 + β 2 D i + ɛ i, i = 1, 2,..., n si avrà che { β0 + β Y i = 1 x i1 + ɛ i, per le unità dove E è assente (β 0 + β 2 ) + β 1 x i1 + ɛ i, per le unità dove E è presente