REGRESSIONE LINEARE SEMPLICE
|
|
|
- Adolfo Massari
- 9 anni fa
- Visualizzazioni
Transcript
1 REGRESSIONE LINEARE SEMPLICE Legacy Edition Copyright 25 ottobre 2012 Luca La Rocca UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
2 Indice 2 Previsione di un carattere quantitativo Correlazione lineare Retta di regressione Propensione marginale all importazione
3 Previsione di un carattere quantitativo 3 Previsione di un carattere quantitativo Correlazione lineare Retta di regressione Propensione marginale all importazione
4 Previsione di un carattere quantitativo 4 Consideriamo il caso di un azienda che abbia appena assunto un nuovo venditore e voglia prevederne le vendite nell anno a venire: supponendo per semplicità che l azienda continui a vendere gli stessi prodotti allo stesso prezzo, il venditore neoassunto sia omogeneo ai venditori già in forza all azienda, la previsione potrà basarsi sulle vendite realizzate dai venditori già in forza all azienda nel corso dell ultimo anno. La tabella seguente (Rees, 2001) riporta le vendite realizzate (in migliaia di sterline inglesi, nell ultimo esercizio) da n = 8 venditori di una certa azienda...
5 Previsione di un carattere quantitativo 5 Venditore Vendite (migliaia di sterline) Andrea 105 Barbara 120 Carlo 160 Diana 155 Elisa 70 Francesco 150 Giovanna 185 Massimo 130 Totale 1075
6 Previsione di un carattere quantitativo 6 Vogliamo prevedere il numero aleatorio Y n1 = vendite del neoassunto sulla base delle vendite osservate y 1,..., y n realizzate dagli n venditiori già in forza all azienda quale distribuzione useremo per Y n1?
7 Previsione di un carattere quantitativo 7 In primo luogo sembra naturale assegnare E[Y n1 ] = ȳ sd (Y n1 ) = sd y dove sd y è la deviazione standard di y 1,..., y n per esempio, con riferimento ai dati di Rees, assegneremo E[Y n1 ] = sd (Y n1 ) = 33.8
8 Previsione di un carattere quantitativo 8 Valore atteso e deviazione standard di Y n1 bastano per dare: una previsione puntuale (con errore standard di previsione) Y n1 = ± 33.8 una previsione per intervallo (basata sul teorema di Chebyshev) 66.8 = Y n = con probabilità almeno pari al 75%.
9 Previsione di un carattere quantitativo 9 Si noti che un intervallo di previsione si riferisce a un futuro valore osservabile in esso contenuto con buona probabilità mentre un intervallo di stima si riferisce a un parametro incognito in esso contenuto a meno di non osservare un campione cattivo e dunque si tratta di due cose diverse (adottando l approccio frequentista e non quello bayesiano).
10 Previsione di un carattere quantitativo 10 In secondo luogo possiamo assegnare a Y n1, come approssimazione, una distribuzione normale: nella misura in cui tale approssimazione è valida, essa ci consente di migliorare la nostra previsione per intervallo: 66.8 = Y n = con probabilità 95%, oppure 95.5 = Y n = con probabilità 75% (in quanto z 12.5% = 1.15). Si ricordi che il teorema di Chebyshev tipicamente sovrastima pesantemente la variabilità di una distribuzione (caso peggiore).
11 Previsione di un carattere quantitativo 11 Sales Density n = GBP Thousands
12 Previsione di un carattere quantitativo 12 In realtà attribuendo direttamente ȳ e sd y alla distribuzione di Y n1, senza considerarli stime di µ e σ incognite, sottovalutiamo la nostra incertezza sul fenomeno oggetto di previsione. Converrà allora porre E[Y n1 ] = ȳ e se(y ˆ n1 ) = s 2 y s2 y n = s y 1 1 n dove s y = sd n y n 1 tiene conto dell incertezza su σ e l incertezza su µ è incorporata sommando il quadrato del suo errore standard stimato alla varianza stimata (fonti indipendenti di incertezza)...
13 Previsione di un carattere quantitativo dopo di che assegneremo a Y n1 E[Y n1 ] la distribuzione t di Student se(y ˆ n1 ) con n 1 gradi di libertà (invece di quella normale standard). Nell esempio di Rees troveremo se(y ˆ n1 ) = = = 38.3 e dunque (invece che 66.8 Y n ) prevederemo 44.0 = Y n = con probabilità 95% (visto che t = 2.36 con 7 gradi di libertà).
14 Previsione di un carattere quantitativo 14 Supponiamo ora che l azienda si avvalga di un test attitudinale per la selezione dei suoi venditori: in questo caso oltre alla variabile risposta Y (le vendite) abbiamo una variabile esplicativa X (il punteggio al test) sulla base della quale (conoscendo il punteggio ottenuto dal venditore neoassunto) è ragionevole sperare di migliorare la nostra previsione. La tabella seguente (Rees, 2001) riporta le vendite realizzate (in migliaia di sterline inglesi, nell ultimo esercizio) e il punteggio conseguito al test (su un opportuna scala) da n = 8 venditori di una certa azienda: se il punteggio del neoassunto è x n1 = 60, quale sarà la nostra previsione? come useremo questa informazione?
15 Previsione di un carattere quantitativo 15 Vendite (Y ) Punteggio (X) Andrea Barbara Carlo Diana Elisa Francesco Giovanna Massimo Totale
16 Correlazione lineare 16 Previsione di un carattere quantitativo Correlazione lineare Retta di regressione Propensione marginale all importazione
17 Correlazione lineare 17 La distribuzione doppia (o congiunta) di due caratteri quantitativi (continui) X e Y si può rappresentare nel piano euclideo mediante un diagramma di dispersione: ogni unità statistica sarà rappresentata da un simbolo (es. una croce) centrato nel punto che ha come coordinate, rispetto a un opportuna coppia di assi cartesiani ortogonali, i valori assunti da X e Y sull unità rappresentata. La figura seguente rappresenta i dati di Rees (in verde i venditori per i quali i caratteri sono entrambi sopra media o entrambi sotto media, in rosso i venditori per i quali un carattere è sopra media e l altro sotto media )...
18 Correlazione lineare 18 Scatter Plot Sales m(x) = 65.6 sd(x) = 13.6 m(y) = sd(y) = 33.8 r(x,y) = Score
19 Correlazione lineare diremo che c è concordanza tra X e Y se modalità grandi di X si associano più frequentemente a modalità grandi di Y, mentre modalità piccole di X si associano più frequentemente a modalità piccole di Y (come nel precedente diagramma); discordanza tra X e Y se modalità grandi di X si associano più frequentemente a modalità piccole di Y, mentre modalità piccole di X si associano più frequentemente a modalità grandi di Y (es. temperatura e consumo di elettricità in una località fredda, come mostra il diagramma successivo... ovvero la Figura di Borra & Di Ciaccio, 2008). Questo tipo di associazione tra caratteri (ordinali) si dice anche cograduazione/contrograduazione.
20 Correlazione lineare 20 Scatter Plot Consumo (KWh) Temperatura (Gradi Centigradi)
21 Correlazione lineare 21 Diremo che c è interdipendenza lineare tra X e Y se le loro modalità osservate tendono a disporsi lungo una retta, ovvero se la loro nuvola di punti ha forma (approssimativamente) ellissoidale : questa tendenza è esibita in una certa misura dal diagramma di dispersione che rappresenta i dati di Rees; la Figura di Borra & Di Ciaccio (2008) esibisce questa tendenza limitatamente ai valori bassi della temperatura (oppure ai valori elevati, ma con diversa pendenza... infatti in questo secondo caso il consumo di elettricità si mantiene praticamente costante... complessivamente si tratta di interdipendenza lineare a tratti ). La concordanza/discordanza tra caratteri (quantitativi) linearmente interdipendenti si dice correlazione lineare...
22 Correlazione lineare se è stato riscontrato per via grafica che qualitativamente X e Y sono linearmente correlate, una quantificazione della forza della loro associazione è fornita dal coefficiente di correlazione lineare tra X e Y : 1 r xy 1 dove il segno tiene conto della direzione in cui l associazione si sviluppa (concordanza/discordanza). In altre parole: il coefficiente di correlazione lineare è una misura algebrica di quanto una nuvola di punti ellissoidale (ellissoide) sia allungata (abbia un asse più lungo dell altro) in diagonale.
23 Correlazione lineare 23 Il coefficiente di correlazione lineare r xy gode delle seguenti proprietà: r xy > 0 se e soltanto se l ellissoide è allungato in direzione Sud Ovest - Nord Est (concordanza); r xy < 0 se e soltanto se l ellissoide è allungato in direzione Nord Ovest - Sud Est (discordanza); r xy = 0 se e soltanto se l ellissoide ha gli assi paralleli agli assi coordinati (assenza di correlazione lineare); r xy = 1 se e soltanto se le modalità osservate si dispongono esattamente lungo una retta inclinata (ellissoide degenere); tanto più grande è r xy, tanto più l ellissoide sarà allungato e i suoi punti si disporranno approssimativamente lungo una retta (vedremo che r 2 xy potrà interpretarsi come una proporzione).
24 Correlazione lineare 24 Osserviamo che: il caso dell ellissoide degenere individuato da r xy = 1 o r xy = 1 è il caso di una relazione funzionale lineare tra X e Y (caso che sarà illustrato più avanti); il caso dell ellissoide con assi paralleli agli assi coordinati (r xy = 0) è il caso dell indipendenza stocastica tra X e Y (nell ambito dell assunto qualitativo di interdipendenza lineare tra X e Y ); il coefficiente di correlazione lineare non misura altri tipi di associazione tra X e Y (es. non misura la dipendenza quadratica di Y da X). I due diagrammi di dispersione seguenti illustrano queste due ultime situazioni...
25 Correlazione lineare 25 Dipendenza Quadratica Indipendenza Stocastica Y = X r xy = 0 Y r xy = X X
26 Correlazione lineare 26 Il coefficiente di correlazione lineare tra X e Y è definito come r xy = 1 ( ) ( ) xi x yi ȳ n sd x sd y n i=1 ovvero come media del prodotto delle variabili standardizzate ; si avrà un contributo positivo per ogni coppia di scarti concordi x i > x e y i > ȳ oppure x i < x e y i < ȳ, un contributo negativo per ogni coppia di scarti discordi x i > x e y i < ȳ oppure x i < x e y i > ȳ.
27 Correlazione lineare 27 Per il calcolo del coefficiente di correlazione lineare tra X e Y conviene avvalersi della formula r xy = xy xȳ sd x sd y dove xy è la media del prodotto delle due variabili: xy = 1 n n x i y i ; i=1 la tabella seguente illustra il calcolo di xy = 73350/8 = per l esempio del venditore neoassunto e permette di trovare r xy = = 0.77.
28 Correlazione lineare 28 Vendite (Y ) Punteggio (X) Prodotto (XY ) Andrea Barbara Carlo Diana Elisa Francesco Giovanna Massimo Totale
29 Retta di regressione 29 Previsione di un carattere quantitativo Correlazione lineare Retta di regressione Propensione marginale all importazione
30 Retta di regressione 30 Tornando al problema di prevedere Y n1, sapendo che x n1 = 60, osserviamo innnazitutto che se le osservazioni si disponessero esattamente lungo una retta, troveremmo una relazione funzionale lineare tra le vendite Y e il punteggio al test X, ovvero avremmo dove Y = β 0 β 1 X β 0 è l intercetta e β 1 è il coefficiente angolare (o pendenza ) della retta in questione (univocamente determinata dall ellissoide degenere)...
31 Retta di regressione 31 Relazione Funzionale Lineare Vendite y n1 = r xy = Punteggio
32 Retta di regressione 32 La figura precedente illustra la situazione limite di una relazione funzionale lineare tra Y e X prendendo β 0 = 10 e β 1 = 2, conservando x 1,..., x 8 e sostituendo y i con β 0 β 1 x i, per ogni i = 1,..., 8. Si noti come l esistenza di una relazione funzionale lineare tra Y e X ci permetterebbe di ottenere, conoscendo il punteggio x n1 ottenuto dal neoassunto al test attitudinale, una previsione esatta delle sue vendite: y n1 = β 0 β 1 x n1
33 Retta di regressione 33 In realtà le osservazioni non si dispongono esattamente lungo una retta, ma si limitano a esibire una certa correlazione lineare (formando un ellissoide con r xy = 0.77) di modo che non esiste una retta che passi per tutte le osservazioni, mentre ne esistono diverse che passano attraverso la nube (più o meno vicine alle varie osservazioni). In questo caso possiamo ipotizzare una relazione statistica lineare tra le vendite Y e il punteggio al test X: Y = β 0 β 1 X ɛ dove ɛ è un termine di errore (casuale) specifico del venditore; le due figure seguenti mostrano due possibili relazioni statistiche lineari da cui i dati dell esempio potrebbero avere avuto origine...
34 Retta di regressione 34 Relazione Statistica Lineare (Ipotesi 1) Relazione Statistica Lineare (Ipotesi 2) Vendite β 0 = 50 β 1 = 3 Vendite β 0 = 70 β 1 = Punteggio Punteggio
35 Retta di regressione 35 Nell ipotesi di relazione statistica lineare tra Y e X, dati i coefficienti di regressione β 0 e β 1 e l errore standard di regressione σ = sd (ɛ), assumendo E[ɛ] = 0, la previsione di Y n1 conoscendo x n1 sarà Y n1 = β 0 β 1 x n1 ± σ e si tratterà di una previsione migliorata perché σ < sd (Y n1 ) in quanto, supponendo ɛ n1 e X n1 indipendenti, ovvero supponendo la variabile X esogena, si trova Var (Y n1 ) = β 2 1 Var (X n1) σ 2.
36 Retta di regressione 36 Quali valori prenderemo per β 0, β 1 e σ? Non conoscendo i valori veri (di popolazione) ricorreremo a delle stime ˆβ 0, ˆβ 1 e ˆσ il cui calcolo (sulla base delle modalità osservate di X e Y ) ci accingiamo a discutere supponiamo, in prima battuta, di avere già trovato ˆβ 0 e ˆβ 1 : si dice residuo dell i-esima osservazione y i rispetto alla retta con intercetta ˆβ 0 e pendenza ˆβ 1 la quantità empirica e i = y i ˆβ 0 ˆβ 1 x i = y i ŷ i ovvero l errore di previsione stimato per l i-esima osservazione, usando ˆβ 0 e ˆβ 1 come stime di β 0 e β 1 ; le quantità ŷ i = ˆβ 0 ˆβ 1 x i, i = 1,..., n, si dicono valori predetti.
37 Retta di regressione 37 Poiché il residuo e i stima l errore di previsione ɛ i, per i = 1,... n, appare naturale (ed è sempre possibile) richiedere che ˆβ 0 e ˆβ 1 determinino residui a media nulla: ē = e 1 e n n = 0 Stimeremo allora l errore standard di regressione σ mediante la deviazione standard dei residui: e1 2 ˆσ = e2 n n Perché dunque non fare tutto il possibile per rendere piccola ˆσ? In effetti è il criterio che si segue per trovare ˆβ 0 e ˆβ 1...
38 Retta di regressione 38 Retta di Regressione Vendite β^0 = 9.8 β^1 = 1.9 y n1 = x = 65.6 y = Punteggio
39 Retta di regressione più in dettaglio, definito lo Scarto Quadratico Medio della retta con intercetta β 0 e pendenza β 1 rispetto alle osservazioni (x 1, y 1 )... (x n, y n ) come n i=1 di modo che ˆσ = SQM(β 0, β 1 ) sotto il vincolo (in realtà superfluo) 1 n n i=1 (y i β 0 β 1 x i ) 2 SQM(β 0, β 1 ) = 1 n SQM( ˆβ 0, ˆβ 1 ), determineremo ˆβ 0 e ˆβ 1 minimizzando (y i β 0 β 1 x i ) = ȳ β 0 β 1 x = 0. La figura seguente mostra la superficie individuata da SQM(β 0, β 1 ) al variare di β 0 e β 1 (nell esempio dei venditori)...
40 SQM Retta di regressione 40 Superficie della Funzione di Perdita Beta1 Beta0 Esiste un unico minimo (tale che y = β 0 β 1x)
41 Retta di regressione sono dunque univocamente determinate le stime ai minimi quadrati ˆβ 1 = r xy sd y sd x ˆβ 0 = ȳ ˆβ 1 x che nel caso del venditore neoassunto valgono ˆβ 1 = = ˆβ 0 = = 9.8 come già riportato nel grafico della retta di regressione.
42 Retta di regressione 42 Con riferimento all esempio dei venditori, i coefficienti di regressione (stimati) godono della seguente interpretazione: ˆβ 1 = 1.9 migliaia di sterline / punto della scala del test è l incremento nelle vendite corrispondente all incremento di un punto nel risultato del test, mentre ˆβ 0 = 9.8 migliaia di sterline sono le vendite corrispondenti a un venditore che consegue punteggio nullo nel test poiché i punteggi osservati vanno da un minimo di 45 a un massimo di 85, l interpretazione di ˆβ 0 non è affidabile (posto che abbia senso considerare un venditore... assunto... con 0 punti al test attitudinale).
43 Retta di regressione 43 A questo punto siamo quasi pronti a dare, per il venditore neoassunto con punteggio x n1 = 60, la previsione Y n1 = ˆβ 0 ˆβ 1 x n1 ± ˆσ dove ˆβ 0 = 9.8, ˆβ 1 = 1.9 e ˆσ = SQM( ˆβ 0, ˆβ 1 ) = e 2 1 e2 n n dove il quasi è relativo al fatto che ci conviene prima introdurre una formula alternativa per la stima dell errore standard di regressione...
44 Retta di regressione basata sulla seguente decomposizione della varianza totale (varianza marginale di Y ): n sd 2 y = 1 ˆβ 0 ˆβ 1 x i ȳ) n i=1( 2 1 n = R 2 sd 2 y ˆσ 2 n i=1 (y i ˆβ 0 ˆβ 1 x i ) 2 dove R 2 si dice coefficiente di determinazione della retta di regressione (è la proporzione di varianza totale spiegata da X). Si dimostra che R 2 = rxy 2 e se ne ricava la seguente formula alternativa per la stima dell errore standard di regressione: ˆσ = sd y 1 rxy 2 di modo che ˆσ sd y (uguaglianza solo nel caso in cui r xy = 0).
45 Retta di regressione 45 Nell esempio del venditore neoassunto si trova R 2 = (0.77) 2 = di modo che la retta di regressione di Y (vendite) su X (punteggio al test attitudinale) spiega il 59% della varianza totale; ne segue ˆσ = = = 21.6 migliaia di sterline e quindi (se x n1 = 60) prevederemo Y n1 = ± 21.6 = ± laddove (ignorando x n1 ) prevedevamo Y n1 = ȳ ± sd y = ± 33.8
46 Retta di regressione 46 L informazione x n1 = 60 corregge e precisa la nostra previsione. una previsione puntuale più bassa delle vendite del neoassunto, da a migliaia di sterline, perché il neoassunto ha conseguito un punteggio al test attitudinale inferiore alla media; una minore incertezza nella previsione delle vendite del neoassunto, nella misura in cui l errore standard di previsione passa da 33.8 a 21.6 migliaia di sterline (errore standard di regressione) in virtù della correlazione lineare tra vendite e punteggio. La minore incertezza nella previsione si traduce, a parità di probabilità, in un intervallo di previsione più corto...
47 Retta di regressione se si può usare una distribuzione normale per Y n1, quando si sappia che X n1 = 60, assegnando E[Y n1 X n1 = 60] = sd (Y n1 X n1 = 60) = 21.6 troveremo la previsione per intervallo 80.6 = Y n = con probabilità 95%, da confrontare con la previsione incondizionata 66.8 = Y n = di modo che la lunghezza sarà scesa da 135 a 86 migliaia di sterline.
48 Retta di regressione 48 Regression Residuals Density Standard Units
49 Retta di regressione Vendite Punteggio
50 Retta di regressione 50 In realtà ponendo sd (Y n1 X n1 = x n1 ) = ˆσ sottovalutiamo la nostra incertezza sul fenomeno oggetto di previsione: usando i dati non solo per stimare σ, ma anche per stimare β 0 e β 1, converrà sostituire ˆσ con la sua versione corretta n ˆσ = ˆσ n 2 ; inoltre i valori ˆβ 0 e ˆβ 1 sono affetti da incertezza e questa si rifletterà sull assegnazione E[Y n1 X n1 = x n1 ] = ˆµ xn1, dove abbiamo introdotto la quantità ˆµ xn1 = ˆβ 0 ˆβ 1 x n1...
51 Retta di regressione in effetti ˆβ 0 e ˆβ 1 sono stime (corrette) con errori standard se( ˆβ 0 ) = σ ( x 1 n sd x σ se( ˆβ 1 ) = sd x n provenienti da stimatori 1 con correlazione x se( ˆβ 1 ) di modo che se( ˆβ 0 ) se( ˆµ xn1 ) = σ n 1 ( xn1 x sd x ) 2 e di conseguenza... ) 2 1 Gli stimatori ai minimi quadrati di β 0 e β 1 hanno varianza minima tra quelli corretti che sono funzioni lineari dei dati (Teorema di Gauss-Markov).
52 Retta di regressione l errore standard di previsione, comprensivo di tutta la nostra incertezza, sarà se(y ˆ n1 X n1 = x n1 ) = ˆσ 2 se( ˆ ˆµ xn1 ) 2 [ ( ) ] = ˆσ 1 xn1 x n sd x tanto maggiore quanto più x n1 è lontano da x; si veda al riguardo la Figura di Borra & Di Ciaccio (2008). Al crescere di n l incertezza sulla nostra previsione si riduce all errore standard di regressione σ, ma resta il problema che la previsione non sarà affidabile se x n1 non appartiene al campo di variazione dei dati: estrapolare è più azzardato che interpolare.
53 Retta di regressione 53 Nell esempio di Rees la stima corretta dell errore standard di regressione sarà ˆσ = = 24.9 e quindi gli errori standard (stimati) di β 0 e β 1 saranno se ˆ 0 = se ˆ 1 = ( ) = = 0.65
54 Retta di regressione 54 di modo che scriveremo (stime puntuali con errore standard) β 0 = 9.8 ± 43.4 β 1 = 1.9 ± 0.65 per esprimere la nostra incertezza sui valori dell intercetta e del coefficiente angolare. In particolare, concentrandoci sul parametro che ci interessa di più, per la sua interpretazione, troveremo che l incremento nelle vendite corrispondente all incremento di un punto nel test attitudinale potrebbe tranquillamente essere di sole mille sterline (o di ben tremila sterline).
55 Retta di regressione 55 Un intervallo di confidenza per β 1 può trovarsi mediante un opportuno coefficiente di confidenza basato sulla distribuzione t di Student con n 2 gradi di libertà: ˆβ 1 t α se ˆ 1 β 1 ˆβ 1 t α se ˆ β β se prendiamo α = (con n 2 = 6); concluderemo al livello di confidenza 95%. 0.3 β 1 3.5
56 Retta di regressione 56 La verifica dell ipotesi di irrilevanza del test attitudinale H 0 : β 1 = 0 può effettuarsi mediante la statistica test (osservata) t = ˆβ 1 = se ˆ = 2.92 da confrontarsi con un opportuno valore critico della distribuzione t di Student con n 2 gradi di libertà: se prendiamo α = (con n 2 = 6) questo sarà t α = 2.45 e concluderemo che il test attitudinale contribuisce significativamente a spiegare le vendite; la stessa conclusione si ottiene osservando che il valore zero non appartiene all intervallo di confidenza.
57 Retta di regressione 57 L errore standard di ˆµ xn1 = ˆβ 0 ˆβ 1 x n1 = = può stimarsi come se( ˆ ˆµ xn1 ) = ( ) = e quindi per il parametro µ xn1 = β 0 β 1 x n1 (per le vendite medie dei venditori con punteggio x n1 ) avremo la stima con errore standard µ xn1 = ± 9.5 da cui eventualmente ricaveremo un intervallo di confidenza usando la distribuzione t di Student con n 2 = 6 gradi di libertà.
58 Retta di regressione 58 Infine, per quanto riguarda la previsione delle vendite di un venditore neoassunto con punteggio x n1 = 60, troveremo se(y ˆ n1 X n1 = 60) = (24.9) 2 (9.5) 2 = 26.7 da confrontare con se(y ˆ n1 ) = 38.3 (se non conosciamo x n1 ); usando la distribuzione t di Student con n 2 = 6 gradi di libertà per Y n1 E[Y n1 X n1 =x n1 ], prevederemo quindi se(y ˆ n1 X n1 =x n1 ) 58.4 = Y n = con probabilità 95% (lunghezza 131 da confrontare con 181).
59 Retta di regressione 59 Abbiamo visto che il coefficiente di determinazione R 2 = r 2 xy è la proporzione di varianza totale spiegata dalla retta di regressione in quanto tale è una misura della bontà di adattamento 2 della retta di regressione ai dati (quindi della sua utilità) se sussistono le condizioni per stimarla (ai minimi quadrati): linearità della relazione statistica Y i = β 0 β 1 X i ɛ i ovvero correlazione lineare tra Y e X; 2 Al riguardo si veda anche la Sezione 17.3 di Borra & Di Ciaccio (2008) sulla tavola ANOVA e sul test F.
60 Retta di regressione 60 omoschedasticità sd (ɛ i ) = σ ovvero stessa deviazione standard per tutti i termini di errore; indipendenza stocastica dei termini d errore ɛ 1,..., ɛ n (in caso contrario SQM non è la funzione di perdita più adatta); normalità dei termini di errore ɛ i N (0, σ) che permette di interpretare i minimi quadrati in termini di massima verosimiglianza (in caso contrario non è detto che i minimi quadrati siano l approccio migliore) e di usare una distribuzione t di Student a fini inferenziali (stima e previsione).
61 Retta di regressione 61 L analisi dei residui permette di controllare se sussistono o meno le condizioni per stimare la retta di regressione (ai minimi quadrati). Borra e Di Ciaccio (2008, Sezione 17.5) discutono questo argomento, mostrando fra l altro grafici dei residui che segnalano: relazioni statistiche non lineari; eteroschedasticità (termini di errore con deviazioni standard diverse fra loro); termini di errore fra loro dipendenti (correlati); termini di errore non normali. I due grafici seguenti, relativi all esempio dei venditori, non mostrano evidenza contro linearità, omoschedasticità e indipendenza (si suppongano i venditori in ordine di assunzione)...
62 Retta di regressione 62 Grafico dei Residui (1) Grafico dei Residui (2) Residuo Residuo Vendite Previste Venditore
63 Retta di regressione 63 Un paio di avvertenze finali (prima di passare a un applicazione): La stima ai minimi quadrati della retta di regressione è piuttosto sensibile alla presenza di valori anomali; questi possono essere individuati ispezionando visivamente il diagramma di dispersione (Borra & Di Ciaccio, 2008, Sezione 17.6). L evidenza di un associazione (lineare) tra due caratteri statistici non implica l esistenza di una relazione causale tra gli stessi; si veda al riguardo la Sezione 17.7 di Borra & Di Ciaccio (2008).
64 Propensione marginale all importazione 64 Previsione di un carattere quantitativo Correlazione lineare Retta di regressione Propensione marginale all importazione
65 Propensione marginale all importazione 65 Vediamo ora un applicazione in ambito macroeconomico, su dati relativi agli Stati Uniti d America (cortesia del prof. G. Bonifati). La variabili di interesse sono M = importazioni Z = spesa complessiva dove la spesa complessiva (PIL) è il totale di consumi, investimenti, spesa pubblica ed esportazioni nette : Z = C I G (X M); si noti che M è parte di C I G e dunque, nel calcolo di Z, si elide. È disponibile la serie storica di M e Z (cadenza quadrimestrale) dal primo quadrimestre del 1970 al primo quadrimestre del 2006; M e Z sono misurate in miliardi di dollari attualizzati al
66 Propensione marginale all importazione 66 USA USA Z M M Time Z
67 Propensione marginale all importazione 67 Restringendo l attenzione a un opportuna finestra temporale, si può ipotizzare una relazione statistica lineare tra le importazioni M e la spesa complessiva Z : M = β 0 β 1 Z ɛ. Il coefficiente β 1 è detto propensione marginale all importazione (di un dato paese, qui gli USA, in un dato momento storico, qui ancora da determinare); essa indica l aumento delle importazioni corrispondente a un aumento unitario (1 miliardo di dollari) nella spesa complessiva (PIL) ed è l oggetto di interesse nell analisi che segue.
68 Propensione marginale all importazione 68 > load("datiusabybonifati.rda") > datiusaantichi <- as.data.frame(datiusa)[time(datiusa) < 1990,] > reglin1 <- lm(m~z, data = datiusaantichi) > summary(reglin1) Call: lm(formula = M ~ Z, data = datiusaantichi) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e e <2e-16 *** Z 1.105e e <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 78 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 2349 on 1 and 78 DF, p-value: < 2.2e-16
69 Propensione marginale all importazione 69 > load("datiusabybonifati.rda") > datiusarecenti<-as.data.frame(datiusa)[time(datiusa) >= 1990,] > reglin2 <- lm(m~z, data = datiusarecenti) > summary(reglin2) Call: lm(formula = M ~ Z, data = datiusarecenti) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e e <2e-16 *** Z 2.387e e <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 63 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 2.493e04 on 1 and 63 DF, p-value: < 2.2e-16
70 Propensione marginale all importazione 70 Pertanto, se nel ventennio la propensione marginale all importazione degli USA era pari a ± 0.23 punti percentuali, nel periodo dal 1990 al 2005 essa si attesta al livello di ± 0.15 punti percentuali (circa il doppio del livello precedente). I valori di R 2 (96.79% nel primo caso, 99.75% nel secondo) indicano un ottimo adattamento locale della retta di regressione (modello lineare).
71 Propensione marginale all importazione 71 Residuals for Years Normal Q Q Residuals Standardized residuals Fitted values lm(m ~ Z) Theoretical Quantiles lm(m ~ Z)
72 Propensione marginale all importazione 72 Residuals for Years Normal Q Q Residuals Standardized residuals Fitted values lm(m ~ Z) Theoretical Quantiles lm(m ~ Z)
73 Bibliografia 73 BORRA, S. & DI CIACCIO, A. (2008). Statistica: Metodologie per le Scienze Economiche e Sociali (Seconda Edizione). McGraw-Hill, Milano. REES, D. G. (2001). Essential Statistics. CRC Press, Boca Raton.
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo [email protected] Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Capitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
Rappresentazioni grafiche di distribuzioni doppie
Rappresentazioni grafiche di distribuzioni doppie Distribuzione doppia di frequenze Tabella di contingenza Tabella di correlazione Stereogramma Distribuzione unitaria doppia di 2 caratteri quantitativi
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
Statistica 1 A.A. 2015/2016
Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza
XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6
Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75
00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei
LABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
STIMA PUNTUALE E PER INTERVALLO
STIMA PUNTUALE E PER INTERVALLO Legacy Edition Copyright 25 ottobre 2012 Luca La Rocca [email protected] UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Indice 2 Introduzione Stima puntuale ed errore
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
Regressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Esercizi su Regressione e Connessione
Esercizi su Regressione e Connessione Stefano Cabras 31 marzo 2009 Sommario Questa serie di esercizi è principalmente incentrata sulla regressione e la connessione, tuttavia in alcuni esercizi le soluzioni
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
STATISTICA. Regressione-2
STATISTICA Regressione-2 Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante
Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano
Corso di STATISTICA EGA - Classe 1 aa 2017-2018 Docenti: Luca Frigau, Claudio Conversano Il corso è organizzato in 36 incontri, per un totale di 72 ore di lezione. Sono previste 18 ore di esercitazione
Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono
Test F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
Contenuti: Capitolo 14 del libro di testo
Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4
1.1 Obiettivi della statistica Struttura del testo 2
Prefazione XV 1 Introduzione 1.1 Obiettivi della statistica 1 1.2 Struttura del testo 2 2 Distribuzioni di frequenza 2.1 Informazione statistica e rilevazione dei dati 5 2.2 Distribuzioni di frequenza
Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
Test delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
Università di Pavia Econometria Esercizi 4 Soluzioni
Università di Pavia Econometria 2008-2009 Esercizi 4 Soluzioni Maggio, 2009 Istruzioni: I commenti devono essere concisi! 1. Dato il modello di regressione lineare, con K regressori con E(ɛ) = 0 e E(ɛɛ
x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia [email protected] http://www.lucamonno.it
Introduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) Marcello Gallucci P S I C O M E T R I A [email protected] Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa
Corso di Statistica Industriale
Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30
1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl
1/4 Capitolo 4 La variabilità di una distribuzione Intervalli di variabilità Box-plot Indici basati sullo scostamento dalla media Confronti di variabilità Standardizzazione Statistica - Metodologie per
Fac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
Statistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme
ESAME. 9 Gennaio 2017 COMPITO A
ESAME 9 Gennaio 2017 COMPITO A Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
PROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
