STATISTICA Regressione-2
Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante un opportuno grafico: le due variabili sono correlate? Come e quanto? 2. Determinare le stime dei minimi quadrati dei parametri della retta interpolatrice dei dati
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1.5 2.0 2.5 3.0 3.5 Grafico di dispersione 1 2 3 4 5
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5,, 1.5 2.0 2.5 3.0 3.5 Grafico di dispersione 1 2 3 4 5
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 x i y i 1.5 5 9 10 17.5 = 3, =2.6 =11 3 =2, =7.2 2.6 =0.44 = 1 = 1 5 = 43 5 3 2.6 =0.8 = = 0.8 2 0.44 =.
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5,, =. Correlazione lineare positiva 1.5 2.0 2.5 3.0 3.5 Grafico di dispersione 1 2 3 4 5
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 x i y i 1.5 5 9 10 17.5 = 3, =2.6 =11 3 =2, =7.2 2.6 =0.44 = 1 = 1 5 = 43 5 3 2.6=. = =0.8 2 =. = =2.6 0.4 3=.
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 =, =. =0.4 =1.4 =.+. =, =.+. =. 1.5 2.0 2.5 3.0 3.5 Grafico di dispersione 1 2 3 4 5
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 = 3, =2.6 =0.4 =1.4 =.+. Previsione: Grafico di dispersione 1.5 2.0 2.5 3.0 3.5 =., =.+.. =. 4.5 1 2 3 4 5
Esempio x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 = 3, =2.6 La previsione è =0.4 attendibile? =1.4 solo se il modello =1.4+0.4 si adatta bene ai dati Previsione: 1.5 2.0 2.5 3.0 3.5 =., =.+.. =. Grafico di dispersione 4.5 1 2 3 4 5
Regressione lineare =+ A. Valutazione preliminare se una retta possa essere una buona approssimazione ρ B. Stima dei parametri della retta. C. Valutazione della bontà di adattamento del modello ai dati
Esempio = 3, =2.6 x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 COME LO VERIFICO? Grafico di dispersione CONFRONTANDO LE OSSERVAZIONI La previsione =0.4 è CON attendibile? LE PREVISIONI =1.4 solo se il modello =1.4+0.4 si adatta bene ai dati Previsione: 1.5 2.0 2.5 3.0 3.5 CHE IL MODELLO FA PER QUELLE OSSERVAZIONI =., =.+.. =. 4.5 1 2 3 4 5
La varianza spiegata dalla retta =+ 1 = 1 (+ ) = =+ = ( )+ = la media delle previsioni coincide con la media delle osservazioni
La varianza spiegata dalla retta = + 1 = 1 (+ ) = =+ = ( )+ = la media delle previsioni coincide con la media delle osservazioni se le previsioni sono molto vicine alle osservazioni anche le varianze saranno vicine! = ( ) = ( )
La varianza spiegata dalla retta = + 1 = 1 (+ ) = =+ = ( )+ = la media delle previsioni coincide con la media delle osservazioni se le previsioni non sono molto vicine alle osservazioni, la varianza dei dati sarà maggiore di quella delle previsioni
2000-2016 2010-2016 Spesa per consumi individuali Italia 960000 980000 1000000 1020000 1040000 La varianza spiegata dalla retta 1300000 1400000 1500000 1600000 85 90 95 100 105 110 PIL Italia Clima di fiducia in quale grafico le previsioni e le osservazioni sono più vicine? Spesa per consumi individuali Italia 800000 850000 900000 950000 1000000
La varianza spiegata dalla retta 1 = 2000-2016 Spesa per consumi individuali Italia 800000 850000 900000 950000 1000000 1300000 1400000 1500000 1600000 ( ) ( ) = PIL Italia = ( ) = ( )
La varianza spiegata dalla retta 1 = 2010-2016 1 ( ) ( ) = Spesa per consumi individuali Italia 960000 980000 1000000 1020000 1040000 85 90 95 100 105 110 Clima di fiducia = ( ) = ( )
Analisi della Varianza Fonte di variabilità Gradi di libertà (gl) SS (Sum of Squares) Mean Square (SS/gl) Retta di regressione Attorno alla retta 1 ( ) 2 Totale 1 ( ) num. di parametri stimati ( e ) 1 2 varianza spiegata varianza totale
2000-2016 2010-2016 Spesa per consumi individuali Italia 960000 980000 1000000 1020000 1040000 La varianza spiegata dalla retta =. =. 1300000 1400000 1500000 1600000 85 90 95 100 105 110 PIL Italia Clima di fiducia in quale grafico le previsioni e le osservazioni sono più vicine? Spesa per consumi individuali Italia 800000 850000 900000 950000 1000000
La bontà della regressione ( ) ( ) = coeff. di determinazione 0 1 = BUON ADATTAMENTO :.. o. (per tendenze crescenti) (per tendenze decrescenti)
Esempio, Cont. x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1.8 2.2 2.6 3.0 3.4 Grafico di dispersione =.+. =. = () = = =. =. 1.5 2.0 2.5 3.0 3.5 1 2 3 4 5
L indice non basta! 5 4 =. =. 3 2 5 1 4 20 40 60 80 100 3 2 1 20 40 60 80 100
Regressione lineare: sunto GRAFICO DI DISPERSIONE & = = = A. Valutazione preliminare se una retta possa essere una buona approssimazione B. Stima dei parametri della retta. C. Valutazione della bontà di adattamento del modello ai dati NON BASTA!
Per fare un buon modello lineare serve: una correlazione alta 5 4 3 alcune ipotesi che garantiscono la linearità del modello 2 1 20 40 60 80 100
Inferenza Il modello della regressione lineare semplice: = = + ~(, ) =+ + ~(+, )
Il modello di regressione lineare =+ +, ~(, ) ~(+, ) In questo modello, mi aspetto di osservare il valore = + (sulla retta), ma l incertezza del fenomeno può produrre un osservazione che non sta sulla retta. Questo errore, =,è supposto gaussiano, quindi non può essere troppo grande (" 3,3"), e deve essere simmetrico, nel senso che l istogramma degli deve dare una «campana» simmetrica. w 140 150 160 170 180 Y 66 68 70 72 X
Il modello di regressione lineare =+ +, ~(, ) ~(+, ) =, - non sono «troppo grandi»: ( 3,+3); - sono in parte positivi e in parte negativi; - il loro grafico è sparpagliato. w 140 150 160 170 180 Y X 66 68 70 72
Verifica della Gaussianità -5 0 5 10 0 10 20 30 40
Verifica della Gaussianità -60-40 -20 0 20 40 60 80 La varianza non è costante ~(, ) 0 20 40 60 80 100
Esempio, Cont. x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 = 3, =2.6 =0.4 =1.4 =.+. =. 1.5 2.0 2.5 3.0 3.5 Grafico di dispersione 1 2 3 4 5
Esempio, Cont. x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1.8 2.2 2.6 3.0 3.4 =.+. =. = =. 1.5 2.0 2.5 3.0 3.5 Grafico di dispersione 1 2 3 4 5
Esempio, Cont. =.+. =. = =. = x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1.8 2.2 2.6 3.0 3.4-0.3 0.3 0.4-0.5 0.1 1.5 2.0 2.5 3.0 3.5 1 2 3 4 5
Esempio, Cont. x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1.8 2.2 2.6 3.0 3.4-0.3 0.3 0.4-0.5 0.1 = 1.4+0.4 =0.85 = =. =
Esempio, Cont. Sparpagliati attorno alla retta tratteggiata; =.+. abbastanza =0.85 simmetrici = =. = x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1.8 2.2 2.6 3.0 3.4-0.3 0.3 0.4-0.5 0.1
Regressione lineare: GRAFICO DI DISPERSIONE & = = = & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione B. Stima dei parametri della retta. C. Valutazione della bontà di adattamento del modello ai dati
Esempio, Cont. I DATI SONO TROPPO =.+. POCHI PER =0.85 FARE UN ANALISI = =. SERIA DEI = RESIDUI! x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1.8 2.2 2.6 3.0 3.4-0.3 0.3 0.4-0.5 0.1
Regressione lineare: GRAFICO DI DISPERSIONE & = = = & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione B. Stima dei parametri della retta. C. Valutazione della bontà di adattamento del modello ai dati D. Significatività della regressione
Inferenza Il modello della regressione lineare semplice: =+ ~(0, ) indipendenti =+ + Verificare se il vero valore della pendenza nella popolazione di riferimento è davvero diverso da zero ( previsioni!) oppure no: =,