STATISTICA Regressione-2
Fare sempre il grafico! Fig. 5.12 pg 178, Statistica di S. Iacus
Fare sempre il grafico! y 0 2 4 6 8 10 =-1 =+0.79 outlier o dato influente 0 2 4 6 8 10 x
Inferenza Il modello della regressione lineare semplice: ~, ~,
Inferenza Il modello della regressione lineare semplice: ~, Il valore medio di in corrispondenza a tutte le unità statistiche per cui è! ~,
Inferenza Il modello della regressione lineare semplice: ~, Il modello ha tre parametri incogniti: ",#,$ % 1. Stimare ",# e $ % 2. Verificare se il vero valore della pendenza nella popolazione è davvero diverso da zero ( previsione) oppure no: ( ) # 0, (, # - 0
Inferenza 7 7< ~, /1 "1 #2. / 0/1 4 3. 0 6 7 8 < 7;06; 9 9 58 0;7 07; 8 9 9 58 0;
Inferenza 7 7< ~, /1 "1 #2. / 0/1 stima di $ % = % 1 4?02 3. % varianza degli errori 4 3. 0 errori residui
Inferenza dalle stime agli stimatori: A 4 0B 4 0 ; 0 ; % C 4 B 4 0 A 4 ; D ~E0,$ % ~E"#,$ % = % 1 4?02 3. % C 4 e A 4 v.c. gaussiane ( ) # 0 (, # - 0 rifiutiamo ( ) se: 4 #2 = % 0 ; % > G90H %
Inferenza dalle stime agli stimatori: A 4 0B 4 0 ; 0 ; % C 4 B 4 0 A 4 ; D ~E0,$ % ~E"#,$ % = % 1 4?02 3. % C 4 e A 4 v.c. gaussiane I I 8 - rifiutiamo ( ) se: 4 #2 0# ) = % 0 ; % > G90H %
Inferenza dalle stime agli stimatori: A 4 0B 4 0 ; 0 ; % C 4 B 4 0 A 4 ; D ~E0,$ % ~E"#,$ % = % 1 4?02 3. % C 4 e A 4 v.c. gaussiane Intervallo di confidenza di livello 10K per # : #2 0G90H % 4 = % 0 ; %,#2 G90H % 4 = % 0 ; %
Inferenza dalle stime agli stimatori: A 4 0B 4 0 ; 0 ; % C 4 B 4 0 A 4 ; D ~E0,$ % ~E"#,$ % = % 1?02 3. % E SE CONTIENE LO 0? C 4 e A 4 v.c. gaussiane Tipo: (-1.23, 2.17) 4 Intervallo di confidenza di livello 10K per # : #2 0G90H % 4 = % 0 ; %,#2 G90H % 4 = % 0 ; %
Inferenza ( ) " " ) (, " - " ) "1 0" ) = % 1? % 4 0 ; % > G?02H % Intervallo di confidenza di livello 10K per " : "1 0G90H % 1 %? 4 0 ; %,"1 G90H % 1 %? 4 0 ; %
Inferenza per la previsione /1 ) G?02H % = % 1? N, 0; % 4 0 % 7 7< ;
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 150 200 250 300 350 400 450 500 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 1957.78 /B 277.65 $ U % 1089.51 $ V % 13193.36 XYZ,/ 03344.877 UV 03344.877 1089.51 13193.36 0.\\ ] % 00.88 %.^^ 150 200 250 300 350 400 450 500 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 1957.78 /B 277.65 $ U % 1089.51 XYZ,/ 03344.877 #2 03344.877 1089.51 0_.^ "1 277.653.07 1957.78 `\\. 150 200 250 300 350 400 450 500 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 1957.78 /B 277.65 $ U % 1089.51 XYZ,/ 03344.877 #2 03344.877 1089.51 0_.^ "1 277.653.07 1957.78 `\\. 150 200 250 300 350 400 450 500 1900, 455.0 ;,7; 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 7< 455 408.95 347.55 286.15 255.45 224.75 209.4 178.7 132.65 1957.78 /B 277.65 $ % U 1089.51 XYZ,/ 03344.877 "1 6288.0 c = % 1 7 3 / 0/1 % 3759.85 = 61.318 #2 0_.^ ( ) # 0 (, # - 0 4 #2 = % 0 ; % 4.958?>? G7 ).)b % 3.07 3759.85 9 1089.51 rifiutiamo l ipotesi che # 0! 2.3646
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 previsione per 1920 /1 6288.003.07 1920 393.6 kg in media 150 200 250 300 350 400 450 500 CONSUMO MEDIO SU TUTTE LE PERSONE DEL 1920 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 previsione per 1920 /1 6288.003.07 1920 393.6 kg /1 ) G?02H % = % 3759.83 4 3 0 % K 0.05; G?02H % 150 200 250 300 350 400 450 500 = % 1? N, ) 0 % 4 0 %?$ U % 7626.57 2.3646 393.6±8`g. 228.4,558.8 PER UNA PERSONA QUALUNQUE 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 previsione per 2020 /1 6288.003.07 2020 86.6 kg /1 ) G?02H % = % 3759.83 4 3 0 % K 0.05; G?02H % 86.6 8\h.g 150 200 250 300 350 400 450 500 = % 1? N, ) 0 % 4 0 %?$ U % 7626.57 2.3646 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 previsione per 2050 / 6288.003.07 2050 0g.g kg #2 03344.877 1089.51 03.07 "1 277.653.07 1957.78 6288.0 150 200 250 300 350 400 450 500 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 previsione per 2050 / 6288.003.07 2050 0g.g kg previsioni di lungo periodo sonofuori dal range dei dati! Meglio non farle! Ma se proprio attenzione al senso! 150 200 250 300 350 400 450 500 1900 1920 1940 1960 1980 2000
Esercizio 2 anno, consumo medio annuo procapite di pane X 1900 1915 1935 1955 1965 1975 1980 1990 2005 Y (kg) 500 350 325 400 180 218 180 205 140 previsione per 2050 / 6288.003.07 2050 0g.g kg 6288.003.07 0 ) 6288.0 3.07 2048.21 previsione a lungo termine solo fino al 2048 0 100 200 300 400 500 1900 1950 2000 2050
Il modello di regressione lineare, ~, In questo modello, mi aspetto di osservare il valore 7< (sulla retta), ma l incertezza del fenomeno può produrre un osservazione 7 che non sta sulla retta. Questo errore, i 7 07<, è supposto gaussiano, quindi non può essere troppo grande ("03$,3$", e deve essere simmetrico. w 140 150 160 170 180 Y 7 7< X 66 68 70 72
Il modello di regressione lineare "# D, ~, i -20-10 0 10 20 GRAFICO DEI RESIDUI 5 10 15 nell ordine dei dati / 0/1 = % 1 4?02 3. % - non sono «troppo grandi»: (03= %,3= % ); - sono in parte positivi e in parte negativi; - il loro grafico è sparpagliato.
Verifica della Gaussianità i res1-20 -10 0 10 20 0 10 20 30 40
Verifica della Gaussianità 0 10 20 30 40 res1-20 -10 0 10 20-20 -10 0 10 20 i i -2 0 2 4 6 8 /1
Verifica della Gaussianità -60-40 -20 0 20 40 60 80 i La varianza non è costante 0 20 40 60 80 100
Verifica della Gaussianità Q-Q plot -2-1 0 1 2 Quantili di una E0,1 Quantili dei residui standardizzati -2-1 0 1 2
Verifica della Gaussianità Q-Q plot m ).c) k l -4-2 0 2 4-2 -1 0 1 2 Quantili di una E0,1 Quantili dei residui standardizzati -2-1 0 1 2 0.0 0.1 0.2 0.3 0.4 k, k % k, 00.57 m ).c) 1.38 m ).,)
Verifica della Gaussianità Quantili dei residui standardizzati Q-Q plot Quantili di una E0,1 dato anomalo/ outlier Ci sono tecniche di diagnostica ad hoc
Verifica della Gaussianità http://condor.depaul.edu/sjost/it223/documents/normal-plot.htm
Esercizio 3 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 3.8199 9.0891 0.420 0.677 X 2.0642 0.3029 6.816 0 =0.624 0 20 40 60 80 100 120 Y 0 20 40 60 80 100 120 Y 0 10 20 30 40 X 0 10 20 30 40 X
Esercizio 3 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 3.8199 9.0891 0.420 0.677 X 2.0642 0.3029 6.816 0 =0.624 =3.8199+2.0642 +
Esercizio 3 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 3.8199 9.0891 0.420 0.677 X 2.0642 0.3029 6.816 0 =0.624 =3.8199+2.0642 + valori della statistica per i due test d ipotesi =0 e =0 : 1 # + " ( )! e! ( )
Esercizio 3 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 3.8199 9.0891 0.420 0.677 X 2.0642 0.3029 6.816 0 =0.624 =3.8199+2.0642 + valori del denominatore nella statistica per i due test d ipotesi =0 e =0 : " e % & * ) + ' & ) (' ( ' ) & ( * ) ( * % & (' ( ' ) &
Esercizio 3 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 3.8199 9.0891 0.420 0.677 =0.624 X 2.0642 0.3029 6.816 0 =3.8199+2.0642 + +,-.. /-0.123 =1242562574 8 valori del denominatore nella statistica per i due test d ipotesi =0 e =0 : " e % & * ) + ' & ) (' ( ' ) & ( * ) ( * % & (' ( ' ) &
Esercizio 3 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 3.8199 9.0891 0.420 0.677 X 2.0642 0.3029 6.816 0 =0.624 p-value per i due test d ipotesi =0 e =0 non sappiamo #, però
Esercizio 3 0.0 0.1 0.2 0.3 0.4 :(# 2) 0.677 2 Statistica t p-value 0.420 0.677 6.816 0 p-value per i due test d ipotesi =0 e =0 non sappiamo #, però: 1. Non rifiutiamo =0 2. Rifiutiamo =0 a qualunque livello di significatività -20-10 0 10 20