La verifica delle ipotesi statistiche Problema pratico: Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche? Coerenza del risultato campionario con un ipotesi specificata per la popolazione: se il risultato campionario si verrà a trovare talmente lontano dal valore teorizzato dall ipotesi fatta per θ da cadere in un insieme di valori ritenuti non coerenti (in quanto troppo poco probabili) con l ipotesi su θ, tale risultato avvalorerà la possibilità di ipotesi alternative a quella specificata. Test statistico = regola di decisione che ad ogni valore campionario associa una decisione sul parametro θ.
La logica della verifica delle ipotesi Punto di partenza: Informazione su un parametro Ipotesi sul parametro: θ = θ 0 Punto di arrivo: Campione Conferma l ipotesi Non conferma l ipotesi TEST Decisione sul valore del parametro ipotizzato : l ipotesi sul parametro è vera La vera distribuzione è centrata su θ 0 θ 0 H : l ipotesi sul parametro è falsa La vera distribuzione non è centrata su θ 0 θ
Richiamando gli intervalli di confidenza: Dati: un campione X,, X n, un parametro θ ed una statistica T n, il cui valore calcolato sul campione è t n La probabilità: ( θ θ ) P t + = α n ha un senso solo se il valore di θ è noto (nel qual caso non ha utilità)
Se θ è noto: Prima di estrarre il campione t n non è fisso bensì una v.c. (campionaria), quindi si può ragionare sulla probabilità che t n cada in un certo intervallo intorno a θ. A che scopo? Per stabilire se la nostra conoscenza su θ è avvalorata dall evidenza empirica (cioè dal campione) Esempio: t n = media campionaria σ N µ, n σ σ P µ zα Xn µ + zα = α n n µ z α σ n µ σ µ + zα X n L intervallo è fisso, perché è centrato su µ varia al variare del campione tra tutti i possibili campioni, µ è fisso
Le ipotesi statistiche Ipotesi statistica: affermazione che specifica completamente o parzialmente la distribuzione di probabilità di una v.c. X. Ipotesi nulla : Informazione sulla popolazione riconosciuta come valida fino a prima all esperimento campionario (valida fino a prova contraria): Ipotesi alternativa H: : θ = θ 0 Complemento all ipotesi nulla. È costituita da un singolo valore o da un insieme di valori possibili per θ e considerati alternativi a θ 0 : H : θ = θ H : θ < θ 0 H : θ > θ 0 H : θ θ 0 Ipotesi semplice Ipotesi unidirezionale Ipotesi bidirezionale Le ipotesi e H sono esaustive e disgiunte: o vale l una o vale l altra. In ogni caso la decisione è presa rispetto ad H0
Test e regole di decisione Il test permette di stabilire se le osservazioni campionarie debbano ritenersi coerenti con l ipotesi nulla oppure no Da un punto di vista operativo, effettuare il test significa definire una statistica, detta statistica-test test T n, la cui distribuzione campionaria sia nota, così che: campione casuale (X,, X n ) un valore numerico coerente con H0 non coerente con H0 Spazio campionario: insieme dei valori che la statistica-test può assumere Distribuzione campionaria: Distribuzione di probabilità della statistica-test
Come prendere la decisione Una volta calcolato il valore campionario t n della statistica-test, detto valoretest, si può seguire una delle due seguenti procedure alternative: Livello di significatività osservato: si cerca (sulle tavole) il p-value, ossia la probabilità di ottenere un valore di T n maggiore del valore osservato t n (P[T n > t n ]) p-value = grado di coerenza di p-value θ t n T n Regione critica: si fissa a priori il livello di significatività del test - α, che identifica sulla distribuzione della statistica-test due regioni: Regione di accettazione: insieme dei valori di T n coerenti con Regione di rifiuto (o regione critica): insieme di valori di T n non coerenti con? t n - α α θ t α T n Accettazione Rifiuto
Regione critica per un test statistico con ipotesi alternativa unidirezionale:? t n : θ = θ 0 H : θ > θ 0 - α α θ 0 t α T n Accettazione Rifiuto Regione critica per un test statistico con ipotesi alternativa bidirezionale: t n : θ = θ 0 H : θ θ 0 α/ - α α/ -t α/ θ 0 t α/ T n Rifiuto Accettazione Rifiuto
Errori di I e II specie Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili decisioni, e H e a poter commettere due possibili errori: rifiutare un ipotesi vera Vera Falsa accettare un ipotesi falsa Accetto Ok Errore di II specie Rifiuto Errore di I specie Ok Esempio: : piove Piove Non piove Ombrello SI Ombrello NO Ok Danno più grave Danno meno grave Ok N.B.: non esiste la decisione giusta!!! c è sempre il rischio di sbagliare, ma è possibile gestirlo e controllarlo QUANTIFICANDOLO
Rischio di errori di I e II specie Vera Falsa : θ = θ 0 H : θ = θ Accetto Rifiuto Ok Errore di I specie Errore di II specie Ok vera α Vera Falsa θ 0 Accetto Rifiuto - α α β - β β falsa θ Definizioni: α = probabilità di errore di I specie = livello di significatività - α = probabilità di accettare correttamente (affidabilità del test) β = probabilità di errore di II specie - β = potenza del test = probabilità di rifiutare correttamente (varia al variare di θ, quindi può essere determinato solo se H è un ipotesi semplice )
Approccio conservativo del test L ipotesi nulla è quella che, se vera, lascia invariate le cose L errore di I specie è considerato più grave di quello di II specie Mai lasciare la via vecchia ( ) per la nuova (H ) Esempi: fino ad EVIDENTE prova contraria : vecchio farmaco migliore del nuovo H : nuovo farmaco migliore del vecchio : assoluzione H : condanna Il vecchio è migliore Il nuovo è migliore Innocente Colpevole Vecchio Ok Danno meno grave Assolvo Ok Danno meno grave Nuovo Danno più grave ok Condanno Danno più grave ok È per questo che: L ipotesi nulla e l ipotesi alternativa non sono equivalenti ai fini della decisione, nel senso che il test non è mai conclusivo circa H, ma concerne solo la possibilità che dal campione si possa pervenire al rifiuto o al non rifiuto di.
Verifica di ipotesi sulla media µ X ~ N(µ, σ ) σ nota L elemento che determina la decisione sono i valori critici Con essi va confrontato il valore-test (valore della statistica-test calcolata sul campione) I valori critici sono ottenuti dalla distribuzione della statistica-test, fissato il livello di significatività desiderato per il test Per la media: Xn µ P zα zα = α σ n Valori critici Statistica-test
Esempio La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media µ = 7 battiti al minuto (bpm) e varianza σ = 64. Si misura la frequenza cardiaca su un campione di 5 atleti maschi e si ottiene una media pari a 68,7 bpm. Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti è diversa da quella della popolazione di tutti i maschi sani. Soluzione test sulla media, bilaterale distribuzione normale, varianza nota σ = 64 σ = 8 = 68,7 α = 0,05 α/ = 0,05 n = 5 Ipotesi Statistica test Valori critici Regola di decisione Valore test (v test ) Decisione : µ = 7 H : µ 7 X test ± z = ±,96 α µ = σ n -,96 v test,96 si accetta v test -,96 oppure v test,96 si rifiuta 68,7 7 vtest = =,06 8 5 -,06 -,96 si rifiuta
Esempio La quantità di merci in transito negli aeroporti italiani si distribuisce normalmente con una media pari a 8,7 (migliaia di tonnellate) e uno scarto quadratico medio pari a 8. In un campione di 0 aeroporti viene registrato un valore medio pari a 5. Utilizzando un livello di significatività dell %: a) Verificare l ipotesi che il transito medio di merci sia rimasto invariato; b) Verificare l ipotesi che il transito medio di merci non sia diminuito Soluzione a) test sulla media, bidirezionale distribuzione normale, varianza nota σ = 8 = 5 α = 0,0 α/ = 0,005 n = 0 Ipotesi Statistica test Valori critici Regola di decisione Valore test (v test ) Decisione : µ = 8,7 H : µ 8,7 X test µ = σ n ± z = ± z = ±,58 α 0,005 -,58 v test,58 si accetta H0 v test -,58 oppure v test,58 5 8,7 vtest = =,07 8 0 -,58 -,07,58 si accetta H0 si rifiuta H0
b) test sulla media, unidirezionale distribuzione normale, varianza nota Ipotesi Statistica test Valore critico : µ = 8,7 H : µ < 8,7 X test µ = σ n z = z =,33 α 0,0 Regola di decisione v test -,33 v test < -,33 si accetta H0 si rifiuta H0 Valore test (v test ) Decisione 5 8,7 vtest = =,07 8 0 -,07 -,33 si accetta H0
Verifica di ipotesi sulla media µ X ~ N(µ, σ ) σ non nota Xn µ P tα t n α = α n s n Valori critici Statistica-test Come scegliere la statistica-test per la media? X ~ N no n > 30 no??? si si σ noto no X µ s n ~ t n si X µ σ n ( ) ~ N 0,
Esempio La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media µ = 7 battiti al minuto (bpm). Si misura la frequenza cardiaca su un campione di atleti maschi e si ottiene una media pari a 68,7 bpm ed una varianza corretta pari a 75,. Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti è diversa da quella della popolazione di tutti i maschi sani. Soluzione test sulla media, bidirezionale distribuzione normale, varianza non nota s = 75, s = 8,67 = 68,7 α = 0,05 α/ = 0,05 n = Ipotesi : µ = 7 H : µ 7 Statistica test test = µ s n 0 Valori critici Regola di decisione Valore test (v test ) Decisione ± t0,05; = ±,0 -,0 v test,0 si accetta v test -,0 oppure v test,0 si rifiuta 68,7 7 3,3 vtest = = =,3 8, 67,5 -,0 -,3,0 si accetta
Verifica di ipotesi sulla proporzione π p P π zα z α = α ( π π) n Valori critici Statistica-test
Esempio In una scommessa con un amico, lanciando 00 volte una moneta si sono ottenute 54 teste. Abbiamo il sospetto che l amico ci abbia ingannati utilizzando una moneta truccata. Si verifichi questa ipotesi ad un livello di significatività del 0%. Soluzione test sulla proporzione, bidirezionale (unidirezionale) α = 0,0 p =0,54 n=00 Ipotesi Statistica test Valori critici Regola di decisione : π = 0,5 H : π 0,5 (H : π > 0,5) p π0 test = π π ( ) 0 0 n ± z0,05 =, 645 ( z0, =,8 ) -,645 v test,645 si accetta v test -,645 oppure v test,645 si rifiuta ( ) v test,8 si accetta v test >,8 si rifiuta Valore test (v test ) 0,54 0,50 ( ) 0,50 0,50 00 = 0,80 Decisione -,645-0,8,645 si accetta (0,80 <,8 si accetta H0)
Verifica di ipotesi sulla differenza tra medie X e Y ~ N no n e n y > 30 no??? si si σ X e σ Y note no σ X = σ Y si no ( X Y) ( µ µ y ) s n s + n y y ~ t ( n + ny ) si ( X Y) ( µ µ y ) s + n n y ~ t ( n + ny ) no σ X = σ Y si ( X Y) ( µ µ y ) σ + n n y ( ) ~ N 0, ( X Y) ( y ) µ µ σ σ + y n n y ( ) ~ N 0, s = ( ) ( ) s n + s n X X Y Y n + n Stimatore corretto dello sqm comune y
Esempio Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e una deviazione standard di.000 km, uguale per le due marche. Da un campione di 4 utilizzatori della marca X risulta una durata media di 33.500 Km, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km. Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%. Soluzione test sulla differenza tra medie, bidirezionale distribuzione Normale, varianze note uguali Ipotesi : µ = µ Y H : µ X µ Y α = 0,05 n X =4 n Y =9 X, Y ~ N = 33.500 y = 36.000 σ X = σ Y =.000 Statistica test test = ( X Y) ( µ µ y ) σ + n n y Valori critici Regola di decisione Valore test (v test ) Decisione ± z0,05 = ±,96 -,96 v test,96 si accetta v test -,96 oppure v test,96 si rifiuta 33500 36000 vtest = =,93 000 + 4 9 -,93 < -,96 si rifiuta
Esempio Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e la stessa varianza incognita. Da un campione di 4 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.36.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900. Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%. Soluzione test sulla differenza tra medie, bidirezionale distribuzione Normale, varianze non note uguali α = 0,05 = 33.500 y = 36.000 n Y =9 n X =4 X ~ N s = 4.36.400 X s = 3.880.900 Y
Ipotesi : µ = µ Y H : µ X µ Y Statistica test test = ( X Y) ( µ µ y ) s + n n y con: s = ( ) ( ) s n + s n X X Y Y n + n y Valori critici ± t0,05; = ±,08 Regola di decisione -,08 v test,08 si accetta v test -,08 oppure v test,08 si rifiuta 3 4.36.400 8 3.880.900 s + = = 038, 8 4 + 9 Valore test (v test ) Decisione 33.500 36.000 500 vtest = = =,87 038, 8 + 038, 8 + 4 9 4 9 -,87 < -,08 si rifiuta
Esempio Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km ma con varianze diverse e incognite. Da un campione di 4 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.36.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900. Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%. Soluzione test sulla differenza tra medie, bidirezionale distribuzione Normale, varianze non note diverse α = 0,05 = 33.500 y = 36.000 n Y =9 n X =4 X ~ N s = 4.36.400 X s = 3.880.900 Y
Ipotesi : µ = µ Y H : µ X µ Y Statistica test test = ( X Y) ( µ µ y ) s n s + n y y Valori critici Regola di decisione ± t0,05; = ±,08 -,08 v test,08 si accetta v test -,08 oppure v test,08 si rifiuta Valore test (v test ) Decisione 33.500 36.000 vtest = =,9 4.36.400 3.880.900 + 4 9 -,9 < -,08 si rifiuta
Esempio Nelle regioni italiane si misura il livello di inquinamento ambientale con il numero di denunce emesse dalla popolazione residente. Nelle 0 regioni del Nord risultano in media 9. denunce mentre nelle del Centro- Sud la media è 33.06. Verificare l ipotesi che le due aree geografiche sono caratterizzate dallo stesso livello di inquinamento al livello di significatività del 5% y Valore test Valori critici g.d.l. α Decisione: -3.93 -.38 ±.086 0 0.05 Si accetta : µ - µ Y = 0 H : µ X - µ Y 0 IC 95% ( µ -µ y ) = [ -.39 ; 3.76 ] Contiene lo 0
La spezzata delle medie X AREA Geografica Y Classi di REDDITO 0-30 30-40 Totale Medie NORD 6 8 3.5 CENTRO 4 6 3.7 SUD 6 0 6 5 Totale 0 0 0 30
Decomposizione della varianza La varianza di X è data dalla somma di due componenti: varianza esterna = varianza delle medie di gruppo varianza interna = media delle varianze di gruppo Se: G = numero di gruppi; µ j = media dell j-esimo gruppo; n j = numerosità dell j-esimo gruppo (j =,.,G); Quanto differiscono le medie tra loro e rispetto alla media generale? allora: ossia: σ = σ + µ µ ( ) G G n n j j j j n j = n j = V A R IA N Z A V A R IA N Z A IN T E R N A E S T E R N A σ TOT = σ INT + σex T
A cosa serve scomporre la varianza? n. bot Media e varianza costanti Varianza delle medie σ et = 0 Media delle varianze σ int = σ Stesso comportamento tra le due distribuzioni: CH MM scelta il numero di bottiglie acquistate è lo stesso per chi sceglie le due marche n. bot Medie diverse, varianza costante Varianza delle medie σ et 0 Media delle varianze σ int < σ Diverso comportamento tra le due distribuzioni: CH MM scelta il numero di bottiglie acquistate è diverso a seconda della marca scelta
Rapporto di correlazione di Pearson η Y X 0 Classe j ma h- - h tot y n n n h n. y n n n h n.... y. i n.... ij.. ni.... y k n k n k n kh nk. tot n. n. n.j n.h n Quando X è quantitativo: σ η = = r ( µ µ ) i i EXTX i= X Y σ c X ( ˆ j µ X ) n j j= n Quando Y è quantitativo: σ η = = c ( µ µ ) j Y j EXTY j= Y X σ r Y ( yi µ Y ) ni i= n N.B.: Su una tabella mista è possibile misurare anche l indipendenza assoluta con l indice del χ
Proprietà e interpretazione 0 η X Y η = X Y 0 Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (µ X ) η = X Y Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla ηy X ηx Y L indice non è simmetrico (salvo eccezioni)
Esempio Fatturato (Y) Settore Merceologico (X) 00 00-300 300-400 400-500 >500 Totale Alimentari 5 3 Bevande 0 0 3 Healt Care 6 Ice Packaging 7 3 4 Totale 5 5 7 5 8 50 X 4 modalità Y 5 classi ( aperte) σ η = = r ( µ µ ) i Y i EXTY i= Y X σ c Y ( ŷj µ Y ) n j j= n. Media generale di Y: ( 50 5 + 50 5 + 350 7 + 450 5 + 56 8) µ = h Y ŷjn j = = n j= 50 394,96 Nota: Il valore centrale della prima classe (aperta) è stato ottenuto considerando che, nella successione di valori del carattere fatturato, i valori più bassi sono di poco superiori a 00 (che si assume, quindi, come estremo inferiore della classe); quello dell ultima classe è ottenuto considerando come estremo superiore della classe il valore massimo effettivamente osservato: (0 + 500)/ = 56
. Medie di Y condizionate alle modalità di X c ŷjnj j= ( 50 + 50 + 350 5 + 450 + 56 3) µ = = = n 348, 48 c yjnj j= ( 50 + 50 + 450 ) µ = ˆ = = 66,67 n 3 c 3 ŷjn3j 3 j= ( 50 6 + 50 + 350 + 450 + 56 ) µ = = = n 384,33 c 4 ŷjn4j 4 j= ( 50 7 + 50 + 350 + 450 + 56 3) µ = = = n 4 4
3. Confronto tra le medie condizionate µ = 348, 48 µ = 66,67 µ = 3 384,33 µ = 4 4 Commento: si può vedere che le medie delle distribuzioni condizionate differiscono dalla media generale di Y, quindi i due caratteri non sono indipendenti in media. Ma quanto è forte il legame di dipendenza in media?
r ( i Y ) i ( ) ( ) i= c j= 4. Calcolo del numeratore dell indice µ µ n = 348, 48 394,96 + 66,67 394,96 3 + ( ) ( ) + 384,33 394,96 + 4 394, 96 4 = 99.464,4 5. Calcolo del denominatore dell indice ( j Y ) j ( ) ( ) ŷ µ n = 50 394,96 5 + 50 394,96 5 + ( ) ( ) ( ) + 350 394,96 7 + 450 394,96 5 +.56 394,96 8 = 7.565.68 6. Calcolo dell indice r ( µ µ ) σ i Y ni EXTY i= 99.464,4 η = = = = 7.565.68 Y X σ c Y ( ŷj µ Y ) n j j= 0,03 La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è praticamente nulla ossia: il fatturato in media non dipende dal settore merceologico
Il test F Ipotesi: :µ i = µ j i,j =,, G le medie sono uguali in tutti i gruppi H : µ i µ j almeno una media differisce dalle altre H Dev 0 Se le medie sono uguali, la varianza tra i gruppi è nulla: = Più le medie differiscono, più: Statistica test: Dev EXT Dev 0 INT ( ) ( ) Dev TOT Dev Dev EXT / G P > F G ;n G; α = α Dev INT / n G EXT INT = Dev TOT Statistica-test Valore critico Più basso è il rapporto, più realistica è l'ipotesi nulla Più elevato è il rapporto, meno realistica è l'ipotesi nulla
Fatturato e settore merceologico :µ i = µ j i,j =,, G le vendite medie sono uguali in tutti i settori H : µ i µ j almeno una media differisce dalle altre ANOVA univariata FATT Fra gruppi Entro gruppi Totale Somma dei Media dei quadrati df quadrati F Sig. 30575,47 3 4355,4,36,807 644,893 46 3350,5 67690,30 49 F Decisione: 0,807 0,36 σ σ EXT INT Basso valore di F = bassa σ EXT = medie vicine Il p-value è molto alto: Si accetta l ipotesi di vendite medie uguali tra i settori, confermata dal campione osservato.
ANOVA Source DF Sum of squares Mean squares F Pr > F Fra gruppi 8048.9 606.097 95.838 < 0,000 Entro gruppo 7 345.708 0.336 Totale 9 8394.000 Il p-value è molto basso: Si rifiuta l ipotesi reddito medio uguale nelle tre le aree geografiche.
Verifica di ipotesi sull indipendenza tra due caratteri ( n n ) n i j ij ij ij χ ( r ) ( c ) ( n n ) ij ij P χ α ( ) ( ) = α ; r c i j n ij Statistica-test Valore critico La variabile χ è continua, non può essere negativa e varia tra zero e infinito. La sua forma e il suo centro dipendono dal numero di gradi di libertà. La sua forma funzionale è: f(;g) = ep g g Γ g 0.5 0.4 0.3 0. 0. 0.0 g= g=4 g=8 5 0 5 0
Verifica di ipotesi sull indipendenza tra due caratteri VOTO VOTO Totale Meno di 96 96-05 06-0 0 e lode OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile Totale 9 9 70 6 57 5 69 5 3 5 73 0 8 70 30 9 33 38 χ ( n ) ij n ij = = n i j ij 3,84 : X ed Y indipendenti H : X ed Y non indipendenti α = 0,05 Distribuzione del chi-quadro -α χ 0,05;6 =,59 α Ipotesi Statistica test Valore critico Regola di decisione : χ = 0 H : χ > 0 test ( n ij nij ) = n i j ij χ 0,05; 6 =,59 v test,59 si accetta v test >,59 si rifiuta 3,84 Zona di accettazione,59 Zona di rifiuto ( n ) ij n ij n i j ij Valore test (v test ) Decisione ( n ij nij ) vtest = = 3,84 n i j ij 3,84 <,59 si accetta
FASI DELLA DEFINIZIONE DEL MODELLO Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori dei parametri caratteristici della funzione scelta Verifica: della significatività delle stime del rispetto delle ipotesi di base (rimozione delle ipotesi, analisi dei residui) Uso del modello: ai fini per i quali è stato specificato (descrittivi, previsivi, ecc.) 4
IPOTESI DI BASE DEL MODELLO DI REGRESSIONE Ipotesi deboli: Necessarie perché le stime godano di proprietà ottimali, ossia siano non distorte e a varianza minima (BLUE, Teorema di Gauss-Markow). y i = α + β i + ε i. E(ε i ) = 0 3. var(ε i ) = var(y i ) = σ 4. cov(ε i, ε j ) = 0 (i j) 5. X nota e senza errore Varianza costante, omoschedasticità Assenza di autocorrelazione X non stocastica Ipotesi forte: Necessaria per verificare la significatività delle stime 6. ε N(0, σ) La varianza di ε (o di y) σ rientra tra i parametri da stimare Se ci fosse correlazione tra gli errori significherebbe che esistono altri fattori oltre a X ad influenzare Y, esclusi dal modello. Inoltre implicherebbe un legame anche tra le y i L ipotesi distribuzionale (6) è fondamentale nella fase inferenziale 43
RAPPRESENTAZIONE GRAFICA DEL MODELLO Y f(ε) E(Y X) = a + b 3 4 X Distribuzioni degli errori (intorno alla stima di Y): media 0, varianza costante, indipendenti, distribuiti Normalmente 44
VERIFICA DEL MODELLO Significatività dell R : R = 0 H : R > 0 Significatività di a e di b : β = 0 H : β 0 ( ) ( ) ( ) dev reg R n = = dev e n R test ;n b β = t test n sb F F a,,n- α : α = 0 H : α 0 a α = t test n sa α/ α/ -t a/,n- t a/,n- 45
Varianze della regressione Varianza dei residui: ( ) ( ) ev ( Y) Devianza dei residui: ( ) ( ) cod X,Y dev e R = = dev X d dev y s = n e i n i= ( ) ( ) cod X,Y dev ( e) = dev X s = errore standard della regressione Varianza di a: s s = a + n n i= ( ) i s a = errore standard della stima di α Varianza di b: s = s b n i= ( ) i s b = errore standard della stima di β 46