Problema pratico: Test statistico = regola di decisione

Похожие документы

Metodi statistici per le ricerche di mercato

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Statistiche campionarie

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica. Lezione 6

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

3. Confronto tra medie di due campioni indipendenti o appaiati

Test statistici di verifica di ipotesi

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Esercitazione n.2 Inferenza su medie

LEZIONE n. 5 (a cura di Antonio Di Marco)

Verifica di ipotesi

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Prova di autovalutazione Prof. Roberta Siciliano

Inferenza statistica. Statistica medica 1

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

VERIFICA DELLE IPOTESI

Corso di Psicometria Progredito

Elementi di Psicometria con Laboratorio di SPSS 1

E naturale chiedersi alcune cose sulla media campionaria x n

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

STATISTICA IX lezione

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Confronto tra gruppi (campioni indipendenti)

Elementi di Psicometria con Laboratorio di SPSS 1

La logica statistica della verifica (test) delle ipotesi

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Analisi di dati di frequenza

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Facoltà di Psicologia Università di Padova Anno Accademico

è decidere sulla verità o falsità

Elementi di Psicometria con Laboratorio di SPSS 1

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

VERIFICA DELLE IPOTESI

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Metodi statistici per le ricerche di mercato

Esercitazione n.4 Inferenza su varianza

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Temi di Esame a.a Statistica - CLEF

Il confronto fra proporzioni

Facciamo qualche precisazione

Capitolo 12 La regressione lineare semplice

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Istituzioni di Statistica e Statistica Economica

LA CORRELAZIONE LINEARE

STATISTICA INFERENZIALE

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE SIMULAZIONE della PROVA SCRITTA di STATISTICA 23/03/2011

La variabile casuale Binomiale

ESAME DI STATISTICA Nome: Cognome: Matricola:

ANALISI DELLE FREQUENZE: IL TEST CHI 2

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Tasso di interesse e capitalizzazione

La distribuzione Normale. La distribuzione Normale

Calcolo delle probabilità

1. Distribuzioni campionarie

Metodi statistici per l economia (Prof. Capitanio) Slide n. 4. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Lineamenti di econometria 2

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

11. Analisi statistica degli eventi idrologici estremi

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

OSSERVAZIONI TEORICHE Lezione n. 4

Il concetto di valore medio in generale

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 3 Piani a fattore singolo e relativi test di interpretazione

Concetto di potenza statistica

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Capitolo 2 Distribuzioni di frequenza

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Probabilità II Variabili casuali discrete

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

Statistica inferenziale

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

PROGRAMMA SVOLTO NELLA SESSIONE N.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

VALORE DELLE MERCI SEQUESTRATE

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Capitolo 11 Test chi-quadro

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

MINIMI QUADRATI. REGRESSIONE LINEARE

Grafici delle distribuzioni di frequenza

Teoria dei Giochi. Anna Torre

Esercitazioni di Statistica

Транскрипт:

La verifica delle ipotesi statistiche Problema pratico: Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche? Coerenza del risultato campionario con un ipotesi specificata per la popolazione: se il risultato campionario si verrà a trovare talmente lontano dal valore teorizzato dall ipotesi fatta per θ da cadere in un insieme di valori ritenuti non coerenti (in quanto troppo poco probabili) con l ipotesi su θ, tale risultato avvalorerà la possibilità di ipotesi alternative a quella specificata. Test statistico = regola di decisione che ad ogni valore campionario associa una decisione sul parametro θ.

La logica della verifica delle ipotesi Punto di partenza: Informazione su un parametro Ipotesi sul parametro: θ = θ 0 Punto di arrivo: Campione Conferma l ipotesi Non conferma l ipotesi TEST Decisione sul valore del parametro ipotizzato : l ipotesi sul parametro è vera La vera distribuzione è centrata su θ 0 θ 0 H : l ipotesi sul parametro è falsa La vera distribuzione non è centrata su θ 0 θ

Richiamando gli intervalli di confidenza: Dati: un campione X,, X n, un parametro θ ed una statistica T n, il cui valore calcolato sul campione è t n La probabilità: ( θ θ ) P t + = α n ha un senso solo se il valore di θ è noto (nel qual caso non ha utilità)

Se θ è noto: Prima di estrarre il campione t n non è fisso bensì una v.c. (campionaria), quindi si può ragionare sulla probabilità che t n cada in un certo intervallo intorno a θ. A che scopo? Per stabilire se la nostra conoscenza su θ è avvalorata dall evidenza empirica (cioè dal campione) Esempio: t n = media campionaria σ N µ, n σ σ P µ zα Xn µ + zα = α n n µ z α σ n µ σ µ + zα X n L intervallo è fisso, perché è centrato su µ varia al variare del campione tra tutti i possibili campioni, µ è fisso

Le ipotesi statistiche Ipotesi statistica: affermazione che specifica completamente o parzialmente la distribuzione di probabilità di una v.c. X. Ipotesi nulla : Informazione sulla popolazione riconosciuta come valida fino a prima all esperimento campionario (valida fino a prova contraria): Ipotesi alternativa H: : θ = θ 0 Complemento all ipotesi nulla. È costituita da un singolo valore o da un insieme di valori possibili per θ e considerati alternativi a θ 0 : H : θ = θ H : θ < θ 0 H : θ > θ 0 H : θ θ 0 Ipotesi semplice Ipotesi unidirezionale Ipotesi bidirezionale Le ipotesi e H sono esaustive e disgiunte: o vale l una o vale l altra. In ogni caso la decisione è presa rispetto ad H0

Test e regole di decisione Il test permette di stabilire se le osservazioni campionarie debbano ritenersi coerenti con l ipotesi nulla oppure no Da un punto di vista operativo, effettuare il test significa definire una statistica, detta statistica-test test T n, la cui distribuzione campionaria sia nota, così che: campione casuale (X,, X n ) un valore numerico coerente con H0 non coerente con H0 Spazio campionario: insieme dei valori che la statistica-test può assumere Distribuzione campionaria: Distribuzione di probabilità della statistica-test

Come prendere la decisione Una volta calcolato il valore campionario t n della statistica-test, detto valoretest, si può seguire una delle due seguenti procedure alternative: Livello di significatività osservato: si cerca (sulle tavole) il p-value, ossia la probabilità di ottenere un valore di T n maggiore del valore osservato t n (P[T n > t n ]) p-value = grado di coerenza di p-value θ t n T n Regione critica: si fissa a priori il livello di significatività del test - α, che identifica sulla distribuzione della statistica-test due regioni: Regione di accettazione: insieme dei valori di T n coerenti con Regione di rifiuto (o regione critica): insieme di valori di T n non coerenti con? t n - α α θ t α T n Accettazione Rifiuto

Regione critica per un test statistico con ipotesi alternativa unidirezionale:? t n : θ = θ 0 H : θ > θ 0 - α α θ 0 t α T n Accettazione Rifiuto Regione critica per un test statistico con ipotesi alternativa bidirezionale: t n : θ = θ 0 H : θ θ 0 α/ - α α/ -t α/ θ 0 t α/ T n Rifiuto Accettazione Rifiuto

Errori di I e II specie Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili decisioni, e H e a poter commettere due possibili errori: rifiutare un ipotesi vera Vera Falsa accettare un ipotesi falsa Accetto Ok Errore di II specie Rifiuto Errore di I specie Ok Esempio: : piove Piove Non piove Ombrello SI Ombrello NO Ok Danno più grave Danno meno grave Ok N.B.: non esiste la decisione giusta!!! c è sempre il rischio di sbagliare, ma è possibile gestirlo e controllarlo QUANTIFICANDOLO

Rischio di errori di I e II specie Vera Falsa : θ = θ 0 H : θ = θ Accetto Rifiuto Ok Errore di I specie Errore di II specie Ok vera α Vera Falsa θ 0 Accetto Rifiuto - α α β - β β falsa θ Definizioni: α = probabilità di errore di I specie = livello di significatività - α = probabilità di accettare correttamente (affidabilità del test) β = probabilità di errore di II specie - β = potenza del test = probabilità di rifiutare correttamente (varia al variare di θ, quindi può essere determinato solo se H è un ipotesi semplice )

Approccio conservativo del test L ipotesi nulla è quella che, se vera, lascia invariate le cose L errore di I specie è considerato più grave di quello di II specie Mai lasciare la via vecchia ( ) per la nuova (H ) Esempi: fino ad EVIDENTE prova contraria : vecchio farmaco migliore del nuovo H : nuovo farmaco migliore del vecchio : assoluzione H : condanna Il vecchio è migliore Il nuovo è migliore Innocente Colpevole Vecchio Ok Danno meno grave Assolvo Ok Danno meno grave Nuovo Danno più grave ok Condanno Danno più grave ok È per questo che: L ipotesi nulla e l ipotesi alternativa non sono equivalenti ai fini della decisione, nel senso che il test non è mai conclusivo circa H, ma concerne solo la possibilità che dal campione si possa pervenire al rifiuto o al non rifiuto di.

Verifica di ipotesi sulla media µ X ~ N(µ, σ ) σ nota L elemento che determina la decisione sono i valori critici Con essi va confrontato il valore-test (valore della statistica-test calcolata sul campione) I valori critici sono ottenuti dalla distribuzione della statistica-test, fissato il livello di significatività desiderato per il test Per la media: Xn µ P zα zα = α σ n Valori critici Statistica-test

Esempio La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media µ = 7 battiti al minuto (bpm) e varianza σ = 64. Si misura la frequenza cardiaca su un campione di 5 atleti maschi e si ottiene una media pari a 68,7 bpm. Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti è diversa da quella della popolazione di tutti i maschi sani. Soluzione test sulla media, bilaterale distribuzione normale, varianza nota σ = 64 σ = 8 = 68,7 α = 0,05 α/ = 0,05 n = 5 Ipotesi Statistica test Valori critici Regola di decisione Valore test (v test ) Decisione : µ = 7 H : µ 7 X test ± z = ±,96 α µ = σ n -,96 v test,96 si accetta v test -,96 oppure v test,96 si rifiuta 68,7 7 vtest = =,06 8 5 -,06 -,96 si rifiuta

Esempio La quantità di merci in transito negli aeroporti italiani si distribuisce normalmente con una media pari a 8,7 (migliaia di tonnellate) e uno scarto quadratico medio pari a 8. In un campione di 0 aeroporti viene registrato un valore medio pari a 5. Utilizzando un livello di significatività dell %: a) Verificare l ipotesi che il transito medio di merci sia rimasto invariato; b) Verificare l ipotesi che il transito medio di merci non sia diminuito Soluzione a) test sulla media, bidirezionale distribuzione normale, varianza nota σ = 8 = 5 α = 0,0 α/ = 0,005 n = 0 Ipotesi Statistica test Valori critici Regola di decisione Valore test (v test ) Decisione : µ = 8,7 H : µ 8,7 X test µ = σ n ± z = ± z = ±,58 α 0,005 -,58 v test,58 si accetta H0 v test -,58 oppure v test,58 5 8,7 vtest = =,07 8 0 -,58 -,07,58 si accetta H0 si rifiuta H0

b) test sulla media, unidirezionale distribuzione normale, varianza nota Ipotesi Statistica test Valore critico : µ = 8,7 H : µ < 8,7 X test µ = σ n z = z =,33 α 0,0 Regola di decisione v test -,33 v test < -,33 si accetta H0 si rifiuta H0 Valore test (v test ) Decisione 5 8,7 vtest = =,07 8 0 -,07 -,33 si accetta H0

Verifica di ipotesi sulla media µ X ~ N(µ, σ ) σ non nota Xn µ P tα t n α = α n s n Valori critici Statistica-test Come scegliere la statistica-test per la media? X ~ N no n > 30 no??? si si σ noto no X µ s n ~ t n si X µ σ n ( ) ~ N 0,

Esempio La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media µ = 7 battiti al minuto (bpm). Si misura la frequenza cardiaca su un campione di atleti maschi e si ottiene una media pari a 68,7 bpm ed una varianza corretta pari a 75,. Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti è diversa da quella della popolazione di tutti i maschi sani. Soluzione test sulla media, bidirezionale distribuzione normale, varianza non nota s = 75, s = 8,67 = 68,7 α = 0,05 α/ = 0,05 n = Ipotesi : µ = 7 H : µ 7 Statistica test test = µ s n 0 Valori critici Regola di decisione Valore test (v test ) Decisione ± t0,05; = ±,0 -,0 v test,0 si accetta v test -,0 oppure v test,0 si rifiuta 68,7 7 3,3 vtest = = =,3 8, 67,5 -,0 -,3,0 si accetta

Verifica di ipotesi sulla proporzione π p P π zα z α = α ( π π) n Valori critici Statistica-test

Esempio In una scommessa con un amico, lanciando 00 volte una moneta si sono ottenute 54 teste. Abbiamo il sospetto che l amico ci abbia ingannati utilizzando una moneta truccata. Si verifichi questa ipotesi ad un livello di significatività del 0%. Soluzione test sulla proporzione, bidirezionale (unidirezionale) α = 0,0 p =0,54 n=00 Ipotesi Statistica test Valori critici Regola di decisione : π = 0,5 H : π 0,5 (H : π > 0,5) p π0 test = π π ( ) 0 0 n ± z0,05 =, 645 ( z0, =,8 ) -,645 v test,645 si accetta v test -,645 oppure v test,645 si rifiuta ( ) v test,8 si accetta v test >,8 si rifiuta Valore test (v test ) 0,54 0,50 ( ) 0,50 0,50 00 = 0,80 Decisione -,645-0,8,645 si accetta (0,80 <,8 si accetta H0)

Verifica di ipotesi sulla differenza tra medie X e Y ~ N no n e n y > 30 no??? si si σ X e σ Y note no σ X = σ Y si no ( X Y) ( µ µ y ) s n s + n y y ~ t ( n + ny ) si ( X Y) ( µ µ y ) s + n n y ~ t ( n + ny ) no σ X = σ Y si ( X Y) ( µ µ y ) σ + n n y ( ) ~ N 0, ( X Y) ( y ) µ µ σ σ + y n n y ( ) ~ N 0, s = ( ) ( ) s n + s n X X Y Y n + n Stimatore corretto dello sqm comune y

Esempio Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e una deviazione standard di.000 km, uguale per le due marche. Da un campione di 4 utilizzatori della marca X risulta una durata media di 33.500 Km, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km. Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%. Soluzione test sulla differenza tra medie, bidirezionale distribuzione Normale, varianze note uguali Ipotesi : µ = µ Y H : µ X µ Y α = 0,05 n X =4 n Y =9 X, Y ~ N = 33.500 y = 36.000 σ X = σ Y =.000 Statistica test test = ( X Y) ( µ µ y ) σ + n n y Valori critici Regola di decisione Valore test (v test ) Decisione ± z0,05 = ±,96 -,96 v test,96 si accetta v test -,96 oppure v test,96 si rifiuta 33500 36000 vtest = =,93 000 + 4 9 -,93 < -,96 si rifiuta

Esempio Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e la stessa varianza incognita. Da un campione di 4 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.36.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900. Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%. Soluzione test sulla differenza tra medie, bidirezionale distribuzione Normale, varianze non note uguali α = 0,05 = 33.500 y = 36.000 n Y =9 n X =4 X ~ N s = 4.36.400 X s = 3.880.900 Y

Ipotesi : µ = µ Y H : µ X µ Y Statistica test test = ( X Y) ( µ µ y ) s + n n y con: s = ( ) ( ) s n + s n X X Y Y n + n y Valori critici ± t0,05; = ±,08 Regola di decisione -,08 v test,08 si accetta v test -,08 oppure v test,08 si rifiuta 3 4.36.400 8 3.880.900 s + = = 038, 8 4 + 9 Valore test (v test ) Decisione 33.500 36.000 500 vtest = = =,87 038, 8 + 038, 8 + 4 9 4 9 -,87 < -,08 si rifiuta

Esempio Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km ma con varianze diverse e incognite. Da un campione di 4 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.36.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900. Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%. Soluzione test sulla differenza tra medie, bidirezionale distribuzione Normale, varianze non note diverse α = 0,05 = 33.500 y = 36.000 n Y =9 n X =4 X ~ N s = 4.36.400 X s = 3.880.900 Y

Ipotesi : µ = µ Y H : µ X µ Y Statistica test test = ( X Y) ( µ µ y ) s n s + n y y Valori critici Regola di decisione ± t0,05; = ±,08 -,08 v test,08 si accetta v test -,08 oppure v test,08 si rifiuta Valore test (v test ) Decisione 33.500 36.000 vtest = =,9 4.36.400 3.880.900 + 4 9 -,9 < -,08 si rifiuta

Esempio Nelle regioni italiane si misura il livello di inquinamento ambientale con il numero di denunce emesse dalla popolazione residente. Nelle 0 regioni del Nord risultano in media 9. denunce mentre nelle del Centro- Sud la media è 33.06. Verificare l ipotesi che le due aree geografiche sono caratterizzate dallo stesso livello di inquinamento al livello di significatività del 5% y Valore test Valori critici g.d.l. α Decisione: -3.93 -.38 ±.086 0 0.05 Si accetta : µ - µ Y = 0 H : µ X - µ Y 0 IC 95% ( µ -µ y ) = [ -.39 ; 3.76 ] Contiene lo 0

La spezzata delle medie X AREA Geografica Y Classi di REDDITO 0-30 30-40 Totale Medie NORD 6 8 3.5 CENTRO 4 6 3.7 SUD 6 0 6 5 Totale 0 0 0 30

Decomposizione della varianza La varianza di X è data dalla somma di due componenti: varianza esterna = varianza delle medie di gruppo varianza interna = media delle varianze di gruppo Se: G = numero di gruppi; µ j = media dell j-esimo gruppo; n j = numerosità dell j-esimo gruppo (j =,.,G); Quanto differiscono le medie tra loro e rispetto alla media generale? allora: ossia: σ = σ + µ µ ( ) G G n n j j j j n j = n j = V A R IA N Z A V A R IA N Z A IN T E R N A E S T E R N A σ TOT = σ INT + σex T

A cosa serve scomporre la varianza? n. bot Media e varianza costanti Varianza delle medie σ et = 0 Media delle varianze σ int = σ Stesso comportamento tra le due distribuzioni: CH MM scelta il numero di bottiglie acquistate è lo stesso per chi sceglie le due marche n. bot Medie diverse, varianza costante Varianza delle medie σ et 0 Media delle varianze σ int < σ Diverso comportamento tra le due distribuzioni: CH MM scelta il numero di bottiglie acquistate è diverso a seconda della marca scelta

Rapporto di correlazione di Pearson η Y X 0 Classe j ma h- - h tot y n n n h n. y n n n h n.... y. i n.... ij.. ni.... y k n k n k n kh nk. tot n. n. n.j n.h n Quando X è quantitativo: σ η = = r ( µ µ ) i i EXTX i= X Y σ c X ( ˆ j µ X ) n j j= n Quando Y è quantitativo: σ η = = c ( µ µ ) j Y j EXTY j= Y X σ r Y ( yi µ Y ) ni i= n N.B.: Su una tabella mista è possibile misurare anche l indipendenza assoluta con l indice del χ

Proprietà e interpretazione 0 η X Y η = X Y 0 Perfetta indipendenza in media: le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (µ X ) η = X Y Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla ηy X ηx Y L indice non è simmetrico (salvo eccezioni)

Esempio Fatturato (Y) Settore Merceologico (X) 00 00-300 300-400 400-500 >500 Totale Alimentari 5 3 Bevande 0 0 3 Healt Care 6 Ice Packaging 7 3 4 Totale 5 5 7 5 8 50 X 4 modalità Y 5 classi ( aperte) σ η = = r ( µ µ ) i Y i EXTY i= Y X σ c Y ( ŷj µ Y ) n j j= n. Media generale di Y: ( 50 5 + 50 5 + 350 7 + 450 5 + 56 8) µ = h Y ŷjn j = = n j= 50 394,96 Nota: Il valore centrale della prima classe (aperta) è stato ottenuto considerando che, nella successione di valori del carattere fatturato, i valori più bassi sono di poco superiori a 00 (che si assume, quindi, come estremo inferiore della classe); quello dell ultima classe è ottenuto considerando come estremo superiore della classe il valore massimo effettivamente osservato: (0 + 500)/ = 56

. Medie di Y condizionate alle modalità di X c ŷjnj j= ( 50 + 50 + 350 5 + 450 + 56 3) µ = = = n 348, 48 c yjnj j= ( 50 + 50 + 450 ) µ = ˆ = = 66,67 n 3 c 3 ŷjn3j 3 j= ( 50 6 + 50 + 350 + 450 + 56 ) µ = = = n 384,33 c 4 ŷjn4j 4 j= ( 50 7 + 50 + 350 + 450 + 56 3) µ = = = n 4 4

3. Confronto tra le medie condizionate µ = 348, 48 µ = 66,67 µ = 3 384,33 µ = 4 4 Commento: si può vedere che le medie delle distribuzioni condizionate differiscono dalla media generale di Y, quindi i due caratteri non sono indipendenti in media. Ma quanto è forte il legame di dipendenza in media?

r ( i Y ) i ( ) ( ) i= c j= 4. Calcolo del numeratore dell indice µ µ n = 348, 48 394,96 + 66,67 394,96 3 + ( ) ( ) + 384,33 394,96 + 4 394, 96 4 = 99.464,4 5. Calcolo del denominatore dell indice ( j Y ) j ( ) ( ) ŷ µ n = 50 394,96 5 + 50 394,96 5 + ( ) ( ) ( ) + 350 394,96 7 + 450 394,96 5 +.56 394,96 8 = 7.565.68 6. Calcolo dell indice r ( µ µ ) σ i Y ni EXTY i= 99.464,4 η = = = = 7.565.68 Y X σ c Y ( ŷj µ Y ) n j j= 0,03 La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è praticamente nulla ossia: il fatturato in media non dipende dal settore merceologico

Il test F Ipotesi: :µ i = µ j i,j =,, G le medie sono uguali in tutti i gruppi H : µ i µ j almeno una media differisce dalle altre H Dev 0 Se le medie sono uguali, la varianza tra i gruppi è nulla: = Più le medie differiscono, più: Statistica test: Dev EXT Dev 0 INT ( ) ( ) Dev TOT Dev Dev EXT / G P > F G ;n G; α = α Dev INT / n G EXT INT = Dev TOT Statistica-test Valore critico Più basso è il rapporto, più realistica è l'ipotesi nulla Più elevato è il rapporto, meno realistica è l'ipotesi nulla

Fatturato e settore merceologico :µ i = µ j i,j =,, G le vendite medie sono uguali in tutti i settori H : µ i µ j almeno una media differisce dalle altre ANOVA univariata FATT Fra gruppi Entro gruppi Totale Somma dei Media dei quadrati df quadrati F Sig. 30575,47 3 4355,4,36,807 644,893 46 3350,5 67690,30 49 F Decisione: 0,807 0,36 σ σ EXT INT Basso valore di F = bassa σ EXT = medie vicine Il p-value è molto alto: Si accetta l ipotesi di vendite medie uguali tra i settori, confermata dal campione osservato.

ANOVA Source DF Sum of squares Mean squares F Pr > F Fra gruppi 8048.9 606.097 95.838 < 0,000 Entro gruppo 7 345.708 0.336 Totale 9 8394.000 Il p-value è molto basso: Si rifiuta l ipotesi reddito medio uguale nelle tre le aree geografiche.

Verifica di ipotesi sull indipendenza tra due caratteri ( n n ) n i j ij ij ij χ ( r ) ( c ) ( n n ) ij ij P χ α ( ) ( ) = α ; r c i j n ij Statistica-test Valore critico La variabile χ è continua, non può essere negativa e varia tra zero e infinito. La sua forma e il suo centro dipendono dal numero di gradi di libertà. La sua forma funzionale è: f(;g) = ep g g Γ g 0.5 0.4 0.3 0. 0. 0.0 g= g=4 g=8 5 0 5 0

Verifica di ipotesi sull indipendenza tra due caratteri VOTO VOTO Totale Meno di 96 96-05 06-0 0 e lode OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile Totale 9 9 70 6 57 5 69 5 3 5 73 0 8 70 30 9 33 38 χ ( n ) ij n ij = = n i j ij 3,84 : X ed Y indipendenti H : X ed Y non indipendenti α = 0,05 Distribuzione del chi-quadro -α χ 0,05;6 =,59 α Ipotesi Statistica test Valore critico Regola di decisione : χ = 0 H : χ > 0 test ( n ij nij ) = n i j ij χ 0,05; 6 =,59 v test,59 si accetta v test >,59 si rifiuta 3,84 Zona di accettazione,59 Zona di rifiuto ( n ) ij n ij n i j ij Valore test (v test ) Decisione ( n ij nij ) vtest = = 3,84 n i j ij 3,84 <,59 si accetta

FASI DELLA DEFINIZIONE DEL MODELLO Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base Stima dei parametri: uso di stimatori dei parametri caratteristici della funzione scelta Verifica: della significatività delle stime del rispetto delle ipotesi di base (rimozione delle ipotesi, analisi dei residui) Uso del modello: ai fini per i quali è stato specificato (descrittivi, previsivi, ecc.) 4

IPOTESI DI BASE DEL MODELLO DI REGRESSIONE Ipotesi deboli: Necessarie perché le stime godano di proprietà ottimali, ossia siano non distorte e a varianza minima (BLUE, Teorema di Gauss-Markow). y i = α + β i + ε i. E(ε i ) = 0 3. var(ε i ) = var(y i ) = σ 4. cov(ε i, ε j ) = 0 (i j) 5. X nota e senza errore Varianza costante, omoschedasticità Assenza di autocorrelazione X non stocastica Ipotesi forte: Necessaria per verificare la significatività delle stime 6. ε N(0, σ) La varianza di ε (o di y) σ rientra tra i parametri da stimare Se ci fosse correlazione tra gli errori significherebbe che esistono altri fattori oltre a X ad influenzare Y, esclusi dal modello. Inoltre implicherebbe un legame anche tra le y i L ipotesi distribuzionale (6) è fondamentale nella fase inferenziale 43

RAPPRESENTAZIONE GRAFICA DEL MODELLO Y f(ε) E(Y X) = a + b 3 4 X Distribuzioni degli errori (intorno alla stima di Y): media 0, varianza costante, indipendenti, distribuiti Normalmente 44

VERIFICA DEL MODELLO Significatività dell R : R = 0 H : R > 0 Significatività di a e di b : β = 0 H : β 0 ( ) ( ) ( ) dev reg R n = = dev e n R test ;n b β = t test n sb F F a,,n- α : α = 0 H : α 0 a α = t test n sa α/ α/ -t a/,n- t a/,n- 45

Varianze della regressione Varianza dei residui: ( ) ( ) ev ( Y) Devianza dei residui: ( ) ( ) cod X,Y dev e R = = dev X d dev y s = n e i n i= ( ) ( ) cod X,Y dev ( e) = dev X s = errore standard della regressione Varianza di a: s s = a + n n i= ( ) i s a = errore standard della stima di α Varianza di b: s = s b n i= ( ) i s b = errore standard della stima di β 46