STATISTICA IX lezione



Documenti analoghi
Statistica. Lezione 6

Capitolo 11 Test chi-quadro

Elementi di Psicometria con Laboratorio di SPSS 1

VERIFICA DELLE IPOTESI

ANALISI DELLE FREQUENZE: IL TEST CHI 2

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Il test del Chi-quadrato

Statistiche campionarie

Analisi di dati di frequenza

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Corso di Psicometria Progredito

Metodi statistici per le ricerche di mercato

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Prova di autovalutazione Prof. Roberta Siciliano

Concetto di potenza statistica

Elementi di Psicometria con Laboratorio di SPSS 1

Il confronto fra proporzioni

Capitolo 12 La regressione lineare semplice

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Il concetto di valore medio in generale


CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

è decidere sulla verità o falsità

IL TEST CHI QUADRATO χ 2

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

LEZIONE n. 5 (a cura di Antonio Di Marco)

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

età sesso luogo-abitazione scuola superiore esperienza insegnamento

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Capitolo 2 Distribuzioni di frequenza

Test statistici di verifica di ipotesi

Elementi di Psicometria con Laboratorio di SPSS 1

Servizi di consulenza specialistica per IGRUE

matematica probabilmente

Relazioni statistiche: regressione e correlazione

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n Test t. Test t. t-test test e confronto tra medie chi quadrato

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Inferenza statistica. Statistica medica 1

Corso di. Dott.ssa Donatella Cocca

Facoltà di Psicologia Università di Padova Anno Accademico

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

1. Distribuzioni campionarie

Elementi di Psicometria

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

11. Analisi statistica degli eventi idrologici estremi

La distribuzione Normale. La distribuzione Normale

Corso di laurea in Scienze Motorie. Corso di Statistica. Docente: Dott.ssa Immacolata Scancarello Lezione 2: Misurazione, tabelle

VALORE DELLE MERCI SEQUESTRATE

Statistica inferenziale

Facciamo qualche precisazione

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

3. Confronto tra medie di due campioni indipendenti o appaiati

Calcolo delle probabilità

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

E naturale chiedersi alcune cose sulla media campionaria x n

Corso di Psicometria Progredito

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Un gioco con tre dadi

ANALISI DI CORRELAZIONE

Laboratorio di Pedagogia Sperimentale. Indice

SPC e distribuzione normale con Access

Metodi statistici per le ricerche di mercato

Temi di Esame a.a Statistica - CLEF

Verifica di ipotesi

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Excel Terza parte. Excel 2003

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Strumenti informatici 13.1

Il principio di induzione e i numeri naturali.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica Medica. Verranno presi in esame:

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Rapporto dal Questionari Insegnanti

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

Criteri di Valutazione della scheda - Solo a carattere indicativo -

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Indici di dispersione

I ricavi ed i costi di produzione

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Transcript:

Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri in gioco. DOCENTI ANTONELLA AGODI e GIORGIO BELLIA Tanto più X è vicino al valore centrale della distribuzione tanto maggiore è la probabilità di verificarsi dell ipotesi nulla; tanto più X è lontano dal valore centrale tanto più bassa è la probabilità di verificarsi dell ipotesi nulla, indicando casi in cui questa può non essere presa in considerazione. Il problema della verifica di un ipotesi statistica Si possono configurare delle regioni, sulle code delle distribuzioni, per cui la probabilità cumulata della T(X) è troppo bassa per poter validare l ipotesi nulla. Tali regioni si definiscono come regioni di rigetto; le restanti regioni diventano allora regioni di accettazione dell ipotesi nulla. Una tale distribuzione costituisce una statistica test 3 Il problema della verifica di un ipotesi statistica In una distribuzione simmetrica la regione di rifiuto si distribuisce sulle due code; la parte centrale è chiamata regione di accettazione Regione di Rifiuto T(X) Regione di Accettazione Regione di Rifiuto 4 H 0 X

PROCEDIMENTO 5 PROCEDIMENTO 6 1. Formulare il sistema di ipotesi H 0 : x teo - x sp = 0 H A : x teo - x sp! 0. Individuare la statistica test appropriata 3. Studiare la distribuzione della statistica test 4. Stabilire il livello di significatività 5. Calcolare il valore della statistica test e la probabilità p di ottenere quel risultato p > 5 % la differenza non è significativa (accetto H 0 ) p " 5 % la differenza è significativa (rifiuto H 0 ) p " 1 % la differenza è altamente significativa test a una coda si individua un valore critico che lascia sulla coda una probabilità pari a p test a due code si individuano due valori critici che lasciano a sinistra e a destra una probabilità pari a p/ 5%.5%.5% H 0 H 0 t di student: test parametrico per campioni appaiati o dipendenti 7 t di student: test parametrico per d t = S d / n! t = m 1 -m!!!!" s 1(n 1-1) + s (n -1)# $ ( n 1 + n )!!! ( n 1 + n -)%n 1 %n d =! i x dopo prima ( i - x i ) n = n!! d i!! i n s = (d i - d) i=1 d n -1 s 1 e s le varianze dei due campioni; m 1 e m le medie; n 1 e n le numerosità gl (gradi di libertà) = n - 1 gl (gradi di libertà) = n 1 + n -

Valori della distribuzione t di Student Lezione IX 10 dai valori dati si ricava t = in corrispondenza dei gradi di libertà OBIETTIVI:! cosa è e come si opera con un test del " si ottiene il valore di p e lo si confronta con! 11 ALZHEIMER'S DISEASE 1 CONFRONTO DI PROPORZIONI IN CAMPIONI INDIPENDENTI E IL TEST DEL CHI-QUADRATO In uno studio di 307 soggetti con sindrome di Down la malattia di Alzheimer risulta pari all 11% nel gruppo d età compreso tra 40 4 anni ed al 77% nel gruppo d età compreso tra 60-6 anni Nella popolazione generale la malattia di Alzheimer risulta pari al % tra 65 e 70 anni Si può pensare ad una correlazione fra sindrome di Down e malattia di Alzheimer?

affezioni asmatica 13 TEST DEL CHI-QUADRATO 14 Su un campione di famiglie disagiate, si è trovato che il 6% dei bambini è affetto da asma Sulla scorta di questo ipotetico studio epidemiologico, è ragionevole ammettere una relazione di causalità fra acari e asma? Il test del chi-quadro è un test statistico non parametrico atto a verificare se i valori di frequenza ottenuti tramite rilevazione, sono diversi in maniera significativa dalle frequenze ottenute con la distribuzione teorica Questo test ci permette di accettare o rifiutare una data ipotesi nulla Esempio 15 16 Supponiamo che da uno studio epidemiologico effettuato su un campione di bambini appartenenti a famiglie disagiate, si sia trovato che il 6% (13) è affetto da asma Quando si lavora con dati nominali raggruppati in categorie, spesso le frequenze sono raggruppate in tabelle di contingenza Il gruppo di controllo, costituito da bambini mostra una percentuale di asmatici dell'% () Sulla scorta di questo ipotetico studio epidemiologico, è ragionevole ammettere una relazione di causalità fra acari e asma? Esse sono tabelle a doppia entrata dove in ogni casella si riporta la frequenza di presentazione di una combinazione delle categorie

Confronto di proporzioni in Confronto di proporzioni in 1 37 13 37 13 qui sono riportati i valori rilevati come frequenze di presentazione delle categorie sani, asmatici famiglie, controllo 1 1 1 in questa tabella sono state inserite le frequenze marginali di riga e di colonna Confronto di proporzioni in 1 L ipotesi nulla stabilisce che : 0 in assenza di una relazione di tipo causale fra le categorie la distribuzioni di sani o asmatici fra il gruppo di controllo e il gruppo delle famiglie deve essere nella stessa proporzione questa asserzione costituisce l ipotesi nulla H 0 : la proporzione di bambini con asma appartenenti a famiglie disagiate è uguale alla proporzione di bambini con asma appartenenti al gruppo di famiglie di controllo Se invece si ipotizza una relazione di tipo causale le distribuzioni devono essere differenti questa asserzione costituisce l ipotesi alternativa e l ipotesi alternativa H A : le proporzione di bambini con asma non sono uguali nei due campioni di famiglie

1 Ciò significa che per l ipotesi nulla in altre parole H 0 : si deve avere la stessa percentuale fra sani e asmatici, indipendentemente dall appartenenza a famiglie disagiate. 37 13 Se nel campione di 1 elementi in studio, si riscontrano 1/1 = 6% sani e 1/1 = 14% asmatici, le stesse percentuali si devono riscontrare fra i del controllo e i degli appartenenti a famiglie disagiate 1 1! i sani del gruppo di controllo devono essere lo 6% di mentre gli asmatici devono essere il 14% di! i sani del gruppo da famiglie disagiate devono essere l 6% di mentre gli asmatici devono essere il 14% di. 1 3 Situazione osservata 4 In generale la frequenza attesa per una determinata cella della tabella è calcolabile anche come il di riga moltiplicato il di colonna diviso il della tabella 37 13 Infatti l 6% di è 1/1* e così via x1/1 x1/1 1 x1/1 x1/1 1 1 1 1 Situazione attesa 43 6 7 14 1 1 1 1

5 6 In base all ipotesi nulla le proporzioni osservate e quelle attese devono essere uguali. Il fatto che si trovino differenti può essere imputato o al campionamento effettuato o al fatto che esista una correlazione fra disagio familiare e presenza di asma. La somma dei quadrati delle differenze fra il dato misurato e il dato previsto relativo al dato previsto fornisce l indicatore che permette di verificare l ipotesi nulla o quella alternativa La statistica seguente!(o -E) E dove si confrontano le frequenze O osservate in ciascuna categoria della tabella di contingenza, con le frequenze attese E permette di valutare se le differenze riscontrate sono dovute al caso, posto che l ipotesi nulla sia vera. Essa è utilizzata per stabilire se la differenza tra le frequenze osservate e quelle attese, O-E, siano troppo grandi per essere attribuite al caso Confronto di proporzioni in campioni indipendenti 7 Confronto di proporzioni in campioni indipendenti Tale statistica segue con buona approssimazione una distribuzione " con (r -1 ) (c -1) = 1 grado di libertà Tuttavia, per la validità di tale approssimazione, nessuna cella deve avere una frequenza attesa minore di 1 e non più del 0% delle celle deve avere una frequenza attesa minore di 5 Inoltre, per ridurre gli errori di approssimazione, si introduce la correzione per continuità; si dovrà valutare pertanto la statistica ' Tutte le celle! " # O -E - 1 $ % & E Tale correzione abbassa il valore della statistica aumentando la possibilità di validare l ipotesi nulla

Situazione osservata 37 1 13 1!!= ( Tutte le celle 1 " # $ 43 6 1 O -E - 1 % & ' E Situazione attesa 7 14 1 1 Confronto di proporzioni in campioni indipendenti In definitiva dalla tabella di contingenza in esame segue che:! = ( Tutte le celle " # $ O -E - 1 % & ' E 30 ( 37-43 - 1! = ) ( 13-7 - 1 + ) ( - 6-1 + ) ( - 14-1 + ) = 43 7 6 14 = 7,54 " = 7,54 gradi di libertà 31 Confronto di proporzioni in campioni indipendenti 3 Per una distribuzione " con un grado di libertà si ricava dalle tavole che la probabilità di ottenere 7,54 o un valore maggiore è minore di 0.006 Poiché p <! rifiutiamo l H 0 e concludiamo che le proporzioni di bambini con asma non sono uguali nei due campioni

" del Pearson test non parametrico per campioni indipendenti H 0 : le distribuzioni percentuali di una variabile in due o più popolazioni sono uguali Per verificare l ipotesi Nulla (H 0 ) 1. Si calcola il Chi Quadro nella situazione osservata!!= ( Tuttele celle " # $ O -E - 1 % & ' E 33. Si calcolano i gradi di libertà (gl) del " osservato: gl = (r-1)*(c-1) 3. Si sceglie il livello di significatività (!) ovvero la probabilità di compiere un errore rifiutando l ipotesi nulla quando essa fosse vera. 4. Si esamina la tavola che riporta il valore di soglia (critico) del Chi Quadro per il livello di significatività prescelto e per i gradi di libertà del valore osservato! gl;a 34 5. si confronta il p trovato con il livello prescelto e si stabilisce la significatività del test Se p > 5 % la differenza non è significativa (accetto H 0 ) Se 1 % < p < 5 % la differenza è significativa (rifiuto H 0 ) Se p < 1 % la differenza è altamente significativa (rifiuto H 0 ) 35 Confronto di molte proporzioni per Il test del " si può estendere in generale ad una tabella di contingenza r x c I valori attesi sono ottenuti come in precedenza moltiplicando i corrispondenti totali di riga e di colonna e quindi dividendo il prodotto per il dell intera tavola I gradi di libertà sono sempre (r-1) (c-1) La correzione per continuità non si effettua 36

Confronto di molte proporzioni per In questo caso i dati verranno presentati in una tabella x K, avente cioè colonne e K righe Ad esempio, un indagine campionaria ha fornito le seguenti osservazioni (0): Gruppo sanguigno A B AB 0 TOTALE Donne tromboembolitiche 3 6 55 Donne sane 51 1 5 70 145 3 7 11 7 00 37 Confronto di molte proporzioni per Per controllare se la probabilità di contrarre una malattia tromboembolitica dipende dal gruppo sanguigno o meno si calcolano le percentuali attese in base all ipotesi della indipendenza dall appartenenza ad un gruppo sanguigno. Così, ad esempio, fra le 145 donne sane quelle con gruppo sanguigno A dovrebbero essere nella proporzione di 3/00, ossia circa 60, mentre dovrebbero essere poco meno di 3 fra le donne malate. 3 Confronto di molte proporzioni per 3 Confronto di molte proporzioni per 40 Ipotesi nulla: uguale distribuzione (stessa proporzione) di donne tromboembolitiche e donne sane, all interno dei quattro gruppi sanguigni Possiamo pertanto costruire la tabella delle frequenze attese (E): Gruppo sanguigno A B AB 0 TOTALE Donne tromboembolitiche.5 7.45 3.05 1.75 55 Donne sane 60.5 1.575 7.75 57.75 145 3 7 11 7 00 Gruppo sanguigno A B AB 0 TOTALE Gruppo sanguigno A B AB 0 TOTALE Donne tromboembolitiche 3 6 55 Donne tromboembolitiche.5 7.45 3.05 1.75 55 Donne sane 51 1 5 70 145 Donne sane 60.5 1.575 7.75 57.75 145 3 7 11 7 00 3 7 11 7 00

Confronto di molte proporzioni per 41 gradi di libertà 4! = 3 ( O -E) " E = 3-.5.5 ( ) 51-60.5 + ( ) 60.5 +... = 3.6 + 1.40 +... +.3 =1.47 Valutando tale valore in base alle tavole di una distribuzione con 3 gradi di libertà si vede che la differenza nella distribuzione di donne tromboembolitiche e donne sane nei vari gruppi è statisticamente significativa ( " 3 = 16.7 @ p = 0.001) Esempio 43 44 La distribuzione per genere e stato nutrizionale (in base al Body Mass Index) di un campione di 6 bambini è rappresentata in questa tabella Sovrappeso Normopeso maschio 4 5 Genere femmina 5 1 6! Qual è il test di ipotesi più appropriato per verificare se esiste una associazione tra genere e stato nutrizionale? Spiegare la scelta! Formulate l ipotesi nulla e l ipotesi alternativa nel caso qui riportato! Quanti gradi di libertà bisogna considerare?! Descrivere brevemente i passi successivi per accettare o rifiutare l ipotesi nulla! Cosa si può concludere?

H 0 : la proporzione di soggetti sovrappeso tra i bambini di genere maschile è uguale alla proporzione di soggetti sovrappeso tra i bambini di genere femminile 45 Frequenze attese: di riga moltiplicato il di colonna diviso il della tabella Maschio Genere Femmina 46 H A : le proporzioni di soggetti sovrappeso non sono uguali nei due generi Sovrappeso Normopeso (x)/6 = 3.1 (x)/6 = 5. (x)/6 = 5. (x)/6 = 11.1 6 Frequenze attese: di riga moltiplicato il di colonna diviso il della tabella frequenze attese frequenze osservate Sovrappeso Normopeso Sovrappeso Normopeso Genere Maschio Femmina 3.1 5. 5. 11.1 Genere Maschio Femmina 4 5 5 1 6 6 47! = ( Tutte le celle " # $ O -E - 1 % & ' E ( 4-3.1-0.5) ( 5-5. - 0.5)! = + 3.1 5. ( 5-3.1-0.5) ( 1-11.1-0.5) + + = 0.7 3.1 11.1 4

4. Si calcolano i gradi di libertà (gl) del " osservato: gradi di libertà 3. Si sceglie il livello di significatività (a) ovvero la probabilità di compiere un errore rifiutando l ipotesi nulla quando essa fosse vera 4. Si esamina la tavola che riporta il valore soglia (critico) del Chi Quadro per il livello di significatività prescelto e per i gradi di libertà del valore osservato! 1;0.05 Significatività di un test 51 5 Essendo p > 0.1 p > 5 % la differenza non è significativa fine IX lezione FINE Quindi: la proporzione di soggetti sovrappeso tra i bambini di genere maschile è uguale alla proporzione di soggetti sovrappeso tra i bambini di genere femminile: Il genere non ha nessuna influenza sullo stato nutrizionale dei bambini