Statistiche campionarie



Documenti analoghi
Inferenza statistica. Statistica medica 1

Statistica. Lezione 6

3. Confronto tra medie di due campioni indipendenti o appaiati

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)


1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

E naturale chiedersi alcune cose sulla media campionaria x n

Metodi statistici per le ricerche di mercato

Verifica di ipotesi

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Concetto di potenza statistica

VERIFICA DELLE IPOTESI

Corso di Psicometria Progredito

STATISTICA IX lezione

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Il confronto fra proporzioni

La logica statistica della verifica (test) delle ipotesi

Temi di Esame a.a Statistica - CLEF

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Inferenza statistica

Metodi statistici per le ricerche di mercato

Esercitazione n.2 Inferenza su medie

Test statistici di verifica di ipotesi

Elementi di Psicometria con Laboratorio di SPSS 1

LEZIONE n. 5 (a cura di Antonio Di Marco)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Esercitazioni di Statistica

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

VERIFICA DELLE IPOTESI

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Statistica inferenziale

Istituzioni di Statistica e Statistica Economica

Elementi di Psicometria con Laboratorio di SPSS 1

ELEMENTI DI STATISTICA

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

La distribuzione Gaussiana

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

OSSERVAZIONI TEORICHE Lezione n. 4

La distribuzione Normale. La distribuzione Normale

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

L analisi statistica

Capitolo 11 Test chi-quadro

STATISTICA INFERENZIALE

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a Corso di Statistica Medica. Inferenza sulle medie

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

è decidere sulla verità o falsità

Analisi di dati di frequenza

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

8 Elementi di Statistica

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Esercitazione n.4 Inferenza su varianza

La variabile casuale Binomiale

Tabella iniziale con i dati. Malattia Malati Non malati Totale Test Positivo 183 Negativo 280 Totale Calcolo i valori mancanti per differenza

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

1. Distribuzioni campionarie

4. Confronto tra medie di tre o più campioni indipendenti

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

Corso di. Dott.ssa Donatella Cocca

come nasce una ricerca

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Il concetto di valore medio in generale

matematica probabilmente

Capitolo 12 La regressione lineare semplice

ESAME DI STATISTICA Nome: Cognome: Matricola:

R - Esercitazione 5. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. Lunedì 2 Dicembre Università Roma Tre

Il Controllo Interno di Qualità dalla teoria alla pratica: guida passo per passo IL MODELLO TEORICO. Pasquale Iandolo

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

Il test del Chi-quadrato

decidiamo, sulla base di un campione, se l ipotesi formulata è plausibile oppure no.

LE CARTE DI CONTROLLO (4)

Indici di dispersione

Dimensione di uno Spazio vettoriale

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

ANALISI DEI DATI EPIDEMIOLOGICI

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno

Esercizi riassuntivi di probabilità

Lineamenti di econometria 2

ANALISI DI CORRELAZIONE

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

Transcript:

Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle analoghe statistiche calcolate sulla popolazione: la media campionaria (x) stima la media della popolazione (µ) La d.s. campionaria (s) stima la d.s. della popolazione (σ) Sia x sia s sono stimatori non distorti

Esperimento Un nuovo farmaco per il trattamento del cancro Dati disponibili: sopravvivenza (dalla prima diagnosi alla morte) media 38.3 mesi con d.s. 43.3. Esperimento: campione di pazienti trattati con il nuovo farmaco. Il tempo medio di sopravvivenza risulta 46.9 mesi. Domanda: cosa si può concludere riguardo la capacità del nuovo farmaco di prolungare la sopravvivenza in questo tipo di cancro?

Esempio empirico Si estrae da una popolazione di dimensioni N un campione di 100 individui e se ne calcola l altezza media x 1 = 168 cm Si ripete l operazione, calcolando la media x 2 = 162 cm Si può ripetere l operazione finché non sono stati estratti tutti i possibili campioni di 100 soggetti dalla data popolazione Le medie campionarie cosi ottenute saranno diverse l una dall altra

La media campionaria stima quindi la media della popolazione, ma con incertezza. Il grado di incertezza dipende da: 1) la dimensione del campione 2) la variabilità nella popolazione Poiché le medie campionarie sono diverse l una dall altra: Qual è la loro distribuzione?

Popolazione Distribuzione medie campionarie Campioni di dimensione n 1 Campioni di dimensione n 2 > n 1

Le proprietà di questa distribuzioni sono riassunte dal teorema del limite centrale: 1) Il valore medio della distribuzione campionaria è uguale alla media µ della popolazione. 2) La deviazione standard della distribuzione campionaria è funzione della numerosità n del campione, sia della d.s. σ della popolazione. Tale quantità è nota come errore standard: ( ES ) = σ n 3) La distribuzione campionaria è approssimativamente normale, indipendentemente dalla distribuzione della popolazione, posto n sufficientemente grande.

Popolazione con distribuzione uniforme (1000 osservazioni).092 Fraction 0 n = 2 n = 3 n = 4 0 1 unif.15.186186.186186 Fraction Fraction Fraction 0 0 0 0 1 (mean) unif 0 1 (mean) unif 0 1 (mean) unif.275.37.52 Fraction Fraction Fraction 0 0 0 0 1 (mean) unif 0 1 (mean) unif 0 1 (mean) unif n = 5 n =10 n = 20

Riassumendo Vi sono 3 livelli: 1. popolazione (media = µ; d.s = σ) 2. campione (media = x; d.s.= s) 3. distribuzione campionaria (media = µ; d.s. = ES = σ n )

Poiché la distribuzione delle medie campionarie è una distribuzione normale, siamo in grado di calcolare l area sotto la curva utilizzando il rapporto critico e la statistica z Sarà: z = x σ µ n Ad esempio: qual è la probabilità di estrarre un campione di 10 individui con altezza media 175 da una popolazione che ha media 170 cm e d.s. 5? Z = (180 170) /(5/ 10) = 6.33 Utilizzando le tavole la probabilità è < 0.001

Esercizio Il peso medio alla nascita di una popolazione è noto essere 3.200 g, con d.s. 500 gr. 1) qual è la probabilità che un soggetto nasca sottopeso (< 2500 g)? 2) per il calcolo appena effettuato, avete assunto che il peso alla nascita fosse distribuito normalmente? 3) Qual è la probabilità che una campione di 100 individui estratti a caso dalla popolazione abbia un peso medio alla nascita inferiore ai 2500 g? 4) per il calcolo appena effettuato, avete assunto che il peso alla nascita fosse distribuito normalmente?

Risposte 1) z = (2500 3200) / 500 = -1.4 Pr = 0.08 3) z= (2500 3200) / 50 = -14 Pr <0.001

Inferenza Che cosa si può dire della popolazione sulla base del campione? Possiamo utilizzare due approcci: 1) Intervallo di confidenza 2) Test d ipotesi

Premessa: Intervallo di probabilità Data una popolazione con σ e µ noti, posso calcolare l intervallo di valori entro cui sarà compreso il 95% delle medie di campioni di dimensione n estratti dalla popolazione. Utilizzo la distribuzione delle medie campionarie 95% 2.5% 2.5%

Devo quindi calcolare il limite inferiore ed il limite superiore dell intervallo. Dalle tavole, i valori di z che lasciano all esterno il 2.5% delle osservazioni sono rispettivamente 1.96 e +1.96 Limite inferiore -1.96 = (x - µ) / E.S. x = µ 1.96 E.S. Limite inferiore 1.96 = (x - µ) / E.S. x = µ + 1.96 E.S. Quindi: il 95% delle medie campionarie si trova nell intervallo µ ± 1.96 E.S.

Intervallo di confidenza Un ragionamento speculare può essere fatto quando si conosce solo il campione µ = x ± 1.96*ES Interpretazione: Quando si afferma che x ± 1.96*ES sono i limiti di confidenza per la media della popolazione si ha il 95% di dire un affermazione corretta

Esercizi 1) In un campione di 100 residenti a Torino si è trovata un altezza media di 160 cm. Calcolate l intervallo di confidenza al 95%, sapendo che la d.s. nella popolazione è 40 cm. 2) Calcolate ora l intervallo di confidenza al 90% per lo stesso campione 3) Che cosa succede agli intervalli di confidenza se aumenta la numerosità campionaria?

Risposte 1) limite superiore: 160 + 1.96*4 = 167.8 limite inferiore: 160 1.96*4 = 152.2 95% IC: (152.2 167.8) 2) limite superiore: 160 + 1.64*4 = 166.6 limite inferiore: 160 1.64*4 = 153.4 90% IC: (153.4 166.6) 3) se aumenta n, diminuisce l ES e pertanto si restringono gli intervalli di confidenza

Diversi intervalli di confidenza Dall esercizio si vede che si può decidere il livello di confidenza dell intervallo di confidenza: Z=1.64 intervallo al 90% Z=1.96 intervallo al 95% Z= 2.57 intervallo al 99%

Generalizzando Così come per la media gli intervalli di confidenza si possono stimare per altre statistiche, utilizzando la distribuzione teorica appropriata Ad esempio si può affermare che in uno studio il rischio relativo (RR) per tumore del polmone nei fumatori rispetto ai non fumatori era di 15 (intervallo di confidenza al 95%: 12-20) Ad esempio, nel caso la σ della popolazione non sia nota si utilizza la d.s campionaria (s) e una distribuzione teorica leggermente diversa rispetto alla distribuzione normale

Esercizio 31 pazienti sono selezionati da una popolazione di età compresa fra 14 e 20 anni affetta da sindrome alcolica fetale. Si suppone che l altezza sia distribuita come una variabile casuale gaussiana con deviazione standard σ = 6 cm. L altezza media nel campione in studio è di 147.4 cm. Calcolare un intervallo di confidenza al 95% per la media della popolazione basato sul campione. Si può affermare che il valore fisso della media della popolazione sia compreso in tale intervallo?

Risposta IC95%: (147.4-1.96 x 6/ 31, 147.4 + 1.96 x 6/ 31) = = (145.3, 149.5)

Test di ipotesi (premessa) probabilita' f(z) 0.1.2.3.4 α z = x σ µ n -4-2 0 2 4 z z 0 Quale proporzione del campione è alla destra di un preselezionato valorequale valore medio consente di selezionare una specificata porzione della distribuzione di campionamento delle medie?quale dimensione del campione è necessaria affinché una specificata proporzione di medie si scosti di un dato ammontare dalla media della popolazione?

Test di ipotesi Con il test di ipotesi si verifica se il campione è compatibile con un ipotesi relativa alla popolazione Bisogna innanzitutto stabilire un ipotesi sulla statistica nella popolazione (ad esempio su quanto sia la media per una data variabile nella popolazione). L ipotesi è detta ipotesi nulla (H 0 ) Effettuando il test si determina se i dati osservati nel campione portano a rifiutare l ipotesi nulla o a non rifiutarla

Ipotesi nulla Solitamente l ipotesi nulla e un ipotesi di non effetto. E costruita in modo da poter essere rifiutata nel test di ipotesi. Si stabilisce un H 0 e si cercano informazioni per rigettarla. Qual è la base filosofica per procedere in questa maniera? Secondo il falsificazionismo di Popper non si possono confermare le ipotesi scientifiche, ma si possono rifiutare quando le teorie non sono compatibili con i dati empirici.

Ragionamento scientifico Acquisizione dei dati inerenti ad un fenomeno Descrizione del fenomeno attraverso i dati Elaborazione dei dati Ipotesi iniziale Rifiutata Non rifiutata

Test di ipotesi Ipotesi sulla media (ignota) di una popolazione : H 0 Confronto con la media X di un campione casuale estratto dalla popolazione Domanda: qual è la probabilità che la media di un campione casuale si scosti dalla media dell H 0 (µ) di un ammontare uguale o maggiore a quello della media osservata?

Test di ipotesi: passaggi 1. Si stabilisce l ipotesi nulla H 0 2. Si stabilisce quanto deve essere grande il rischio di fornire una risposta diversa dalla realtà (errore α) 3. Si costruisce il test statistico (lo Z in questo caso) 4. Si calcola la probabilità (p), data l ipotesi nulla, di ottenere un risultato come quello osservato nel campione o ancora più estremo 5. Si decide se la probabilità calcolata è sufficientemente piccola per asserire che l ipotesi nulla va rifiutata si stabilisce se il risultato del test è statisticamente significativo (p<α) o statisticamente non significativo (p>α)

Test d ipotesi su una media: un esempio In un campione di 100 residenti a Torino si è trovata un altezza media di 160 cm. Per similitudine con altre popolazioni si ritiene che sia ragionevole dire che i residenti a Torino abbiano un altezza media di 170 cm: questa è l ipotesi nulla. H o : µ = 170 cm H a : µ 170 cm α = 0.05, due code

Quale test di ipotesi Per la media abbiamo già visto come si calcola la probabilità di estrarre un campione con una data media da una data popolazione (ammettiamo che σ sia nota essere 40 cm) Z = (x - µ) / ES = (160 170) / 4 = 2.5 Poichè l H a è di diversità e non è specificato se l altezza debba essere maggiore oppure minore di 170 cm, si utilizzano le due code della distribuzione Uno z di 2.5 corrisponde ad una probabilità p=0.012

Valore soglia E una probabilità di 0.012 sufficientemente piccola da potere rifiutare l ipotesi nulla? Dipende! Quale probabilità vogliamo accettare? Questa probabilità è la probabilità di rifiutare l ipotesi nulla, quando questa è in realtà vera, detto anche errore α o di I tipo Verità Innocente colpevole Verdetto Innocente Corretto Sbagliato colpevole Sbagliato corretto Errore α Errore β (ο ΙΙ tipo)

Il valore soglia deve essere stabilito a-priori Come si fa spesso (per convenzione) abbiamo stabilito accettare un errore α del 5% e si dice che il test è statisticamente significativo se p<0.05. Nell esempio si può rifiutare l ipotesi nulla perchè p= 0.012. Si dice allora che rifiutiamo l ipotesi che l altezza media dei residenti a Torino sia di 170 cm. Nota!! Tale affermazione ha senso solo se il campione è stato estratto correttamente dalla popolazione

Un valore di p (p-value) è la probabilità dei dati osservati data una particolare ipotesi nulla. Un p-value è basato sulle variazioni casuali: quanto è plausibile che il campione in esame o un campione più estremo siano il risultato di variazioni casuali? Il p-value calcolato dipende dalla distribuzione di campionamento che è basata sull ipotesi nulla. Un p-value rappresenta una porzione della distribuzione centrata sull ipotesi nulla Un p-value misura la forza dell evidenza contro l ipotesi nulla. Se un p-value è piccolo, allora o l ipotesi nulla è falsa oppure abbiamo selezionato un campione molto improbabile.

Piccoli p-value ci portano a rifiutare l ipotesi nulla. Tanto più piccolo il p-value tanto più convincente l evidenza contro l ipotesi nulla. Se un p-value è grande, l ipotesi nulla potrebbe ancora essere falsa, ma la dimensione del campione potrebbe essere insufficiente per rifiutarla. Comunque, ricordare che: un ipotesi nulla o è vera o è falsaesercizio In un campione di pazienti 100 diabetici viene misurata la pressione arteriosa diastolica (Pad): media = 90 mmhg. Sapendo che la d.s. (σ) per la Pad è 25 mmhg,

1. Conduci un test di ipotesi per vedere se i diabetici hanno una Pad uguale a quella della popolazione generale (Pad= 80 mmhg) 2. calcola l intervallo di confidenza al 95% 3. Commenta i risultati, confrontando l intervallo di confidenza con il test d ipotesi

Risposte 1. Test di ipotesi H 0 : µ = 80 mmhg H a : µ 80 mmhg α = 0.05, due code test z = (90-80) / 2.5 = 4 p<0.001. Rifiuto l H 0 2. Intervallo di confidenza Ricordando che x - 1.96*ES µ x + 1.96*ES 95% IC: 90 ± 1.96*2.5 90 (95% IC: 85.1-94.9)

Confronto tra due medie Il test di ipotesi si può costruire per altre statistiche. Ad esempio ci si può chiedere se un campione di uomini ed un campione di donne estratti dalla popolazione di Torino hanno la stessa altezza media

z = x µ ES Dove: x diventa (x u x d ) µ diventa 0 E l errore standard? La Varianza della differenza (o somma) di due variabili indipendenti è data dalla somma delle varianze (Continua )

Quindi d d u u d u n n X X VAR 2 2 ) ( σ + σ = ) ( ) ( d u d u X X Var X X ES = Sarà: Analogamente si può calcolare l intervallo di confidenza d u d u x x d u d u x x d u ES x x ES x x + 1.96* ) ( ) ( 1.96* ) ( µ µ ( ) σ + σ = b 2 b a 2 a b a n n X X Z

Esercizio Ammettiamo che di avere un campione di uomini n=100 ed uno di donne n=150 e di voler confrontare le altezze medie. X u = 175 cm, X d = 168 cm. Ammettiamo di sapere che σ u =20, mentre σ d =21 E possibile affermare che non vi e differenza in altezza tra gli uomini e le donne? Calcolare la differenza in altezza con i relativi IC

Soluzioni Z = ( X a X b ) (175 168) = = 2. 66 2 σ a σ + na nb 2 b 2 2 20 21 + 100 150 (ES=2.63) p =0.008 limite sup =7+1.95*2.63 =12.1, limite inf = 7-1.95*2.63 =1.87 diff = 7 (95% IC: 1.87 12.1)

Risposte 3. 95% IC: 90 1.96*2.5 = (85.1-94.9), mmhg 4. z = (90-80) / 2.5 = 4 p<0.001