Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle analoghe statistiche calcolate sulla popolazione: la media campionaria (x) stima la media della popolazione (µ) La d.s. campionaria (s) stima la d.s. della popolazione (σ) Sia x sia s sono stimatori non distorti
Esperimento Un nuovo farmaco per il trattamento del cancro Dati disponibili: sopravvivenza (dalla prima diagnosi alla morte) media 38.3 mesi con d.s. 43.3. Esperimento: campione di pazienti trattati con il nuovo farmaco. Il tempo medio di sopravvivenza risulta 46.9 mesi. Domanda: cosa si può concludere riguardo la capacità del nuovo farmaco di prolungare la sopravvivenza in questo tipo di cancro?
Esempio empirico Si estrae da una popolazione di dimensioni N un campione di 100 individui e se ne calcola l altezza media x 1 = 168 cm Si ripete l operazione, calcolando la media x 2 = 162 cm Si può ripetere l operazione finché non sono stati estratti tutti i possibili campioni di 100 soggetti dalla data popolazione Le medie campionarie cosi ottenute saranno diverse l una dall altra
La media campionaria stima quindi la media della popolazione, ma con incertezza. Il grado di incertezza dipende da: 1) la dimensione del campione 2) la variabilità nella popolazione Poiché le medie campionarie sono diverse l una dall altra: Qual è la loro distribuzione?
Popolazione Distribuzione medie campionarie Campioni di dimensione n 1 Campioni di dimensione n 2 > n 1
Le proprietà di questa distribuzioni sono riassunte dal teorema del limite centrale: 1) Il valore medio della distribuzione campionaria è uguale alla media µ della popolazione. 2) La deviazione standard della distribuzione campionaria è funzione della numerosità n del campione, sia della d.s. σ della popolazione. Tale quantità è nota come errore standard: ( ES ) = σ n 3) La distribuzione campionaria è approssimativamente normale, indipendentemente dalla distribuzione della popolazione, posto n sufficientemente grande.
Popolazione con distribuzione uniforme (1000 osservazioni).092 Fraction 0 n = 2 n = 3 n = 4 0 1 unif.15.186186.186186 Fraction Fraction Fraction 0 0 0 0 1 (mean) unif 0 1 (mean) unif 0 1 (mean) unif.275.37.52 Fraction Fraction Fraction 0 0 0 0 1 (mean) unif 0 1 (mean) unif 0 1 (mean) unif n = 5 n =10 n = 20
Riassumendo Vi sono 3 livelli: 1. popolazione (media = µ; d.s = σ) 2. campione (media = x; d.s.= s) 3. distribuzione campionaria (media = µ; d.s. = ES = σ n )
Poiché la distribuzione delle medie campionarie è una distribuzione normale, siamo in grado di calcolare l area sotto la curva utilizzando il rapporto critico e la statistica z Sarà: z = x σ µ n Ad esempio: qual è la probabilità di estrarre un campione di 10 individui con altezza media 175 da una popolazione che ha media 170 cm e d.s. 5? Z = (180 170) /(5/ 10) = 6.33 Utilizzando le tavole la probabilità è < 0.001
Esercizio Il peso medio alla nascita di una popolazione è noto essere 3.200 g, con d.s. 500 gr. 1) qual è la probabilità che un soggetto nasca sottopeso (< 2500 g)? 2) per il calcolo appena effettuato, avete assunto che il peso alla nascita fosse distribuito normalmente? 3) Qual è la probabilità che una campione di 100 individui estratti a caso dalla popolazione abbia un peso medio alla nascita inferiore ai 2500 g? 4) per il calcolo appena effettuato, avete assunto che il peso alla nascita fosse distribuito normalmente?
Risposte 1) z = (2500 3200) / 500 = -1.4 Pr = 0.08 3) z= (2500 3200) / 50 = -14 Pr <0.001
Inferenza Che cosa si può dire della popolazione sulla base del campione? Possiamo utilizzare due approcci: 1) Intervallo di confidenza 2) Test d ipotesi
Premessa: Intervallo di probabilità Data una popolazione con σ e µ noti, posso calcolare l intervallo di valori entro cui sarà compreso il 95% delle medie di campioni di dimensione n estratti dalla popolazione. Utilizzo la distribuzione delle medie campionarie 95% 2.5% 2.5%
Devo quindi calcolare il limite inferiore ed il limite superiore dell intervallo. Dalle tavole, i valori di z che lasciano all esterno il 2.5% delle osservazioni sono rispettivamente 1.96 e +1.96 Limite inferiore -1.96 = (x - µ) / E.S. x = µ 1.96 E.S. Limite inferiore 1.96 = (x - µ) / E.S. x = µ + 1.96 E.S. Quindi: il 95% delle medie campionarie si trova nell intervallo µ ± 1.96 E.S.
Intervallo di confidenza Un ragionamento speculare può essere fatto quando si conosce solo il campione µ = x ± 1.96*ES Interpretazione: Quando si afferma che x ± 1.96*ES sono i limiti di confidenza per la media della popolazione si ha il 95% di dire un affermazione corretta
Esercizi 1) In un campione di 100 residenti a Torino si è trovata un altezza media di 160 cm. Calcolate l intervallo di confidenza al 95%, sapendo che la d.s. nella popolazione è 40 cm. 2) Calcolate ora l intervallo di confidenza al 90% per lo stesso campione 3) Che cosa succede agli intervalli di confidenza se aumenta la numerosità campionaria?
Risposte 1) limite superiore: 160 + 1.96*4 = 167.8 limite inferiore: 160 1.96*4 = 152.2 95% IC: (152.2 167.8) 2) limite superiore: 160 + 1.64*4 = 166.6 limite inferiore: 160 1.64*4 = 153.4 90% IC: (153.4 166.6) 3) se aumenta n, diminuisce l ES e pertanto si restringono gli intervalli di confidenza
Diversi intervalli di confidenza Dall esercizio si vede che si può decidere il livello di confidenza dell intervallo di confidenza: Z=1.64 intervallo al 90% Z=1.96 intervallo al 95% Z= 2.57 intervallo al 99%
Generalizzando Così come per la media gli intervalli di confidenza si possono stimare per altre statistiche, utilizzando la distribuzione teorica appropriata Ad esempio si può affermare che in uno studio il rischio relativo (RR) per tumore del polmone nei fumatori rispetto ai non fumatori era di 15 (intervallo di confidenza al 95%: 12-20) Ad esempio, nel caso la σ della popolazione non sia nota si utilizza la d.s campionaria (s) e una distribuzione teorica leggermente diversa rispetto alla distribuzione normale
Esercizio 31 pazienti sono selezionati da una popolazione di età compresa fra 14 e 20 anni affetta da sindrome alcolica fetale. Si suppone che l altezza sia distribuita come una variabile casuale gaussiana con deviazione standard σ = 6 cm. L altezza media nel campione in studio è di 147.4 cm. Calcolare un intervallo di confidenza al 95% per la media della popolazione basato sul campione. Si può affermare che il valore fisso della media della popolazione sia compreso in tale intervallo?
Risposta IC95%: (147.4-1.96 x 6/ 31, 147.4 + 1.96 x 6/ 31) = = (145.3, 149.5)
Test di ipotesi (premessa) probabilita' f(z) 0.1.2.3.4 α z = x σ µ n -4-2 0 2 4 z z 0 Quale proporzione del campione è alla destra di un preselezionato valorequale valore medio consente di selezionare una specificata porzione della distribuzione di campionamento delle medie?quale dimensione del campione è necessaria affinché una specificata proporzione di medie si scosti di un dato ammontare dalla media della popolazione?
Test di ipotesi Con il test di ipotesi si verifica se il campione è compatibile con un ipotesi relativa alla popolazione Bisogna innanzitutto stabilire un ipotesi sulla statistica nella popolazione (ad esempio su quanto sia la media per una data variabile nella popolazione). L ipotesi è detta ipotesi nulla (H 0 ) Effettuando il test si determina se i dati osservati nel campione portano a rifiutare l ipotesi nulla o a non rifiutarla
Ipotesi nulla Solitamente l ipotesi nulla e un ipotesi di non effetto. E costruita in modo da poter essere rifiutata nel test di ipotesi. Si stabilisce un H 0 e si cercano informazioni per rigettarla. Qual è la base filosofica per procedere in questa maniera? Secondo il falsificazionismo di Popper non si possono confermare le ipotesi scientifiche, ma si possono rifiutare quando le teorie non sono compatibili con i dati empirici.
Ragionamento scientifico Acquisizione dei dati inerenti ad un fenomeno Descrizione del fenomeno attraverso i dati Elaborazione dei dati Ipotesi iniziale Rifiutata Non rifiutata
Test di ipotesi Ipotesi sulla media (ignota) di una popolazione : H 0 Confronto con la media X di un campione casuale estratto dalla popolazione Domanda: qual è la probabilità che la media di un campione casuale si scosti dalla media dell H 0 (µ) di un ammontare uguale o maggiore a quello della media osservata?
Test di ipotesi: passaggi 1. Si stabilisce l ipotesi nulla H 0 2. Si stabilisce quanto deve essere grande il rischio di fornire una risposta diversa dalla realtà (errore α) 3. Si costruisce il test statistico (lo Z in questo caso) 4. Si calcola la probabilità (p), data l ipotesi nulla, di ottenere un risultato come quello osservato nel campione o ancora più estremo 5. Si decide se la probabilità calcolata è sufficientemente piccola per asserire che l ipotesi nulla va rifiutata si stabilisce se il risultato del test è statisticamente significativo (p<α) o statisticamente non significativo (p>α)
Test d ipotesi su una media: un esempio In un campione di 100 residenti a Torino si è trovata un altezza media di 160 cm. Per similitudine con altre popolazioni si ritiene che sia ragionevole dire che i residenti a Torino abbiano un altezza media di 170 cm: questa è l ipotesi nulla. H o : µ = 170 cm H a : µ 170 cm α = 0.05, due code
Quale test di ipotesi Per la media abbiamo già visto come si calcola la probabilità di estrarre un campione con una data media da una data popolazione (ammettiamo che σ sia nota essere 40 cm) Z = (x - µ) / ES = (160 170) / 4 = 2.5 Poichè l H a è di diversità e non è specificato se l altezza debba essere maggiore oppure minore di 170 cm, si utilizzano le due code della distribuzione Uno z di 2.5 corrisponde ad una probabilità p=0.012
Valore soglia E una probabilità di 0.012 sufficientemente piccola da potere rifiutare l ipotesi nulla? Dipende! Quale probabilità vogliamo accettare? Questa probabilità è la probabilità di rifiutare l ipotesi nulla, quando questa è in realtà vera, detto anche errore α o di I tipo Verità Innocente colpevole Verdetto Innocente Corretto Sbagliato colpevole Sbagliato corretto Errore α Errore β (ο ΙΙ tipo)
Il valore soglia deve essere stabilito a-priori Come si fa spesso (per convenzione) abbiamo stabilito accettare un errore α del 5% e si dice che il test è statisticamente significativo se p<0.05. Nell esempio si può rifiutare l ipotesi nulla perchè p= 0.012. Si dice allora che rifiutiamo l ipotesi che l altezza media dei residenti a Torino sia di 170 cm. Nota!! Tale affermazione ha senso solo se il campione è stato estratto correttamente dalla popolazione
Un valore di p (p-value) è la probabilità dei dati osservati data una particolare ipotesi nulla. Un p-value è basato sulle variazioni casuali: quanto è plausibile che il campione in esame o un campione più estremo siano il risultato di variazioni casuali? Il p-value calcolato dipende dalla distribuzione di campionamento che è basata sull ipotesi nulla. Un p-value rappresenta una porzione della distribuzione centrata sull ipotesi nulla Un p-value misura la forza dell evidenza contro l ipotesi nulla. Se un p-value è piccolo, allora o l ipotesi nulla è falsa oppure abbiamo selezionato un campione molto improbabile.
Piccoli p-value ci portano a rifiutare l ipotesi nulla. Tanto più piccolo il p-value tanto più convincente l evidenza contro l ipotesi nulla. Se un p-value è grande, l ipotesi nulla potrebbe ancora essere falsa, ma la dimensione del campione potrebbe essere insufficiente per rifiutarla. Comunque, ricordare che: un ipotesi nulla o è vera o è falsaesercizio In un campione di pazienti 100 diabetici viene misurata la pressione arteriosa diastolica (Pad): media = 90 mmhg. Sapendo che la d.s. (σ) per la Pad è 25 mmhg,
1. Conduci un test di ipotesi per vedere se i diabetici hanno una Pad uguale a quella della popolazione generale (Pad= 80 mmhg) 2. calcola l intervallo di confidenza al 95% 3. Commenta i risultati, confrontando l intervallo di confidenza con il test d ipotesi
Risposte 1. Test di ipotesi H 0 : µ = 80 mmhg H a : µ 80 mmhg α = 0.05, due code test z = (90-80) / 2.5 = 4 p<0.001. Rifiuto l H 0 2. Intervallo di confidenza Ricordando che x - 1.96*ES µ x + 1.96*ES 95% IC: 90 ± 1.96*2.5 90 (95% IC: 85.1-94.9)
Confronto tra due medie Il test di ipotesi si può costruire per altre statistiche. Ad esempio ci si può chiedere se un campione di uomini ed un campione di donne estratti dalla popolazione di Torino hanno la stessa altezza media
z = x µ ES Dove: x diventa (x u x d ) µ diventa 0 E l errore standard? La Varianza della differenza (o somma) di due variabili indipendenti è data dalla somma delle varianze (Continua )
Quindi d d u u d u n n X X VAR 2 2 ) ( σ + σ = ) ( ) ( d u d u X X Var X X ES = Sarà: Analogamente si può calcolare l intervallo di confidenza d u d u x x d u d u x x d u ES x x ES x x + 1.96* ) ( ) ( 1.96* ) ( µ µ ( ) σ + σ = b 2 b a 2 a b a n n X X Z
Esercizio Ammettiamo che di avere un campione di uomini n=100 ed uno di donne n=150 e di voler confrontare le altezze medie. X u = 175 cm, X d = 168 cm. Ammettiamo di sapere che σ u =20, mentre σ d =21 E possibile affermare che non vi e differenza in altezza tra gli uomini e le donne? Calcolare la differenza in altezza con i relativi IC
Soluzioni Z = ( X a X b ) (175 168) = = 2. 66 2 σ a σ + na nb 2 b 2 2 20 21 + 100 150 (ES=2.63) p =0.008 limite sup =7+1.95*2.63 =12.1, limite inf = 7-1.95*2.63 =1.87 diff = 7 (95% IC: 1.87 12.1)
Risposte 3. 95% IC: 90 1.96*2.5 = (85.1-94.9), mmhg 4. z = (90-80) / 2.5 = 4 p<0.001