Analisi di proporzioni e distribuzioni con la distribuzione binomiale

Documenti analoghi
Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Il test (o i test) del Chi-quadrato ( 2 )

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Gli errori nella verifica delle ipotesi

Approssimazione normale alla distribuzione binomiale

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Distribuzioni e inferenza statistica

Esercitazione 8 maggio 2014

Chi-quadro. sono variabili aleatorie indipendenti con distribuzione allora la variabile aleatoria

Università del Piemonte Orientale. Corso di laurea in biotecnologie. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità.

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Ψ PSICOMETRIA. Corso di laurea triennale (classe 34) STATISTICA INFERENZIALE

Lanciando un dado, il tuo compagno esclama: uscirà 1, 2, 3, 4, 5 o 6 oppure: uscirà il numero 4. uscirà il numero 9

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

p k q n k = p n (k) = n 12 = 1 = ,1208. q = 1 2 e si ha: p 12 (8) =

Il Corso di Fisica per Scienze Biologiche

UNIVERSITÀ di ROMA TOR VERGATA

Il campionamento e l inferenza. Il campionamento e l inferenza

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Lezione 12. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 12. A. Iodice.

Verifica delle ipotesi: Binomiale

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Distribuzione Gaussiana - Facciamo un riassunto -

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Università degli studi della Tuscia. Principi di Statistica dr. Luca Secondi A.A. 2014/2015. Esercitazione di riepilogo Variabili casuali

Vedi: Probabilità e cenni di statistica

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Laboratorio di Calcolo B 68

Capitolo 11 Test chi-quadro

Correzione primo compitino, testo A

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

Distribuzione di Probabilità

STATISTICA ESERCITAZIONE 9

La probabilità composta

Il quadrato di binomio, assieme allaa differenza dei quadrati che vedremo in seguito, è uno dei più importanti prodotti notevoli.

Ulteriori Conoscenze di Informatica e Statistica

Lezione 3 Calcolo delle probabilità

Statistica. Alfonso Iodice D Enza

C.I. di Metodologia clinica

Matematica II: Calcolo delle Probabilità e Statistica Matematica

LE DISTRIBUZIONI CAMPIONARIE

NOZIONI DI CALCOLO DELLE PROBABILITÀ

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Capitolo 9 Verifica di ipotesi: test basati su un campione

Domande di teoria. Esercizi

Test d Ipotesi Introduzione

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

SOLUZIONI DEL 1 0 TEST DI PREPARAZIONE ALLA 1 a PROVA INTERMEDIA

PRINCIPALI DISTRIBUZIONI DI PROBABILITA. Psicometria 1 - Lezione 9 Lucidi presentati a lezione AA 2000/2001 dott. Corrado Caudek

Intervalli di confidenza

Elementi di Psicometria con Laboratorio di SPSS 1

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

Note sulla probabilità

Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola

FENOMENI CASUALI. fenomeni casuali

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Statistica Applicata all edilizia: alcune distribuzioni di probabilità

PROVA SCRITTA DI STATISTICA. cod CLEA-CLAPI-CLEFIN-CLELI cod CLEA-CLAPI-CLEFIN-CLEMIT. 5 Novembre 2003 SOLUZIONI MOD.

Esercitazione 8 del corso di Statistica 2

esperimento casuale: è un esperimento condotto sotto l effetto del caso; evento elementare: ciascuno dei possibili esiti di un esperimento casuale;

CAPITOLO QUINTO DISTRIBUZIONE NORMALE

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

DISTRIBUZIONI DI PROBABILITA

Esercitazione: La distribuzione NORMALE

Distribuzioni di probabilità

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Probabilità 1, laurea triennale in Matematica I prova scritta sessione estiva a.a. 2008/09

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Esercizi di Calcolo delle Probabilità

Statistica. Esercitazione 10. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice. V.C.

Simulazione di esercizi su test di significatività e 95%CI

Il confronto fra medie

Probabilità esempi. Aiutiamoci con una rappresentazione grafica:

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

ESERCIZIO 1 Lanciamo tre volte una moneta regolare e consideriamo equiprobabili i possibili

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Capitolo 10 Test delle ipotesi

DISTRIBUZIONI DI PROBABILITA

La PROBABILITA è un numero che si associa ad un evento E ed esprime il grado di aspettativa circa il suo verificarsi.

distribuzione della popolazione campionata distribuzione di quantità che dipendono dal campione (distribuzioni campionarie)

NOZIONI DI CALCOLO DELLE PROBABILITÀ ALCUNE DEFINIZIONI

La probabilità matematica

Matricola: Corso: 1. (4 Punti) Stimare la variazione del reddito quando il prezzo del prodotto finale raddoppia.

Americani Inglesi Firenze Roma Provare l ipotesi che la nazionalità non influisca sulla scelta della meta.

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Test delle ipotesi sulla media.

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Variabili aleatorie. Variabili aleatorie e variabili statistiche

Esercitazione n. 3 - Corso di STATISTICA - Università della Basilicata - a.a. 2011/12 Prof. Roberta Siciliano

ESERCIZIO SVOLTO N 1 ESERCIZIO SVOLTO N 2. Determinare e rappresentare graficamente il dominio della funzione

Metodi statistici per le ricerche di mercato

IL FATTORE Rh Supponiamo ora di sapere che è nato un figlio Rh + da madre Rh, qual è la probabilità che il padre sia Rh + omozigote?

LEZIONI DI STATISTICA MEDICA

Casa dello Studente. Casa dello Studente

Transcript:

Analisi di proporzioni e distribuzioni con la distribuzione binomiale Nell analisi delle proporzioni avevamo accennato alla distribuzione binomiale o la distribuzione teorica di probabilità della statistica p (proporzione di una certa caratteristica osservata in un campione estratto da una popolazione in cui la proporzione è pari π) è la distribuzione binomiale Nei test z e Chi-quadrato che abbiamo visto finora per analizzare proporzioni o numerosità avevamo anche detto però che è possibile, se alcune condizioni sono soddisfatte, utilizzare l approssimazione normale (gaussiana) della binomiale o Solo se verificate queste condizioni [nπ e n(1-π) maggiori o uguali a 5 per il test z, non meno di 5 osservazioni attese in non più del 20% di categorie e nessuna categoria con meno di una osservazione attesa per test del chi-quadrato] o allora l approssimazione della binomiale con la gaussiana è valida e i test z e chi quadrato si possono applicare Vediamo ora cosa fare in alcuni casi semplici quando queste assunzioni non sono vere ed è necessario ricorrere alla distribuzione binomiale o Prima di tutto, cos è la distruzione binomiale?

La distribuzione binomiale Supponiamo di compiere un esperimento con due soli risultati possibili o Lancio una moneta: ottengo testa o croce? o Faccio un figlio: sarà maschio o femmina? o Provo un esame: viene superato oppure no? o Misuro la temperatura: e < 36.5 oppure 36.5? o Estraggo a caso un individuo dalla popolazione: è sposato oppure no? o Estraggo a caso un individuo dalla popolazione: fuma oppure no? o Campiono un lupo e analizzo il tratto di DNA che codifica per la catena beta dell emoglobina: è presente oppure no in almeno uno dei due cromosomi (materno o paterno) la mutazione da adenina a citosina nella base nucleotidica in posizione 56 rispetto ad una sequenza di riferimento?

Un esperimento di questo tipo è detto esperimento bernoulliano Chiamiamo uno dei due eventi successo (S) e l altro (l evento complementare) insuccesso (I) o Non importa quale dei due viene chiamato successo e quale insucceso, è una scelta arbitraria; per esempio testa = successo; croce = insuccesso fumatore = successo; non fumatore = insuccesso la mutazione A C in posizione 56 nel gene per l emoglobina è presente = successo; la mutazione A C in posizione 56 nel gene per l emoglobina è assente = insuccesso Chiamiamo ora o π = probabilità dell evento S (successo) o (1-π) = probabilità dell evento I (insuccesso) Se quindi per esempio studio un singolo lupo (analogo ad un esperimento bernoullinano) e so che π = 0.1, posso dire che la probabilità di ottenere una sequenza con la mutazione A C in posizione 56 nel gene per l emoglobina è pari a 0.1 o Questa probabilità, come al solito, mi dice che se avessi a disposizione un numero elevatissimo di lupi, il 10% di questi sarebbero portatori di questa specifica mutazione

Supponiamo ora invece di ripetere l esperimento bernoulliano 2 volte o Il numero di ripetizioni, e estrazioni, dette anche numero di prove, di indica con n o In questo caso n = 2 Esempi o Lancio due monete (o due volte la stessa moneta) e registro il numero di teste o Estraggo due individui a caso da una popolazione, chiedo se fumano, e registro il numero di fumatori o Campiono e tipizzo geneticamente due lupi e registro quanti di loro hanno la la mutazione A C in posizione 56 nel gene per l emoglobina Chiara l analogia con un campione di dimensione n e l analisi delle proporzioni o numerosità!

Vediamo ora nel caso di due prove (n=2) quali sono tutti i risultati possibili e con che probabilità si può verificare ciascuno di essi o Queste probabilità vengono calcolate, e saranno quindi corrette, se (assumendo che) il risultato della prima prova non influenza il risultato della seconda prova, e le probabilità di successo/insuccesso [π e (1-π)] nella singola prova restano costanti Intanto, quali sono i risultati possibili? o SS (prima prova = successo; seconda prova = successo) o SI (prima prova = successo; seconda prova = insuccesso) o IS (prima prova = insuccesso; seconda prova = successo) o II (prima prova = insuccesso; seconda prova = insuccesso) Abbiamo detto che le prove sono indipendenti e le probabilità di successo/insuccesso non cambiano da prova a prova. Quindi possiamo applicare la regola del prodotto per trovare le probabilità di ciascuno dei 4 risultati possibili.

Attenzione! o Questi eventi sono tutti diversi se consideriamo l ordine, ma ci sono solo tre eventi diversi se consideriamo il numero di volte che si ottiene un successo. Infatti ci possono essere 0, 1 o 2 successi in due estrazioni o A noi interessa la probabilità di avere per esempio 1 testa in due lanci, o un lupo con la mutazione in un campione di due lupi, non l ordine con il quale gli eventi si verificano! o Quindi dobbiamo sommare qualche termine Chiamiamo X la variabile che ci interessa, cioè il numero di successi in n prove

E facilissimo vedere che nel caso di n= 2, le probabilità di ottenere X successi in n prove si ottengono dalle probabilità precedenti o Per X= 0 e X=2, le probabilità sono quelle di avere II e SS o Per X=1, bisogna sommare i due termini (ovviamente uguali) che corrispondono ad avere prima un successo e poi un insuccesso e prima un insuccesso e poi un successo Se chiamiamo π = p e (1-π) = q o [cosa che si trova su molti libri, ma attenzione a non confondere parametri con statistiche!] allora le probabilità dei tre possibili risultati sono date dai termini che si ottengono dall espansione del binomio (p+q) 2 = p 2 +2pq + q 2 Attenzione, nella descrizione e nell uso della binomiale π e p vengono spesso usati in maniera interscambiabile! Anche in questi appunti

Due esempi con n=2 e due diversi valori di π E la prima distribuzione teorica che siamo in grado di ricostruire con semplici calcoli!

Aumentando il numero di prove, e ragionando quindi per dimensioni campionarie maggiori, i calcoli non si complicano molto Vediamo per n = 3 Per n maggiori, si può ricorrere al triangolo di Tartaglia, o meglio, a triangolo di Chu Shin-Chieh, per trovare i coefficienti dei diversi termini, ma per fortuna c e anche la funzione matematica della distribuzione binomiale

Due esempi con n=3 e due diversi valori di π

Da ricordare (questo termine si chiama coefficiente binomiale) Perché è ragionevole che per x = 0 o x = n il coefficiente binomiale sia pari a 1?

Un esempio con n=20 e π = 0.3 - Siete capaci di fare la stessa cosa utilizzando la funzione binomiale per n=23 e π = 0.25? - Inizia a sembrare una gaussiana (infatti, n cresce, ci sono tanti fattori, e nπ e n(1-π) sono entrambi maggiori di 5

La distribuzione teorica di una proporzione è binomiale perché lo è la distribuzione teorica del numero di successi in n prove

Esercizio: i laureandi in medicina fumano come tutti? L ipotesi nulla e quella alternativa che sto testando sono le seguenti Non posso utilizzare z o chi-quadrato perché nπ 0 = 16x0.25 < 5 Testare le ipotesi sulle proporzioni equivale a testare le ipotesi nulle numerosità o Se il numero di fumatori nel campione ha una probabilità di verificarsi molto bassa (<α) assumendo vera l ipotesi nulla, allora anche la proporzione di fumatori nel campione avrà una probabilità di verificarsi molto bassa (<α) assumendo vera l ipotesi nulla

La distribuzione nulla delle numerosità (la distribuzione che mi interessa per testare l ipotesi nulla), ovvero la distribuzione del numero di fumatori in campioni con n = 16 se la probabilità di essere un fumatore è pari a 0.25 (valore specificato dall ipotesi nulla) è interamente specificata dalla distribuzione binomiale o Non ho bisogno di tabelle per fare un test binomiale! Ricostruire interamente la distribuzione nulla significa quindi, in questo caso, calcolare 17 valori di probabilità, ovvero

P(x=5) = 16 0 16 16 P(x=0) = 0.25 0.75 0 = 0.75 = 0.010023 16 1 15 P(x=1) = 0.25 0.75 1 15 1 = ( 16 ) 0.25 0.75 = 0.053454.... 16 5 11 16! 5 11 16x15x14x13x12 5 0.25 0.75 5 = 0.25 0.75 5!11! = 0.25 0.75 5x4x3x2.... 11 = 0.180159 16 15 1 P(x=15) = 0.25 0.75 15 16 16 P(x=16) = 0.25 0.75 16 16 0.25 0.75 = 1.12x10-8 15 1 = ( ) 0 = 16 0.25 = 2.33x10-10 Con questa distribuzione nulla posso definire le regioni di accettazione e rifiuto e/o calcolare il P-value, ovvero fare un test di ipotesi come abbiamo visto precedentemente per le statistiche test z, t e χ 2 o Attenzione, non è necessario ricostruire tutta la distribuzione nulla per fare un test di ipotesi con la binomiale!

In questa spiegazione consideriamo però la distribuzione nulla completa, riportata qui sotto in tabella e graficamente Probabilità di avere x fumatori in un campione di 16 individui se π = 0.25 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Numero x di fumatori se n = 16

Identificazione delle regioni di accettazione e di rifiuto Scelto un α = 0.05, determino le regioni di accettazione e rifiuto direttamente sommando le probabilità ai due lati della distribuzione fino a raggiungere il valore appena precedente al superamento della probabilità cumulativa pari a 0.025 (se si utilizza un test a due code) x = numero di fumatori in un campione di 16 individui P(x) = Probabilità di osservare x fumatori in un campione di 16 individui se p = 0.25 Area cumulativa sinistra (Somma progressiva delle P(x) a partire dai valori piccoli di x) Area cumulativa destra (Somma progressiva delle P(x) a partire dai valori grandi di x) 0 0,010023 0,010023 1 1 0,053454 0,063476 0,989977 2 0,133635 0,197111 0,936524 3 0,207876 0,404987 0,802889 4 0,225199 0,630186 0,595013 5 0,180159 0,810345 0,369814 6 0,110097 0,920443 0,189655 7 0,052427 0,97287 0,079557 8 0,01966 0,99253 0,02713 9 0,005825 0,998356 0,00747 10 0,001359 0,999715 0,001644 11 0,000247 0,999962 0,000285 12 3,43E-05 0,999996 3,81E-05 13 3,52E-06 1 3,78E-06 14 2,51E-07 1 2,63E-07 15 1,12E-08 1 1,14E-08 16 2,33E-10 1 2,33E-10 In arancione, le regioni di rifiuto per un test bilaterale con α = 0.05.

La regione di accettazione va quindi da x = 1 (compreso) a x = 8 (compreso) Il valore osservato (x = 2) cade quindi nella regione di accettazione, e l ipotesi nulla non può essere rifiutata I dati sono compatibili con l ipotesi nulla. Non ci sono forti evidenze che i laureandi in medicina fumino di più, o di meno, rispetto alla popolazione generale o Cosa avremmo concluso de avessi fatto un test a una coda, ipotizzando per l ipotesi alternativa che gli studenti di medicina fumano meno rispetto alla popolazione generale?

Calcolo del P-value Il P-value, come sempre, è dato dalla probabilità di osservare, se fosse vera l ipotesi nulla, un campione ugualmente estremo, o più estremo (ossia ugualmente probabile, o meno probabile) di quello osservato realmente o Se questa probabilità risulta inferiore al livello di a prescelto, rifiutiamo l ipotesi nulla perché riteniamo i risultati osservati troppo improbabili (ovviamente non dimenticando che esiste, se rifiutiamo l ipotesi nulla, l errore di primo tipo!) Il P-value nel test binomiale appena visto è quindi la probabilità complessiva di osservare un campione con un valore x uguale al valore osservato nei dati (2 nell esempio) o con valori di x più estremi (cioè meno probabili di quello osservato) o Queste probabilità sono ovviamente (riguardate se necessario cos è il P-value in un test) calcolate assumendo vera l ipotesi nulla, in questo caso che π= π 0 = 0.25 In tabella, dobbiamo sommare tutti i valori di P 0.133635, ossia della probabilità di osservare il campione realmente osservato (x =2) (da entrambe i lati della distribuzione, visto che stiamo facendo un test a due code).

x = numero di fumatori P(x) = Probabilità di osservare x in un campione di 16 fumatori in un campione di 16 individui individui se p = 0.25 0 0,010023 1 0,053454 2 0,133635 3 0,207876 4 0,225199 5 0,180159 6 0,110097 7 0,052427 8 0,01966 9 0,005825 10 0,001359 11 0,000247 12 3,43E-05 13 3,52E-06 14 2,51E-07 15 1,12E-08 16 2,33E-10 Il verde sono indicati tutti i valori di probabilità da sommare per ottenere il P-value. In rosso il valore di x osservato nei dati.

Il P-value risulta quindi pari a 0.387. Essendo minore di α = 0.05, rifiutiamo l ipotesi nulla o Ovviamente le conclusioni ottenute calcando il P-value sono le stesse di quelle viste con l approccio delle regioni di accettazione rifiuto Un modo più semplice anche se le meno preciso per calcolare il P-value consiste nel calcolare la probabilità che il valore di x sia più estremo del valore osservato nella coda della distribuzione, e moltiplicare questo valore per 2 o Nel nostro caso, questo significa sommare le prime tre probabilità nella tabella precedente e moltiplicare per 2: P-value = 2x(0.010023+0.053454+0.133635) = 0.394 Questo valore è leggermente superiore al valore calcolato nella forma più precisa. L approssimazione è quindi conservativa

Esercizio: i geni per la spermatogenesi si trovano soprattutto sul cromosoma X?

Esercizio: la scelta dei maschi nel topo dipende dalla posizione fetale delle femmine?

Test di adattamento di una distribuzione di frequenza osservata alla distribuzione binomiale (è un test di goodness-of-fit)

Ulteriori esempi sulla bontà di adattamento di una distribuzione osservata alla binomiale Esempio 1 La mortalità in pesci in acquario dipende soprattutto dal caso (la scelta casuale di che pesce finisce in quale acquario, e altri eventi che agiscono con uguale probabilità su ciascun pesce) o forse dalla diffusione di malattie contagiose? In 60 acquari vengono inseriti 6 pesci di una certa specie, scelti a caso da una vasca grande. Da quel momento in poi, non si interviene più sugli acquari e dopo un mese si contano i pesci sopravvissuti per ogni vasca. I risultati, come numero di vasche con 0,1,2,3,4,5,6 pesci sopravvissuti, è il seguente: 6,6,12,15,8,7,6.

Esempio 2 Il rapporto tra i due sessi nelle famiglie è casuale?