Analisi di proporzioni e distribuzioni con la distribuzione binomiale

Analisi di proporzioni e distribuzioni con la distribuzione binomiale Nell analisi delle proporzioni avevamo accennato alla distribuzione binomiale o la distribuzione teorica di probabilità della statistica p (proporzione di una certa caratteristica osservata in un campione estratto da una popolazione in cui la proporzione è pari π) è la distribuzione binomiale Nei test z e Chi-quadrato che abbiamo visto finora per analizzare proporzioni o numerosità avevamo anche detto però che è possibile, se alcune condizioni sono soddisfatte, utilizzare l approssimazione normale (gaussiana) della binomiale o Solo se verificate queste condizioni [nπ e n(1-π) maggiori o uguali a 5 per il test z, non meno di 5 osservazioni attese in non più del 20% di categorie e nessuna categoria con meno di una osservazione attesa per test del chi-quadrato] o allora l approssimazione della binomiale con la gaussiana è valida e i test z e chi quadrato si possono applicare Vediamo ora cosa fare in alcuni casi semplici quando queste assunzioni non sono vere ed è necessario ricorrere alla distribuzione binomiale o Prima di tutto, cos è la distruzione binomiale?

La distribuzione binomiale Supponiamo di compiere un esperimento con due soli risultati possibili o Lancio una moneta: ottengo testa o croce? o Faccio un figlio: sarà maschio o femmina? o Provo un esame: viene superato oppure no? o Misuro la temperatura: e < 36.5 oppure 36.5? o Estraggo a caso un individuo dalla popolazione: è sposato oppure no? o Estraggo a caso un individuo dalla popolazione: fuma oppure no? o Campiono un lupo e analizzo il tratto di DNA che codifica per la catena beta dell emoglobina: è presente oppure no in almeno uno dei due cromosomi (materno o paterno) la mutazione da adenina a citosina nella base nucleotidica in posizione 56 rispetto ad una sequenza di riferimento?

Un esperimento di questo tipo è detto esperimento bernoulliano Chiamiamo uno dei due eventi successo (S) e l altro (l evento complementare) insuccesso (I) o Non importa quale dei due viene chiamato successo e quale insucceso, è una scelta arbitraria; per esempio testa = successo; croce = insuccesso fumatore = successo; non fumatore = insuccesso la mutazione A C in posizione 56 nel gene per l emoglobina è presente = successo; la mutazione A C in posizione 56 nel gene per l emoglobina è assente = insuccesso Chiamiamo ora o π = probabilità dell evento S (successo) o (1-π) = probabilità dell evento I (insuccesso) Se quindi per esempio studio un singolo lupo (analogo ad un esperimento bernoullinano) e so che π = 0.1, posso dire che la probabilità di ottenere una sequenza con la mutazione A C in posizione 56 nel gene per l emoglobina è pari a 0.1 o Questa probabilità, come al solito, mi dice che se avessi a disposizione un numero elevatissimo di lupi, il 10% di questi sarebbero portatori di questa specifica mutazione

Supponiamo ora invece di ripetere l esperimento bernoulliano 2 volte o Il numero di ripetizioni, e estrazioni, dette anche numero di prove, di indica con n o In questo caso n = 2 Esempi o Lancio due monete (o due volte la stessa moneta) e registro il numero di teste o Estraggo due individui a caso da una popolazione, chiedo se fumano, e registro il numero di fumatori o Campiono e tipizzo geneticamente due lupi e registro quanti di loro hanno la la mutazione A C in posizione 56 nel gene per l emoglobina Chiara l analogia con un campione di dimensione n e l analisi delle proporzioni o numerosità!

Vediamo ora nel caso di due prove (n=2) quali sono tutti i risultati possibili e con che probabilità si può verificare ciascuno di essi o Queste probabilità vengono calcolate, e saranno quindi corrette, se (assumendo che) il risultato della prima prova non influenza il risultato della seconda prova, e le probabilità di successo/insuccesso [π e (1-π)] nella singola prova restano costanti Intanto, quali sono i risultati possibili? o SS (prima prova = successo; seconda prova = successo) o SI (prima prova = successo; seconda prova = insuccesso) o IS (prima prova = insuccesso; seconda prova = successo) o II (prima prova = insuccesso; seconda prova = insuccesso) Abbiamo detto che le prove sono indipendenti e le probabilità di successo/insuccesso non cambiano da prova a prova. Quindi possiamo applicare la regola del prodotto per trovare le probabilità di ciascuno dei 4 risultati possibili.

Attenzione! o Questi eventi sono tutti diversi se consideriamo l ordine, ma ci sono solo tre eventi diversi se consideriamo il numero di volte che si ottiene un successo. Infatti ci possono essere 0, 1 o 2 successi in due estrazioni o A noi interessa la probabilità di avere per esempio 1 testa in due lanci, o un lupo con la mutazione in un campione di due lupi, non l ordine con il quale gli eventi si verificano! o Quindi dobbiamo sommare qualche termine Chiamiamo X la variabile che ci interessa, cioè il numero di successi in n prove

E facilissimo vedere che nel caso di n= 2, le probabilità di ottenere X successi in n prove si ottengono dalle probabilità precedenti o Per X= 0 e X=2, le probabilità sono quelle di avere II e SS o Per X=1, bisogna sommare i due termini (ovviamente uguali) che corrispondono ad avere prima un successo e poi un insuccesso e prima un insuccesso e poi un successo Se chiamiamo π = p e (1-π) = q o [cosa che si trova su molti libri, ma attenzione a non confondere parametri con statistiche!] allora le probabilità dei tre possibili risultati sono date dai termini che si ottengono dall espansione del binomio (p+q) 2 = p 2 +2pq + q 2 Attenzione, nella descrizione e nell uso della binomiale π e p vengono spesso usati in maniera interscambiabile! Anche in questi appunti

Due esempi con n=2 e due diversi valori di π E la prima distribuzione teorica che siamo in grado di ricostruire con semplici calcoli!

Aumentando il numero di prove, e ragionando quindi per dimensioni campionarie maggiori, i calcoli non si complicano molto Vediamo per n = 3 Per n maggiori, si può ricorrere al triangolo di Tartaglia, o meglio, a triangolo di Chu Shin-Chieh, per trovare i coefficienti dei diversi termini, ma per fortuna c e anche la funzione matematica della distribuzione binomiale

Due esempi con n=3 e due diversi valori di π

Da ricordare (questo termine si chiama coefficiente binomiale) Perché è ragionevole che per x = 0 o x = n il coefficiente binomiale sia pari a 1?

Un esempio con n=20 e π = 0.3 - Siete capaci di fare la stessa cosa utilizzando la funzione binomiale per n=23 e π = 0.25? - Inizia a sembrare una gaussiana (infatti, n cresce, ci sono tanti fattori, e nπ e n(1-π) sono entrambi maggiori di 5

La distribuzione teorica di una proporzione è binomiale perché lo è la distribuzione teorica del numero di successi in n prove

Esercizio: i laureandi in medicina fumano come tutti? L ipotesi nulla e quella alternativa che sto testando sono le seguenti Non posso utilizzare z o chi-quadrato perché nπ 0 = 16x0.25 < 5 Testare le ipotesi sulle proporzioni equivale a testare le ipotesi nulle numerosità o Se il numero di fumatori nel campione ha una probabilità di verificarsi molto bassa (<α) assumendo vera l ipotesi nulla, allora anche la proporzione di fumatori nel campione avrà una probabilità di verificarsi molto bassa (<α) assumendo vera l ipotesi nulla

La distribuzione nulla delle numerosità (la distribuzione che mi interessa per testare l ipotesi nulla), ovvero la distribuzione del numero di fumatori in campioni con n = 16 se la probabilità di essere un fumatore è pari a 0.25 (valore specificato dall ipotesi nulla) è interamente specificata dalla distribuzione binomiale o Non ho bisogno di tabelle per fare un test binomiale! Ricostruire interamente la distribuzione nulla significa quindi, in questo caso, calcolare 17 valori di probabilità, ovvero

P(x=5) = 16 0 16 16 P(x=0) = 0.25 0.75 0 = 0.75 = 0.010023 16 1 15 P(x=1) = 0.25 0.75 1 15 1 = ( 16 ) 0.25 0.75 = 0.053454.... 16 5 11 16! 5 11 16x15x14x13x12 5 0.25 0.75 5 = 0.25 0.75 5!11! = 0.25 0.75 5x4x3x2.... 11 = 0.180159 16 15 1 P(x=15) = 0.25 0.75 15 16 16 P(x=16) = 0.25 0.75 16 16 0.25 0.75 = 1.12x10-8 15 1 = ( ) 0 = 16 0.25 = 2.33x10-10 Con questa distribuzione nulla posso definire le regioni di accettazione e rifiuto e/o calcolare il P-value, ovvero fare un test di ipotesi come abbiamo visto precedentemente per le statistiche test z, t e χ 2 o Attenzione, non è necessario ricostruire tutta la distribuzione nulla per fare un test di ipotesi con la binomiale!

In questa spiegazione consideriamo però la distribuzione nulla completa, riportata qui sotto in tabella e graficamente Probabilità di avere x fumatori in un campione di 16 individui se π = 0.25 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Numero x di fumatori se n = 16

Identificazione delle regioni di accettazione e di rifiuto Scelto un α = 0.05, determino le regioni di accettazione e rifiuto direttamente sommando le probabilità ai due lati della distribuzione fino a raggiungere il valore appena precedente al superamento della probabilità cumulativa pari a 0.025 (se si utilizza un test a due code) x = numero di fumatori in un campione di 16 individui P(x) = Probabilità di osservare x fumatori in un campione di 16 individui se p = 0.25 Area cumulativa sinistra (Somma progressiva delle P(x) a partire dai valori piccoli di x) Area cumulativa destra (Somma progressiva delle P(x) a partire dai valori grandi di x) 0 0,010023 0,010023 1 1 0,053454 0,063476 0,989977 2 0,133635 0,197111 0,936524 3 0,207876 0,404987 0,802889 4 0,225199 0,630186 0,595013 5 0,180159 0,810345 0,369814 6 0,110097 0,920443 0,189655 7 0,052427 0,97287 0,079557 8 0,01966 0,99253 0,02713 9 0,005825 0,998356 0,00747 10 0,001359 0,999715 0,001644 11 0,000247 0,999962 0,000285 12 3,43E-05 0,999996 3,81E-05 13 3,52E-06 1 3,78E-06 14 2,51E-07 1 2,63E-07 15 1,12E-08 1 1,14E-08 16 2,33E-10 1 2,33E-10 In arancione, le regioni di rifiuto per un test bilaterale con α = 0.05.

La regione di accettazione va quindi da x = 1 (compreso) a x = 8 (compreso) Il valore osservato (x = 2) cade quindi nella regione di accettazione, e l ipotesi nulla non può essere rifiutata I dati sono compatibili con l ipotesi nulla. Non ci sono forti evidenze che i laureandi in medicina fumino di più, o di meno, rispetto alla popolazione generale o Cosa avremmo concluso de avessi fatto un test a una coda, ipotizzando per l ipotesi alternativa che gli studenti di medicina fumano meno rispetto alla popolazione generale?

Calcolo del P-value Il P-value, come sempre, è dato dalla probabilità di osservare, se fosse vera l ipotesi nulla, un campione ugualmente estremo, o più estremo (ossia ugualmente probabile, o meno probabile) di quello osservato realmente o Se questa probabilità risulta inferiore al livello di a prescelto, rifiutiamo l ipotesi nulla perché riteniamo i risultati osservati troppo improbabili (ovviamente non dimenticando che esiste, se rifiutiamo l ipotesi nulla, l errore di primo tipo!) Il P-value nel test binomiale appena visto è quindi la probabilità complessiva di osservare un campione con un valore x uguale al valore osservato nei dati (2 nell esempio) o con valori di x più estremi (cioè meno probabili di quello osservato) o Queste probabilità sono ovviamente (riguardate se necessario cos è il P-value in un test) calcolate assumendo vera l ipotesi nulla, in questo caso che π= π 0 = 0.25 In tabella, dobbiamo sommare tutti i valori di P 0.133635, ossia della probabilità di osservare il campione realmente osservato (x =2) (da entrambe i lati della distribuzione, visto che stiamo facendo un test a due code).

x = numero di fumatori P(x) = Probabilità di osservare x in un campione di 16 fumatori in un campione di 16 individui individui se p = 0.25 0 0,010023 1 0,053454 2 0,133635 3 0,207876 4 0,225199 5 0,180159 6 0,110097 7 0,052427 8 0,01966 9 0,005825 10 0,001359 11 0,000247 12 3,43E-05 13 3,52E-06 14 2,51E-07 15 1,12E-08 16 2,33E-10 Il verde sono indicati tutti i valori di probabilità da sommare per ottenere il P-value. In rosso il valore di x osservato nei dati.

Il P-value risulta quindi pari a 0.387. Essendo minore di α = 0.05, rifiutiamo l ipotesi nulla o Ovviamente le conclusioni ottenute calcando il P-value sono le stesse di quelle viste con l approccio delle regioni di accettazione rifiuto Un modo più semplice anche se le meno preciso per calcolare il P-value consiste nel calcolare la probabilità che il valore di x sia più estremo del valore osservato nella coda della distribuzione, e moltiplicare questo valore per 2 o Nel nostro caso, questo significa sommare le prime tre probabilità nella tabella precedente e moltiplicare per 2: P-value = 2x(0.010023+0.053454+0.133635) = 0.394 Questo valore è leggermente superiore al valore calcolato nella forma più precisa. L approssimazione è quindi conservativa

Esercizio: i geni per la spermatogenesi si trovano soprattutto sul cromosoma X?

Esercizio: la scelta dei maschi nel topo dipende dalla posizione fetale delle femmine?

Test di adattamento di una distribuzione di frequenza osservata alla distribuzione binomiale (è un test di goodness-of-fit)

Ulteriori esempi sulla bontà di adattamento di una distribuzione osservata alla binomiale Esempio 1 La mortalità in pesci in acquario dipende soprattutto dal caso (la scelta casuale di che pesce finisce in quale acquario, e altri eventi che agiscono con uguale probabilità su ciascun pesce) o forse dalla diffusione di malattie contagiose? In 60 acquari vengono inseriti 6 pesci di una certa specie, scelti a caso da una vasca grande. Da quel momento in poi, non si interviene più sugli acquari e dopo un mese si contano i pesci sopravvissuti per ogni vasca. I risultati, come numero di vasche con 0,1,2,3,4,5,6 pesci sopravvissuti, è il seguente: 6,6,12,15,8,7,6.

Esempio 2 Il rapporto tra i due sessi nelle famiglie è casuale?