Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15 20 Figura 1: la distribuzione del χ 2 per alcuni valori del parametro N. Se x 1, x 2,..., x N sono N variabili casuali tra loro statisticamente indipendenti e che seguono tutte 1
2 1 - La distribuzione del χ 2 la distribuzione normale standardizzata (ovvero la distribuzione di Gauss con media 0 e varianza 1), si può dimostrare che la nuova variabile casuale N (ovviamente non negativa) è caratterizzata da una densità di probabilità ben determinata che si chiama distribuzione del chi quadro; il parametro N prende il nome di numero di gradi di libertà della distribuzione. Dalla definizione discende immediatamente la cosiddetta regola di somma del χ 2 : ovvero, se X ed Y sono due variabili casuali statisticamente indipendenti entrambe distribuite come il χ 2 con N ed M gradi di libertà rispettivamente, la loro somma Z = X + Y è una variabile casuale ancora distribuita come il χ 2 ; però con N + M gradi di libertà. Speranza matematica e varianza di una variabile casuale X distribuita come il χ 2 ad N gradi di libertà valgono { E(X) = N x i 2 Var(X) = 2N Inoltre, come si può supporre osservando la figura 1, anche la distribuzione del χ 2 tende ad una distribuzione normale (avente la stessa media N e la stessa varianza 2N) al crescere di N; tale approssimazione si può ritenere in pratica già buona quando N è superiore a 30. 1.1 Verifica delle ipotesi col metodo del χ 2 La distribuzione del χ 2 viene spesso usata per verificare la bontà dell accordo tra una ipotesi teorica e dei dati sperimentali. Come esempio, si pensi ad un campione di misure ripetute {x 1, x 2,..., x N } che si ritiene provengano da una distribuzione normale avente media ed errore quadratico medio noti a priori x e σ : ammessa per assurdo vera questa ipotesi, la variabile casuale N ( xi x dovrebbe essere distribuita come il χ 2 con N gradi di libertà. L ipotesi può essere rigettata se il valore calcolato di X è ritenuto troppo grande per poter essere ottenuto sulla base della pura casualità: in pratica bisogna fissare arbitrariamente un valore della probabilità ε che segni il confine tra quelle fluttuazioni ritenute accettabili sulla base della pura casualità e quelle cosí grandi da farci piuttosto ritenere che sia invece falsa l ipotesi di partenza; normalmente si sceglie ε = 99.7% oppure ε = 99%. Operata la scelta, si calcola con l aiuto delle apposite tabelle quel valore X 0 che divide la curva del χ 2 ad N gradi di libertà in due parti con area rispettivamente ε (a sinistra di X 0 ) e 1 ε (a destra); se X > X 0 l ipotesi viene rigettata (ad un livello di confidenza ε), ed accettata altrimenti. Un metodo alternativo è quello di calcolare l area ε sotto la curva del χ 2 ad N gradi di libertà nell intervallo [X, + ]: quanto maggiore è questo valore, tanto migliore è l accordo con l ipotesi. Nel caso che media e varianza della distribuzione normale con cui si esegue il confronto non siano note a priori ma vengano ricavate dal campione stesso attraverso le note formule σ ) 2 x = 1 N N x i e σ x 2 = 1 N 1 N (x i x) 2 si può dimostrare che la variabile N (x i x) 2 σ x 2
1.2 - Dati in istogramma 3 è ancora distribuita come il χ 2 : ma il numero di gradi di libertà è in questo caso N 2. Questo è conseguenza di una legge generale, secondo la quale: Il numero di gradi di libertà da associare a variabili che seguono la distribuzione del χ 2 è dato dal numero di contributi indipendenti (ovvero dal numero di termini con distribuzione normale standardizzata sommati in quadratura: qui N, uno per ogni determinazione x i ) diminuito del numero di parametri che compaiono nella formula e che sono stati ottenuti o stimati dai dati stessi (qui due: la media della popolazione e la sua varianza). 1.1.1 Esercizi Esercizio 1.1: si sono misurati gli angoli interni di 100 triangoli; i risultati sono riassunti nella tabella seguente: 179.3 180.1 179.5 179.7 179.1 179.9 179.7 179.9 179.8 180.4 180.0 179.8 179.6 179.9 180.1 180.2 180.8 180.9 180.5 180.0 180.2 181.3 180.5 180.8 180.2 179.8 180.2 179.8 180.7 180.7 179.9 179.3 180.4 179.9 180.0 179.9 181.2 181.0 180.1 179.6 180.2 179.3 179.8 180.8 181.2 181.0 180.3 180.0 180.1 180.1 180.2 180.1 180.2 180.3 179.5 179.9 181.1 180.1 179.7 180.7 180.4 180.1 179.3 179.7 180.6 180.5 179.4 179.3 180.3 180.7 179.7 179.9 180.3 180.0 180.0 179.4 180.0 180.2 180.0 180.3 180.0 179.7 179.7 180.0 179.6 180.4 179.9 180.3 180.0 181.2 179.0 179.9 180.1 180.7 179.9 180.0 180.0 179.7 179.7 180.0 Si chiede di verificare l ipotesi che i dati provengano da una popolazione normale. 1.2 Dati in istogramma Se vogliamo verificare col metodo del χ 2 l ipotesi che dei dati già istogrammati (dopo aver diviso in classi di frequenza i valori di una variabile casuale x) provengano da una densità di probabilità corrispondente ad una funzione nota f(x), le cose sono piú complesse. Ammessa per assurdo vera l ipotesi: 1. La probabilità che una misura cada nella i-esima classe di frequenza, p i, è data dall integrale di f(x) sulla classe stessa. 2. I possibili valori del numero effettivo di misure che cadono in ogni classe si presenteranno secondo la distribuzione binomiale; quindi il numero medio di eventi atteso nella generica classe vale A i = Np i e la sua varianza σ i 2 = Np i (1 p i ). 3. Se è lecito confondere in ogni classe la binomiale con una distribuzione normale, la variabile M ( ) 2 Ai O i (1.1) (M è il numero delle classi, ed O i il numero di eventi effettivamente osservati in ognuna di esse) segue la distribuzione del χ 2. 4. Se poi è anche lecito confondere in ogni classe la binomiale con una distribuzione di Poisson (quindi se p i 1; che implica p i 2 p i e quindi σ i 2 Np i = A i ), la formula (1.1) diventa σ i M (A i O i ) 2 A i (1.2)
4 1 - La distribuzione del χ 2 5. Il numero di gradi di libertà della distribuzione è M 1: infatti M sono i contributi normali indipendenti alla (1.1) e nei valori di tutte le A i compare N che è ricavato dal campione; o, se la f(x) dipendesse anche da R parametri ricavati dal campione, il numero di gradi di libertà diventerebbe M R 1. Il punto 3 è verificato se in ognuna delle classi A i 5; se cosí non fosse (e se la definizione delle classi è lasciata allo sperimentatore) si possono eventualmente accorpare piú classi. Il punto 4 si può considerare soddisfatto se in ogni classe p i non supera il 10 15 per cento. 1.2.1 Esercizi Esercizio 1.2: nell esperienza dei pendoli, le 100 misure dirette del periodo sono riassunte (già divise in classi di frequenza) nella tabella seguente: t (s) n i 1.750 1.775 0 1.775 1.800 0 1.800 1.825 2 1.825 1.850 3 1.850 1.875 3 1.875 1.900 5 1.900 1.925 7 1.925 1.950 5 1.950 1.975 6 1.975 2.000 13 t (s) n i 2.000 2.025 18 2.025 2.050 17 2.050 2.075 11 2.075 2.100 6 2.100 2.125 3 2.125 2.150 1 2.150 2.175 0 2.175 2.200 0 2.200 2.225 0 2.225 2.250 0 Si chiede di verificare se i dati sono in accordo con l ipotesi di una distribuzione normale. Esercizio 1.3: in uno dei suoi esperimenti, l abate Mendel osservò forma e colore dei frutti di molte piante di piselli, classificandole in quattro categorie come segue (O i è qui il numero di piante osservate in ogni categoria): i Tipo O i 1 Rotondi e gialli 315 2 Rotondi e verdi 108 3 Oblunghi e gialli 101 4 Oblunghi e verdi 32 Totale 556 Sulla base delle sue teorie Mendel si aspettava un rapporto tra le popolazioni delle quattro categorie di 9 : 3 : 3 : 1; i risultati sono in accordo con queste previsioni? Esercizio 1.4: il Bortkewitch studiò il numero di morti per calci di cavallo nell esercito prussiano, registrando i decessi verificatisi in 10 corpi d armata nel corso di 20 anni (per un totale quindi di N = 200 casi). Le frequenze assolute n i del numero di morti per corpo d armata e per anno i sono riassunte nella tabella seguente; si chiede di verificare se i dati sono in accordo con la distribuzione di Poisson. i n i 0 109 1 65 2 22 3 3 4 1 Totale 200
5 2 Soluzione degli esercizi Esercizio 1.1: media ed errore quadratico medio del campione valgono x = 180.092 e σ x = 0.48; inoltre 100 ( ) 2 xi x 99 Un valore almeno pari ad X viene ottenuto da una distribuzione del χ 2 a 98 gradi di libertà nel 45.3% dei casi; quindi l accordo è buono. Esercizio 1.2: σ x 20 15 10 5 0 1.8 1.9 2 2.1 2.2 Figura 2: misure dirette del periodo con il pendolo. media ed errore quadratico medio del campione valgono x = 1.9958 e σ = 0.072518; nella figura 2 è disegnato l istogramma dei dati assieme alla funzione di Gauss di riferimento (normalizzata all istogramma). Nella tabella seguente vi sono i dati necessari al calcolo del χ 2 :
6 2 - Soluzione degli esercizi t (s) p i A i O i < 1.900 0.093242 9.3242 13 1.900 1.925 0.071213 7.1213 7 1.925 1.950 0.099379 9.9379 5 1.950 1.975 0.12329 12.329 6 1.975 2.000 0.13597 13.597 13 2.000 2.025 0.13331 13.331 18 2.025 2.050 0.11619 11.619 17 2.050 2.075 0.09003 9.003 11 2.075 2.100 0.06201 6.201 6 > 2.100 0.075375 7.5375 4 (si sono unite alcune classi in modo da avere A i 5 in ogni intervallo). La formula (1.2) ci permette di calcolare X 13.42, che va confrontato con la distribuzione del χ 2 a 7 gradi di libertà; la probabilità che per motivi casuali si presenti un valore non inferiore a quello trovato è solo del 6.26%: quindi l accordo è assai cattivo. Esercizio 1.3: il numero totale di osservazioni è N = 556; secondo la teoria quindi il numero di eventi A i attesi nelle varie categorie sarebbe: La variabile casuale i p i A i O i Np i q i 9 1 16 = 0.5625 9 N = 312.75 16 315 136.83 3 2 16 = 0.1875 3 N = 104.25 16 108 84.70 3 3 16 = 0.1875 3 16N = 104.25 101 84.70 1 4 16 = 0.0625 1 16N = 34.75 32 32.58 4 (A i O i ) 2 0.47 A i dovrebbe essere distribuita come il χ 2 a 3 gradi di libertà; in realtà la prima classe contiene il 56.25% degli eventi attesi, per cui è meglio usare la (1.1) invece della (1.2). Quindi 4 (A i O i ) 2 0.56 Np i q i Secondo le tabelle, un valore inferiore a quello osservato si presenta casualmente nel 3.26% dei casi (e quindi nel 96.74% dei casi il valore è almeno pari a quello osservato); quindi i risultati sono in accordo piú che ottimo con la teoria. Esercizio 1.4: il numero medio di morti per corpo d armata e per anno è α = 1 N 4 i n i 0.61 i=0 Nella seguente tabella sono riportate le probabilità p i (calcolate dalla distribuzione di Poisson), il numero atteso A i = Np i di decessi ed il numero osservato n i ; i dati per i > 1 sono stati poi raggruppati in un unica classe:
7 i p i A i n i Np i q i 0 0.5434 108.67 109 49.62 1 0.3314 66.29 65 44.32 2 0.1011 20.22 22 18.17 3 0.0206 4.11 3 4.03 4 0.0031 0.63 1 0.62 > 1 0.1252 25.04 26 21.91 100 50 0-1 0 1 2 3 4 5 Figura 3: i dati sperimentali (istogramma) confrontati con le previsioni della teoria (cerchi), per l esercizio 1.4; in linea tratteggiata e con un quadrato sono rappresentati, rispettivamente, i dati e le previsioni per i > 1. La variabile casuale (109 108.67)2 108.67 + (65 66.29)2 66.29 + (26 25.04)2 25.04 0.06278 è distribuita come il χ 2 a 1 grado di libertà; come nell esercizio 1.3 le prime due classi corrispondono a
8 2 - Soluzione degli esercizi p i elevati, per cui è meglio usare la (1.1) invece della (1.2): (109 108.67)2 49.62 + (65 66.29)2 44.32 + (26 25.04)2 21.91 0.08165 Quindi la probabilità di ottenere per motivi puramente casuali un valore almeno pari a quello osservato è del 77.51%, e quindi i dati sono in ottimo accordo con l ipotesi di una distribuzione di Poisson; nella figura 3 la distribuzione teorica è confrontata poi coi dati sperimentali.