Note sulla probabilità

Похожие документы
Distribuzioni e inferenza statistica

Teorema del limite centrale TCL

Distribuzione Gaussiana - Facciamo un riassunto -

Il test (o i test) del Chi-quadrato ( 2 )

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Intervalli di confidenza

Vedi: Probabilità e cenni di statistica

DISTRIBUZIONE NORMALE (1)

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Corso C Geomatica. Teoria degli errori. Massimiliano Cannata

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

L indagine campionaria Lezione 3

La distribuzione delle frequenze. T 10 (s)

Il Corso di Fisica per Scienze Biologiche

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Distribuzioni di probabilità

Il campionamento e l inferenza. Il campionamento e l inferenza

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

STATISTICA AZIENDALE Modulo Controllo di Qualità

Capitolo 6. Variabili casuali continue. 6.1 La densità di probabilità

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

TEORIA DEGLI ERRORI DI MISURA, IL CALCOLO DELLE INCERTEZZE

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Approssimazione normale alla distribuzione binomiale

Esercitazione 8 del corso di Statistica 2

Intervallo di confidenza

DISTRIBUZIONI DI PROBABILITA

Esercizi di Probabilità e Statistica

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

UNIVERSITÀ DEGLI STUDI DI PERUGIA

ISTOGRAMMI E DISTRIBUZIONI:

Analisi della varianza

Esercitazione: La distribuzione NORMALE

Variabili aleatorie gaussiane

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

STATISTICA ESERCITAZIONE

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011

LA DISTRIBUZIONE NORMALE

Lezione 12. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 12. A. Iodice.

Statistica Inferenziale

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

Capitolo 6. La distribuzione normale

Statistica. Alfonso Iodice D Enza

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

Capitolo 6 La distribuzione normale

Distribuzioni campionarie

Capitolo 10. La media pesata Calcolo della media pesata

Esercitazione del

Università degli studi della Tuscia. Principi di Statistica dr. Luca Secondi A.A. 2014/2015. Esercitazione di riepilogo Variabili casuali

Elementi di Statistica

Distribuzione di Probabilità

Statistica. Alfonso Iodice D Enza

Schema lezione 5 Intervalli di confidenza

Test di ipotesi su due campioni

Esercitazione n. 3 - Corso di STATISTICA - Università della Basilicata - a.a. 2011/12 Prof. Roberta Siciliano

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Proprietà della varianza

Prova di AUTOVALUTAZIONE (novembre 2009). nota: l esame ha validità solo se incluso nel piano degli studi per l anno accademico corrente.

Esercitazione 8 maggio 2014

ES.2.3. è pari ad 1. Una variabile aleatoria X che assume valori su tutta la retta si dice distribuita

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

FENOMENI CASUALI. fenomeni casuali

Istituzioni di Statistica e Statistica Economica

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

Teoria della probabilità Variabili casuali

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

PROVA SCRITTA DI STATISTICA. cod CLEA-CLAPI-CLEFIN-CLELI cod CLEA-CLAPI-CLEFIN-CLEMIT. 5 Novembre 2003 SOLUZIONI MOD.

Università della Calabria

Distribuzioni di probabilità e principi del metodo di Montecarlo. Montecarlo

Statistica. Lezione 4

Statistica di base per l analisi socio-economica

Teoria e tecniche dei test

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Distribuzione Normale

Due variabili aleatorie X ed Y si dicono indipendenti se comunque dati due numeri reali a e b si ha. P {X = a, Y = b} = P {X = a}p {Y = b}

5. Test per proporzioni: confronto tra campioni e associazione

Variabili aleatorie continue

Транскрипт:

Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15 20 Figura 1: la distribuzione del χ 2 per alcuni valori del parametro N. Se x 1, x 2,..., x N sono N variabili casuali tra loro statisticamente indipendenti e che seguono tutte 1

2 1 - La distribuzione del χ 2 la distribuzione normale standardizzata (ovvero la distribuzione di Gauss con media 0 e varianza 1), si può dimostrare che la nuova variabile casuale N (ovviamente non negativa) è caratterizzata da una densità di probabilità ben determinata che si chiama distribuzione del chi quadro; il parametro N prende il nome di numero di gradi di libertà della distribuzione. Dalla definizione discende immediatamente la cosiddetta regola di somma del χ 2 : ovvero, se X ed Y sono due variabili casuali statisticamente indipendenti entrambe distribuite come il χ 2 con N ed M gradi di libertà rispettivamente, la loro somma Z = X + Y è una variabile casuale ancora distribuita come il χ 2 ; però con N + M gradi di libertà. Speranza matematica e varianza di una variabile casuale X distribuita come il χ 2 ad N gradi di libertà valgono { E(X) = N x i 2 Var(X) = 2N Inoltre, come si può supporre osservando la figura 1, anche la distribuzione del χ 2 tende ad una distribuzione normale (avente la stessa media N e la stessa varianza 2N) al crescere di N; tale approssimazione si può ritenere in pratica già buona quando N è superiore a 30. 1.1 Verifica delle ipotesi col metodo del χ 2 La distribuzione del χ 2 viene spesso usata per verificare la bontà dell accordo tra una ipotesi teorica e dei dati sperimentali. Come esempio, si pensi ad un campione di misure ripetute {x 1, x 2,..., x N } che si ritiene provengano da una distribuzione normale avente media ed errore quadratico medio noti a priori x e σ : ammessa per assurdo vera questa ipotesi, la variabile casuale N ( xi x dovrebbe essere distribuita come il χ 2 con N gradi di libertà. L ipotesi può essere rigettata se il valore calcolato di X è ritenuto troppo grande per poter essere ottenuto sulla base della pura casualità: in pratica bisogna fissare arbitrariamente un valore della probabilità ε che segni il confine tra quelle fluttuazioni ritenute accettabili sulla base della pura casualità e quelle cosí grandi da farci piuttosto ritenere che sia invece falsa l ipotesi di partenza; normalmente si sceglie ε = 99.7% oppure ε = 99%. Operata la scelta, si calcola con l aiuto delle apposite tabelle quel valore X 0 che divide la curva del χ 2 ad N gradi di libertà in due parti con area rispettivamente ε (a sinistra di X 0 ) e 1 ε (a destra); se X > X 0 l ipotesi viene rigettata (ad un livello di confidenza ε), ed accettata altrimenti. Un metodo alternativo è quello di calcolare l area ε sotto la curva del χ 2 ad N gradi di libertà nell intervallo [X, + ]: quanto maggiore è questo valore, tanto migliore è l accordo con l ipotesi. Nel caso che media e varianza della distribuzione normale con cui si esegue il confronto non siano note a priori ma vengano ricavate dal campione stesso attraverso le note formule σ ) 2 x = 1 N N x i e σ x 2 = 1 N 1 N (x i x) 2 si può dimostrare che la variabile N (x i x) 2 σ x 2

1.2 - Dati in istogramma 3 è ancora distribuita come il χ 2 : ma il numero di gradi di libertà è in questo caso N 2. Questo è conseguenza di una legge generale, secondo la quale: Il numero di gradi di libertà da associare a variabili che seguono la distribuzione del χ 2 è dato dal numero di contributi indipendenti (ovvero dal numero di termini con distribuzione normale standardizzata sommati in quadratura: qui N, uno per ogni determinazione x i ) diminuito del numero di parametri che compaiono nella formula e che sono stati ottenuti o stimati dai dati stessi (qui due: la media della popolazione e la sua varianza). 1.1.1 Esercizi Esercizio 1.1: si sono misurati gli angoli interni di 100 triangoli; i risultati sono riassunti nella tabella seguente: 179.3 180.1 179.5 179.7 179.1 179.9 179.7 179.9 179.8 180.4 180.0 179.8 179.6 179.9 180.1 180.2 180.8 180.9 180.5 180.0 180.2 181.3 180.5 180.8 180.2 179.8 180.2 179.8 180.7 180.7 179.9 179.3 180.4 179.9 180.0 179.9 181.2 181.0 180.1 179.6 180.2 179.3 179.8 180.8 181.2 181.0 180.3 180.0 180.1 180.1 180.2 180.1 180.2 180.3 179.5 179.9 181.1 180.1 179.7 180.7 180.4 180.1 179.3 179.7 180.6 180.5 179.4 179.3 180.3 180.7 179.7 179.9 180.3 180.0 180.0 179.4 180.0 180.2 180.0 180.3 180.0 179.7 179.7 180.0 179.6 180.4 179.9 180.3 180.0 181.2 179.0 179.9 180.1 180.7 179.9 180.0 180.0 179.7 179.7 180.0 Si chiede di verificare l ipotesi che i dati provengano da una popolazione normale. 1.2 Dati in istogramma Se vogliamo verificare col metodo del χ 2 l ipotesi che dei dati già istogrammati (dopo aver diviso in classi di frequenza i valori di una variabile casuale x) provengano da una densità di probabilità corrispondente ad una funzione nota f(x), le cose sono piú complesse. Ammessa per assurdo vera l ipotesi: 1. La probabilità che una misura cada nella i-esima classe di frequenza, p i, è data dall integrale di f(x) sulla classe stessa. 2. I possibili valori del numero effettivo di misure che cadono in ogni classe si presenteranno secondo la distribuzione binomiale; quindi il numero medio di eventi atteso nella generica classe vale A i = Np i e la sua varianza σ i 2 = Np i (1 p i ). 3. Se è lecito confondere in ogni classe la binomiale con una distribuzione normale, la variabile M ( ) 2 Ai O i (1.1) (M è il numero delle classi, ed O i il numero di eventi effettivamente osservati in ognuna di esse) segue la distribuzione del χ 2. 4. Se poi è anche lecito confondere in ogni classe la binomiale con una distribuzione di Poisson (quindi se p i 1; che implica p i 2 p i e quindi σ i 2 Np i = A i ), la formula (1.1) diventa σ i M (A i O i ) 2 A i (1.2)

4 1 - La distribuzione del χ 2 5. Il numero di gradi di libertà della distribuzione è M 1: infatti M sono i contributi normali indipendenti alla (1.1) e nei valori di tutte le A i compare N che è ricavato dal campione; o, se la f(x) dipendesse anche da R parametri ricavati dal campione, il numero di gradi di libertà diventerebbe M R 1. Il punto 3 è verificato se in ognuna delle classi A i 5; se cosí non fosse (e se la definizione delle classi è lasciata allo sperimentatore) si possono eventualmente accorpare piú classi. Il punto 4 si può considerare soddisfatto se in ogni classe p i non supera il 10 15 per cento. 1.2.1 Esercizi Esercizio 1.2: nell esperienza dei pendoli, le 100 misure dirette del periodo sono riassunte (già divise in classi di frequenza) nella tabella seguente: t (s) n i 1.750 1.775 0 1.775 1.800 0 1.800 1.825 2 1.825 1.850 3 1.850 1.875 3 1.875 1.900 5 1.900 1.925 7 1.925 1.950 5 1.950 1.975 6 1.975 2.000 13 t (s) n i 2.000 2.025 18 2.025 2.050 17 2.050 2.075 11 2.075 2.100 6 2.100 2.125 3 2.125 2.150 1 2.150 2.175 0 2.175 2.200 0 2.200 2.225 0 2.225 2.250 0 Si chiede di verificare se i dati sono in accordo con l ipotesi di una distribuzione normale. Esercizio 1.3: in uno dei suoi esperimenti, l abate Mendel osservò forma e colore dei frutti di molte piante di piselli, classificandole in quattro categorie come segue (O i è qui il numero di piante osservate in ogni categoria): i Tipo O i 1 Rotondi e gialli 315 2 Rotondi e verdi 108 3 Oblunghi e gialli 101 4 Oblunghi e verdi 32 Totale 556 Sulla base delle sue teorie Mendel si aspettava un rapporto tra le popolazioni delle quattro categorie di 9 : 3 : 3 : 1; i risultati sono in accordo con queste previsioni? Esercizio 1.4: il Bortkewitch studiò il numero di morti per calci di cavallo nell esercito prussiano, registrando i decessi verificatisi in 10 corpi d armata nel corso di 20 anni (per un totale quindi di N = 200 casi). Le frequenze assolute n i del numero di morti per corpo d armata e per anno i sono riassunte nella tabella seguente; si chiede di verificare se i dati sono in accordo con la distribuzione di Poisson. i n i 0 109 1 65 2 22 3 3 4 1 Totale 200

5 2 Soluzione degli esercizi Esercizio 1.1: media ed errore quadratico medio del campione valgono x = 180.092 e σ x = 0.48; inoltre 100 ( ) 2 xi x 99 Un valore almeno pari ad X viene ottenuto da una distribuzione del χ 2 a 98 gradi di libertà nel 45.3% dei casi; quindi l accordo è buono. Esercizio 1.2: σ x 20 15 10 5 0 1.8 1.9 2 2.1 2.2 Figura 2: misure dirette del periodo con il pendolo. media ed errore quadratico medio del campione valgono x = 1.9958 e σ = 0.072518; nella figura 2 è disegnato l istogramma dei dati assieme alla funzione di Gauss di riferimento (normalizzata all istogramma). Nella tabella seguente vi sono i dati necessari al calcolo del χ 2 :

6 2 - Soluzione degli esercizi t (s) p i A i O i < 1.900 0.093242 9.3242 13 1.900 1.925 0.071213 7.1213 7 1.925 1.950 0.099379 9.9379 5 1.950 1.975 0.12329 12.329 6 1.975 2.000 0.13597 13.597 13 2.000 2.025 0.13331 13.331 18 2.025 2.050 0.11619 11.619 17 2.050 2.075 0.09003 9.003 11 2.075 2.100 0.06201 6.201 6 > 2.100 0.075375 7.5375 4 (si sono unite alcune classi in modo da avere A i 5 in ogni intervallo). La formula (1.2) ci permette di calcolare X 13.42, che va confrontato con la distribuzione del χ 2 a 7 gradi di libertà; la probabilità che per motivi casuali si presenti un valore non inferiore a quello trovato è solo del 6.26%: quindi l accordo è assai cattivo. Esercizio 1.3: il numero totale di osservazioni è N = 556; secondo la teoria quindi il numero di eventi A i attesi nelle varie categorie sarebbe: La variabile casuale i p i A i O i Np i q i 9 1 16 = 0.5625 9 N = 312.75 16 315 136.83 3 2 16 = 0.1875 3 N = 104.25 16 108 84.70 3 3 16 = 0.1875 3 16N = 104.25 101 84.70 1 4 16 = 0.0625 1 16N = 34.75 32 32.58 4 (A i O i ) 2 0.47 A i dovrebbe essere distribuita come il χ 2 a 3 gradi di libertà; in realtà la prima classe contiene il 56.25% degli eventi attesi, per cui è meglio usare la (1.1) invece della (1.2). Quindi 4 (A i O i ) 2 0.56 Np i q i Secondo le tabelle, un valore inferiore a quello osservato si presenta casualmente nel 3.26% dei casi (e quindi nel 96.74% dei casi il valore è almeno pari a quello osservato); quindi i risultati sono in accordo piú che ottimo con la teoria. Esercizio 1.4: il numero medio di morti per corpo d armata e per anno è α = 1 N 4 i n i 0.61 i=0 Nella seguente tabella sono riportate le probabilità p i (calcolate dalla distribuzione di Poisson), il numero atteso A i = Np i di decessi ed il numero osservato n i ; i dati per i > 1 sono stati poi raggruppati in un unica classe:

7 i p i A i n i Np i q i 0 0.5434 108.67 109 49.62 1 0.3314 66.29 65 44.32 2 0.1011 20.22 22 18.17 3 0.0206 4.11 3 4.03 4 0.0031 0.63 1 0.62 > 1 0.1252 25.04 26 21.91 100 50 0-1 0 1 2 3 4 5 Figura 3: i dati sperimentali (istogramma) confrontati con le previsioni della teoria (cerchi), per l esercizio 1.4; in linea tratteggiata e con un quadrato sono rappresentati, rispettivamente, i dati e le previsioni per i > 1. La variabile casuale (109 108.67)2 108.67 + (65 66.29)2 66.29 + (26 25.04)2 25.04 0.06278 è distribuita come il χ 2 a 1 grado di libertà; come nell esercizio 1.3 le prime due classi corrispondono a

8 2 - Soluzione degli esercizi p i elevati, per cui è meglio usare la (1.1) invece della (1.2): (109 108.67)2 49.62 + (65 66.29)2 44.32 + (26 25.04)2 21.91 0.08165 Quindi la probabilità di ottenere per motivi puramente casuali un valore almeno pari a quello osservato è del 77.51%, e quindi i dati sono in ottimo accordo con l ipotesi di una distribuzione di Poisson; nella figura 3 la distribuzione teorica è confrontata poi coi dati sperimentali.