Obiettivi lezione 4 CAPIRE: distribuzione della popolazione campionata distribuzione di quantità che dipendono dal campione (distribuzioni campionarie) CONOSCERE: Le distribuzioni della media campionaria, delle proporzioni campionarie, della varianza campionaria Le distribuzioni della differenza tra due medie, tra due proporzioni DECIDERE: se si può utilizzare l ipotesi normale se la varianza è conosciuta o incognita (nei casi in cui valga l ipotesi normale ELABORARE: tramite esercizi di interesse applicativo 1
Distribuzione del Campione Distribuzione della POPOLAZIONE su cui facciamo le nostre osservazioni Per capire quale sia la distribuzione del campione devo considerare le caratteristiche del fenomeno in esame. Una raccolta di osservazioni può aiutarmi in tale decisione: guardo l istogramma!. Tutta la popolazione: non solo la parte che osservo! Esempi: Misuro il tempo mutazioni genetiche successive di una specie di grano sottoposta a un certo trattamento. Ripeto l osservazione 10 volte, collezionando 10 valori. Ogni osservazione può venir vista come il valore assunto da una variabile casuale distribuita ESPONENZIALMENTE. Se ho campionato bene le 10 osservazioni possono venir considerate come i valori assunti da 10 variabili casuali esponenziali INDIPENDENTI. Cosa vuol dire campionare bene in questo caso? Misuro la lunghezza del cranio di 5 individui di un certo gruppo etnico. Ogni misura può venir vista come il valore assunto da una variabile casuale con distribuzione NORMALE con µ=30 cm, σ 2 = 4 cm 2. Se ho scelto in modo casuale i 5 individui le 5 osservazioni possono venir considerate come i valori assunti da 5 variabili casuali normali INDIPENDENTI. Cosa vuol dire campionare bene in questo caso? 2
Quantità che dipendono dal campione Media campionaria: Prima dell esperimento Sono variabili casuali Varianza campionaria: Posso studiarne la distribuzione, Media campionaria: Dopo l esperimento Varianza campionaria: Sono numeri Sono i valori assunti da una variabile casuale con distribuzione e 3
Stimatori e stime P R I M A D E L L E S P E R I M E N T O Campione: X 1, X 2,, X n v. casuali indipendenti STIMATORE v. casuale Probabilità che lo stimatore assuma valori in un certo intervallo: P(a < X < b) Es. X=Σ X i n Es. x=σ x i n Campione: x 1, x 2,, x n numeri STIMA numero? Un numero è vero o falso D O P O L E S P E R I M E N T O 4
Distribuzione della media campionaria X PROMEMORIA: La media campionaria è definita da = S n n OSSERVAZIONE: La media campionaria ha un espressione della forma a Possiamo utilizzare il teorema del limite centrale. Se n è sufficientemente grande dove = = Questo è equivalente a dire che è distribuito normalmente con media e varianza 5
Esempio: Consideriamo la proporzione di libro di testo letta da ogni studente che si presenta a un esame. Intervistiamo 50 studenti compiliamo l istogramma 1 e valutiamo la media su tale gruppo; intervistiamone altri 50 e ricaviamo un nuovo valor medio e il nuovo istogramma 2; procediamo in modo analogo per 50 gruppi di studenti. Collezioniamo man mano le medie di ciascun campione con le quali tracciamo l ultimo istogramma: i primi 50 istogrammi corrispondono a delle distribuzioni uniformi l ultimo si avvicina a una normale! PRIMO CAMPIONE SECONDO CAMPIONE TERZO CAMPIONE 16 20 16 14 18 14 16 12 12 14 10 12 10 8 6 No of obs 10 8 No of obs 8 6 4 6 4 4 2 2 2 0 0.0 0.2 0.4 0.6 0.8 1.0 0 0.0 0.2 0.4 0.6 0.8 1.0 0 0.0 0.2 0.4 0.6 0.8 1.0 Upper Boundaries (x <= boundary) 16 QUARTO CAMPIONE Istogramma delle medie campionarie 50 campioni di 50 dati estratti da una popolazione uniforme 14 30 12 25 10 20 No of obs 8 6. No of obs 15 10 4 5 2 0 0.0 0.2 0.4 0.6 0.8 1.0 0 0.40 0.45 0.50 0.55 0.60 0.65 Expected Normal DOMANDA: potrei scegliere un numero diverso di gruppi di studenti? 6
Distribuzione della media campionaria GRANDI CAMPIONI Data una popolazione con una QUALUNQUE distribuzione con media µ e varianza σ 2 la distribuzione della media campionaria X, calcolata da un campione di taglia n, è APPROSSIMATIVAMENTE distribuita come una NORMALE con media µ e varianza σ 2 /n. In pratica: l approssimazione normale è ragionevole se n 30 La media campionaria è ancora distribuita normalmente con media µ però ora la normale ha varianza Come faccio: ho un campione da una popolazione di dimensione finita N senza reinserimento? 7
Stima della media di una popolazione con σ noto tramite X Se la popolazione da cui campioniamo è N(µ,σ 2 ) la v.a. X è ancora Gaussiana con media µ e varianza σ 2 /n. Se campioniamo da una popolazione QUALUNQUE e la taglia del campione è GRANDE la v.a. X è, con buona approssimazione, Gaussiana con media µ e varianza σ 2 /n. X ; n = 20 X ; n = 5 Popolazione 8
Stima della media di una popolazione con σ SCONOSCIUTO tramite X PROMEMORIA Se non conosciamo σ possiamo utilizzare la stima s per valutare σ, però non è più distribuita normalmente. Si dimostra che in questo caso Aiuto! Qui le cose si diventano troppo complicate! Niente paura: esistono della tavole per valutare la probabilità di una variabile di Student! Inoltre se n >30 si comporta come una normale standard. Dipende da n 9
Tavole della t di Student df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005 1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192 2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991 3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240 4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103 5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 0.500 0.375 Probability Density Function y=student(x;5) 6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588 7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079 8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413 9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809 10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869 0.250 0.125 11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370 12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178 13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208 14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405 15 0.257885 0.691197 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728 0.000-3.50-1.75 0.00 1.75 3.50 Gradi di libertà : n-1 taglia del campione-1 16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150 17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651 18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216 19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834 20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495 21 0.256580 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193 Anche se la varianza è incognita conosco la distribuzione della media campionaria! 22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921 23 0.256297 0.685306 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676 24 0.256173 0.684850 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454 25 0.256060 0.684430 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251 26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066 27 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896 28 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739 29 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.6594 30 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75000 3.6460 inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 10
Distribuzione della differenza tra due medie campionarie Se entrambi i campioni sono di taglia sufficientemente grande la differenza delle medie campionarie è ancora normale con MEDIA DIFFERENZA TRA LE MEDIE E VARIANZA SOMMA DELLE SINGOLE VARIANZE Esempio : si considerino gli individui di due popolazioni. Nella prima popolazione gli individui hanno avuto delle esperienze che si ritiene possano aver dato luogo a un ritardo mentale mentre nella seconda queste esperienze non si sono verificate. 15 individui di ciascuna popolazione vengono sottoposti a dei test d intelligenza e si valuta il punteggio medio dei test per gli individui di ciascuna popolazione, ottenendo 92 e 105, rispettivamente. La distribuzione dei punteggi di tali test viene supposta approssimativamente normale con varianza σ 2 =400. Se l esperienza negativa non ha conseguenze sul livello intellettivo qual è la probabilità di osservare una differenza pari a quella tra i campioni considerati ( cioè di 13 punti)? Soluzione La probabilità di avere una differenza di punteggi pari a -13 se le due popolazioni hanno la stessa media è molto piccola: 0.0375 Cosa possiamo concludere in questo caso? 11
Stime di proporzioni p PROMEMORIA: la legge dei grandi numeri ci garantisce che per n grande la frequenza relativa dei successi tende alla probabilità di successo. Possiamo usare, con per stimare p. 12
Distribuzione della proporzione campionaria = Frequenza con cui si è osservato il risultato desiderato Tende al valore della probabilità del risultato desiderato per la legge dei grandi numeri E la somma di n variabili di Bernoulli di parametro p divisa per n Per n grande possiamo applicare il teorema del limite centrale per variabili binomiali: Esempio: In una certa popolazione la probabilità di non vedere i colori è 0.08. Si selezionano a caso 150 individui, con quale probabilità la proporzione di individui incapaci di vedere i colori nel campione considerato è maggiore o uguale di 0.15? Soluzione: (risultato migliorabile con la correzione di continuità) 13
Distribuzione della differenza tra due proporzioni Se entrambi i campioni sono sufficientemente grandi N(0,1) Esempio In una certa popolazione di liceali si sa che il 10% dei ragazzi è obesa. Se la stessa proporzione vale per le ragazze, con quale probabilità in un campione di 250 ragazzi e 200 ragazze si osserva > 0.06? Soluzione: 14
Stime della varianza PROMEMORIA: una stima della varianza può venir effettuata utilizzando lo stimatore Problema: com è distribuita questa variabile intorno a σ 2? Se la popolazione da cui stiamo campionando è distribuita normalmente e il campione è di taglia n la variabile È distribuita secondo la distribuzione del Chi Quadro (tabulata) con (n-1) gradi di libertà. 15
Tavole del Chi Quadro 0.175 Probability Density Function y=chi2(x;8) 0.131 0.087 0.044 0.000 0.00 6.25 12.50 18.75 25.00 Esempio: abbiamo un campione di taglia 11 estratto da una popolazione normale. Utilizzando la tavola abbiamo: Attenzione: questa distribuzione ci servirà anche in altre occasioni! 16
Stimatori Sembra facile adattare i dati a una distribuzione teorica! 17
Metodi per determinare uno stimatore Metodo dei momenti Metodo della massima verosimiglianza. Metodi diversi possono fornire stimatori diversi Occorreranno dei criteri per confrontare i diversi stimatori 18
Metodo dei momenti Criterio: 1. i momenti della distribuzione da cui campioniamo possono venir espressi in funzione dei parametri incogniti di tale distribuzione 2. I momenti possono venir stimati utilizzando il campione Uguagliamo i momenti campionari ai momenti teorici scrivendo un numero di equazioni uguale al numero di parametri che vogliamo stimare Momenti teorici Momenti empirici Ho un problema: in questo modo gli stimatori non sono univocamente definiti! Attenzione: talvolta i sistemi risultanti sono instabili 19
Esempi Cosa capita se invece del momento primo usiamo il momento secondo? Se invece dei momenti assoluti usassi i momenti centrali otterrei gli stessi stimatori? Come si trasformerebbe il metodo dei momenti se invece d essere interessati alla stima di θ fossimo interessati alla stima di τ(θ)? Abbiamo 2 alternative: 20
Metodo della massima verosimiglianza CRITERIO: se abbiamo raccolto un determinato campione ci aspettiamo che il suo verificarsi corrisponda a una situazione molto probabile. E la quarta volta consecutiva che Mario ha una scala reale: non mi piace sospettare della gente ma temo proprio che stia barando! Questa mano mi conviene perdere:diversamente capiranno che sto imbrogliando Siamo molto poco propensi a credere che l evento che stiamo osservando sia UN evento molto raro che si è verificato eccezionalmente! 21
Esempio In un urna ci sono palline nere e palline bianche, il rapporto tra il numero di palline dei due colori è 3/1, non sappiamo però se a favore delle bianche o delle rosse. Estraiamo 3 palline, con reimbussolamento, per decidere se ci sono più palline nere o bianche (cioè se p=0.25 o 0.75) Stimatore di massima verosimiglianza: 22
Esercizi 1 Un estesa analisi rivela che le altezze degli uomini di un certo paese sono distribuite normalmente con media h=1.75 m. e deviazione standard σ =0.05 m. In un campione casuale di 1000 uomini con quale probabilità ci sono più di 100 uomini alti tra 1.75 e 1.80 m? In un campione casuale di 1000 uomini quanti uomini vi attendete con un altezza tra 1.80 e 1.90 m.? Si supponga che i pesi di 5000 studenti maschi di una università ci siano distribuiti normalmente con media 68 Kg e deviazione standard 3 Kg. Se si estrae un campione di 200 studenti come è distribuita la media campionaria? 23
Un ascensore ha una portata massima di 1000 Kg e una capacità massima di 10 persone. Se i pesi di tutte le persone che usano l ascensore sono distribuiti normalmente con una media 90 Kg e deviazione standard di 15 Kg, qual è la probabilità che un gruppo di 10 persone ecceda il limite di portata dell ascensore? Qual è la probabilità che dei primi 1000 bambini nati nel nuovo anno più di 400 siano maschi? (si supponga che sia equiprobabile la nascita di un maschio o di una femmina) In un campione di 16 osservazioni da una popolazione normale con media 150 e varianza 256 determinare P(X < 160) P(X > 140) 24
In una ricerca sullo stato di salute di due popolazioni rivela che nella popolazione A il 55% dei soggetti non hanno malattie cardiovascolari, tale percentuale per la popolazione B scende al 35%. Si sceglie un campione casuale di 120 individui dalla prima popolazione e di 130 individui dalla seconda.con quale probabilità la differenza tra le proporzioni osservate risulta compresa tra 0.3 e 0.4? Si siano misurate 10 lunghezze del femore di un neonato ottenendo x=10 cm con deviazione standard campionaria s = 2 cm. Si determini il valore t per cui Si ripeta l esercizio precedente supponendo di sapere che la deviazione standard della popolazione in esame è σ=2 cm. 25