Teoria della Stima. Stima della Media e di una Porzione di Popolazione. Introduzione. Corso di Laurea in Scienze Motorie AA2002/03 - Analisi dei Dati



Documenti analoghi
Metodi statistici per le ricerche di mercato

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)


Statistiche campionarie

Esercitazione n.2 Inferenza su medie

Inferenza statistica. Statistica medica 1

E naturale chiedersi alcune cose sulla media campionaria x n

1. Distribuzioni campionarie

Statistica. Lezione 6

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Metodi statistici per le ricerche di mercato

Temi di Esame a.a Statistica - CLEF

Elementi di Psicometria con Laboratorio di SPSS 1

Istituzioni di Statistica e Statistica Economica

Elementi di Psicometria con Laboratorio di SPSS 1

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

SPC e distribuzione normale con Access

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Concetto di potenza statistica

La distribuzione Normale. La distribuzione Normale

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

ELEMENTI DI STATISTICA

CAPITOLO 7 LE DISTRIBUZIONI CAMPIONARIE E GLI INTERVALLI DI CONFIDENZA

Dimensione di uno Spazio vettoriale

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Capitolo 4 Probabilità

STATISTICA IX lezione

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Prova di autovalutazione Prof. Roberta Siciliano

Slide Cerbara parte1 5. Le distribuzioni teoriche

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

Appunti sulla Macchina di Turing. Macchina di Turing

Test statistici di verifica di ipotesi

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Capitolo 2 Distribuzioni di frequenza

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Corso di Psicometria Progredito

La distribuzione Gaussiana

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Errori di una misura e sua rappresentazione

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

FONDAMENTI DI PSICOMETRIA - 8 CFU

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

Interesse, sconto, ratei e risconti

4 3 4 = 4 x x x 10 0 aaa

Analisi e diagramma di Pareto

Statistica inferenziale

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Capitolo 12 La regressione lineare semplice

8 Elementi di Statistica

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

I sistemi di numerazione

1 Serie di Taylor di una funzione

Misure della dispersione o della variabilità

PIL : produzione e reddito

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

ESAME DI STATISTICA Nome: Cognome: Matricola:

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Corso di. Dott.ssa Donatella Cocca

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

ESERCIZI DI STATISTICA DESCRITTIVA

STATISTICA ESERCITAZIONE 11 Dott. Giuseppe Pandolfo 3 febbraio Modelli continui di probabilità: la v.c. uniforme continua

Indici di dispersione

I punteggi zeta e la distribuzione normale

La somma. Esempio: Il prodotto. Esempio:

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

Il concetto di valore medio in generale

PRODUZIONE DI LENTI A CONTATTO

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Servizi di consulenza specialistica per IGRUE

Elementi di Psicometria con Laboratorio di SPSS 1

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

QUANTIZZAZIONE diverse fasi del processo di conversione da analogico a digitale quantizzazione

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Esercizi di Macroeconomia per il corso di Economia Politica

Il confronto fra proporzioni

Lineamenti di econometria 2

Capitolo 13: L offerta dell impresa e il surplus del produttore

Esercitazione n.4 Inferenza su varianza

Uso di base delle funzioni in Microsoft Excel

Esercitazioni del corso di Statistica Prof. Mortera a.a. 2010/2011. Esercizi di stima puntuale, intervalli di confidenza e test T 2 = 1 2 X

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni

Perché il logaritmo è così importante?

Transcript:

Teoria della Stima. Stima della Media e di una Porzione di Popolazione Introduzione La proceduta in base alla quale ad uno o più parametri di popolazione si assegna il valore numerico calcolato dalle informazioni ottenute da un campione rappresentativo della popolazione prende nome di Teoria della Stima (Estimation) ed è uno dei processi fondamentali della statistica inferenziale. In questo capitolo ci occuperemo solo della stima della media di una popolazione a partire dalla media campionaria di piccoli e grandi campioni. Tuttavia, la media µ di una popolazione non è il solo parametro che si ricava per via inferenziale, è infatti possibile dare una stima della deviazione standard σ e anche di porzioni percentuali p di una popolazione. Esempi di stima della media vera di una popolazione sono: i) il consumo medio di carburante per 100 km di un certo modello di automobile indicato dalla casa produttrice; ii) il tempo medio impiegato da un operaio per imparare ad utilizzare una nuova macchina utensile; iii) la spesa media mensile per l alimentazione (istruzione, consumi voluttuari, ecc.) di una famiglia. Esempi di stima di una proporzione percentuale vera di una popolazione p sono: i) la stima della percentuale di studenti diplomati che intendono iscriversi ad un dato corso di laurea; ii) la stima della percentuale di elettori favorevoli ad un candidato elettorale (eit pool); iii) la stima della percentuale di telespettatori che seguono un dato programma di varietà (share televisivo). Negli esempi indicati è evidente che non è sempre possibile eseguire un censimento della popolazione per ricavare il valore vero del parametro µ o p: pertanto, si sceglie un campione dalla popolazione di partenza e si calcola il valore della statistica campionaria, media o percentile, alla quale siamo interessati. Successivamente, il valore del corrispondente parametro di popolazione è scelto sulla base del valore della statistica campionaria. Il metodo in base al quale si assegna il valore del parametro di popolazione sulla base del valore calcolato della statistica campionaria è uno dei fondamenti della statistica inferenziale. Ad esempio per dare una stima del tempo medio necessario per apprendere la corretta funzionalità di una macchina utensile da parte di un operaio, il capo reparto prende nota del tempo impiegato da un campione di operai, da questi valori calcola la media campionaria, e sulla base di questo valore assegna un certo valore a µ. Il valore assegnato ad un parametro di popolazione sulla base del valore della corrispondente statistica campionaria è detto stima del parametro di una popolazione. Se il tempo medio impiegato da 40 operai per imparare correttamente le funzione della macchina operatrice è = 5. 5 ore ed assegniamo questo valore alla media della popolazione di tutti gli operai che dovranno usare quel tipo di macchina operatrice, allora il valore della media campionaria, 5.5 ore, è una stima della media della popolazione µ. La statistica campionaria utilizzata per stimare un dato parametro di popolazione è detta stimatore del parametro; quindi, la media campionaria è uno stimatore della media di popolazione µ e la porzione percentuale di un campione (quartile, percentile) è uno stimatore della percentuale di una popolazione, p. Cap.8 Pagina 1 di 17

La procedura per ottenere la stima di un parametro è costituita dagli step. a. Selezionare un campione b. Prendere nota delle informazioni utili per ciascuna elemento del campione c. Calcolare il valore della statistica campionaria d. Assegnare il valore al corrispondente parametro di popolazione. Stime puntuali e di intervallo Stime puntuali Se selezioniamo un campione e calcoliamo il valore della statistica campionaria di questo campione, il valore così ottenuto è una stima puntuale del corrispondente parametro di popolazione: la media campionaria è una stima puntale della corrispondente media di popolazione Ad esempio, l U.S. Census Bureau ha preso un campione di10000 famiglie e ha calcolato che la spesa media mensile di ciascuna famiglia calcolata dal campione è di 875$. Pertanto, se si utilizza come stima puntuale di µ, l U.S. Census Bureau può affermare che la spesa media mensile µ delle famiglie americane è all incirca pari a 874$. Questa procedure è indicata come stimatore puntuale. Quando si usa una stima puntuale è necessario dare una indicazione del margine di errore associato alla stima puntuale. Nel caso della stima della media di una popolazione il margine di errore è calcolato come segue e precisamente si calcola la deviazione standard della media campionaria e la si moltiplica per 1.96; nella formula indicata sopra s è una stima puntuale di σ. Importante. Ciascun campione selezionato da una popolazione è composto da valori diversi della grandezza esaminata, e quindi il valore della media campionaria calcolato per ciascuno di essi sarà diverso. Pertanto il valore assegnato alla media di una popolazione µ sulla base di una stima puntuale dipenderà dal particolare campione che si è estratto, e quindi, la procedura di stima puntuale assegnerà un valore di µ quasi sempre diverso dal valore vero della media di popolazione. Stime di Intervallo Quando si utilizza una stima di intervallo, anziché assegnare un singolo valore al parametro di popolazione, si definisce un intervallo di valori di cui la stima è il centro e si da una indicazione sulla probabilità che questo intervallo contenga il corrispondente parametro di popolazione. Cap.8 Pagina 2 di 17

Con riferimento all esempio delle spesa media mensile delle famiglie USA, anziché utilizzare la stima puntuale ed asserire che questa è pari a 874$, in alternativa possiamo individuare un intervallo di valori della spesa di ciascuna famiglia sottraendo e sommando la medesima cifra al valore della stima puntuale 874$, e affermare che la media di popolazione µ è contenuta in questo intervallo. La Fig.8.1 illustra la procedura di stima di intervallo della spesa media mensile delle famiglie USA, dove alla stima puntuale 874$ è stato aggiunto e sottratto il medesimo valore pari a 110$. L'intervallo evidenziato ha limite inferiore pari a 764$ e limite superiore pari a 984$, e in esso è probabilmente contenuta la media di popolazione µ della spesa mensile delle famiglie americane. La procedura di stima di intervallo lascia in sospeso una domanda relativa a quale valore deve essere sommato e sottratto alla stima puntuale per ottenere una stima di intervallo. La risposta alla domanda dipende a sua volta da due ulteriori considerazioni relative a: 1. Il valore della deviazione standard σ della media campionaria 2. Il livello di confidenza da associare all intervallo di stima. Innanzitutto, maggiore è la deviazione standard di più grande è il valore da sommare e sottrarre alla stima puntuale; in altri termini, se l intervallo di valori che può assumere la stima puntuale è molto grande ne consegue che l intervallo di centro deve essere molto ampio per contenere la media di popolazione µ. In secondo luogo, il valore da sommare e sottrarre a deve essere grande se vogliamo avere una elevata confidenza nell intervallo scelto. Per dare una indicazione di confidenza dell intervallo (intervallo di confidenza) si associa una indicazione di probabilità alla stima di intervallo, e questa indicazione probabilistica è rappresentata dal livello di confidenza. Il livello di confidenza è indicato con (1-α)100% se viene espresso in termini di probabilità il livello di confidenza è detto coefficiente di confidenza ed è indicato con il valore 1-α dove α (lettera greca alfa) è nota come livello di significatività. Cap.8 Pagina 3 di 17

Il valore del livello di confidenza con il quale costruire un intervallo di confidenza può essere un valore qualsiasi ed i valori più comuni sono 90%, 95% e 99% che corrispondono ai livelli di confidenza di 0.90, 0.95 e 0.99. Stime di Intervallo della Media di una Popolazione. Grandi campioni Ricordiamo dal Capitolo 7 che per il calcolo della media campionaria un campione è detto di grandi dimensioni se n è uguale o maggiore di 30. Inoltre, il teorema del limite centrale asserisce che, per un campione di grandi dimensioni, la distribuzione campionaria di è approssimativamente normale indipendentemente dalla della popolazione dalla quale il campione è stato estratto. Questo significa che, quando un campione ha dimensioni pari o superiori a 30 è possibile utilizzare la distribuzione normale per costruire l intervallo di confidenza di µ. Sempre dal Capitolo 7 ricordiamo che la deviazione standard di è pari a σ = σ n ; tuttavia, se la deviazione standard di popolazione è non nota è possibile utilizzare la deviazione standard campionaria s al posto di σ. Di conseguenza useremo quale indicatore di dispersione della distribuzione della media campionaria la deviazione standard della media campionaria al posto della deviazione standard σ = σ n, dove s è una stima puntuale di σ. s = s n Nella formula dell intervallo di confidenza la quantità è noto come errore massimo della stima ed è indicato con E. zσ ( zs quando σ è un valore non noto) A sua volta, il valore di z nella formula dell intervallo di confidenza si ricava dalla distribuzione normale standard (Tabella VII) per dato livello di confidenza. Ad esempio, supponiamo di costruire un intervallo di confidenza (I.C.) per µ pari al 95%. Con riferimento alla Figura 8.2 per Intervallo di Confidenza del 95% (95% I.C.) s intende l area individuata da due punti equidistanti da µ al di sotto della distribuzione N(0,1) di pari a 0.95. Cap.8 Pagina 4 di 17

Per calcolare il valore di z seguiamo la procedura seguente 1. Dividiamo per 2 il valore 0.95 ottenendo 0.4750 2. Localizziamo il valore 0.4750 nella tabella della distribuzione normale standard (Tabella VII) e individuiamo il corrispondente valore di z: valore pari a 1.96. Per il calcolo del livello di confidenza di (1-α)100% si considera che l area compresa fra z e z è pari a 1-α, e poiché l area totale al di sotto della curva normale è 1.0 l area totale al di sotto della curva =0.05nelle due code è uguale a α. Come detto in precedenza questa area al di sotto delle code è detta livello di significatività; nell esempio di Figura 8.2 α=1-0.95 =0.05 e quindi come indicato dalla Figura 8.3 l area al di sotto di ciascuna delle due code è pari ad α/2 1. Esempio 8.1. Una casa editrice ha pubblicato un nuovo libro di testo per college e prima di decidere quale prezzo di copertina indicare vuole conoscere il costo medio di mercato di libri analoghi. L indagine appositamente eseguita su un campione di 36 libri di testo ha indicato un prezzo medio di 70.50$, è noto inoltre che la deviazione standard σ di tutti i libri di testo sul mercato che trattano il medesimo argomento è di 4.50$. (a) Qual è la stima puntuale del prezzo medio di tutti i libri di testo per i college di quel determinato argomento? Qual è il margine di errore per questa stima? (b) Costruire un I.C.90% per il prezzo medio di tutti i libri di testo di quel tipo per il college Ricaviamo la soluzione a partire dalle informazioni a nostra disposizione: la deviazione standard di e pari a Note la media campionaria e la deviazione standard σ è possibile calcolare: (a) la stima puntuale ed il margine di errore di tutti i libri di testo per collage di quel dato argomento, rispettivamente pari a 1 Il valore di z associato al livello di confidenza (1-α)100% è talvolta indicato con z α/2. Cap.8 Pagina 5 di 17

Quindi le informazioni raccolte indicano un stima puntuale del prezzo dei libri di testo di quel tale argomento pari a 70.50$ con un margine di errore di ±1.47$ 2. (b) L intervallo di confidenza chiesto è 90% o 0.90. Dividiamo 0.90 per 2 ottenendo 0.4500 e ricaviamo il corrispondente valore di z dalla Tabella VII. Dal valore approssimato 0.4505 otteniamo z = 1.65, e sostituendo il valore di z così ottenuto nella formula di I.C. per µ, si ottiene quale valore di I.C.90% per la media di popolazione Alla luce di questo risultato noi siamo confidenti al 90% che il prezzo medio di tutti i libri di testo di quel dato argomento per il college è compreso fra 69.26$ e 71.74$. Si osservi che non possiamo dire con sicurezza che l intervallo compreso fra 69.26$ e 71.74$ contiene o meno la media vera della popolazione. Poiché µ è un valore costante non possiamo dire che questo intervallo contiene il valore di µ con probabilità 0.90; infatti, l intervallo contiene m o in alternativa non lo contiene e quindi la probabilità è uguale a 1 oppure 0 rispettivamente nel caso in cui lo contenga o non lo contenga. Tutto ciò che possiamo dire è che noi siamo confidenti al 90% che il prezzo medio di tutti i libri di testo di quel dato argomento per il college è compreso fra 69.26$ e 71.74$. Dobbiamo quindi interpretare l intervallo di confidenza in modo diverso. Riferendoci all Esempio 8.1, se prendiamo tutti i possibili campioni di 36 libri di testo per college e per ciascuno costruiamo un I.C.90% per la media µ, intervallo di confidenza centrato attorno alla media campionaria, possiamo aspettarci che il 90% degli I.C. contenga il valore medio vero µ e che il 10% non lo contenga. Questa interpretazione dell I.C. è illustrata in Figura 8.4 dove sono indicati tra valori della media campionaria 1, 2 e 3 con il rispettivo I.C.90% centrato nella media campionaria: l intervallo di confidenza costruito attorno a 1 ed 2 contiene µ mentre l I.C.90% centrato in 3 non lo contiene. Nell esempio 8.1 il valore della deviazione standard della popolazione σ è noto, nel caso in cui questo non sia noto utilizziamo la deviazione standard campionaria s come stima di σ e stimiamo la deviazione standard σ della media campionaria con s. Di conseguenza nella formula per il calcolo dell intervallo di confidenza per il valore medio vero m utilizziamo s al posto di σ. Tuttavia, grazie al teorema del limite centrale per campioni di grandi dimensioni (n 30) per il 2 Il margine di errore è l errore massimo di stima per un I.C.95%. Cap.8 Pagina 6 di 17

calcolo di I.C. e sempre possibile utilizzare la distribuzione normale anche se σ è un valore non noto. Esempio 8.2. L ufficio Statistico USA per il controllo sul lavoro raccoglie regolarmente le informazioni sul mercato del lavoro. I dati a disposizione valori raccolti su un campione di 1600 lavoratori nel maggio 1999 indicano che lo stipendio settimanale medio dei lavoratori manifatturieri è pari a 577$ con una deviazione standard di 80$,. Vogliamo calcolare l intervallo di confidenza al 99% per la media della popolazione del guadagno settimanale delle industrie manifatturiere nell anno 1999. Dalle informazioni a disposizione calcoliamo innanzitutto il valore della deviazione standard della madia campionaria e poiché σ è non nota utilizziamo s al posto di σ. Il valore di s è pari a Poiché il campione è di grandi dimensioni (n 30) utilizziamo la distribuzione normale per calcolare l intervallo di confidenza per µ. Per calcolare il valore di z al quale corrisponde un area di 0.99 eseguiamo la divisione 0.99/2 = 0.4985 e dalla Tabella VII ricaviamo approssimativamente z=2.58. Infine, sostituendo i valori di s e z nella formula per il calcolo di I.C. otteniamo quale valore dell intervallo di confidenza al 99% per la media µ dello stipendio settimanale dei lavoratori delle industrie manifatturiere Quindi possiamo affermare con il 99% di confidenza che lo stipendio medio settimanale dei lavoratori manifatturieri USA nel maggio 1999 era compreso fra 571.84$ e 562.16$. Larghezza dell intervallo di confidenza. L ampiezza dell intervallo di confidenza dipende dalle dimensioni dell errore massimo zσ il quale a sua volta dipende dal valore di z, σ ed ν poiché σ = σ n. Tuttavia il valore di σ non è sotto il controllo dell investigatore e, di conseguenza la ampiezza dell intervallo di confidenza dipende da 1. Il valore di z, che dipende a sua volta dal livello di confidenza 2. Le dimensioni del campione n Il livello di confidenza determina il valore di z il quale a sua volta determina l entità dell errore massimo. Come indicato in precedenza, il valore di z aumenta o diminuisce, all aumentare o al diminuire del livello di confidenza; infatti, il valore di z è circa uguale a 1.65 per un I.C. 90%, 1.96 per un I.C. 95% e approssimativamente pari a 2.58 per un intervallo di confidenza del 99%. Quindi a parità dei valori di σ ed n più elevato è il livello di confidenza maggiore è l ampiezza dell intervallo di confidenza. A partire dal medesimo valore di σ un aumento delle dimensioni del campione diminuisce il valore di σ, che a sua volta porta ad una diminuzione dl valore massimo quando il livello di Cap.8 Pagina 7 di 17

confidenza rimane inalterato. Pertanto, un aumento delle dimensioni del campione provoca una riduzione dell intervallo di confidenza. Pertanto, se si desidera diminuire l ampiezza dell intervallo di confidenza abbiamo le seguenti due possibilità 1. Abbassare il livello di confidenza 2. Aumentare le dimensioni del campione Abbassare il livello di confidenza non è la strategia corretta perché un livello di confidenza minore può dar luogo a risultati stime della media di popolazione meno affidabili. Pertanto, per diminuire l ampiezza dell intervallo di confidenza è sempre consigliato aumentare le dimensioni del campione. 1. Livello di Confidenza e Larghezza dell Intervallo di Confidenza Consideriamo nuovamente l Esempio 8.2 mantenendo inalterate le informazioni iniziali n= 1600, = 577$ e s = 80$ - e diminuiamo il livello di confidenza dall iniziale valore 99% al 95%. Dalla Tabella VII per un I.C. 95% il valore di z = 1.96 quindi l intervallo di confidenza diviene Un rapido confronto con il valore calcolato nell Esempio 8.2 mette in evidenza che l intervallo di confidenza per un livello di confidenza del 95% ha larghezza inferiore rispetto al valore ottenuto per un I.C. del 99%. 2. Dimensioni del Campione e Larghezza dell Intervallo di Confidenza Sempre a partire dall Esempio 8.2, supponiamo ora che le informazioni relative alla media campionaria ed alla deviazione standard dello stipendio settimanale dei dipendenti delle industrie manifatturiere siano state ricavate da un campione di dimensioni n=2500; supponiamo inalterati i valori di, s e I.C. 99%. Calcoliamo innanzitutto la deviazione standard della media campionaria per n=2500; da questa si calcola l I.C. al 99% per µ Confrontando questo valore di I.C. con il valore calcolato nell Esempio 8.2 è evidente che la larghezza dell intervallo di confidenza al 99% per n=2500 è minore dell I.C. 99% per n=1600. Esercizi aggiuntivi. Cap.8 Pagina 8 di 17

Cap.8 Pagina 9 di 17

Stime di Intervallo della Media di una Popolazione. Piccoli campioni Nella sezione precedente abbiamo trattato diffusamente la stima della media di una popolazione a partire dalla media campionaria calcolata per grandi campioni (n 30), e si è osservato che indipendentemente dalla conoscenza o meno a priori della deviazione standard vera della popolazione per dare una stima del valore vero della popolazione si è sempre fatto uso della distribuzione di probabilità normale. Come dimostrato nel Capitolo 7 si usa la distribuzione di probabilità normale poiché, in accordo con il teorema del limite centrale, la distribuzione di probabilità della media campionaria, per grandi campioni, è approssimativamente normale indipendentemente dalla forma della distribuzione della popolazione. Tuttavia, per ragioni legate alla natura dell esperimento difficoltà nel reperire i dati la maggior parte delle volte le dimensioni del campione sono piccole (n<30). Tipico esempio è la sperimentazione di nuovi farmaci, dove per ragioni etiche, di costo della sperimentazione o per l assenza di volontari, gli sperimentatori non hanno sempre a disposizione un numero di pazienti sufficientemente elevato da costituire un campione di grandi dimensioni. Nel caso in cui il campione sia piccolo, è ancora possibile utilizzare la distribuzione normale per costruire un intervallo di confidenza per la media vera della popolazione µ purché (1) la popolazione dalla quale è stato estratto il campione è distribuita normalmente, e (2) il valore della deviazione standard σ sia noto. Tuttavia, la maggior parte della volte, non conosciamo il valore di σ e dobbiamo usare il valore della deviazione standard campionaria s che s è una stima puntuale di σ, ed in questi casi la distribuzione di probabilità normale non può essere utilizzata per definire un intervallo di confidenza per µ. Nel caso in cui (1) la popolazione dalla quale è stato estratto il campione è approssimativamente normale, (2) il campione è di piccole dimensioni (n<30), e (3) non è nota la deviazione standard σ della popolazione, la distribuzione normale è sostituita dalla distribuzione t (t distribution) con la quale è possibile costruire un intervallo di confidenza attorno alla media vera della popolazione. La distribuzione t La distribuzione t è stata sviluppata da W. S. Gosset nel 1908 e pubblicata sotto lo pseudonimo Student, per questa ragione è nota come distribuzione t di Student. In una qualche misura la distribuzione t è simile alla distribuzione normale La distribuzione t è simmetrica (a forma di campana) attorno al valore medio e non interseca mai l asse orizzontale. L area al disotto della curva della distribuzione t è uguale a 1.0 o 100% Si differenzia dalla normale in quanto Cap.8 Pagina 10 di 17

La curva della distribuzione t è più schiacciata della distribuzione normale standard, o, in altre parole, ha minore altezza ed è più dispersa della distribuzione normale standard. In termini statistici, la distribuzione t di Student ha una deviazione standard maggiore rispetto alla distribuzione normale standard. Tuttavia, all aumentare delle dimensioni del campione la distribuzione t approssima la distribuzione normale standard. La variabile della distribuzione t è indicata con la lettera t. La forma di una particolare distribuzione t dipende da un parametro noto come numero di gradi di libertà (df), dove per numero di gradi di libertà si intende una quantità pari alla dimensioni del campione meno uno 3, cioè Il numero di gradi di libertà è il solo parametro della distribuzione t, e per ciascun valore di df vi è una diversa distribuzione t. Analogamente alla distribuzione normale standard la distribuzione t ha valore medio uguale a 0, ma diversamente dalla distribuzione normale, la cui deviazione standard è uguale a 1, la deviazione standard della distribuzione t è sempre maggiore di uno ed è uguale a df ( df 2), il che conferma che la distribuzione t ha una deviazione standard maggiore della normale standard. La Figura 8.5 mostra a confronto la distribuzione normale standard e la distribuzione t per df=9: la distribuzione normale standard ha deviazione standard σ uguale a 1.0, mentre la distribuzione t ha deviazione standard pari a df ( df 2 ) = 9 ( 9 2) = 1. 134 Il numero di gradi di libertà. df =n 1, della distribuzione t è uguale al numero delle osservazioni nel campione che può essere scelto liberamente. Per chiarire meglio il suo significato supponiamo di conoscere la media di 4 valori e che questa sia uguale a 20; di conseguenza la somma di questi quattro valori è 20(4)=80. Poniamoci ora la domanda quanti di questi 4 valori possono essere scelti liberamente, visto che la loro somma deve essere uguale ad 80? Il numero di valori che possono essere scelti liberamente è 4-1=3. Infatti, supposto di scegliere 27, 8 e 19 come primi 3 valori, affinché la media del campione formato da tutti e 4 i valori sia uguale a 20 il quarto valore risulta automaticamente determinato dalla scelta dei primi tre ed è uguale a 80- (27+8+19)=26. Di conseguenza il numero di gradi di libertà del campione utilizzato per questo esempio è pari a 3 Il numero di gradi di libertà ha un significato più generale di numero di osservazioni meno uno, tuttavia per gli scopi di questo capitolo la definizione df = n 1 è la più indicata per illustrare la funzione di questo parametro. Cap.8 Pagina 11 di 17

df = n 1 = 4 1 = 3 In altre parole sottraiamo 1 al valore di n poiché perdiamo un grado di libertà nel calcolo del valore medio. La Tabella VIII riportata in coda al capitolo riporta i valori di t per dato numero di gradi di libertà e l area al di sotto della coda di destra della distribuzione t. Poiché la distribuzione t è simmetrica è possibile calcolare un analogo valore dell area per i medesimi valori di df e per valori di t che caratterizzano la coda di sinistra della distribuzione t di Student. L esempio 8-3 illustra come utilizzare la Tabella VIII. Esempio 8-3. Trovare il valore di t per un numero di gradi di libertà df=16 e un area al di sotto della coda di destra della distribuzione t paria a 0.05. Il valore di t nella coda di destra della distribuzione t si ottiene individuando nella I colonna la riga corrispondente al numero di gradi di libertà df =16 ed il valore di area 0.05 nella I riga della Tabella 8.1. Il valore di t calcolato dalla Tabella 8.1 è mostrato nella Figura 8.6. poiché la distribuzione t è simmetrica rispetto al valore medio 0, il valore di t per 16 gradi di libertà e un area di dimensioni 0.5 al di sotto della coda sinistra della distribuzione e uguale a 1.75 come indicato dalla Figura 8.7. Cap.8 Pagina 12 di 17

Intervallo di confidenza per m usando la distribuzione t Si è detto in precedenza che usiamo la distribuzione t per costruire l intervallo di confidenza per la media di popolazione µ quando valgono le seguenti condizioni. 1. La popolazione dalla quale è stato estratto il campione è approssimativamente normalmente distribuita 2. Il campione è di piccole dimensioni 3. La deviazione standard della popolazione è non nota Esempio 8-4. Al Dott. Moore è stato chiesto di valutare il livello medio di colesterolo di tutti gli uomini adulti che vivono nella città di Harford. Ha scelto un campione di 25 uomini adulti tutti residenti in Harford ed ha rilevato che il livello di colesterolo medio per il campione di soggetti esaminato è = 186mg/dl con una deviazione standard di s=12 mg/dl. Assumiamo che il livello di colesterolo degli abitanti di Hartford e costruiuamo l intervallo di confidenza al 95% per la media vera della popolazione µ. Le informazioni a nostra disposizione sono le seguenti Da questi il valore di s è uguale a Per calcolare il valore di t dobbiamo innanzitutto calcolare il numero di gradi di libertà e l area al di sotto della distribuzione t in ciascuna coda. Il valore di df è Per calcolare l area in ciascuna coda dividiamo il livello di confidenza per 2 e sottraiamo il numero così ottenuto dal valore 0.5 cioè dall area totale al disotto di ciascuna parte della distribuzione t a destra e sinistra del valore medio 0. Infine dalla Tabella VIII calcoliamo il valore di t per df = 24 e per un area al di sotto della coda di destra della distribuzione. Il valore di t è indicato in Figura 8.8 e la Tabella 8.2 illustra la procedura per la sua individuazione. Cap.8 Pagina 13 di 17

Tabella 8.2. Determinazione di t per df=24 e 0.025 quale valore dell area al disotto della coda di destra. Area nella coda di destra Area nella Coda di Destra sotto la Curva di Distribuzione t df 0.10 0.05 0.025 0.01 0.005 0.001 df 1 3.078 6.314 12.706 31.821 63.656 318.289 2 1.886 2.920 4.303 6.965 9.925 22.328 24 1.318 1.711 2.064 2.492 2.797 3.467 25 1.316 1.708 2.060 2.485 2.787 3.450 40 1.303 1.684 2.021 2.423 2.704 3.307 1.282 1.645 1.960 2.326 2.576 3.090 Sostituendo nella formula per il calcolo dell intervallo di confidenza per il valore medio vero µ i valori di = 186, t = 2.064 e s = 2. 40 si ottiene Valore di t Quindi possiamo affermare con il 95% di confidenza che il livello medio di colesterolo per tutti gli uomini adulti che vivono nella città di Hartford è contenuto fra gli estremi 181.05 e 190.95. Ricordiamo inoltre che il valore della media campionaria = 186 è una stima puntuale della media vera µ della popolazione dei valori di livello di colesterolo per i residenti uomini di Hartford Esempio 8-5. Da un indagine eseguita dall IRS è emerso che la media delle deduzioni chieste a rimborso dai cittadini USA per l anno 1997 ammonta a 16615$. Supponiamo che questa media sia stata calcolata a partire da un campione di 25 contribuenti, scelti a caso fra tutti coloro che hanno fatto domanda di rimborso, e che la deviazione standard delle deduzioni risultante dall indagine sia pari a 2000$. Supponiamo inoltre che la distribuzione della popolazione delle deduzioni chieste a rimborso sia approssimativamente normale. Vogliamo individuare l intervallo di confidenza al 995 per la corrispondente media di popolazione. Le informazioni a nostra disposizione sono Cap.8 Pagina 14 di 17

Calcoliamo la deviazione standard di, il numero di gradi di libertà df e l area in ciascuna coda della distribuzione t. Dalla tabella della distribuzione t (Tabella VIII) si ottiene t = 2.797, valore ottenuto per 24 gradi di libertà e area al di sotto della coda destra pari a 0.005, quindi l intervallo di confidenza per µ è uguale a Quindi sulla base del campione analizzato possiamo affermare con il 99% di confidenza che la deduzione media chiesta a rimborso da tutti i contribuenti USA per l anno 1997 era compresa fra 15496.20 e 17733.80 Importante. Anche per la stima dell intervallo di confidenza di piccoli campioni, estratti da una distribuzione approssimativamente normale della quale non si conosce la deviazione standard σ, è possibile diminuire la larghezza dell intervallo di confidenza abbassando il livello di confidenza. Tuttavia così come è stato sottolineato nel caso di stime di µ a partire da campioni di grandi dimensioni (n 30) la strategia migliore è l aumento delle dimensioni del campione. Esercizi aggiuntivi. Cap.8 Pagina 15 di 17

Cap.8 Pagina 16 di 17

TABELLA VIII. TABELLA DELLA DISTRIBUZIONE t Area nella Coda di Destra sotto la Curva di Distribuzione t df 0.10 0.05 0.025 0.01 0.005 0.001 1 3.078 6.314 12.706 31.821 63.656 318.289 2 1.886 2.920 4.303 6.965 9.925 22.328 3 1.638 2.353 3.182 4.541 5.841 10.214 4 1.533 2.132 2.776 3.747 4.604 7.173 5 1.476 2.015 2.571 3.365 4.032 5.894 6 1.440 1.943 2.447 3.143 3.707 5.208 7 1.415 1.895 2.365 2.998 3.499 4.785 8 1.397 1.860 2.306 2.896 3.355 4.501 9 1.383 1.833 2.262 2.821 3.250 4.297 10 1.372 1.812 2.228 2.764 3.169 4.144 11 1.363 1.796 2.201 2.718 3.106 4.025 12 1.356 1.782 2.179 2.681 3.055 3.930 13 1.350 1.771 2.160 2.650 3.012 3.852 14 1.345 1.761 2.145 2.624 2.977 3.787 15 1.341 1.753 2.131 2.602 2.947 3.733 16 1.337 1.746 2.120 2.583 2.921 3.686 17 1.333 1.740 2.110 2.567 2.898 3.646 18 1.330 1.734 2.101 2.552 2.878 3.610 19 1.328 1.729 2.093 2.539 2.861 3.579 20 1.325 1.725 2.086 2.528 2.845 3.552 21 1.323 1.721 2.080 2.518 2.831 3.527 22 1.321 1.717 2.074 2.508 2.819 3.505 23 1.319 1.714 2.069 2.500 2.807 3.485 24 1.318 1.711 2.064 2.492 2.797 3.467 25 1.316 1.708 2.060 2.485 2.787 3.450 26 1.315 1.706 2.056 2.479 2.779 3.435 27 1.314 1.703 2.052 2.473 2.771 3.421 28 1.313 1.701 2.048 2.467 2.763 3.408 29 1.311 1.699 2.045 2.462 2.756 3.396 30 1.310 1.697 2.042 2.457 2.750 3.385 31 1.309 1.696 2.040 2.453 2.744 3.375 32 1.309 1.694 2.037 2.449 2.738 3.365 33 1.308 1.692 2.035 2.445 2.733 3.356 34 1.307 1.691 2.032 2.441 2.728 3.348 35 1.306 1.690 2.030 2.438 2.724 3.340 36 1.306 1.688 2.028 2.434 2.719 3.333 37 1.305 1.687 2.026 2.431 2.715 3.326 38 1.304 1.686 2.024 2.429 2.712 3.319 39 1.304 1.685 2.023 2.426 2.708 3.313 40 1.303 1.684 2.021 2.423 2.704 3.307 1.282 1.645 1.960 2.326 2.576 3.090 Cap.8 Pagina 17 di 17