TEORIA DEI CAMPIONI. Psicometria 1 - Lezione 10 Lucidi presentati a lezione AA 2000/2001 dott. Corrado Caudek

Documenti analoghi
Campionamento casuale da popolazione finita (caso senza reinserimento )

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno

Titolo della lezione. Dal campione alla popolazione: stima puntuale e per intervalli

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

Stima della media di una variabile X definita su una popolazione finita

INFERENZA o STATISTICA INFERENTE

Popolazione e Campione

Politecnico di Milano - Anno Accademico Statistica Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo

STUDIO DEL LANCIO DI 3 DADI

Costo manutenzione (euro)

Quesito 1. I seguenti dati si riferiscono ai tempi di reazione motori a uno stimolo luminoso, espressi in decimi di secondo, di un gruppo di piloti:

Esercitazioni di Statistica

Inferenza statistica. Popolazione. Camp. Statistiche campionarie basate sulle osservazioni del campione. Estrazione casuale. Parametro e statistica

TEST STATISTICI. indica l ipotesi che il parametro della distribuzione di una variabile assume il valore 0

Esercizi di Calcolo delle Probabilità e Statistica Matematica

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2013

Esame di Statistica A-Di Prof. M. Romanazzi

6 Stima di media e varianza, e intervalli di confidenza

SUCCESSIONI DI FUNZIONI

Probabilità 1, laurea triennale in Matematica II prova scritta sessione estiva a.a. 2008/09

Approfondimento 2.1 Scaling degli stimoli mediante il metodo del confronto a coppie

Statistica 1 A.A. 2015/2016

Anemia. Anemia - percentuali

Appunti complementari per il Corso di Statistica

Quartili. Esempio Q 3 Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

Cosa vogliamo imparare?

Titolo della lezione. Campionamento e Distribuzioni Campionarie

Quartili. Esempio Q 3. Me Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

Intervalli di confidenza

Università di Napoli Federico II, DISES, A.a , CLEC, Corso di Statistica (L-Z) Lezione 22 La verifica delle ipotesi. Corso di Statistica (L-Z)

UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA

1.6 Serie di potenze - Esercizi risolti

Esame di Probabilità e Statistica del 9 luglio 2007 (Corso di Laurea Triennale in Matematica, Università degli Studi di Padova).

Intervalli di confidenza

Esercizi di Probabilità e Statistica della 2 a settimana (Corso di Laurea in Matematica, Università degli Studi di Padova).

Lezioni di Matematica 1 - I modulo

Esame di Statistica A-Di Prof. M. Romanazzi

Lezione 5. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 5. A. Iodice.

Consideriamo un insieme di n oggetti di natura qualsiasi. Indicheremo questi oggetti con

Esercitazioni di Statistica Dott. Danilo Alunni Fegatelli

Prof.ssa Paola Vicard

Soluzioni. 2 2n+1 3 2n. n=1. 3 2n 9. n=1. Il numero 2 può essere raccolto fuori dal segno di sommatoria: = 2. n=1 = = 8 5.

SERIE DI POTENZE Esercizi risolti. Esercizio 1 Determinare il raggio di convergenza e l insieme di convergenza della serie di potenze. x n.

2,3, (allineamenti decimali con segno, quindi chiaramente numeri reali); 4 ( = 1,33)

Precorso di Matematica, aa , (IV)

( 4) ( ) ( ) ( ) ( ) LE DERIVATE ( ) ( ) (3) D ( x ) = 1 derivata di un monomio con a 0 1. GENERALITÀ

Teoria dei Fenomeni Aleatori AA 2012/13

IL CALCOLO COMBINATORIO

Scheda n.6: legame tra due variabili; correlazione e regressione

Traccia delle soluzioni degli esercizi del fascicolo 6

MATEMATICA DEL DISCRETO elementi di calcolo combinatorio. anno acc. 2009/2010

Soluzioni Esercizi Capitolo 3

Argomenti trattati: Capitolo 12 libro di testo. Statistica - Metodologie per le scienze economiche e sociali A. Di Ciaccio, S.

Distribuzioni di probabilità

Esercitazioni del corso: ANALISI MULTIVARIATA

Proposizione 1. Due sfere di R m hanno intersezione non vuota se e solo se la somma dei loro raggi e maggiore della distanza fra i loro centri.

CAPITOLO SESTO - STATISTICA INDUTTIVA. moneta buona; ha solo una probabilità molto bassa di verificarsi:

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

PREMESSA. = η valore medio della popolazione = σ deviazione standard della popolazione. Descrizione parametrica di una popolazione

Cenni di topologia di R

RISOLUZIONE MODERNA DI PROBLEMI ANTICHI

CALCOLO COMBINATORIO

SERIE NUMERICHE Esercizi risolti. (log α) n, α > 0 c)

Soluzioni. Se l interallo avesse livello di confidenza 99%, al posto di 1,96 avremmo

15 - Successioni Numeriche e di Funzioni

Programma (orientativo) secondo semestre 32 ore - 16 lezioni

L INFORMAZIONE E LE CODIFICHE

x n (1.1) n=0 1 x La serie geometrica è un esempio di serie di potenze. Definizione 1 Chiamiamo serie di potenze ogni serie della forma

Matematica e Statistica: Modulo di Statistica - Prof. Federico Di Palma - Appello del 12 Febbraio

La correlazione e la regressione. Antonello Maruotti

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE

Calcolo delle Probabilità 2012/13 Foglio di esercizi 3

PRINCIPIO D INDUZIONE E DIMOSTRAZIONE MATEMATICA. A. Induzione matematica: Introduzione

Esercitazioni di Statistica Dott.ssa Cristina Mollica

3.1 Rappresentazione dello stato tensionale nel piano di Mohr: circoli di Mohr.

Algoritmi e Strutture Dati (Elementi)

(1 2 3) (1 2) Lezione 10. I gruppi diedrali.

Lezione 4. Gruppi di permutazioni

Approfondimento 3.3. Calcolare gli indici di posizione con dati metrici singoli e raggruppati in classi

Teoremi limite classici

DETERMINANTI (SECONDA PARTE). NOTE DI ALGEBRA LINEARE

Esercizi sul principio di induzione

Principio di induzione: esempi ed esercizi

Esercitazione parte 1 Medie e medie per dati raggruppati. Esercitazione parte 2 - Medie per dati raggruppati

converge in probabilità alla v.a. X e si scrive: converge in media quadratica alla v.a. X e si scrive: m n

STATISTICA INFERENZIALE SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA

L'ALGORITMO DI STURM Michele Impedovo, Simone Pavanelli

Misure Meccaniche e Termiche. punti massa. Valore atteso: Varianza:

CONCETTI BASE DI STATISTICA

FUNZIONI RADICE. = x dom f Im f grafici. Corso Propedeutico di Matematica. Politecnico di Torino CeTeM. 7 Funzioni Radice RICHIAMI DI TEORIA

LA VERIFICA DELLE IPOTESI SUI PARAMETRI

Lezione 10 - Tensioni principali e direzioni principali

Qual è il numero delle bandiere tricolori a righe verticali che si possono formare con i 7 colori dell iride?

Domande di teoria. Esercizi

Dispensa di STATISTICA DESCRITTIVA

Lezione 8. Statistica sociale Laurea specialistica in Progettazione e gestione del turismo culturale

IPSAA U. Patrizi Città di Castello (PG) Classe 5A Tecnico Agrario. Lezione di martedì 10 novembre 2015 (4 e 5 ora) Disciplina: MATEMATICA

Il campionamento e la distribuzione di Poisson

Cenni di Calcolo di probabilità e. Il concetto di probabilità

Strumenti di indagine per la valutazione psicologica

Transcript:

TEORIA DEI CAMPIONI Psicometria 1 - Lezioe 10 Lucidi presetati a lezioe AA 000/001 dott. Corrado Caudek 1

Nella teoria statistica per popolazioe si itede la totalità delle uità poteziali d'osservazioe. L'isieme dei valori assegati a ciascua uità di osservazioe costituisce la distribuzioe della popolazioe. Solitamete questa distribuzioe è formata da u umero molto grade di casi.

La media della distribuzioe della popolazioe si idica co la lettera µ e la variaza della distribuzioe della popolazioe si idica co σ. Le variabili (come µ e σ) che descrivoo le proprietà della popolazioe soo chiamate parametri. Le variabili che descrivoo le corrispodeti proprietà di u campioe estratto dalla popolazioe (come la media e la variaza deotate da X e S), ivece, soo dette statistiche. 3

Più specificamete, per statistica si itede ua qualuque fuzioe delle variabili aleatorie che costituiscoo u campioe. Dato che soo ach'esse delle variabili aleatorie, ache le statistiche possiedoo ua distribuzioe di probabilità. Tale distribuzioe è detta distribuzioe campioaria. 4

DISTRIBUZIONE CAMPIONARIA 5

DISTRIBUZIONE # 1 Cosideriamo la popolazioe degli studeti uiversitari ed esamiiamo la variabile costituita dall'età. L'isieme dei valori dell'età di ciascuo studete uiversitario costituisce la distribuzioe della popolazioe di questa variabile. Possiamo calcolare la media e la variaza di questa distribuzioe. Questi valori sarao i parametri della popolazioe. Solitamete i parametri della popolazioe o soo direttamete accessibili. Sarebbe molto difficile, per esempio, trovare i dati aagrafici di tutti gli studeti uiversitari. 6

DISTRIBUZIONE # Cosideriamo ora u campioe di studeti uiversitari (ad esempio, quelli i questa aula - otate che questo o è u campioe casuale). Diciamo che ci soo 13 persoe. La distribuzioe del campioe sarà l'isieme dei valori dell'età di tutti gli studeti preseti i questa aula. La media e la variaza di questo isieme di valori soo due statistiche di questo campioe. La gradezza di questo campioe corrispode al umero di studeti che lo compogoo, diciamo = 13. 7

DISTRIBUZIONE # 3 Cosideriamo ora u terzo tipo di distribuzioe. Suppoiamo di esamiare tutti i possibili campioi casuali di gradezza = 13 che si possoo estrarre co reimissioe dalla popolazioe degli studeti uiversitari. Per ciascuo di questi campioi possiamo calcolare ua data statistica. Il valore di questa statistica varierà da campioe a campioe. L'isieme di tutte queste statistiche geera ua uova distribuzioe. Questa distribuzioe si chiama distribuzioe campioaria. 8

Se la statistica calcolata è la media, possiamo defiire la distribuzioe campioaria della media; se la statistica calcolata è la variaza, possiamo defiire la distribuzioe campioaria della variaza. 9

Ua volta calcolata la distribuzioe campioaria di queste due statistiche possiamo chiederci, ad esempio, quali soo la media e la variaza della distribuzioe campioaria della media, quali soo la media e la variaza della distribuzioe campioaria della variaza. 10

La distribuzioe campioaria è ua distribuzioe di probabilità teorica che ci forisce u modello della distribuzioe di frequeza che si otterrebbe per tutti i possibili valori di ua data statistica basata su u campioe di casi se il processo di campioameto veisse ripetuto ifiite volte. 11

La distribuzioe campioaria o è u cocetto del tutto uovo, i quato i precedeza abbiamo già preso i esame ua distribuzioe campioaria. La distribuzioe biomiale ifatti è ua distribuzioe campioaria che ci mostra la probabilità di osservare ciascuo dei possibili umeri di successi che si possoo otteere i u campioe di prove di u processo beroulliao, per tutte le possibili gradezze del campioe. 1

Abbiamo ache esamiato, ad esempio, la distribuzioe campioaria t di Studet, per la statistica t = Y s µ 13

Così come le distribuzioi della popolazioe, ache le distribuzioi campioarie possoo essere discrete o cotiue. La distribuzioe biomiale, ad esempio, è ua distribuzioe discreta, metre la distribuzioe t è ua distribuzioe cotiua. 14

ALCUNE DISTRIBUZIONI CAMPIONARIE ASSOCIATE ALLA DISTRIBUZIONE NORMALE 15

1. Teorema. Sia Y 1, Y,, Y u campioe casuale di gradezza tratto da ua distribuzioe ormale co media µ e variaza σ. La distribuzioe campioaria della media di queste osservazioi è ormale co media e variaza σ = σ Y µ = µ Y Y 16

I base al teorema precedete, duque, la variabile Z Z = Y µ Y Y = µ σ Y σ sarà distribuita ormalmete co media 0 e variaza uitaria. 17

. Teorema. Sia Y 1, Y,, Y u campioe casuale di gradezza tratto da ua distribuzioe ormale co media µ e variaza σ. Sia Z i = (Y - µ)/σ. Allora, la variabile i= 1 Z i sarà distribuita come χ co gradi di libertà. 18

3. Teorema. Sia Y 1, Y,, Y u campioe casuale di gradezza tratto da ua distribuzioe ormale co media µ e variaza σ. Allora, la variabile ( ) 1 σ s sarà distribuita come χ co ( - 1) gradi di libertà. 19

4. Teorema. Sia Y 1, Y,, Y u campioe casuale di gradezza tratto da ua distribuzioe ormale co media µ e variaza σ. La variabile T = Y s µ seguirà la distribuzioe t di Studet co ( - 1) gradi di libertà. 0

5. Teorema. Siao W 1 e W due variabili aleatorie idipedeti distribuite come χ co ν 1 e ν gradi di libertà, rispettivamete. Allora, la variabile F = W W 1 ν ν 1 seguirà la distribuzioe F co ν 1 gradi di libertà al umeratore e ν gradi di libertà al deomiatore. 1

IL CAMPIONAMENTO Campioameto casuale Campioameto a grappoli Campioameto stratificato Campioameto a più stadi

Ua volta chiarita la ozioe di distribuzioe campioaria passiamo ad esamiare le proprietà degli stimatori. 3

PROPRIETA DEGLI STIMATORI 4

U problema cetrale della statistica ifereziale è la stima dei parametri della popolazioe per mezzo delle statistiche del campioe. Il fatto che u campioe rappreseti soltato ua piccola parte della popolazioe fa sì che sia pressoché impossibile che ua data statistica corrispoda esattamete al corrispodete parametro della popolazioe. Ioltre, possiamo dire che statistiche diverse si approssimao i modo diverso ai parametri della popolazioe. Chiediamoci, duque, come si possoo rappresetare le relazioi tra le statistiche e i parametri della popolazioe. 5

Ua parametro può essere stimato secodo due modalità: - mediate la stima putuale - mediate la stima itervallare 6

STIMA PUNTUALE 7

Quattro proprietà soo riteute auspicabili per le statistiche usate quali stimatori dei parametri della popolazioe: 1. correttezza,. efficieza, 3. cosisteza, 4. sufficieza. 8

1. CORRETTEZZA 9

Defiiamo come "predittore equilibrato" (ubiased) o cetrato sul parametro della popolazioe l idice statistico il cui valore atteso è uguale al parametro corrispodete dell uiverso. Detto F u geerico idice statistico, e detto ϕ il parametro corrispodete, diremo che F è u predittore equilibrato di ϕ se E(F) = ϕ 30

. EFFICIENZA 31

L'asseza di distorsioe o è l'uica proprietà desiderabile di uo stimatore. Uo stimatore, ifatti, potrebbe essere cetrato sul parametro perché errori molto gradi di sego positivo vegoo bilaciati da errori molto gradi di sego egativo. Ua secoda proprietà desiderabile di uo stimatore è chiamata "efficieza". 3

Suppoiamo di avere due stimatori F 1 e F cetrati sul parametro φ e calcolati su campioi di eguale gradezza. Siao V(F 1 ) e V(F ) le variaze dei due stimatori. L'efficieza relativa di F 1 rispetto a F è defiita dal rapporto: ( F F ) eff 1, = V V ( F ) ( F ) 1 33

Se F 1 e F soo etrambi stimatori seza distorsioe del parametro φ, l'efficieza di F 1 relativa a F è maggiore di 1 solo se la variaza di F è maggiore della variaza di F 1. I queste circostaze, F 1 è uo stimatore migliore di F. 34

Suppoiamo, ad esempio, di stimare la media della popolazioe usado due stimatori, la mediaa (F 1 ) di u campioe di gradezza e la media (F ) di u campioe di eguale gradezza. Può essere dimostrato che, per campioi di gradi dimesioi, la variaza della mediaa è V(F 1 ) = 1.533 (σ /). 35

Ne segue che l'efficieza della mediaa relativamete alla media campioaria è eff ( F F ) V ( F ) ( F ) σ (1.533) σ 1, = = = V 1 0.6366 La variabilità associata alla media campioaria è duque circa il 64% della variabilità associata alla mediaa campioaria, il che ci cosete di cocludere che è preferibile usare la media campioaria aziché la mediaa quale stimatore della media della popolazioe. 36

http://www.ruf.rice.edu/~lae/stat_sim/samplig_dist/idex.html 37

3. CONSISTENZA 38

Uo stimatore F del parametro φ si dice cosistete quado la dispersioe di F itoro a φ dimiuisce all'aumetare della gradezza del campioe. Esempio. Suppoiamo di effettuare laci di ua moeta. Se i laci soo idipedeti, il umero Y degli esiti "testa" segue ua distribuzioe biomiale co probabilità di osservare l'esito "testa" uguale a p. Ua stima della probabilità p è forita dalla variabile aleatoria corrispodete al rapporto tra Y e il umero di laci della moeta (Y/). 39

Dal puto di vista ituitivo, potremmo aspettarci che la probabilità P Y p ε teda a 1 al crescere di, per qualsiasi arbitrario umero positivo ε. Questo i effetti si verifica co, e la variabile aleatoria (Y/) viee detta uo stimatore cosistete di p. 40

3. SUFFICIENZA 41

Ua statistica F si dice sufficiete per u parametro φ se riassume tutta l'iformazioe rilevate per φ che si trova el campioe. I altre parole, se F è uo stimatore sufficiete per φ allora la stima di φ o può essere migliorata cosiderado altri aspetti dei dati che o siao già stati cosiderati dallo stimatore F. 4

Cosideriamo laci di ua moeta co probabilità p di osservare l'esito "testa". Ciascu lacio X 1, X,, X è ua variabile aleatoria idipedete co la seguete distribuzioe di probabilità: 1, co probabilità X = i 0, co probabilità q = 1 p p 43

I precedeza, per stimare la probabilità p abbiamo usato la variabile aleatoria M : M X i i=1 = = Y 44

Potremmo ora chiederci se esiste ua diversa fuzioe di X 1, X,, X i grado di forire altre iformazioi a proposito di p che o siao già coteute i M. Dato che può essere dimostrato che M riassume tutta l'iformazioe cocerete p presete elle X 1, X,, X, possiamo cocludere che M è ua statistica sufficiete per p. Aalogamete, è stato dimostrato che la media campioaria è uo stimatore sufficiete della media icogita µ di ua popolazioe ormale. 45

VALORI ATTESI E ERRORI STANDARD DEGLI STIMATORI PUNTUALI PIU COMUNI 46

Parametro Gradezza del(i) Campioe(i) Stimatore Valore atteso Errore stadard µ Y µ σ p ˆ = p p pq µ 1 - µ 1 e Y1 Y µ 1 - µ σ 1 σ + 1 47

STIMA INTERVALLARE 48

Le statistiche del campioe (per esempio, la media) o soo mai esattamete uguali ai parametri della popolazioe a causa degli errori itrodotti dal processo di campioameto. E' duque ecessario stabilire l'etità di questo errore. Solitamete questo problema viee affrotato calcolado u itervallo di fiducia, ovvero la gamma dei valori che hao ua probabilità prestabilita di coteere il vero parametro della popolazioe (per esempio, la media). 49

Come si iterpreta u itervallo di fiducia? 50

L'itervallo di cofideza si calcola i base a certe regole sulla base delle iformazioi forite dal campioe. Suppoiamo di costruire l'itervallo di fiducia del 95%, ovvero quell'itervallo che cotiee il parametro della popolazioe co probabilità.95. Estraiamo u campioe casuale dalla popolazioe e calcoliamo l'itervallo di fiducia del 95%. Otteiamo i questo modo due valori che delimitao l'itervallo. Ripetiamo questo processo co u altro campioe casuale. Calcoliamo ache i questo caso l'itervallo di fiducia del 95%. Otterremo così altri due valori che delimitao l'itervallo di cofideza. 51

Se ripetessimo questo processo ifiite volte, ci accorgeremmo che o tutti gli itervalli calcolati i base agli ifiiti campioi casuali estratti dalla popolazioe cotegoo il parametro stimato della popolazioe. Se abbiamo calcolato l'itervallo di fiducia del 95%, allora il parametro della popolazioe sarà coteuto ell'itervallo calcolato soltato el 95% dei casi. 5

I altre parole, dire che u itervallo di fiducia del 95% cotiee il vero parametro della popolazioe co probabilità.95 sigifica dire che, se ripetessimo il processo di campioameto ifiite volte e calcolassimo l'itervallo di fiducia per ciascu campioe, allora otterremmo u itervallo che effettivamete cotiee il vero parametro della popolazioe el 95% dei casi. 53

http://www.ruf.rice.edu/~lae/stat_sim/cof_iterval/idex.html 54

Come si calcola u itervallo di fiducia? Questo problema si risolve decidedo a priori u determiato livello di probabilità e poi trovado due valori, a e b, che cotegoo el loro itervallo il parametro della popolazioe (ad esempio, la media) al livello di probabilità prestabilito. Troviamo ora l'itervallo che ha probabilità.90 di coteere la media della popolazioe. 55

LA DISEGUAGLIANZA DI CEBICEV 56

Per costruire u itervallo di fiducia è possibile usare la disuguagliaza di Cebicev. La diseguagliaza di Cebicev afferma che, per qualuque distribuzioe di probabilità, deve essere vero che: P P σ ε ( X µ ε ) ovvero ( X µ ε ) 1 ε σ 57

58 1 k k X P σ µ Sia ε = kσ. Possiamo allora scrivere: ( ) σ σ σ µ k k X P ( ) 1 k k X P σ µ ( ) 1 k k z P ( ) 1 1 k k z P ovvero

I altre parole: la probabilità che il valore assoluto di u puteggio stadardizzato tratto a caso da ua distribuzioe qualuque sia maggiore o uguale a k è sempre miore o uguale a 1/k. Ad esempio, data ua distribuzioe qualuque co u certa media e variaza, la probabilità di estrarre a caso u osservazioe stadardizzata co u valore maggiore o uguale a (i valore assoluto) deve essere miore o uguale a 1/4. La probabilità di estrarre a caso u osservazioe stadardizzata co u valore maggiore o uguale a 10 (i valore assoluto) deve essere miore o uguale a 1/100. 59

Se possiamo assumere, ioltre, che la distribuzioe è simmetrica e uimodale, allora la relazioe diveta: P 4 9 1 k ( ) z k 60

Esempio. Si calcoli la probabilità di estrarre a caso da ua distribuzioe u osservazioe co u valore di 3 o più deviazioi stadard dalla media. P P ( z k) Se possiamo assumere che la distribuzioe è uimodale e simmetrica, allora la probabilità cercata diveta uguale a: 1 k 1 3 ( z 3) P 4 3 9 1 3 ( z ) 61

6 Allo stesso modo, possiamo dire che vi soo almeo 1-4/9 osservazioi coteute tra ±1 deviazioe stadard dalla media. Vi soo almeo 1 - (4/9) (1/4) osservazioi coteute tra ± deviazioe stadard dalla media. ( ) 1 1 9 4 1 1 z P ( ) 1 9 4 1 z P

APPLICHIAMO ORA LA DISEGUAGLIANZA DI CEBICEV ALLA DISTRIBUZIONE CAMPIONARIA DELLA MEDIA 63

64 Nel caso della distribuzioe campioaria della media, sarà vero che: 1 k k X P X σ µ z > a sigifica z > a e z < -a. Duque, possiamo riscrivere la diseguagliaza precedete come: 1 k k X k P X σ µ

65 ( ) 1 k k X k P X X σ µ σ ( ) 1 k k X k P X X + σ µ σ ( ) 1 k k X k X P X X + σ µ σ 1 k k X k P X σ µ

I coclusioe, la probabilità dell'eveto complemetare (ovvero, la media della popolazioe è compresa all'itero dell'itervallo) sarà duque P ( ) X + kσ µ X kσ X X 1 k 1 66

A questo risultato possiamo attribuire la seguete iterpretazioe: se cosideriamo la distribuzioe campioaria della media, allora l'itervallo compreso tra X kσ X e X + kσ avrà ua probabilità almeo uguale a 1-1/k X di coteere il valore µ della media della popolazioe. 67

Esempio. Quale è la probabilità che la media µ della popolazioe si trovi i u itervallo di ± errori stadard dalla media del campioe? P ( ) X kσ µ X + kσ X X 1 k 1 I questo caso, k =, quidi la probabilità che cerchiamo è maggiore o uguale a 1-1/ =.75. 68

Esempio. Suppoiamo di disporre di u campioe casuale di = 50 osservazioi idipedeti tratte da ua popolazioe co media µ o coosciuta e deviazioe stadard coosciuta e uguale a 0. La media del campioe è uguale a 14. Si determii la probabilità che la vera media della popolazioe sia coteuta ell itervallo X ± 3σ Si redao ioltre espliciti i limiti dell itervallo di fiducia. X 69

P ( ) X 3σ µ X + 3σ 1 X X 3 1 La probabilità che cerchiamo è duque uguale a.89. 70

σ X σ = = 0 = 50.83 14 + 3(.83) = 13.49 14-3(.83) = 115.51 I coclusioe, l itervallo [115.51, 13.49] cotiee la vera media della popolazioe co ua probabilità maggiore o uguale a.89. 71

DISTRIBUZIONE CAMPIONARIA DELLA MEDIA 7

I precedeza abbiamo visto che la distribuzioe campioaria della media di campioi di dimesioi tratti da ua popolazioe ormale co media µ e variaza σ è ormale co media µ e variaza σ /. Cosideriamo ora i maggiore dettaglio la distribuzioe campioaria della media el caso i cui o si possa assumere la ormalità della popolazioe (e duque il teorema precedete o si applica). 73

Izieremo a trovare il valore atteso e la variaza della somma di variabili aleatorie co valore atteso µ e variaza σ. Cosidereremo poi il valore atteso e la variaza della media di variabili aleatorie co valore atteso µ e variaza σ. Euceremo ifie il teorema del limite cetrale. 74

VALORE ATTESO E VARIANZA DELLA SOMMA 75

Sia X ua variabile aleatoria co valore atteso E(X) = µ e variaza V(X) = σ. Sia S la somma di variabili idipedeti X i : S = X 1 + X + + X. ( S ) E( X + X + + X ) = E... = 1 ( X ) E( X ) E( X ) µ = E + +... + = 1 1 76

( S ) V ( X + X + + X ) = V... = = 1 ( ) ( ) ( ) V + + + = X V X... V X σ 1 1 77

I coclusioe, la variabile aleatoria S ha valore atteso E(S ) = µ e variaza V(S ) = σ. 78

VALORE ATTESO E VARIANZA DELLA MEDIA 79

80 Sia M = S /. ( ) ( ) µ µ = = = = S E S E M E 1 1 ( ) ( ) S V S V M V 1 1 σ σ = = = =

I coclusioe, la media M ha valore atteso E(M ) = µ e variaza V(M ) = σ /. 81

Si oti che la variaza della distribuzioe campioaria della media dimiuisce al crescere delle dimesioi del campioe: V(M ) = σ /. Questo sigifica che la media del campioe è uo stimatore cosistete per la media della popolazioe. E stato ioltre dimostrato che la media del campioe è uo stimatore massimamete efficiete, sufficiete e corretto. 8

Ua volta trovata la media e la variaza della distribuzioe campioaria della media, chiediamoci ora quale è la forma della distribuzioe campioaria della media. La risposta a questa domada ci viee data dal Teorema del Limite Cetrale: 83

http://www.stat.sc.edu/~west/javahtml/clt.html http://www.ruf.rice.edu/~lae/stat_sim/samplig_dist/idex.html 84

TEOREMA DEL LIMITE CENTRALE Se è u isieme di variabili aleatorie co valore atteso uguale a e variaza uguale a, allora la distribuzioe di z = X σ µ tede alla distribuzioe ormale stadardizzata co 85

i altre parole: se tutti i possibili campioi di gradezza vegoo estratti da ua popolazioe co media µ e variaza σ, all'aumetare di le medie di questi campioi approssimerao ua distribuzioe ormale co media µ e variaza σ /. 86

Il teorema del limite cetrale è così importate perchè ci cosete di specificare completamete la distribuzioe campioaria della media di campioi casuali di gradezza seza fare essua assuzioe a proposito della forma della distribuzioe della popolazioe. 87

ESERCIZI E1 Esercizi 1-8 Hays, p. 14-15. 88

APPROSSIMAZIONE NORMALE ALLA BINOMIALE 89

Il teorema del limite cetrale afferma che i valori di probabilità della distribuzioe biomiale tedoo a quelli della distribuzioe ormale stadardizzata al crescere di, quado il umero di successi r i prove beroulliae viee trasformato i uità stadard x i base alla formula: x = r p pq 90

Esempio. Ua moeta viee laciata 100 volte. Si trovi la probabilità che la proporzioe di esiti T sia compresa ell'itervallo 40-60. Per risolvere questo problema, trasformiamo i limiti dell'itervallo i puteggi stadardizzati e usiamo la curva ormale per stimare la probabilità E(X) = p = 100.5 = 50. SD(X) = Sqrt(pq) = Sqrt(100.5.5) = 5. z 1 = (40-50)/5 = - z = (60-50)/5 = 91

L area sottesa alla curva ormale tra - e + è 0.9545. Duque, la probabilità di osservare tra i 40 e i 60 esiti T el caso di 100 laci di ua moeta oesta è.9545. Si oti che, per risolvere questo problema, o abbiamo sommato le probabilità della distribuzioe biomiale per tutti i valori compresi tra 40 e 60 successi. Abbiamo ivece usato l'approssimazioe ormale alla biomiale. 9

Esempio. Nelle uiversità americae gli studeti fao domada di ammissioe e l'uiversità decide se ammettere o meo gli studeti i base al puteggio che hao coseguito ei test di ammissioe. No tutti gli studeti che vegoo accettati però si iscrivoo, dato che ciascuo studete fa domada a più uiversità e si iscrive all'uiversità migliore tra quelle che lo hao accettato. 93

Suppoete che u college americao o possa ammettere più di 1060 studeti. Dalle statistiche effettuate egli ai passati si è stabilito che uo studete accettato i questa uiversità ha ua probabilità di.6 di iscriversi. Suppoete ioltre che l'uiversità ivii ua lettera di accettazioe a 1700 studeti i u ao. Quale è la probabilità che a questa uiversità si iscrivao troppi studeti? 94

Cosideriamo l'iscrizioe come u processo berulliao (iscrizioe = successo, o iscrizioe = isuccesso) e usiamo l'approssimazioe ormale alla biomiale. Il valore atteso del umero di iscrizioi, X, è: E(X) = p = 1700.6 = 100. ES = Sqrt(pq) = Sqrt(1700.6.4) = 0. Il valore critico che o dobbiamo eccedere è 1060. Il puteggio stadardizzato si ottiee come: z = (1060-100) / 0 =. 95

I puteggi i eccesso di 1060 rappresetao gli eveti che vogliamo evitare. Il problema è di calcolare la probabilità di questi eveti. Per trovare questa probabilità dobbiamo trovare l'area sottesa alla curva ormale tra.0 e +. Questa probabilità è uguale a 0.075. I coclusioe, la probabilità che si verifichi u eveto idesiderato per gli ammiistratori dell'uiversità avedo accettato 1700 studeti, duque, è molto piccola. 96

ESERCIZIO E Sia S la somma del umero di esiti T i 100 laci di ua moeta oesta. Si usi il TLC per stimare: (a) P(S < 45) (b) P(45 < S < 55) (c) P(S > 63) 97

DISTRIBUZIONE CAMPIONARIA DELLA VARIANZA 98

I precedeza abbiamo detto che la media campioaria forisce ua stima priva di errore sistematico della media della popolazioe. I altre parole, la media della distribuzioe campioaria della media campioaria è uguale alla media della popolazioe. Le cose soo diverse, ivece, per quel che riguarda la variaza di u campioe. La variaza campioaria, ifatti, o forisce ua stima priva di errore sistematico della variaza della popolazioe. I altre parole, la media della distribuzioe campioaria della variaza campioaria è diversa dalla variaza della popolazioe. 99

Si può dimostrare, ifatti, che la media della distribuzioe campioaria della variaza campioaria, E(S ), è uguale alla differeza tra la variaza della popolazioe e la variaza della distribuzioe campioaria della media: E ( ) S = σ σ X I geerale, questa differeza o sarà uguale alla variaza della popolazioe dato che la variaza della distribuzioe campioaria della media o è uguale a zero. Quidi, la variaza del campioe tede ad essere più piccola della variaza della popolazioe. 100

Per correggere questo errore sistematico otiamo che: E σ σ σ 1 σ σ ( ) S = = = La variaza campioaria media, duque, è più piccola della variaza della popolazioe di u fattore uguale a (- 1)/. 101

Per otteere ua stima priva di errore sistematico della variaza della popolazioe modifichiamo duque la variaza del campioe el modo seguete: s = 1 S E' ifatti chiaro che il valore atteso della distribuzioe campioaria della statistica s sarà uguale alla variaza della popolazioe. 10

ESERCIZIO Si dimostri l affermazioe precedete. 103

104 Ua stima priva di errore sistematico della variaza della popolazioe può essere calcolata direttamete dai dati del campioe: ( ) ( ) 1 1 1 = = = X X X X S s i i i i

I coclusioe, duque, usiamo la statistica S per idicare la variaza del campioe quale idice descrittivo, e la statistica s quale stimatore privo di errore sistematico della variaza della popolazioe σ. 105

U ulteriore complicazioe asce dal fatto che la deviazioe stadard è uguale alla radice quadrata della variaza. Dato che la radice quadrata o è ua fuzioe lieare, questo sigifica che la deviazioe stadard o forisce ua stima priva di errore sistematico della deviazioe stadard della popolazioe. Ci soo dei metodi che ci cosetoo di correggere questo errore, ma o li esamieremo dato che, quado la gradezza del campioe è ragioevolmete grade, l'etità di questo errore è trascurabile. 106

La distribuzioe campioaria della variaza di campioi estratti da ua popolazioe ormale o è ormale, ma è collegata alla distribuzioe χ. Abbiamo visto i precedeza che il rapporto tra la variaza del campioe s e la variaza della popolazioe, moltiplicato per ( - 1), si distribuisce secodo la legge χ co ν = - 1 gradi di libertà. I base a questo pricipio, è possibile costruire gli itervalli di fiducia per la variaza della popolazioe sulla base delle iformazioi forite dal campioe. 107

ERRORE STANDARD STIMATO DELLA MEDIA CAMPIONARIA 108

I base al teorema del limite cetrale, el caso di > 30, possiamo dire che la distribuzioe campioaria della media è ormale co media uguale alla media della popolazioe e variaza uguale alla variaza della popolazioe divisa per. I geerale, però, questa coclusioe ci è di poco aiuto dato che la variaza della popolazioe o è coosciuta. E duque ecessario stimare la variaza della popolazioe per calcolare l errore stadard della media. 109

110 Chiediamoci ora come sia possibile stimare l'errore stadard della distribuzioe campioaria della media a partire dai dati di u campioe. Questa stima può essere calcolata i due modi: s s X = = = ˆ σ σ 1 1 ˆ = = = S S X σ σ

I coclusioe, le caratteristiche della distribuzioe campioaria della media soo le segueti. Se possiamo assumere che la popolazioe sia ormale, co media µ e variaza σ, allora la distribuzioe campioaria della media sarà ormale co media uguale a E( X ) = µ co errore stadard uguale a σ = σ X 111

Se la popolazioe ha media µ e variaza σ, ma o è distribuita ormalmete, allora i base al teorema del limite cetrale, co > 30, la distribuzioe campioaria della media sarà approssimativamete ormale co media uguale a E( X ) = µ co errore stadard uguale a σ = σ X 11

I etrambi i casi (popolazioe ormale oppure popolazioe o ormale co campioe > 30 osservazioi), la variaza della popolazioe (solitamete o coosciuta) può essere stimata co s. 113

Se duque possiamo riteere che le medie dei campioi siao distribuite ormalmete co media µ e variaza σ, allora la quatità z = X µ X = µ σˆ X s sarà distribuita come ua variabile ormale stadardizzata. 114

STIMA DEI PARAMETRI DELLA POPOLAZIONE NEL CASO DI PIU CAMPIONI 115

Suppoiamo di avere diversi campioi idipedeti e di volere stimare la media e la variaza della popolazioe. Iiziamo cosiderado il caso di due campioi idipedeti. Per ciascu campioe calcoliamo la media. La stima cogiuta della media della popolazioe sarà: µ ˆ = 1 X 1 + X 1 + ovvero, la media poderata delle medie dei due campioi. 116

Nel caso di 3 campioi avremo: µ ˆ = 1 X 1 + 1 + X + + 3 3 X 3 117

Il fatto che la stima cogiuta della media della popolazioe sia da preferire alla stima separata forita da ciascu campioe è dimostrato dall'errore stadard della stima cogiuta della media. L'errore stadard di ua distribuzioe campioaria, ifatti, ci forisce u'idicazioe del grado di errore che compiamo usado la statistica del campioe per stimare il parametro della popolazioe. 118

Per due campioi idipedeti, ciascuo composto da osservazioi tratte dalla medesima popolazioe, l'errore stadard è: σ X = σ 1 + che è ecessariamete più piccolo dell'errore stadard calcolato a partire da X 1 e X cosiderate isolatamete. 119

Per 3 campioi avremo: σ X = σ + + 1 3 Questi risultati, però, soo espressi ei termii della deviazioe stadard della popolazioe (σ) che, solitamete, o è ota. Possiamo però stimare questo parametro usado la variaza del campioe. 10

11 Nel caso di due campioi idipedeti, la variaza stimata della popolazioe ( ˆ σ ) si può calcolare come: ( ) ( ) ( ) ( ) 1 1 1 1 ˆ 1 1 1 + + = s s σ e l'errore stadard stimato della distribuzioe campioaria della media sarà uguale a: 1 ˆ ˆ X + = σ σ

INTERVALLO DI FIDUCIA PER LA MEDIA (CAMPIONI DI GRANDI DIMENSIONI) 1

I base al teorema del limite cetrale abbiamo stabilito che, per campioi di gradi dimesioi, la quatità Z = Y s µ ha ua distribuzioe ormale stadardizzata. Troviamo ora due valori tali per cui P ( z Z ) = 1 α α zα 13

14

15 α σ µ α α = 1 ˆ z X z P X ( ) α σ µ σ α α = 1 ˆ ˆ X X z X z P ( ) α σ µ σ α α = + 1 ˆ ˆ X X z X z X P ( ) α σ µ σ α α = + 1 ˆ ˆ X X z X z X P

I due limiti dell itervallo di fiducia del 100(1 - α)% soo duque uguali a: X + zα s X zα s 16

Esempio. Il tempo ecessario a 64 idividui per completare il test XYZ è stato estratto a caso da u database che cotiee i dati di tutti gli idividui che si soo sottoposti al test. La media e la variaza di questo campioe soo, rispettivamete, 33 miuti e 56. Si trovi l itervallo che cotiee la vera media della popolazioe co ua probabilità di.90. 17

s 56 ˆ = = = 64 σ X z α = z.05 = 1.645 Y z α ˆ σ = 33 1.645 = X 9.71 Y σˆ 33 + 1.645 + zα = = X 36.9 18

Ache se o possiamo essere sicuri che l itervallo calcolato (9.71, 36.9) cotega effettivamete la media della popolazioe, possiamo però affermare che, se ripetessimo il processo di campioameto e calcolassimo l itervallo di fiducia, gli itervalli così calcolati coterrebbero la vera media della popolazioe el 90% dei casi. 19

ESERCIZI E3 U gerotologo studio le abitudii alimetari delle doe co u'età superiore ai 70 ai. Il gerotologo ipotizza che, i questa fascia d'età, le abitudii alimetari delle doe siao mutate el corso degli ultimi 50 ai. I dati di uo studio di 50 ai fa idicao che la quatità media dei calorie assute gioralmete dalle doe i questa fascia d'età era uguale a 03 calorie. U campioe di 100 doe co u'età maggiore o uguale a 70 ai viee scelto i maiera casuale e la quatità media di calorie assute gioralmete da ciascua di queste doe viee misurata. La media del campioe risulta essere di 1847 calorie gioraliere. Si trovi l'itervallo di fiducia del 95%. 130

E3 I u esperimeto, 00 campioi casuali e idipedeti vegoo estratti dalla medesima popolazioe. Lo sperimetatore ipotizza che la media della popolazioe sia uguale a 67.9. L itervallo di fiducia del 90% viee calcolato per ciascuo dei 00 campioi. Esamiado i risultati, lo sperimetatore si rede coto che alcui di questi itervalli di fiducia o coproo il valore di 67.9. Se la media della popolazioe fosse effettivamete uguale a 67.9, quati di questi itervalli spuri (ovvero, che o coproo la vera media della popolazioe) ci si dovrebbe attedere di trovare? 131

E4 U campioe casuale di 3000 dichiarazioi dei redditi viee cotrollata. Viee cotato il umero di esezioi per ciascua dichiarazioe. La media per questo campioe risulta essere di 3.78 co ua deviazioe stadard di.97. Si calcoli l'itervallo di fiducia del 99% relativo al umero di esezioi per dichiarazioe ella popolazioe. 13

INTERVALLO DI FIDUCIA PER LA MEDIA (CAMPIONI DI PICCOLE DIMENSIONI) 133

Suppoiamo di disporre di u campioe casuale di piccole dimesioi ( < 30) co media Y e variaza s, tratto da ua popolazioe ormale co media µ e variaza σ. I precedeza abbiamo visto che la quatità T = Y µ s segue la distrbuzioe t di Studet co ( - 1) gradi di libertà. 134

Dalle tabelle possiamo trovare i valori -t α/ e t α/ tali per cui P ( t T ) = 1 α α tα -t α/ 0 t α/ 135

I maiera equivalete a ciò che abbiamo fatto i precedeza, i due limiti dell itervallo di fiducia sarao: X + tα s X tα s 136

Esercizio. Da ua popolazioe ormale viee estratto u campioe di = 8 osservazioi, co media 959 e deviazioe stadard (seza errore sistematico) uguale a 39.1. Si calcoli l itervallo di fiducia per la media della popolazioe co u coefficiete di cofideza di.95. 137

Dalle tavole ricaviamo t α/ = t.05 =.365. L itervallo di fiducia del 95% sarà: 959 ±.365 (39.1/Sqrt(8)) = 959 ± 3.7 138

INTERVALLO DI FIDUCIA PER LA VARIANZA 139

Suppoiamo di disporre di u campioe di osservazioi tratto da ua popolazioe ormale co media µ e variaza σ. I precedeza abbiamo otato che la quatità ( ) 1 σ s è distribuita come χ co ( - 1) gradi di libertà 140

141 ( ) 1 S I s P χ σ χ Come i precedeza: Da cui deriva l itervallo di cofideza per σ di 100(1 - α): ( ) ( ) 1, 1 α χ α χ s s

α/ 1 - α α/ 0 χ 1-α/ χ α/ RR RR 14

Esercizio. Uo sperimetatore vuole stabilire la variaza delle misure otteute co uo strumeto per la rilevazioe del volume sooro di ua data fote. Tre misure vegoo otteute: 4.1, 5., 10.. Si stimi la variaza della popolazioe σ co u coefficiete di cofideza di.90. 143

Per i dati preseti, s = 10.57. Se possiamo assumere la ormalità della popolazioe, allora ( 1) s ( 1) χ.05, χ ( ) 10.57 ( ) 5.991,.95.103 s 10.57 ( 3.53, 05.4) 144

Si oti come l itervallo di fiducia sia molto grade, il che è dovuto, i primo luogo, al fatto che è piccolo. 145

INTERVALLO DI FIDUCIA PER UNA PROPORZIONE 146

Ua proporzioe o è altro che il rapporto tra il umero di successi i prove beroulliae e il umero delle prove. I precedeza, discutedo della distribuzioe biomiale abbiamo defiito il umero di successi i prove beroulliae come la somma dei valori assuti da variabili che possoo assumere soltato i valori 0 oppure 1. Abbiamo trovato il valore atteso e la variaza di S, (umero di successi i prove beroulliae). E(S ) = p V(S ) = pq 147

Il problema che ci poiamo ora è di trovare il valore atteso e la variaza di ua proporzioe, ovvero della variabile S (come è stata defiita i precedeza) divisa per il umero di prove. E S 1 1 = = = ( pˆ ) = E E( S ) p p V S 1 1 = = pq = ( pˆ ) V V ( S ) = pq 148

Per ciò che riguarda la forma della distribuzioe campioaria di ua proporzioe, ci limiteremo al caso di campioi di gradi dimesioi. Nel caso di > 100, i base al teorema del limite cetrale possiamo dire che la variabile aleatoria pˆ si distribuisce i maiera approssimativamete ormale. La variabile z seguirà duque la distribuzioe ormale stadardizzata: z p = ˆ pq p 149

I maiera equivalete a ciò che abbiamo fatto i precedeza, i due limiti dell itervallo di cofideza sarao: pˆ ± zα pq Si oti che ella formula precedete l itervallo di fiducia è espresso ei termii dei parametri scoosciuti della popolazioe p, q. 150

Qualora questi parametri vegao stimati a partire dai dati del campioe, l itervallo di fiducia co u coefficiete di cofideza di 1 - α diveta: pˆ ± zα pq ˆ ˆ 151

Esercizio. U campioe casuale di 00 persoe viee itervistato. A ciascuo idividuo viee posta ua domada a cui si può rispodere affermativamete o egativamete. I questo campioe, il 58% degli itervistati rispode affermativamete alla domada cosiderata. Si costruisca l itervallo di fiducia co u coefficiete di cofideza di.95 per la proporzioe di idividui che rispoderebbero affermativamete alla domada ella popolazioe. 15

pˆ ± zα pq ˆ ˆ.58 ± 1.96.58.4 00 ( 0.5116, 0.6484) 153

E5 Su 500 famiglie campioate casualmete, 499 hao forito ua risposta positiva al quesito proposto dall'itervistatore. Si costruisca l'itervallo di fiducia del 95%. 154

E6 I passato u referedum è stato bocciato co il 54% di voti cotrari. I propoeti del referedum raccolgoo u campioe casuale di 1000 poteziali votati e trovao che il 51% di questi è favorevole alla proposta referedaria. Si trovi l'itervallo di fiducia del 99% della proporzioe di votati ella popolazioe che soo favorevoli al referedum. Che cosa suggerisce questo risultato? 155

E7 Suppoiamo di disporre di u campioe co gradezza = 600. La popolazioe da cui il campioe è estratto ha scarto quadratico medio uguale a 0. La media del campioe è 14. (a) Quali soo i limiti di fiducia corrispodeti a 3 errori stadard? (b) Quale è la probabilità che la vera media della popolazioe abbia u valore compreso i questo itervallo i base alla diseguagliaza di Cebicev? (c) Se assumiamo che la distribuzioe campioaria della media sia ormale, quale è la probabilità che la media sia compresa all'itero dell'itervallo di cofideza di 3 errori stadard? 156

E8 Se o è possibile fare alcua assuzioe a proposito della distribuzioe della popolazioe, quale è la probabilità massima di osservare u caso che si scosti più di 1.7 deviazioi stadard dalla media? 157