E naturale chiedersi alcune cose sulla media campionaria x n



Documenti analoghi

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Istituzioni di Statistica e Statistica Economica

Analisi di dati di frequenza

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Statistiche campionarie

La variabile casuale Binomiale

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

1. la probabilità che siano tutte state uccise con pistole; 2. la probabilità che nessuna sia stata uccisa con pistole;

STATISTICA INFERENZIALE

1. Distribuzioni campionarie

Statistical Process Control

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

1 Serie di Taylor di una funzione

La distribuzione Normale. La distribuzione Normale

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

Esercizi del Corso di Statistica. Parte I - Variabili Aleatorie Continue

8 Elementi di Statistica

Inferenza statistica. Statistica medica 1

LEZIONE n. 5 (a cura di Antonio Di Marco)

Temi di Esame a.a Statistica - CLEF

STATISTICA ESERCITAZIONE 11 Dott. Giuseppe Pandolfo 3 febbraio Modelli continui di probabilità: la v.c. uniforme continua

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

Esercitazione n.2 Inferenza su medie

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Probabilità II Variabili casuali discrete

Matematica generale CTF

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

VARIABILI ALEATORIE CONTINUE

Lezione n. 2 (a cura di Chiara Rossi)

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Test statistici di verifica di ipotesi

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

ELEMENTI DI CALCOLO DELLE PROBABILITA

Il concetto di valore medio in generale

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Metodi statistici per le ricerche di mercato

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Verifica di ipotesi

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Esercizi di Calcolo delle Probabilità con Elementi di Statistica Matematica

E NECESSARIO RICORRERE ALLE VARIABILI CASUALI

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Inferenza statistica. Inferenza statistica

FONDAMENTI DI PSICOMETRIA - 8 CFU

Un modello matematico di investimento ottimale

CP110 Probabilità: Esame del 3 giugno Testo e soluzione

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Dimensione di uno Spazio vettoriale

SPC e distribuzione normale con Access

Limiti e continuità delle funzioni reali a variabile reale

Il confronto fra proporzioni

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Basi di matematica per il corso di micro

Relazioni statistiche: regressione e correlazione

Slide Cerbara parte1 5. Le distribuzioni teoriche

Esercitazione n.4 Inferenza su varianza

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

PROBABILITA CONDIZIONALE

Modulo didattico sulla misura di grandezze fisiche: la lunghezza

Statistica. Lezione 6

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2:

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

CRITERI DI CONVERGENZA PER LE SERIE. lim a n = 0. (1) s n+1 = s n + a n+1. (2) CRITERI PER LE SERIE A TERMINI NON NEGATIVI

STATISTICA (I MODULO INFERENZA STATISTICA) Esercitazione I 27/4/2007

TEST DI AUTOVALUTAZIONE INTERVALLI DI CONFIDENZA E TEST

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Capitolo 4 Probabilità

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Cosa dobbiamo già conoscere?

2. Leggi finanziarie di capitalizzazione

Statistica Matematica A - Ing. Meccanica, Aerospaziale I prova in itinere - 19 novembre 2004

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

1. PRIME PROPRIETÀ 2

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

1 Modelli di variabili aleatorie continue

Elementi di Statistica descrittiva Parte I

Controllo Statistico della Qualità. Qualità come primo obiettivo dell azienda produttrice di beni

ELEMENTI DI STATISTICA

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

STATISTICA IX lezione

Collegamento a terra degli impianti elettrici

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

1. Scopo dell esperienza.

Esercitazione 23 maggio 2016

Probabilità e Statistica ESERCIZI. EsercizioA3 Data la variabile aleatoria normale standard Z, si calcoli la probabilità

Prova di autovalutazione Prof. Roberta Siciliano

Statistica:indici di posizione e dispersione

La Distribuzione Normale (Curva di Gauss)

Transcript:

Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile aleatoria X i. Si può assumere che le X i abbiano la stessa distribuzione incognita. Per ottenere informazioni sulla distribuzione si costruiscono e mettono in funzione un certo numero n di batterie. La durata di ciascuna batteria fornisce l insieme di dati x 1, x 2,.., x n. La media campionaria della durata è x n = x 1 +... + x n n Le lettere maiuscole X i indicano la variabili aleatorie (prima dell esperimento), quelle minuscole x i ne indicano le realizzazione (il numero ottenuto dopo l esperimento).

E naturale chiedersi alcune cose sulla media campionaria x n c entra qualcosa con il valore atteso µ delle variabili X i? posso dire che legge ha, ossia come è distribuita? Alla prima domanda risponderà la Legge dei Grandi Numeri. Se n è molto grande, x n sarà molto prossima a µ (vedremo poi quanto prossima). Rispondere alla seconda domanda in generale non è semplice, ma se n è abbastanza grande con buona approssimazione è una realizzazione di una variabile normale per il Teorema del Limite Centrale (vedremo poi come determinarne i parametri).

Siano X 1, X 2,..., X n,... variabili aleatorie indipendenti e tutte con la stessa distribuzione, con valore atteso E(X 1 ) =... = E(X n )= µ e stessa varianza var(x i )=σ 2, i = 1, 2..., n. Sia Y n = X 1 +... + X n, per la proprietà della media: E(Y n ) = E(X 1 ) + E(X 2 )... + E(X 2 )= nµ e per le proprietà della varianza Si ha inoltre che var(y n ) = var(x 1 ) + var(x 2 ) +..var(x n )= nσ 2 per cui X n = X 1 +... + X n n = Y n n E( X n ) = µ, var( X n ) = σ 2 /n

Esercizio. I risultati di un test sul livello di potassio nel sangue di un individuo variano sia a causa dell imprecisione dello strumento di misurazione, sia perchè il livello stesso varia nel tempo. Sappiamo che per un certo individuo le letture successive del livello di potassio oscillano intorno a un valore atteso µ con deviazione standard σ = 0.3. Quattro letture specifiche generano i dati 3.6, 3.9, 3.4, 3.5 La media campionaria per il livello medio di potassio per questa persona è 3.6 + 3.9 + 3.4 + 3.5 = 3.6 4 mentre la deviazione standard della media campionaria è σ n = 0.3 2 = 0.15

LEGGE DEI GRANDI NUMERI Si vede che la variabile X n, che ha sempre valore atteso µ, ha varianza inversamente proporzionale ad n (ossia uguale a σ/n). Nel limite n (ossia per n molto grande) la varianza diventa nulla, questo significa che la media campionaria diventa una variabile certa con valore µ. Questo risultato è più correttamente descritto dal seguente teorema: Teorema. Si dimostra (ma non qui) che per n e per ogni a strettamente positivo: P ( X n µ > a ) 0 In altre parole la probabilità che X n sia diversa da µ diventa nulla quando n diventa molto grande. Con un certo abuso di termini e di notazione) possiamo dire che X n µ quando n.

( ) Se n è grande ma non infinito si avrà : P X n µ > a 0. Cosa significa? L asserzione vale per ogni a strettamnte positivo. Per fissare le idee immaginiamo che sia molto piccolo, ad esempio a = 0.01. µ a µ µ +a La probabilità che la media campionaria osservata x n cada fuori dall intervallo colorato in figura è trascurabile ( 0) se n è abbastanza grande. La probabilità che la media campionaria osservata x n cada dentro l intervallo colorato in figura è 1 se n è abbastanza grande.

MEDIA TEORICA MEDIA OSSERVATA La legge dei grandi numeri dice che il valore osservato x n = (x 1 +.. + x n )/n della variabile aleatoria X n = (X 1 +.. + X n )/n è con grande probabilità vicino a µ se n è grande. Quindi se non conosco µ, ne posso dare una stima con x n che è una realizzazione della statistica campionaria X n. Se n è grande, la probabilità che X n e µ siano molto diversi è quasi zero. Si noti che µ è la media teorica a priori di ciascuna osservazione (un parametro della distribuzione delle X i ) mentre x n = (x 1 +.. + x n )/n è una media a posteriori delle osservazioni.

IL TEOREMA DEL LIMITE CENTRALE Siano X 1, X 2,..., X n,... variabili aleatorie indipendenti e tutte con la stessa distribuzione, con valore atteso E(X 1 ) =... = E(X n )= µ e stessa varianza var(x i )=σ 2, i = 1, 2..., n. Sia Y n = X 1 +... + X n, abbiamo visto che: E(Y n )= nµ var(y n )= nσ 2 Teorema. Per le proprietà del valore atteso e della varianza, la variabile Z n = Y n nµ σ n ha media 0 e varianza 1. Inoltre si dimostra (ma non qui) che per n sufficientemente grande (nel limite n ) ha distribuzione normale.

In altre parole, nel limite n Z n = Y n nµ σ n N(0, 1) = Z Quindi per n grande (ma non infinito) la probabilità P( Z n < x) è circa uguale a P(Z < x) dove Z è una normale standard N(0, 1). Se vogliamo calcolare probabilità relative a Z n possiamo utilizzare quelle relative a N(0,1) come approssimazione. Tenendo presente che Y n /n = X n possiamo anche scrivere Z n = X n µ σ/ n N(0, 1) = Z Si ricordi ancora una volta che in questo contesto X n è la statistica campionaria di cui la x n è una realizzazione (risultato di una misurazione o esperimento). Anche Ȳ n e Z n sono statistiche campionarie.

DISTRIBUZIONE DELLE MEDIA CAMPIONARIA (VARIANZA NOTA) Anche la somma di n variabili identicamente distribuite è approssimativamente normale, infatti: Y n = σ n Z n + nµ σ n N(0, 1) + nµ = N(nµ, σ n) La media campionaria è anch essa approssimativamente normale: X n = Y n n σ n N(0, 1) + µ N(µ, σ/ n). Il valore atteso µ xn della media camionaria è uguale a µ mentre la varianza σ xn della media campionaria è uguale a σ/ n e quindi decresce come l inverso della radice quadrata della dimensione del campione. Come abbiamo visto con la legge dei grandi numeri, per un ipotetico campione infinito, la media campionaria coincide identicamente con µ.

E IN PRATICA? Il Teorema del limite centrale lascia aperta la questione di quanto il campione debba essere numeroso affinchè l approssimazione sia valida. Se le variabili X i sono variabili gaussiane il problema non si pone perché qualsiasi combinazione lineare di variabili gaussiane è anch essa gaussiana. In tal caso, la distribuzione di X n è gaussiana per ogni n (quella di Z n è normale standard). Altrimenti si accetta la seguente regola pratica. Se la legge delle X 1,...,X n non è troppo asimmetrica, a livello empirico si è stabilito che n 30 va bene. Per convincerci dell asserzione consideriamo il caso in cui la distribuzione delle X i è esponenziale (non importa qui sapere la definizione). Confrontiamo i grafici delle densità delle somme standardizzate di queste variabili indipendenti per n = 5, n = 10 n = 20 e n = 50 con il grafico di una N(0, 1).

In blu la N(0, 1), in azzurro la Z 5, in magenta la Z 10, in celeste la Z 20 e in violetto la Z 50.

Esercizio. Il livello di colesterolo nel sangue di una popolazione di lavoratori ha una media 202 e una deviazione standard 14. Viene selezionato un campione di 36 lavoratori, si approssimi la probabilità che la media campionaria dei loro livelli di colesterolo sia compresa tra 198 e 206. X 36 ha distribuzione approssimatemente normale con valore atteso µ = 202 e deviazione standard σ/ n = 14/ 36 = 7/3, quindi Z 36 = X 36 202 7/3 N(0, 1) = Z ( 198 202 206 202 ) P(198 < X 36 < 206) = P < Z 36 < 7/3 7/3 P( 1.714 < Z < 1.714) = φ(1.714) φ( 1.714) = 0.913 dove φ è la solita funzione di distribuzione della normale standard.

RIASSUMENDO Per un campione di numerosità n estratto da una popolazione con distribuzione di media µ e varianza σ si ha che µ xn = µ per ogni n, σ xn = σ/ n per ogni n, X n è distribuita normalmente per ogni n se le X i sono gaussiane, Xn è distribuita quasi normalmente se n è grande (n > 30) anche se le X i non sono gaussiane. X n µ quando n (non realizzabile in pratica). Si noti che la media campionaria è approssima il parametro µ ma la sua precisione (σ xn = σ/ n) viene definita in base ad una varianza σ nota. Vedremo cosa fare quando la varianza è incognita.

STIME PUNTUALI Definizione 1 Se la stima di un parametro della distribuzione delle X i è data da un singolo numero ottenuto dalle misurazioni relative a un campione, tale valore è detto stima puntuale del parametro. Esempio La media campionaria osservata x n è una stima del parametro µ della distribuzione delle variabili aleatorie X i. Il numero (stima) x n è una realizzazione dello stimatore X n. La statistica X n ha valore atteso µ, quindi, in questo caso, il valore atteso dello stimatore è uguale al parametro che si vuole stimare. Definizione 2 Uno stimatore con valore atteso uguale al parametro che si vuole stimare si dice corretto (o non distorto).

La media campionaria X n = (X 1 +.. + X n )/n è quindi uno stimatore corretto di µ. Definizione 3 Se due statistiche sono entrambe stimatori corretti di un parametro, la statistica con minore varianza è detta stimatore più efficiente. La stima ottenuta con la media campionaria è tanto più accurata tanto più il campione è numeroso. Infatti x n è un valore osservato di Xn la cui varianza è σ/n. Pertanto se si considerano due campioni di taglia m e n con m > n si avra che X m è più efficiente di X n nello stimare il parametro µ. In seguito potremo confrontare con l efficienza di altri stimatori corretti diversi dalla media campionaria.