05. Errore campionario e numerosità campionaria

Documenti analoghi
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Distribuzioni campionarie

STATISTICA ESERCITAZIONE

Teoria e tecniche dei test

Esercitazione 8 maggio 2014

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

L indagine campionaria Lezione 3

Contenuti: Capitolo 14 del libro di testo

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Quanti soggetti devono essere selezionati?

Distribuzione Normale

UNIVERSITÀ DEGLI STUDI DI PERUGIA

LE DISTRIBUZIONI CAMPIONARIE

Intervallo di confidenza

Le statistiche campionarie sono stime dei parametri ignoti della popolazione al cui valore siamo interessati.

Statistica Inferenziale

Intervalli di confidenza

DISTRIBUZIONI DI CAMPIONAMENTO

Schema lezione 5 Intervalli di confidenza

STATISTICA A D (72 ore)

STATISTICA A K (60 ore)

STATISTICA A K (60 ore)

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

standardizzazione dei punteggi di un test

Esercizi di Probabilità e Statistica

Test di ipotesi. Test

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

Il campionamento e l inferenza. Il campionamento e l inferenza

ESAME. 9 Gennaio 2017 COMPITO B

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Distribuzioni e inferenza statistica

Esercizi riassuntivi di Inferenza

Approssimazione normale alla distribuzione binomiale

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

C.I. di Metodologia clinica

Esercizi di Ricapitolazione

Tipi di variabili. Indici di tendenza centrale e di dispersione

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Caratterizzazione dei consumi energetici (parte 3)

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Test per l omogeneità delle varianze

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Gli errori nella verifica delle ipotesi

Prova di recupero di Probabilità e Statistica - A * 21/04/2006

I appello di calcolo delle probabilità e statistica

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Inferenza statistica: intervalli di fiducia (confidenza)

Statistica4-29/09/2015

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

STATISTICA ESERCITAZIONE 13

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Campionamento 29/4/2005

Dispensa di Statistica

FACOLTÀ DI ECONOMIA Prova scritta di Statistica II Perugia, 27 gennaio 2006 COGNOME NOME

Esercitazione n. 3 - Corso di STATISTICA - Università della Basilicata - a.a. 2011/12 Prof. Roberta Siciliano

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

CON O SENZA REIMMISSIONE

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Statistical Process Control

Statistica Inferenziale

Test d Ipotesi Introduzione

LA DISTRIBUZIONE NORMALE. La distribuzione Gaussiana. Dott.ssa Marta Di Nicola

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

Esercitazioni di Statistica Metodologica

LA DISTRIBUZIONE NORMALE o DI GAUSS

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Capitolo 8. Probabilità: concetti di base

Metodi statistici per le ricerche di mercato

Esercitazioni di Statistica

Ringraziamenti dell Editore

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Statistica Metodologica

Teorema del limite centrale TCL

Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto

STIMA PUNTUALE E PER INTERVALLO

Capitolo 9 Verifica di ipotesi: test basati su un campione

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

STATISTICA AZIENDALE Modulo Controllo di Qualità

P ( X n X > ɛ) = 0. ovvero (se come distanza consideriamo quella euclidea)

Esercitazione del

STATISTICA SOCIALE Corso di laurea in Scienze Turistiche - A.A. 2005/2006 II Prova - 20 dicembre 2005

Presentazione dell edizione italiana

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Distribuzioni campionarie. Antonello Maruotti

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Il Campionamento Statistico

Esercitazioni di statistica

Distribuzione Normale

Transcript:

Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria

Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile, seppur in scala ridotta, la popolazione di interesse. La rappresentatività è fondamentale per estendere le conclusioni delle analisi svolte sul campione all intera popolazione. Ogni procedura inferenziale è caratterizzata da un certo livello di incertezza, per le seguenti ragioni: da ogni popolazione sufficientemente grande è possibile estrarre un numero virtualmente infinito di campioni di una determinata ampiezza; ognuno di questi campioni rappresenta la popolazione in modo probabilistico; in ogni singolo studio viene analizzato solo uno dei possibili campioni di ampiezza prefissata. Quindi anche la procedura di campionamento più perfetta ed accurata è soggetta ad errore: l errore campionario. L errore campionario è l errore che si commette quando si esamina una parte della popolazione, il campione, anzichè la sua totalità.

Si immagini di calcolare la media della caratteristica in esame su un numero molto elevato di campioni estratti dalla stessa popolazione. Tali valori non saranno completamente diversi gli uni dagli altri ma tenderanno ad approssimare il valore vero incognito. ricordando le caratteristiche della distribuzione campionaria della media La media campionaria è uno stimatore corretto della media della popolazione. Nonostante la correttezza, la maggior parte, se non la totalità, delle medie campionarie differirà in più o in meno da quella della popolazione. In altre parole le medie campionarie avranno una variabilità più o meno elevata intorno al valore centrale rappresentato, come si è detto, dalla media della popolazione. 3

E' intuitivo che se questa variabilità è elevata sarà elevata anche la probabilità che la media di un campione casuale risulti molto diversa da quella della popolazione. Al contrario, se la variabilità è piccola la distribuzione campionaria è non solo centrata ma anche addensata sulla media della popolazione e, di conseguenza, è alta la probabilità di selezionare casualmente campioni con media prossima a quella della popolazione. La precisione dello stimatore è espressa dal grado di addensamento della distribuzione campionaria intorno alla propria media e si misura con un indice denominato errore standard. L'errore standard è la radice quadrata della varianza della distribuzione campionaria delle medie. Questa varianza non deve essere confusa con quella elementare (cioè degli elementi o unità) della popolazione, di cui è una funzione. 4

Errore standard È possibile stimare la variabilità della media campionaria attraverso il valore della deviazione standard della sua distribuzione, denominato errore standard [ES] (in inglese standard error) che costituisce una misura della precisione della stessa media campionaria: ES = Var( y) Poiché si può dimostrare che la media campionaria (sotto alcune condizioni) segue una distribuzione Normale: σ Y N µ ; n L errore standard per la media campionaria (standard error of the mean), a seconda dello schema di campionamento seguito, si determina come: ES In genere il vero valore di σ è ignoto, pertanto può essere utilizzata la sua stima corretta. = σ n 5

Errore standard per la media campionaria -- CCS L errore standard si ottiene dalla radice quadrata della varianza della media campionaria ES y ( ) = Var( y ) ccs ccs CCS ES y ( ) ccs σ N n σ N n = = n N 1 n N 1 dove σ rappresenta la deviazione standard della caratteristica in esame nella popolazione, N è la dimensione della popolazione e n la dimensione campionaria. Quando σ non è noto si stima utilizzando lo stimatore S = n ( ) yi yccs i= 1 n 1 6

La stima dell errore campionario 1/ ES y ( ccs ) s N n = n N 1 oppure ES y ( ) ( ) = 1 f ccs s n La stima dell errore campionario nel caso di dati provenienti da campionamento casuale semplice è pari a: Errore campionario s N n e= t ES = t α α n N 1 dove t α/ è il quantile della distribuzione t di Student legato al livello di fiducia della stima. Per n sufficientemente grande (n>100) si può ricorrere all approssimazione normale (per esempio, nel caso di un livello di fiducia pari al 95% vale approssimativamente 1,96). Livello di fiducia 1-α t α/ n=50 Z α/ 0,90 1,6759 1,68 0,95,0086 1,96 0,99,6778,58 7

La stima dell errore campionario / Sulla base della sua stima si deduce che l errore campionario è tanto più grande: quanto maggiore è il livello di fiducia che si ha nella stima i valori dei coefficienti t (z) crescono al crescere del livello di fiducia quanto più elevata è la variabilità della caratteristica studiata nella popolazione che si riflette nella variabilità della caratteristica osservata sul campione quanto minore è la dimensione del campione legata alla varianza campionaria secondo una proporzione inversa 8

Sulla base della stima dell errore campionario è possibile costruire l intervallo di confidenza (IC) della media, per un livello di fiducia (1-α)%: ycss ± e IC: s N n y ± t ES y = t css [ ( )] α/ css α N 1 n 9

Stima dell errore campionario e dell intervallo di confidenza Esempio tratto dal libro di testo Al fine di stimare il fatturato relativo ad un certo anno solare, dalla popolazione di 10000 imprese a conduzione familiare di una certa regione, vengono estratte 500 unità mediante CCS. La media campionaria è risultata pari a 495 migliaia di Euro, mentre la stima della deviazione standard (s) è pari a 10 mila Euro. Determinare: la frazione di campionamento; la stima dell errore campionario in corrispondenza di un livello di fiducia del 95%; il corrispondente intervallo di confidenza (sempre per un livello di fiducia del 95%) per la media; 10

Stima dell errore campionario e dell intervallo di confidenza La stima dell errore campionario, in corrispondenza di un livello di fiducia del 95% è pari a: e 10 10000 500 1,96 10 19,6 = 1,96 = 0,95 = 0,95 = 0,88 0,95 = 0,84 500 10000 1, 4, 4 Tale risultato equivale a dire che nella stima della media del fatturato delle aziende - per un livello di fiducia del 95%- si può commettere un errore pari a 0,84 migliaia di Euro - per difetto o per eccesso Equivalentemente nell IC [495-0,84; 495+0,84] si trova il valore vero incognito per un livello di fiducia pari al 95%. 11

Determinazione della numerosità campionaria La frazione di campionamento svolge un ruolo trascurabile sulla precisione delle stime. Il ruolo preponderante è svolto dalla dimensione assoluta del campione n. Possiamo allora chiederci quale dimensione debba avere il campione affinché la precisione delle stime sia pari o non inferiore ad un prefissato valore. A questa domanda è possibile rispondere ma a condizione di disporre di informazioni non troppo vaghe sulla varianza elementare della popolazione relativamente al carattere o ai caratteri di maggiore interesse nell indagine. 1

Determinazione della numerosità campionaria In generale la dimensione del campione dipende da 3 elementi fondamentali: 1. variabilità esistente nella popolazione: popolazione con alta variabilità campione più grande popolazione con minore variabilità campione più piccolo Es. estremo: popolazione con individui aventi le medesime caratteristiche BASTA una sola persona per rappresentarli.. livello di precisione che si vuole raggiungere: alta precisione richiesta campione più grande bassa precisione campione più piccolo NB: raggiunta un certa dimensione del campione, la precisione aumenta in modo quasi impercettibile 3. costo del campione Il campione non deve essere necessariamente proporzionale alla dimensione della popolazione: Non necessariamente se raddoppia la popolazione deve raddoppiare anche il campione oltre un certo limite, aggiungere altre unità non apporta miglioramenti apprezzabili In 1. e. si fa riferimento alla precisione degli stimatori che è funzione inversa della varianza e, ovviamente, dell ampiezza degli intervalli di confidenza 13

Determinazione della numerosità campionaria In particolare, si possono seguire due strade: a) si può fissare a priori un valore per la varianza dello stimatore di interesse e, quindi, ricercare la numerosità n che consente di raggiungere tale precisione. b) Prefissato un certo piano di campionamento, si ricerca n in modo tale che sia superiore ad 1-α la probabilità che il parametro θ sia incluso entro un intervallo ±δ attorno alla stima. In quest ultimo caso, si ritorna alla teoria degli intervalli di confidenza per un parametro θ 14

Determinazione della numerosità campionaria-b Nella progettazione di un indagine la numerosità campionaria è in genere stabilita in base all errore campionario massimo che si è disposti a commettere. Dalla formula base per la stima dell errore campionario (vista per il CCS) si ricava: n = e σ α σ z α N 1 + N z N σ, in genere incognita, può essere approssimata: con una misura della variabilità della caratteristica in esame derivante da eventuali indagini pregresse; con una stima proveniente da un indagine pilota 15

Determinazione della numerosità campionaria Nell ambito della stima di una proporzione la stima della varianza della caratteristica in esame può essere effettuata a prescindere da conoscenze pregresse del fenomeno, utilizzando piuttosto il valore massimo della varianza, ossia 0,5 (derivante da una ipotetica stima della proporzione pari a p = 0,5 ). Tale stima per eccesso è anche denominata stima prudenziale. n zα = 0,5 e In generale si ha: zα n= p 1 p e ( ) 16

Determinazione della numerosità campionaria- Esempi Si supponga di riprendere l esempio sulla stima del fatturato medio. Ipotizzare di voler limitare l errore relativo alla media del fatturato ad un massimo di 500 Euro (0,5 mila Euro). Si supponga inoltre che da una indagine pregressa la stima della deviazione standard del fatturato nella popolazione sia risultata pari a 8000 Euro. La numerosità campionaria, a parità delle altre condizioni, necessaria a veder verificate le ipotesi effettuate è la seguente: n = e σ z α σ zα N 1 + N N n 8 1,96 64 3,84 45,8 = = = 895 10000 1 8 1,96 64 3,84 0,5 0,9999 0,5 + 0,05 0,5 + + 10000 10000 10000 17

Determinazione della numerosità campionaria Riepilogando, per il calcolo della numerosità campionaria si devono conoscere: il livello di significatività che vogliamo per le nostre stime (α), l intervallo che accettiamo per le nostre stime (±e ), il valore della varianza della popolazione (Var) e la numerosità della popolazione (N). Esempio Determinare la numerosità del campione casuale che deve essere assunta per stimare l età media degli studenti alla laurea specialistica, sapendo che la varianza è pari a 45, affinché l errore di campionamento massimo ammesso (e) sia pari a ±0.7, assumendo un intervallo al 95%. Per semplicità adottiamo la formula in cui il fattore di correzione è omesso e ricaviamo n: n σ = e z α n σ z α 45 1,96 = = 35,8 353 e (0,7) 18