Statistica descrittiva e statistica inferenziale 1
ALCUNI CONCETTI POPOLAZIONE E CAMPIONE Popolazione: insieme finito o infinito di unità statistiche classificate secondo uno o più caratteri Campione: sottoinsieme proprio di una popolazione, estratto dalla popolazione medesima con un metodo di campionamento rappresentativo Statistica descrittiva (dati da popolazione e da campione) Statistica inferenziale (estensione dal campione alla popolazione) TEORIA DELLA PROBABILITÁ Legame tra descrizione quantitativa inferenza statistica 2
RICHIAMI DI CAMPIONAMENTO E INFERENZA STATISTICA Popolazione infinita o finita ma molto numerosa Limiti di risorse (denaro, tempo, organizzazione) all effettuazione di una rilevazione censuaria Studio dei fenomeni di interesse su un sottoinsieme della popolazione Campione statistico di numerosità n: sottoinsieme di n elementi (o di eventi elementari) tratti da un universo statistico Se nella scelta degli elementi da includere nel campione si rispettano alcune regole, è possibile valutare tali informazioni in termini probabilistici 3
4
Campionamento probabilistico (o casuale): è nota, o calcolabile, la probabilità di ogni unità statistica della popolazione di entrare a far parte del campione Selezione non probabilistica (campione non probabilistico): non è nota, né è ricavabile, la probabilità di inclusione nel campione Col campione casuale in qualche fase della procedura di estrazione del campione viene impiegato un elemento di casualizzazione (il controllo della procedura di estrazione delle unità che vanno a formare il campione viene sottratto all uomo e affidato al caso) 5
VARI TIPI DI CAMPIONE CAMPIONI PROBABILISTICI (ogni unità che lo compone viene estratta con una probabilità nota) CAMPIONAMENTO CASUALE SEMPLICE: tutte le unità della popolazione di riferimento hanno la stessa probabilità di essere incluse nel campione (sorteggio o tavola dei numeri casuali); CAMPIONAMENTO SISTEMATICO: differisce dal campionamento casuale semplice solo dal punto di viste della tecnica di estrazione dei soggetti; le unità campionarie vengono estratte scorrendo la lista dei soggetti e selezionandone uno ogni dato intervallo. CAMPIONAMENTO STRATIFICATO: si articola in tre fasi: a) innanzitutto bisogna suddividere la popolazione di riferimento in sottopopolazioni (dette strati) il più possibile omogenee; b) si estrae un campione da ogni strato; c) si uniscono i campioni corrispondenti ai singoli strati per ottenere il campione complessivo; CAMPIONAMENTO A STADI: la popolazione viene suddivisa in unità primarie e unità secondarie. Il campionamento si effettua in due stadi, cioè attraverso due estrazioni: si estrae un campione di unità primarie e successivamente un campione di unità secondarie all interno delle unità primarie estratte in precedenza. CAMPIONAMENTO A GRAPPOLI: simile al campionamento a stadi e viene utilizzata quando la popolazione risulta naturalmente suddivisa in gruppi di unità spazialmente contigue (famiglie, classi scolastiche, reparti di lavoro, ecc.). Non vengono estratte le unità elementari ma i grappoli e poi tutte le unità del grappolo estratto sono 6 incluse nel campione.
CAMPIONI NON PROBABILISTICI quando il disegno probabilistico non può essere impostato oppure si sa a priori che non potrà essere attuato nella fase di rilevazione CAMPIONAMENTO PER QUOTE: in primo luogo bisogna suddividere la popolazione di riferimento in un certo numero di strati definiti da alcune variabili delle quali si conosce la distribuzione; quindi si calcola il peso percentuale di ciascuno strato, cioè la quota di popolazione complessiva che appartiene ad ogni strato; infine, moltiplicando ciascuno di questi pesi per l ampiezza n del campione si stabiliscono le quote, cioè il numero di interviste da effettuare in ciascuno strato. Utilizzato nelle ricerche di mercato e nei sondaggi di opinione. CAMPIONAMENTO A VALANGA: consiste nell individuare i soggetti da inserire nel campione a partire dagli stessi soggetti intervistati. Si parte da un piccolo numero di individui dai requisiti richiesti, i quali sono utilizzati come informatori per identificare altri individui aventi le medesime caratteristiche; col procedere della rilevazione il numero dei nominativi dovrebbe crescere esponenzialmente. CAMPIONAMENTO A SCELTA RAGIONATA: le unità vengono scelte sulla base di alcune loro caratteristiche. Trova applicazione nel caso di campioni molto piccoli o in situazioni particolari nelle quali l importanza di alcune unità esige la loro inclusione ai fini della completezza delle informazioni raccolte. 7
ESTRAZIONE CON E SENZA RIPETIZIONE. Estrazione con ripetizione o Bernoulliana: Lascia invariata la popolazione di origine 1/N è la probabilità di estrazione di ciascun elemento Estrazione senza ripetizione o esaustiva: La popolazione di origine si riduce di una unità a seguito di ogni estrazione 1/N, 1/(N-1),, 1/(N-n+1) sono rispettivamente la probabilità di estrazione del primo, del secondo,, dell n.esimo elemento del campione 8
UNIVERSO DEI CAMPIONI ESTRAZIONE CON RIPETIZIONE N N N N... N = N n ESTRAZIONE SENZA RIPETIZIONE N ( N 1) ( N 2)... ( N n 1) N! ( N n)! ESTRAZIONE IN BLOCCO N ( N 1)... ( N n! N 1) N n 9
STATISTICHE CAMPIONARIE Qualsiasi funzione calcolata sui dati campionari, che non dipende da parametri ignoti Sono statistiche campionarie, tra l altro, tutti gli indici descrittivi (media, mediana, varianza, ecc.) quando siano calcolati su un campione piuttosto che sulla popolazione completa Le statistiche si indicano generalmente con le lettere dell alfabeto latino: si userà la lettera maiuscola per la variabile che assume i diversi valori di quella statistica nell universo campionario al variare del campione; con la lettera minuscola si indica, invece, il particolare valore assunto dalla statistica a seguito dell estrazione di un dato campione. 10
DISTRIBUZIONI CAMPIONARIE DELLE STATISTICHE Rappresenta tutti i possibili valori che la statistica può assumere al variare del campione nell universo campionario. L importanza della distribuzione campionaria delle statistiche ai fini dell inferenza è legata alla possibilità di determinare i limiti di validità dei risultati campionari per l intera popolazione. Tale distribuzione campionaria è una funzione discreta o continua che comprende tutti i valori di una statistica nell universo dei campioni, non va confusa con la distribuzione del carattere oggetto di studio. 11