STATISTICA INFERENZIALE

STATISTICA INFERENZIALE Introduzione L insieme di tutte le unità statistiche che compongono il fenomeno collettivo considerato costituisce l universo statistico o, semplicemente, universo. L insieme costituito soltanto da una parte di tutte le unità statistiche che compongono il fenomeno collettivo considerato rappresenta il campione statistico o, semplicemente, campione. Se N è il numero delle unità statistiche dell universo e n è il numero delle unità statistiche del campione il rapporto è detto tasso di campionamento. La statistica inferenziale è quella parte della statistica che sostituisce all analisi di un dato universo(intera popolazione) quella di un campione tratto da esso precisando al contempo il grado di attendibilità con il quale le conclusioni tratte per il campione possono essere estese all universo. In un indagine di statistica inferenziale bisogna: 1. Individuare il carattere e la popolazione di riferimento 2. Scegliere il tipo di campionamento 3. Scegliere i parametri 4. Formulare il questionario 5. Somministrare il questionario 6. Raccogliere i dati 7. Calcolare i parametri del campione 8. Estendere i parametri del campione all intera popolazione. 1. Individuare il carattere e la popolazione di riferimento Il passo iniziale consiste nella scelta della popolazione di riferimento: l universo statistico. Si fa osservare che un indagine statistica condotta su un universo finito può essere globale o campionaria, mentre quella condotta su un universo infinito è sempre campionaria. 2. Scegliere il tipo di campionamento Un metodo che è possibile utilizzare per la scelta del campione è il campionamento casuale semplice. Le caratteristiche essenziali di un campionamento casuale semplice sono: ogni unità della popolazione ha uguale probabilità di far parte del campione 1

ogni campione di stessa ampiezza ha la stessa probabilità di essere formato. Un metodo semplice per operare tale campionamento consiste nel numerare tutte le unità della popolazione, mettere in un urna tante palline numerate, tutte uguali tra loro, quante sono le unità della popolazione e quindi sorteggiare da tale urna le palline per formare il campione. Nella formazione del campione con il campionamento casuale semplice si possono verificare due diverse circostanze: che le unità statistiche estratte siano rimesse nell universo statistico (estrazione bernoulliana o con ripetizione); che le unità statistiche estratte non siano rimesse nell universo statistico (estrazione in blocco). L insieme di tutti i campioni estratto si chiama spazio dei campioni. Esempio Nel primo caso si tratta di disposizioni con ripetizione e il numero di raggruppamenti è dato da, ( ) = (estrazione con reimmissione in cui conta l ordine degli elementi) Nel secondo caso si tratta di combinazioni semplici e il numero di raggruppamenti è dato da!, =!( )! (estrazione senza reimmissione in cui non conta l ordine degli elementi) Nel terzo caso (poco usato) si tratta di disposizioni semplici e il numero di raggruppamenti è dato da, = ( 1). ( + 1) (estrazione senza reimmissione in cui conta l ordine degli elementi) 2

N.B. esiste anche il caso di estrazione con reimmissione in cui non conta l ordine degli elementi e il numero di raggruppamenti è dato da (, ) ( ). ( ) = ma è poco usata e non considerata nell esempio.! Es. pag. 1468 n. 4-7 e 1470 da 11 a 14. 3. Scegliere i parametri I parametri da studiare sono scelti in relazione alla natura e alla finalità della ricerca. Ripetere: frequenza assoluta, relativa e percentuale media aritmetica semplice, ponderata e per classi varianza semplice e ponderata deviazione standard o scarto quadratico medio semplice e ponderato 4. Formulare il questionario Il questionario deve essere concepito in modo tale che la sua compilazione fornisca le informazioni di interesse in modo univoco, predisponendo eventuali menu a tendina da cui selezionare le tutte possibili risposte. 5. Somministrare il questionario Può avvenire con diverse modalità utilizzando il supporto cartaceo o preferibilmente via web. E consigliabile effettuare una somministrazione di prova per verificare la correttezza e l efficacia del questionario. 6. Raccogliere i dati La raccolta dei dati deve essere eseguita per una durata temporale prestabilita. 7. Calcolare i parametri del campione Distribuzione della media campionaria 3

Se non rimettiamo nell urna la pallina estratta si tratta di combinazioni semplici e il numero di raggruppamenti è dato da, =!!( )! = = 6 E i campioni sono: (6,12), (6,18), (6,24)(12,18), (12,24), (18,24) P 9 12 15 18 21 μ = 9 1 6 + 12 1 6 + 15 2 6 + 18 1 6 + 21 1 6 = 15 σ = (9 15) + (12 15) + (15 15) + (18 15) + (21 15) = = 15 4

Conclusioni Effettuare le opportune verifiche degli esempi svolti. Di seguito, tenendo in considerazione più esempi, si mostra come la distribuzione della media campionaria tende ad una distribuzione normale. 5

Questi esempi dimostrano che aumentando la numerosità del campione, la varianza della media campionaria che è sempre inferiore alla varianza della popolazione, tende a diminuire. Questo significa che le medie campionarie hanno una minore dispersione e diventano più strette intorno al valore medio (caratteristica della distribuzione normale). Concludendo: aumentando la numerosità del campione, aumenta la probabilità che la media di un campione differisca di poco dalla media della popolazione; in genere si preferisce considerare campioni con n>30(grandi campioni, nella generalità per indagini affidabili almeno n=100). Es. pag. 1472 n. 17-18 Distribuzione della frequenza campionaria o della proporzione - F Supponiamo di avere un universo composto dai seguenti elementi di tipo qualitativi: {.. } ed N=3 relativamente al quale indichiamo un carattere specifico su cui effettuare l indagine statistica(es. essere diplomato). Costruiamo la seguente tabella: Termine Frequenza assoluta A 1 B 0 C 1 in cui supponiamo che: il primo elemento A sia diplomato e quindi ad esso assegniamo la frequenza 1, il secondo B non sia diplomato e quindi ad esso assegniamo la frequenza 0, il terzo C sia diplomato e quindi ad esso assegniamo la frequenza 1. Osserviamo che la frequenza relativa del carattere indicato dell intero universo, che indichiamo con p, è: Ricordando che esiste una relazione che lega il concetto di frequenza con quello di probabilità(vedere appendice (*) Ghisetti e Corvi Statistica 3 ), allora per calcolare la varianza utilizziamo la formula: σ = p q e quindi, essendo q l evento contrario di p, esso vale q = 1 p = = 2 3 e quindi σ = = (e la deviazione standard è σ = p q σ = = 0,47) I CASO - Estraiamo con reimmissione i campioni costituiti da 2 elementi: Il numero dei campioni è: ( D ), = 3 = 9 costruiti come di seguito riportati: AA, AB, AC, 7

BA, BB, BC CA, CB, CC Costruiamo la seguente tabella: Termine Frequenza campionaria = Frequenza del carattere indagato all interno del campione Frequenza relativa del campione rispetto allo spazio dei campioni BB 0 2 = 0 1 9 AB, BC, BA, CB AC, CA, CC, AA 1 2 4 9 2 2 = 1 4 9 La distribuzione della frequenza campionaria (o della proporzione) è: 0, di pesi: 1 2, 1 1 9, 4 9, 4 9 Il valore medio della distribuzione della frequenza campionaria è: μ = 0 + + 1 = + = = Si osserva che il valore μ ottenuto è uguale al valore di frequenza relativa p calcolato per l intero universo. σ = 0 + + 1 = + + = + + = = Si osserva che il valore σ ottenuto non è uguale a quello calcolato per l intero universo. Il valore della varianza si può trovare anche con la formula: σ =. σ =. = = II CASO - Estraiamo senza reimmissione i campioni costituiti da 2 elementi: Il numero dei campioni è: 8

, =!!( )! = 3 costruiti come di seguito riportati: AB, AC, BC Costruiamo la seguente tabella: Termine Frequenza campionaria = Frequenza del carattere indagato all interno del campione Frequenza relativa del campione rispetto allo spazio dei campioni AC 2 2 = 1 1 3 AB, BC 1 2 2 3 La distribuzione della frequenza campionaria (o della proporzione) è: 1, 1 2 di pesi: 1 3, 2 3 Il valore medio della distribuzione della frequenza campionaria è: μ = 1 + = + = Si osserva che il valore μ ottenuto è uguale al valore di frequenza relativa p calcolato per l intero universo. σ = 1 + = + = + = = Si osserva che il valore σ ottenuto non è uguale a quello σ calcolato per l intero universo. Il valore della varianza si può trovare anche con la formula: σ =. σ =. = Es. pag. 1478 n. 37-38 9

8. Estendere i parametri del campione all intera popolazione Obiettivo di questo paragrafo è far comprendere come, avendo a disposizione un unico campione, sia possibile considerare i parametri ottenuti da esso, ad es. media aritmetica, frequenza come parametri validi anche per l intera popolazione quando quest ultimi sono ignoti. Per fare ciò introduciamo innanzitutto il concetto di stimatore e poi definiremo il concetto di stima. Stimatori (cenni). 10

Invece la varianza campionaria σ è uno stimatore non corretto di σ ed esso viene corretto mediante la seguente formula: s = σ n n 1 Il valore della varianza così ottenuto è uguale a quello della varianza della popolazione, infatti riprendendo l esempio della distribuzione della media campionaria: s = 22,5 = 45 che è lo stesso valore della varianza dell universo σ. Se l estrazione dei campioni non è bernoulliana, la formula di correzione cambia, ma anche in alcune fonti (Schaum e Trovato) si considera come unica formula di correzione quella sopra scritta. Stima puntuale. La stima puntuale è semplice da calcolare, ma talvolta può portare a valutazioni errate. Per effettuare una stima puntuale di un parametro dell universo, si procede nel modo seguente: si calcola il valore dello stimatore prescelto con i dati del campione e lo si associa a quello dell universo; nel nostro studio, la media aritmetica del campione diventa stima della media aritmetica dell universo, la frequenza del campione diventa stima della frequenza dell universo; nel caso della stima della media aritmetica dell universo, si calcola un valore che indichi il grado di incertezza della stima fatta come segue: o se si conosce, per esperienza, lo scarto quadratico medio dell universo σ o la varianza dell universo σ, il grado di incertezza si chiama errore di campionamento ed è fornito dalle formule: σ = (estrazione bernulliana) σ = (estrazione in blocco) o se si conosce lo scarto quadratico medio del campione s o la varianza del campione s, il grado di incertezza si chiama stima dell errore di campionamento ed è fornito dalle formule: s = (estrazione bernulliana) s = (estrazione in blocco) 11

dove s è la radice quadrata della varianza corretta nel modo seguente: s = s n n 1 (alcuni testi differenziano il caso di correzione di varianza di un campione bernoulliano: = da quello di correzione di varianza di un campione estratto in blocco: = ) nel caso della stima della frequenza dell universo, si calcola un valore che indichi il grado di incertezza della stima fatta come segue: o si calcola lo scarto quadratico medio del campione s e lo si utilizza per calcolare il grado di incertezza che si chiama stima dell errore di campionamento ed è fornito dalle formule: s = (estrazione bernulliana) s = (estrazione in blocco) Per comprendere meglio i procedimenti descritti si riportano i seguenti esempi. Es.1 12

Es.2 Nell esempio seguente viene fornito lo scarto quadratico medio dell universo, quindi non c è bisogno di eseguire correzioni. Es. pag. 1481 n. 49-50-51 Es.3 13

Es.4 Es. pag. 1481 n. 52-53-54 Stima intervallare. In alcune circostanze risulta più sicuro determinare un intervallo, detto anche intervallo di fiducia o di confidenza, che contenga con una determinata probabilità il valore del parametro richiesto che rimane ignoto. Stima intervallare della media. PASSO 1 Procediamo innanzitutto facendo un esempio di come si calcola la probabilità associata a un intervallo. Dati noti: media dell universo varianza dell universo numerosità del campione estrazione bernoulliana intervallo che contiene il parametro prescelto(in questo caso la media campionaria) Dati da calcolare: valore della probabilità associata all intervallo 14

Ricordiamo che per distribuzione normale (in appendice) si intende una distribuzione che rappresentata graficamente assomiglia ad una campana con le seguenti caratteristiche: assume il massimo valore in corrispondenza della media presenta due punti di flesso in corrispondenza dei valori: media ± deviazione standard è asintotica rispetto all asse delle ascisse come nell esempio seguente: Ricordiamo che standardizzare una distribuzione normale significa trasformarla in una distribuzione ancora normale con le seguenti caratteristiche: assume il massimo valore in corrispondenza di x= media = 0 presenta i due punti di flesso in corrispondenza dei valori: ± 1 come nell esempio seguente: Tale trasformazione si effettua utilizzando la formula Z sopra scritta e consente di utilizzare un apposita tavola per il calcolo della probabilità. Quindi nel nostro caso particolare partendo dalla formula : (34,5 < < 35,5) dove 34,5 e 35,5 sono gli estremi del intervallo considerato che potremo indicare con 15

( < < ) Dobbiamo trasformare questa formula in una equivalente relativamente al valore di probabilità, utilizzando la trasformazione Z che trasforma la nostra distribuzione normale in una equivalente standardizzata: ( < < ) 16

PASSO 2 Procediamo in maniera inversa alla precedente, fissiamo un valore di probabilità e determiniamo l intervallo che contenga il parametro prescelto con quella probabilità. Tale probabilità la indichiamo con 1- α e lo chiamiamo livello di confidenza o fiducia, mentre con α indichiamo il rischio dell indagine campionaria. Dati noti: media dell universo varianza dell universo numerosità del campione estrazione bernoulliana valore della probabilità associata all intervallo che contiene il parametro prescelto (media del campione) Dati da calcolare: l intervallo che contiene il parametro prescelto (media del campione) 17

Quelli più utilizzati sono riportati nella seguente tabella anche a scopo dimostrativo per imparare a calcolare i valori esatti utilizzando la tavola di Sheppard in appendice. prob. in % = 1- α prob. in freq. rel prob. in freq. rel/2 val1 tab val2 tab approx 68,27% 0,6827 0,34135 0,3413 1 80% 0,8000 0,4000 0,3997 0,4015 0,3997 1,28 90% 0,9000 0,4500 0,4495 0,4505 (1,64+1,65)/2=1,645 95% 0,9500 0,4750 1,96 95,45% 0,9545 0,4772 2 99% 0,9900 0,4950 0,4949 0,4951 (2,57+2,58)/2=2,575 99,74% 0,9974 0,4987 3 99,99% 0,9999 0,49995 3,87* *(in altra tavola con 5 cifre decimali) PASSO 3 Dati noti: media del campione varianza del campione numerosità del campione estrazione bernoulliana valore della probabilità associata all intervallo che contiene il parametro prescelto(media dell universo) Dati da calcolare: l intervallo che contiene il parametro prescelto(media dell universo) 19

Se non è nota la varianza o la deviazione standard dell intera popolazione bisogna correggere la varianza o la deviazione standard campionaria e sostituire il valore trovato s al posto di σ nelle formule sopra indicate. Attenzione: se l estrazione del campione non è specificata la si considera generalmente bernoulliana, se invece viene specificata come estrazione quella in blocco allora nella formula il rapporto va moltiplicato per il rapporto se il campione ha un numero di elementi minore o uguale a 30, si tratta di un piccolo campione, allora si utilizza un procedimento quasi analogo a quello descritto, tenendo però presente non la distribuzione gaussiana, ma quella T di Student. Tale procedimento non è sviluppato in questa trattazione. Es. pag. 1483 n. 63 20

Stima intervallare della frequenza. < < + = 1 Effettuando gli opportuni cambiamenti e sostituendo a la frequenza relativa del campione : otteniamo la formula: < < + = 1 < < + = 1 da cui si ricava l intervallo di interesse:, + Se non è possibile calcolare perché manca p, si sostituisce nella formula la deviazione standard campionaria, come di seguito: < < + = 1 ottenendo l intervallo:, + Attenzione: se l estrazione del campione non è specificata la si considera generalmente bernoulliana, se invece viene specificata quella in blocco allora nella formula il rapporto va moltiplicato per il rapporto 21

Nello studio della stima intervallare della frequenza ci si può chiedere qual è il massimo valore che può assumere il rapporto, che di fatto rappresenta il grado di incertezza o errore che si accetta di sopportare. Ricordando che σ = p q (e che tale formula può essere utilizzata anche per calcolare la stima dell errore campionario) si osserva che il massimo valore che può assumere il rapporto si ottiene proprio per p=0,5 (come si può facilmente verificare) pervenendo al seguente intervallo di fiducia: E quindi, nell esempio precedente, l intervallo che tiene conto di un errore massimo è: Es. pag. 1485 n. 75-76- 77. Bibliografia: Zanichelli - Matematica.rosso Tramontana Matematica generale e applicata Ghisetti e Corvi Statistica 3 Collana Schaum Statistica Testo di riferimento per gli esercizi: Zanichelli Matematica.rosso, altri esercizi sono stati preparati su apposite schede. Prerequisiti: Distribuzioni di frequenze Valori medi e variabilità Calcolo combinatorio Definizione di probabilità Distribuzioni di probabilità - variabili casuali Distribuzione gaussiana 22

Appendice (*) Ghisetti e Corvi Statistica 3 da cui la media aritmetica risulta essere: la varianza e lo scarto quadratico medio rispettivamente: 23

Distribuzione gaussiana 24

Tavola di Sheppard 26