Metodi statistici per le ricerche di mercato



Documenti analoghi
Metodi statistici per le ricerche di mercato

1. Distribuzioni campionarie


Istituzioni di Statistica e Statistica Economica

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

La distribuzione Normale. La distribuzione Normale

Statistica. Lezione 6

VERIFICA DELLE IPOTESI

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistiche campionarie

Corso di Psicometria Progredito

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Slide Cerbara parte1 5. Le distribuzioni teoriche

Elementi di Psicometria con Laboratorio di SPSS 1

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

STATISTICA IX lezione

Il concetto di valore medio in generale

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

ESAME DI STATISTICA Nome: Cognome: Matricola:

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Prova di autovalutazione Prof. Roberta Siciliano

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

La distribuzione Gaussiana

Inferenza statistica. Statistica medica 1

La variabile casuale Binomiale

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

E naturale chiedersi alcune cose sulla media campionaria x n

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

I punteggi zeta e la distribuzione normale

SPC e distribuzione normale con Access

Esercitazione n.2 Inferenza su medie

Elementi di Psicometria con Laboratorio di SPSS 1

Corso di. Dott.ssa Donatella Cocca

Il confronto fra proporzioni

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Capitolo 11 Test chi-quadro

Statistica descrittiva: prime informazioni dai dati sperimentali

3. Confronto tra medie di due campioni indipendenti o appaiati

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Rapporto dal Questionari Insegnanti

Temi di Esame a.a Statistica - CLEF

Capitolo 12 La regressione lineare semplice

LA STATISTICA NEI TEST INVALSI

Esercitazione n.4 Inferenza su varianza

LE FUNZIONI A DUE VARIABILI

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

Facoltà di Psicologia Università di Padova Anno Accademico

Istituzioni di Statistica e Statistica Economica

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Elementi di Psicometria con Laboratorio di SPSS 1

SOLUZIONI ESERCITAZIONE NR. 6 Variabili casuali binomiale e normale

Facciamo qualche precisazione

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

matematica probabilmente

Dimensione di uno Spazio vettoriale

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Teoria della Stima. Stima della Media e di una Porzione di Popolazione. Introduzione. Corso di Laurea in Scienze Motorie AA2002/03 - Analisi dei Dati

Misure della dispersione o della variabilità

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

7.2 Indagine di Customer Satisfaction

Relazioni statistiche: regressione e correlazione

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

ELEMENTI DI STATISTICA

risulta (x) = 1 se x < 0.

La dissomiglianza tra due distribuzioni normali

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

ELASTICITÀ. Sarebbe conveniente per il produttore aumentare ulteriormente il prezzo nella stessa misura del caso

Capitolo 4 Probabilità

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

Testo alla base del Pitgame redatto dal prof. Yvan Lengwiler, Università di Basilea

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Indici di dispersione

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

FONDAMENTI DI PSICOMETRIA - 8 CFU

Il campionamento. Ulteriori vantaggi: economicità (costi e tempi limitati)

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.

Lezione 9: Cambio di base

4 3 4 = 4 x x x 10 0 aaa

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

MICROECONOMIA La teoria del consumo: Alcuni Arricchimenti. Enrico Saltari Università di Roma La Sapienza

Calcolo delle probabilità

7.2 Indagine di Customer Satisfaction

PROGRAMMA SVOLTO NELLA SESSIONE N.

Transcript:

Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» A proposito di rappresentatività del campione La rappresentatività di un campione è la sua conformità, ad alcune caratteristiche della popolazione. Un campione scelto casualmente è uno dei campioni possibili estraibili dall universo dei campioni, pertanto il suo grado di rappresentatività, è solo probabile. La casualità rende infatti più probabile che il campione riproduca in media le caratteristiche della popolazione, a meno di errori imputabili sia al fatto che si analizza solo una parte di quest ultima (errore campionario) sia ad altri tipi di errore (non campionari) che intervengono nell intero processo di indagine. Tuttavia se la casualità di un campione è un requisito indispensabile di rappresentatività statistica non è però un requisito sufficiente. 1

Errori e rilevazioni parziali Non campionari (esempi): Errore di copertura: le liste utilizzate della popolazione statistica sono incomplete. Errore di non-risposta: esclusione o auto-esclusione dei casi Errore dovuto all intervistatore. Campionari derivano dal fatto che si analizza un particolare sotto-insieme della popolazione. I valori rilevati sul campione sono una «stima» di quelli della popolazione, che presenta un errore. Se il campione è probabilistico la stima degli errori campionari viene effettuata mediante la teoria dei campioni: sono note infatti alcune relazioni che legano gli «stimatori» dell universo dei campioni ai parametri della popolazione. Che cosa è l universo dei campioni E l insieme dei campioni possibili di n unità che si possono estrarre da una popolazione attraverso una operazione di selezione. Adottando il criterio di estrazione casuale, il numero di campioni estraibili da una popolazione è determinato dal numero dei diversi modi nei quali le unità statistiche si possono combinare nel comporre il campione. Se la popolazione è infinita si possono estrarre un numero infinito di campioni. Se la popolazione è finita, di dimensione N, e si estraggono campioni di dimensione n, il loro numero dipende dal tipo di estrazione effettuata. Se ad esempio abbiamo N=100 e vogliamo estrarre un campione di 2 unità, in base al calcolo delle probabilità possiamo ottenere Con reinserimento o bernoulliana: N n = N 2 = 100 2 = 10.000 campioni Senza reinserimento o esaustiva tenendo conto dell ordine: D Nn = 100*99= 9.900 campioni Senza reinserimento o esaustiva non tenendo conto dell ordine: C Nn = 100*99/2= 4.950 campioni 2

La distribuzione delle medie campionarie : il Teorema del limite centrale Sui numerosi campioni estraibili da una popolazione possono essere calcolati diverse statistiche utilizzabili per stimare i parametri della popolazione da cui sono estratti. L insieme delle medie di tutti i possibili campioni costituisce la distribuzione campionarie delle medie. Tale distribuzione, secondo il teorema del limite centrale, qualunque sia la distribuzione della popolazione, all aumentare della dimensione campionaria n (per n >30) si approssima ad una distribuzione normale_ con media: E( ) =µ e varianza : Var ( ) = σ²/n dove σ² è la varianza della popolazione (popolazione norrnale, non finita con qualunque tipo di estrazione; popolazione finita con estrazione con ripetizione ) Var ( ) = σ²/n (N-n/N-1) (popolazione finita con estrazione senza ripetizione ) In altre parole. Sia per l estrazione con ripetizione, sia per quella senza ripetizione, la media dei valori medi campionari è uguale alla media della popolazione, dunque è una stima corretta, centrata e non distorta della media della popolazione. La varianza della distribuzione campionaria delle medie rappresenta l errore medio che si commette nello stimare la media della popolazione mediante quella del campione. Operativamente però si opera con un solo campione e non con tutti i campioni estraibili da una popolazione! Si dovrà dunque stabilire se e di quanto la media del campione differisce da quella della popolazione. Ciò è possibile perché sappiamo quale è la distribuzione delle medie campionarie per n>30: la distribuzione normale. 3

La distribuzione normale o di Gauss E una distribuzione teorica di notevole interesse pratico per le sue proprietà matematiche utilizzabili nell ambito dell inferenza statistica. Si ricorre a queste proprietà quando una variabile casuale continua è distribuita normalmente. Caratteristiche: è continua, ha una forma campanulare e simmetrica le sue misure di posizione centrale (media, moda e mediana) coincidono; è asintotica rispetto all asse delle ascisse, assume valori compresi tra - e + Presenta due punti di flesso in corrispondenza di ±1 σ è completamente caratterizzata dai due parametri µ e σ2; L area sottesa alle porzione di curva che si trova tra la media e l ordinata in corrispondenza dello scarto quadratico medio è costante; in particolare - il 68.26% dell area totale è compreso tra µ±1 σ - il 95.44% tra µ±2 σ - il 99,73% tra µ±3 σ Utilità della distribuzione normale nell inferenza Poichè la distribuzione delle medie campionarie, tende al crescere di n a distribuirsi secondo una distribuzione normale, ciò vuol dire che possiamo stimare la probabilità che il valore medio del nostro campione sia più grande o più piccolo della media della popolazione e di quanto. Sappiamo infatti che: Per popolazioni normali, non finite, o nell estrazione con ripetizione: il 68.26% delle medie dei campioni è compreso tra ± il 95.44% tra±2 il 99.73% tra ±3 Per popolazioni non normali, nell estrazione senza ripetizione: il 68.26% delle medie dei campioni è compreso tra ± il 95.44% tra±2 il 99. 73% tra ±3 4

La distribuzione normale standardizzata Oltre alle porzioni di area sottese alla curva citate precedentemente, possiamo conoscere quelle comprese tra il valore medio e qualsiasi altro valore, o tra due valori qualsiasi, utilizzando apposite tavole. Le tavole sono calcolate riferendosi ad una distribuzione normale standardizzata che ha media 0 e varianza pari a 1 Per utilizzare le tavole è necessario standardizzare i valori della nostra distribuzione, mediante la seguente relazione: ( µ) z = X σ TAVOLA A Un numero della tavola indica la porzione di area sottesa dalla curva da - a z. Ad esempio l area sottesa fino a z=2 è di 0,97725 ossia del 97,73% dell area totale. 5

TAVOLA B A volte si trova un altra tavola in cui ogni numero indica la porzione di area sottesa dalla curva da z=0 e una altro valore di z 0. Ad esempio l area sottesa da z=0 a fino a z=2 è di 0,4772 ossia del 47,72% dell area totale. Usare la tavola A o la B è indifferente basta tener conto del significato dei valori riportati Uso delle tavole : esempio 1 Supponiamo di voler conoscere l area compresa tra la media=0 e z=1,96. Nella colonna dei punti z, si scendere fino a trovare z=1,9 e, rimanendo nella stessa riga fino a trovare quella indicata con 0,06. Il punteggio che troveremo in quel punto è 0,9750 ed indica la porzione di area compresa tra - ez=1,96. Poiché l area sotto la curva a sinistra del valore corrispondente alla media=0,00 è 0,5000, l area tra la media e z =1,96 sarà 0,9750-0,5000=0,4750 L area compresa è del 47,50% 12 6

Uso delle tavole : esempio 2 Supponiamo di voler conoscere l area a destra del punto z=1,96. Nella colonna dei punti z, si scendere fino a trovare z=1,9 e, rimanendo nella stessa riga fino a trovare quella indicata con 0,06. Il punteggio che troveremo in quel punto è 0,9750 ed indica la porzione di area compresa tra - ez=1,96. Poiché l area totale è uguale a 1, l area che resta alla destra del punto z=1,96 sarà (1,0000-0,9750) =0,025. L area a destra di z=1,96 sarà del 2,5% Uso delle tavole : esempio 3 Supponiamo di voler conoscere l area compresa tra z=-1 e z=+1 Nella colonna dei punti z, si scendere fino a trovare z=1 e, rimanendo nella stessa riga fino a trovare quella indicata con 0,00. Il punteggio che troveremo in quel punto è 0,8413 ed indica la porzione di area compresa tra - e z=1. Per trovare il valore compreso tra z=-1 e z=+1 possiamo sottrarre metà dell area e moltiplicare per 2, in virtù della simmetria della distribuzione. (0,8413-0.5000)*2=0,3413*2=0,6826 L area compresa è del 68,26% 14 7

Uso delle tavole : esempio 4 Supponiamo di voler conoscere l area compresa tra z=0,54 e z=0,35. Per trovare l area compresa tra - e z=0,54, nella colonna dei punti z, si scendere fino a trovare z=0,5 e, rimanendo nella stessa riga fino a trovare quella indicata con 0,04. Il punteggio che troveremo in quel punto è 0,7054. Per trovare l area compresa tra - e z=0,35, nella colonna dei punti z, si scendere fino a trovare z=0,3 e, rimanendo nella stessa riga fino a trovare quella indicata con 0,05. Il punteggio che troveremo in quel punto è 0,6368. Per trovare l area compresa tra z=0,54 e z=0,35 basterà sottrarre i due valori: 0,7054-0,6368=0,0686. L area compresa è del 6,9% 15 Esercizio La spesa media per prodotti telefonici nella popolazione statistica considerata, che si distribuisce in modo normale, è di 350 euro con uno scarto quadratico medio di 50. Estraendo un campione probabilistico di 150 individui si ottiene una spesa media di 359 euro. Quale è la probabilità di ottenere un campione che ha una spesa media maggiore di quella trovata nel campione estratto? E inferiore o uguale? Facendo riferimento alla distribuzione delle medie campionarie la spesa media di tutti i possibili campioni di 150 unità estraibili dalla popolazione si distribuisce normalmente con media: E( ) =µ =350 e errore medio : Var ( ) = σ/ n =4,082 Come procedere 1. Trovare il valore medio e l errore standard delle medie campionarie 2. Calcolare il valore standardizzato 3. Disegnare la distribuzione normale 4. Calcolare la probabilità sulla tavola della distribuzione normale 5. Trarre le conclusioni Z=, = 2,20 La probabilità di ottenere un campione con media -inferiore o uguale a 359 è 0,9861 -superiore 359 è di 0,0139 8

Esercizio Il prezzo di un prodotto sul mercato risulta, da indagini precedenti, essere di 125 euro con uno scarto quadratico medio di 30. Estraendo un campione probabilistico di 60 negozi si ottiene un prezzo medio di 130 euro. Quale è la probabilità di ottenere un campione casuale di negozi che vendono il prodotto ad un prezzo superiore o uguale? Quale è la probabilità di ottenere un campione con dei negozi che vendono il prodotto a 123 euro o meno? Z=, = 1,29 La probabilità di ottenere un campione con media -superiore o uguale a 130 è (1-0,9015)=0,0984 -inferiore o uguale a 123 è (1-0,6985)=0,3015 Z=, = -0,52 Dalla media del campione a quella della popolazione Fino ad ora abbiamo calcolato il valore di z utilizzando µ e poi abbiamo individuato la probabilità di ottenere il valore della media del nostro campione espressa in forma standardizzata Ma se non conosciamo µ, come procediamo? Come si stabilisce se il valore medio di un campione è una buona stima di quello della popolazione? 9

Gli intervalli di confidenza Si fa riferimento agli intervalli di confidenza: intervalli di valori, definiti da un estremo inferiore e superiore e costruiti a partire dalla media del campione, entro i quali possiamo ritenere che con una certa probabilità, sia inclusa la media della popolazione. La probabilità che il valore vero del parametro della popolazione cada nell intervallo si definisce livello di confidenza e si indica con (1 -α) α (denominato livello di significatività) è la probabilità che il parametro si trovi al di fuori dell intervallo di confidenza. Se il livello di confidenza è (1-α)=95% α =5% Se il livello di confidenza è (1-α)=99% α =1% Intervallo di confidenza per la media con σ noto X Z σ / n µ X + Z σ / n α / 2 α / 2 A partire dalla media del campione costruiamo un intervallo di valori sottraendo e sommando Z α/2 moltiplicato per l errore medio. Z α/2 è il valore, detto critico, a cui corrisponde un area cumulata della distribuzione normale standardizzata pari a (1- α/2 ). Ciò vuol dire che se vogliamo avere un livello di confidenza del 95%, dobbiamo individuare sulle tavole della curva normale il valore z che ci consente di ottenere attorno al valore medio della distribuzione il 95% dei casi, lasciando a destra dell area il 2,5% e a sinistra il 2,5%. Questo valore è z=±1,96 10

Esercizio Se vogliamo avere un livello di confidenza del 99%, quale è il valore critico di z? Come procedere 1. Calcolare α/2= (1-0,99)/2=0,005 2. Cercare sulla tavola della curva normale standardizzata (tav.a) l area pari a (1- α/2 )=(1-0,005)=0,995 3. Individuare il valore di z corrispondente. 4. Disegnare la curva normale Esercizio: stima ad intervallo A un campione casuale semplice di 80 clienti è stato chiesto di attribuire un punteggio da 1 a 100 a un prodotto immesso sul mercato nell ultimo anno. Il valore medio del punteggio è stato 74. Sapendo che lo scarto quadratico medio del punteggio nella popolazione è di 2,5, stimare il punteggio medio del prodotto nella popolazione di riferimento, calcolando l intervallo di confidenza al 95%, al 99% e al 99,73%. Come procedere (1-0,95)/2=0,025 (1-0,025)= 0,9750 standardizzata (tav.a) l area pari a (1- α/2 ) 1. Calcolare α/2= (1-p)/2 2. Cercare sulla tavola della curva normale 74 1,96 (2,5/ 80 ) μ 74+1,96 (2,5/ 80) 73,45 μ 74,55 (1-0,99) /2=0,005 3. Individuare il valore di z corrispondente. 4. Utilizzare il valore z per costruire gli intervalli di confidenza X Z σ / n µ X + Z σ / n α / 2 α / 2 74 2,58 (2,5/ 80 ) μ 74+2,58 (2,5/ 80) 73,28 μ 74,72 (1-0.9973)/2 =0,0027 74 3 (2,5/ 80 ) μ 74+3 (2,5/ 80) 73,16 μ 74,84 11

Esercizio: stima ad intervallo (segue) Possiamo dunque affermare che a partire dal punteggio medio rilevato nel campione di 74, il punteggio medio attribuito dalla popolazione dei clienti al prodotto è compreso tra : 73,45 e 74,55, con un livello di confidenza del 95% e con una probabilità del 5% che sia esterno a questo intervallo. 73,28 e 74,72, con un livello di confidenza del 99% e con una probabilità del 1% che sia esterno a questo intervallo. 73,16 e 74,84 con un livello di confidenza del 99,73% e con una probabilità dello 0,27% che sia esterno a questo intervallo. Per facilitarci il compito: Valori di Zα/2 in corrispondenza dei livelli di confidenza 1-α sign. α Zα/2 0,6827 0,3173 1,00 0,7000 0,3000 1,04 0,8000 0,2000 1,28 0,9000 0,1000 1,64 0,9500 0,0500 1,96 0,9545 0,0455 2,00 0,9900 0,0100 2,58 0,9973 0,0027 3,00 In statistica in genere si ritiene accettabile un rischio di non più del 5%. Pertanto i livelli di confidenza utilizzati sono quelli di almeno il 95% ossia di (1- α) 0,95, a cui corrisponde appunto un livello di significatività α 0,05. Si ritengono accettabili dunque valori di Sign= α 0,05, che risultano associati a valori di Zα/2 1,96 12

Se σ non è noto In genere lo scarto quadratico medio della popolazione σ, al pari della mediaμ, non è noto. Pertanto, per ottenere un intervallo di confidenza per la media della popolazione, occorre utilizzare la deviazione standard del campione. Al posto dell errore medio " # $ = standard stimato: & # $= ' & # $= ' utilizziamo l errore (per popolazioni normali ed n >50, popolazioni infinite, per popolazioni non normali senza valori eccezionali ed n>100) 1 (per popolazioni finite) Dove s è la deviazione standard del campione Esercizio: stima ad intervallo con σ non noto Su un campione di 120 intervistati si è rilevata una spesa media mensile per telefonate su cellulare di 15 euro con scarto quadratico medio di 5,4. Assumendo che la popolazione è distribuita in modo normale, stimare la spesa media nella popolazione di riferimento, con un livello di confidenza del 95,45%. Come procedere 1. Calcolare α/2= (1-0,9545)/2 2. Cercare sulla tavola della curva normale standardizzata (tav.a) l area pari a (1- α/2 ) 3. Individuare il valore di z corrispondente. 4. Utilizzare il valore z per costruire gli intervalli di confidenza ( )* + & - 1 ( +)* + & - 1 15 2 (5.4/ 119 ) μ 15+2 (5.4/ 119 ) 14,01 μ 15,99 Possiamo dunque affermare che a partire dalla spesa media rilevata sul campione di 15 euro, la spesa media della popolazione, è compresa tra 14,01 e 15,99 euro, con un livello di confidenza del 95,45% e con una probabilità del 4,55% che sia esterna (maggiore o minore) a questo intervallo. 13

Esercizio Su un campione di 110 punti vendita si è rilevato che il prezzo di vendita di un noto modello di cellulare è di 355 euro, con uno scarto quadratico medio di 16 euro. Assumendo che la popolazione sia distribuita in modo normale, stimare il prezzo di vendita di quel prodotto nella popolazione di riferimento, con un livello di confidenza del 99,73%. Se σ non è noto: approfondimenti Negli esercizi precedenti in cui n era grande (n>100), anche quando σ non era noto, abbiamo utilizzato l errore standard stimato e abbiamo fatto riferimento, per semplicità, alla distribuzione normale standard. In realtà, se la variabile casuale X ha una distribuzione normale allora la statistica : 1 = # 23 4 567 ha una distribuzione t di Student con (n 1) gradi di libertà. Una t di Student con molti gradi di libertà (n>100) si approssima ad una distribuzione normale standard. Tuttavia per un numero inferiore di gradi di libertà e dunque al diminuire di n la distribuzione t di Student differisce da quella normale e dunque invece della variabile z si utilizza t. 14

T di student La distribuzione t di Student ha una forma simile a quella della normale standardizzata. Il grafico è più appiattito e l area sottesa sulle code è maggiore di quella della normale perché il fatto che σ non è noto e viene stimato da s, è fonte di incertezza e dunque di maggiore variabilità di t. La distribuzione T è simmetrica rispetto alla media 0 e la forma dipende dal numero dei gradi di libertà Gdl o v=( n-1) Se n è grande la distribuzione T si approssima alla curva normale. Intervalli di confidenza con la T di Student gli intervalli di confidenza vengono costruiti facendo riferimento a valori di t in corrispondenza di un dato livello di confidenza e dei gradi di libertà (gdl o v=n-1). Gli intervalli: ' ±1, includono il valore incognito µ con il 95% di probabilità ' ±1, includono il valore incognito µ con il 99% di probabilità I valori 1 * dipendono dal numero di gradi di libertà e vengono individuati utilizzando apposite tavole. 15

La tavola della T di student La tavola fornisce i valori critici per la distribuzione t. La colonna a sinistra contiene il numero dei gradi di libertà, mentre le altre colonne danno i valori di t in corrispondenza dei vari livelli di significatività, cioè le porzioni di area nelle due code della distribuzione. Quindi α=0,050 corrisponde a due aree α/2=0,025, a destra e a sinistra della distribuzione. Esercizio: stima ad intervallo con σ non noto e n piccolo Su un campione di 30 intervistati si è rilevata una spesa media mensile per sigarette elettroniche di 58 euro con scarto quadratico medio di 4 euro. Assumendo che la popolazione è distribuita in modo normale, stimare la spesa media nella popolazione di riferimento, con un livello di confidenza del 95%. Come procedere 1. Calcolare α= (1-0,95)=0,050 2. Calcolare i gradi di libertà v= (n-1) 3. Cercare sulla tavola della t di Student il valore di t in corrispondenza del valore α e di v. 4. Individuare il valore di t corrispondente. 3. Utilizzare il valore t per costruire gli intervalli di confidenza ( 1 * & - 1 ( +1 * & - 1 58 2,045 (4/ 29 ) μ 58+2,045 (4/ 29 ) 56,48 μ 59,52 Possiamo dunque affermare che a partire dalla spesa media rilevata sul campione di 58 euro, la spesa media della popolazione, è compresa tra 56,48 4 59,53 euro, con un livello di confidenza del 95% e con una probabilità del 5% che sia esterna (maggiore o minore) a questo intervallo. 16

Esercizio Su un campione di 25 donne si è rilevato un consumo medio di alcol settimanale di 9 unità con uno scarto quadratico medio di 2,5 unità. Assumendo che la popolazione è distribuita in modo normale, stimare il consumo medio della popolazione di riferimento, con un livello di confidenza del 99%. Come procedere 1. Calcolare α= (1-0,99)=0,01 2. Calcolare i gradi di libertà v= (n-1) 3. Cercare sulla tavola della t di Student il valore di t in corrispondenza del valore α e di v. 4. Individuare il valore di t corrispondente. 3. Utilizzare il valore t per costruire gli intervalli di confidenza 9 2,797 (2,5/ 24 ) μ 9+2,797 (2,5/ 24 ) 7,57 μ 10,42 ( 1 * & - 1 ( +1 * & - 1 Quando il parametro da stimare è una proporzione Spesso nelle ricerche di mercato le statistiche che interessano non sono espressi in valori medi, ma in proporzioni. Si è interessati ad esempio a conoscere la proporzione di clienti soddisfatti o insoddisfatti, oppure di consumatori di un determinato prodotto. Una volta rilevate queste proporzioni su un campione come possiamo procedere a stimare la proporzione reale nella popolazione di riferimento? Anche in questo caso possiamo procedere analogamente alla stima dei valori medi, poiché la distribuzione delle proporzioni campionarie p, tende, se n è grande a distribuirsi secondo una distribuzione normale, con con media: E(p) =P dove P è la proporzione reale nella popolazione e varianza : Var (p) = PQ/n dove Q=(1-P) (popolazione, non finita con qualunque tipo di estrazione; popolazione finita con estrazione con ripetizione, n>30) ) Var (p) = PQ/n [(N-n)/(N-1)] (popolazione finita con estrazione senza ripetizione) 17

Possiamo dunque procedere analogamente a quanto abbiamo fatto per stimare i valori medi, anche nel caso di proporzioni. Sappiamo infatti che: Per n grande, o per popolazioni non finite, o nell estrazione con ripetizione: il 68.26% delle proporzioni dei campioni è compreso tra 8± 9: il 95.44% tra8±2 9: il 99.73% tra 8±3 9: Per popolazioni il 95.44% tra finite, 8±2 nell estrazione 9: senza ripetizione: il 68.26% delle proporzioni dei campioni è compreso tra 8± 9: il 99.73% tra 8±3 9: il 95.44% tra 8±2 9: il 99. 73% tra P±3 9: Esercizio Su un campione di n=100 negozi, risulta che 40 hanno adottato un nuovo orario di apertura. Perciò la proporzione campionaria è di 0,40. Da altre indagini di fonte ufficiale risulta invece che la porzione di negozi in tutta la zona che hanno adottato il nuovo orario è del 36%, quindi la proporzione della popolazione è di 0,36. Quale è la probabilità di ottenere un campione che ha una proporzione superiore di 0,40 se quella della popolazione è di 0,36? Facendo riferimento alla distribuzione delle proporzioni campionarie la proporzione media di tutti i possibili campioni di 100 unità estraibili dalla popolazione si distribuisce normalmente con media: E(p) =P =0,36 e errore medio delle proporzioni: Var (p) = PQ/n = 0,048 Z=,,<, = 0,83 Come procedere 1. Trovare il valore medio e l errore standard delle proporzioni campionarie 2. Calcolare il valore standardizzato 3. Disegnare la distribuzione normale 4. Calcolare la probabilità sulla tavola della distribuzione normale 5. Trarre le conclusioni La probabilità di ottenere un campione con una proporzione -superiore a 0,40 è di (1-0,7967)=0,2033 = 20% Quindi il 20% 18

Intervallo di confidenza per proporzioni A partire dalla proporzione del campione p possiamo costruire un intervallo di valori sottraendo e sommando Z α/2 e moltiplicando per l errore. Come sappiamo Z α/2 è il valore a cui corrisponde un area cumulata della distribuzione normale standardizzata pari a (1- α/2 ). Se n è grande possiamo usare la proporzione p del campione come buona approssimazione della proporzione della popolazione nel calcolo dell errore standard: & = = =>? )* + 8@ - 8?+)* + 8@ - Esercizio: stima ad intervallo di una proporzione Su un campione casuale semplice di 150 intervistati si è rilevata che la percentuale di soggetti che legge un quotidiano è del 40%. Stimare la vera percentuale di lettori di quotidiani nella popolazione, con un livello di confidenza del 95,45% e del 99%. Come procedere: 1. Individuare il valore di z corrispondente a livello di confidenza richiesto. 2.Utilizzare il valore z per costruire gli intervalli di confidenza A BC + AE D F G A+BC + AE D F Attenzione p non è la percentuale, ma la proporzione!! 0,40 2 0,40 2,58,,<,,< (1-α)=95% 8 0,40+2 0,32 8 0,48 (1-α)=99% 8 0,40+2,58 0,30 8 0,50,,<,,< Possiamo dunque affermare che a partire dalla percentuale rilevata sul campione, la percentuale di lettori di quotidiani nella popolazione di riferimento è compresa tra il 32% e il 48% con un livello di confidenza del 95,45% e tra il 30% e il 50% con un livello di confidenza del 99%. 19

Esercizio In un campione di 80 intervistati, 36 clienti hanno detto di preferire l hotel Royal agli altri hotel della zona. A- Si vuole applicare il risultato all intera popolazione di riferimento, con un livello di confidenza del 95%. Quale intervallo di gradimento si ottiene per l hotel Royal? B- Se si decide di estendere la rilevazione a 250 clienti ottenendo una percentuale di preferenze per l hotel Royal del 48%, quali sono i nuovi intervalli di confidenza? Come procedere: 1. Calcolare la proporzione p di clienti che preferiscono l hotel Royal 2. Calcolare l errore standard delle proporzioni 3. Individuare il valore di z corrispondente a livello di confidenza richiesto. 4. Utilizzare il valore z per costruire gli intervalli di confidenza? )H I => 8?+)H I => Risposta A p=36/80=0,45 & = =?K - 0,45 (1 0,45) = =0,056 80 0,45 1,96 0,056 8 0,45+1,96 0,056 0,34 8 0,56 Esercizio Da una ricerca di mercato effettuata su un campione di 200 intervistati risulta che solo 80 individui sono a favore della costruzione di un centro commerciale. A- Si stimi la proporzione della popolazione a favore della costruzione calcolando l intervallo di confidenza al 95,54% B- Se l impresa che costruisce il centro commerciale sostiene che nella popolazione il 70% è a favore della costruzione, qual è la probabilità di avere un campione di 200 persone con la proporzione che abbiamo osservato se la vera proporzione della popolazione è dello 0,7? L impresa ha ragione o torto? 20