Statistica Inferenziale

Похожие документы
Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Verifica delle ipotesi

LEZIONI DI STATISTICA MEDICA

Distribuzioni campionarie

Intervallo di confidenza

Confronto tra due popolazioni Lezione 6

Distribuzioni e inferenza statistica

LA DISTRIBUZIONE NORMALE. La distribuzione Gaussiana. Dott.ssa Marta Di Nicola

Intervalli di confidenza

Statistica. Lezione 4

Tipi di variabili. Indici di tendenza centrale e di dispersione

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Statistica inferenziale per variabili quantitative

tabelle grafici misure di

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Test d ipotesi: confronto fra medie

Distribuzione normale

Schema lezione 5 Intervalli di confidenza

Intervalli di confidenza

DISTRIBUZIONI DI CAMPIONAMENTO

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

standardizzazione dei punteggi di un test

Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

ISTOGRAMMI E DISTRIBUZIONI:

Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)

1.1 Obiettivi della statistica Struttura del testo 2

Esercitazione: La distribuzione NORMALE

Statistica Inferenziale

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Teoria e tecniche dei test

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Distribuzione Normale

05. Errore campionario e numerosità campionaria

C.I. di Metodologia clinica

distribuzione normale

Esercizi di statistica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

STATISTICA ESERCITAZIONE

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

ESERCITAZIONE 21 : VARIABILI ALEATORIE CONTINUE

DISTRIBUZIONI DI PROBABILITA

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

Teorema del Limite Centrale

Транскрипт:

Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione al Campione e Ritorno POPOLAZIONE CAMPIONAMENTO PARAMETRO CAMPIONE INFERENZA STIMA Qual è la Media della Popolazione? POPOLAZIONE CAMPIONAMENTO? CAMPIONE

Stimare i Parametri della Popolazione La media del gruppo (campione) è una stima puntuale del parametro della popolazione Ogni media di gruppo fornisce una diversa stima connessa alle fluttuazioni casuali dovute al campionamento La stima puntuale non da indicazioni sulla variabilità della stima Costruisco un intervallo centrato intorno alla media di gruppo sul quale ho una certa confidenza che il parametro della popolazione cada nell intervallo L intervallo di confidenza è la stima intervallare del parametro della popolazione Intervallo di Confidenza e Parametro 6.0 64.5 68.0 7.5 75.0 78.5 8.0 Intervallo di Confidenza e Parametro 6.0 64.5 68.0 7.5 75.0 78.5 8.0

Intervallo di Confidenza e Parametro 6.0 64.5 68.0 7.5 75.0 78.5 8.0 Intervallo di Confidenza Gli intervalli di confidenza sono definiti come un intervallo di valori costruito a partire dai dati All interno dell intervallo ho una certa probabilità (tipicamente 95%) che sia compreso il parametro della popolazione Intervallo di Confidenza e Parametro Nel 95% circa dei campioni possibili l intervallo di confidenza al 95% comprende il parametro della popolazione (7.5 cm) 6.0 64.5 68.0 7.5 75.0 78.5 8.0 3

Intervallo di Confidenza Gli intervalli di confidenza sono definiti come un intervallo di valori costruito a partire dai dati All interno dell intervallo ho una certa probabilità (tipicamente 95%) che sia compreso il parametro della popolazione Per calcolare l intervallo utilizzo le proprietà della distribuzione di campionamento delle medie Calcolo dell Intervallo di Confidenza al 95% La distribuzione delle medie campionarie approssima la distribuzione Gaussiana, quindi il rapporto X µ Z = σ n è distribuito come una gaussiana standardizzata nella quale Pr {.96 Z.96} = 0. 95 e quindi sostituendo a Z il rapporto standardizzato ottengo X µ Pr.96.96 = 0.95 σ n Calcolo dell Intervallo di Confidenza al 95% Possiamo manipolare la disuguaglianza all interno delle parentesi X µ Pr.96.96 = 0.95 σ n moltiplicando i tre termini per σ/ n Pr.96.96 σ X µ σ = 0.95 n n sottraendo da ciascun termine x e cambiando di segno Pr.96.96 X σ µ X + σ = 0.95 n n 4

Esempio di Calcolo dell Intervallo di Confidenza al 95% X z σ, X + z σ n n Informazioni n = 0 x = 70 σ = 8.5 z =.96 Limite Inferiore 70.96*8.5/ 0 = 70 3.7 = 66.8 Limite Superiore 70 +.96*8.5/ 0 = 70 + 3.7 = 73.7 Intervallo di Confidenza Proprietà Maggiore è l ampiezza dell Intervallo di Confidenza minore è la precisione della stima La sua ampiezza, e quindi la precisione della stima, varia con la numerosità dello studio e il grado di confidenza desiderato All aumentare della numerosità l ampiezza diminuisce e la precisione aumenta All aumentare del grado di confidenza (es. 99% invece di 95%) l ampiezza aumenta e la precisione diminuisce Se σ è sconosciuta? Problema Se la varianza della popolazione σ² non è nota? (NB se µ non è nota, è probabile che anche σ² non sia nota) Soluzione Utilizzo la varianza campionaria s² come stima di σ² (NB nella formula della varianza divido per (n-): i gradi di libertà) 5

f(x) 0.5 0.4 0.3 0. 0. 0.0-4.0-3.0 -.0 -.0 0.0.0.0 3.0 4.0 x La distribuzione t di student X µ Z = σ n X µ t = s n Il nuovo rapporto standardizzato non ha una distribuzione normale standardizzata perché devo tener conto anche della variabilità di s che sarà maggiore quando n è piccolo. Questo rapporto è distribuito come una t di student con n- gradi di libertà Percentili della distribuzione t di Student PROBABILITA' ( code) PROBABILITA' ( coda) GL 0, 0,05 0,0 0,0 0,05 0,05 0,0 0,00 5 6,3,7 3,8 63,66 6,3,7 3,8 63,66,9 4,30 6,96 9,9,9 4,30 6,96 9,9 3,35 3,8 4,54 5,84,35 3,8 4,54 5,84 4,3,78 3,75 4,60,3,78 3,75 4,60 5,0,57 3,36 4,03,0,57 3,36 4,03 6,94,45 3,4 3,7,94,45 3,4 3,7 7,89,36 3,00 3,50,89,36 3,00 3,50 8,86,3,90 3,36,86,3,90 3,36 9,83,6,8 3,5,83,6,8 3,5 0,8,3,76 3,7,8,3,76 3,7,80,0,7 3,,80,0,7 3,,78,8,68 3,05,78,8,68 3,05 3,77,6,65 3,0,77,6,65 3,0 4,76,4,6,98,76,4,6,98 5,75,3,60,95,75,3,60,95 6,75,,58,9,75,,58,9 7,74,,57,90,74,,57,90 8,73,0,55,88,73,0,55,88 9,73,09,54,86,73,09,54,86 0,7,09,53,85,7,09,53,85,7,08,5,83,7,08,5,83,7,07,5,8,7,07,5,8 3,7,07,50,8,7,07,50,8 4,7,06,49,80,7,06,49,80 5,7,06,49,79,7,06,49,79 6,7,06,48,78,7,06,48,78 7,70,05,47,77,70,05,47,77 8,70,05,47,76,70,05,47,76 9,70,05,46,76,70,05,46,76 30,70,04,46,75,70,04,46,75,64,96,05,33,64,96,05,33 Area nelle due code 0,5 0,4 0,3 0, 0, 0,0-4,0-3,0 -,0 -,0 0,0,0,0 3,0 4,0 t Area nella coda superiore La distribuzione t di student Caratteristiche. È una distribuzione continua. È simmetrica rispetto alla media: µ 3. Media, mediana e moda coincidono 4. È una distribuzione di probabilità 5. Se n è basso i valori nelle code sono più probabili 6. Al crescere di n la distribuzione approssima la gaussiana standardizzata 6

f(x) 0.5 0.4 0.3 0. 0. 0.0-4.0-3.0 -.0 -.0 0.0.0.0 3.0 4.0 x Distribuzione t di Student e Intervallo di Confidenza Consideriamo i dati sull altezza raccolti da un gruppo di studenti n = 0 x = 7.0 s = 0.0 Qual è l intervallo di confidenza al 95% della media? Distribuzione t di Student e Intervallo di Confidenza Occorre modificare la formula precedente X z σ, X + z σ n n tenendo conto delle nuove informazioni X t s n n, X + tn s n Quali valori della distribuzione t di Student con 9 gradi di libertà lasciano un area nelle due code pari a 0.05? Percentili della distribuzione t di Student PROBABILITA' ( code) PROBABILITA' ( coda) GL 0, 0,05 0,0 0,0 0,05 0,05 0,0 0,00 5 6,3,7 3,8 63,66 6,3,7 3,8 63,66,9 4,30 6,96 9,9,9 4,30 6,96 9,9 3,35 3,8 4,54 5,84,35 3,8 4,54 5,84 4,3,78 3,75 4,60,3,78 3,75 4,60 5,0,57 3,36 4,03,0,57 3,36 4,03 6,94,45 3,4 3,7,94,45 3,4 3,7 7,89,36 3,00 3,50,89,36 3,00 3,50 8,86,3,90 3,36,86,3,90 3,36 9,83,6,8 3,5,83,6,8 3,5 0,8,3,76 3,7,8,3,76 3,7,80,0,7 3,,80,0,7 3,,78,8,68 3,05,78,8,68 3,05 3,77,6,65 3,0,77,6,65 3,0 4,76,4,6,98,76,4,6,98 5,75,3,60,95,75,3,60,95 6,75,,58,9,75,,58,9 7,74,,57,90,74,,57,90 8,73,0,55,88,73,0,55,88 9,73,09,54,86,73,09,54,86 0,7,09,53,85,7,09,53,85,7,08,5,83,7,08,5,83,7,07,5,8,7,07,5,8 3,7,07,50,8,7,07,50,8 4,7,06,49,80,7,06,49,80 5,7,06,49,79,7,06,49,79 6,7,06,48,78,7,06,48,78 7,70,05,47,77,70,05,47,77 8,70,05,47,76,70,05,47,76 9,70,05,46,76,70,05,46,76 30,70,04,46,75,70,04,46,75,64,96,05,33,64,96,05,33 Area nelle due code 0,5 0,4 0,3 0, 0, 0,0-4,0-3,0 -,0 -,0 0,0,0,0 3,0 4,0 t Area nella coda superiore 7

Calcolo dell Intervallo di Confidenza Inseriamo le informazioni raccolte nella formula X t s n n, X + tn 7.09 0,7 0 s n +.09 0 0 n = 0 x = 7.0 s = 0.0 t =.09 I limiti dell intervallo di confidenza sono 67.33 e 76.33 Altezza della Popolazione di Studenti per Genere Frequenza 0 5 0 5 0 5 30 35 40 45 50 DONNE µ d = 65.8 cm Frequenza 0 5 0 5 0 5 30 35 40 45 50 UOMINI µ u = 78.5 cm 50 55 60 65 70 75 80 85 90 95 50 55 60 65 70 75 80 85 90 95 Altezza (cm) Altezza (cm) La differenza dell altezza tra Uomini e Donne: µ u - µ d =.7 cm Altezza di un Campione di Studenti per Genere DONNE UOMINI Frequenza 0 4 6 8 0 x d = 65.4 cm Frequenza 0 4 6 8 0 x u = 77.3 cm 50 55 60 65 70 75 80 85 90 95 50 55 60 65 70 75 80 85 90 95 Altezza (cm) Altezza (cm) La differenza dell altezza tra Uomini e Donne: x u - x d =.8 cm 8

Distribuzione delle Medie Campionarie dell Altezza µ COMPLESSIVO 66 67 68 69 70 7 7 73 74 75 76 77 78 79 µ d DONNE 6 6 63 64 65 66 67 68 69 70 7 7 73 74 µ u UOMINI 7 7 73 74 75 76 77 78 79 80 8 8 83 84 µ u - µ d DIFFERENZA Uomini - Donne 6 7 8 9 0 3 4 5 6 7 8 9 Distribuzione delle Medie Campionarie Caratteristiche della distribuzione delle medie campionarie. È approssimativamente Gaussiana. La media della distribuzione è µ 3. La deviazione standard della distribuzione è uguale a σ/ n E la distribuzione della differenza delle medie campionarie? Occorre distinguere in due casi differenti: Campioni Indipendenti (es. Uomini-Donne) Campioni Appaiati (es. misure ripetute) Campioni Indipendenti Distribuzione della differenza delle medie campionarie. È approssimativamente Gaussiana. La media della distribuzione è µ - µ 3. L errore standard della distribuzione è uguale a: + La varianza delle due σ n n popolazioni è uguale Di questa situazione non ci occupiamo σ + σ n n La varianza delle due popolazioni non è uguale 9

f(x) 0.5 0.4 0.3 0. 0. Variabile Casuale Gaussiana Standardizzata 0.0-4.0-3.0 -.0 -.0 0.0.0.0 3.0 4.0 x Distribuzione della differenza delle medie Problema Qual è la probabilità che la differenza media di altezza tra uomini e donne in un gruppo formato da 0 uomini e 0 donne sia inferiore a 6 cm? Soluzione La distribuzione della differenza delle medie campionarie è gaussiana allora utilizzo il rapporto standardizzato: Z = ( x x ) ( µ µ ) σ + n n = 8.5 6.7 0 + 0 6.7 = =.76 3.8 La tavola della distribuzione Gaussiana Standardizzata Z 0.00 0.0 0.0 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.500 0.496 0.49 0.488 0.484 0.480 0.476 0.47 0.468 0.464 0. 0.460 0.456 0.45 0.448 0.444 0.440 0.436 0.433 0.49 0.45 0. 0.4 0.47 0.43 0.409 0.405 0.40 0.397 0.394 0.390 0.386 0.3 0.38 0.378 0.374 0.37 0.367 0.363 0.359 0.356 0.35 0.348 0.4 0.345 0.34 0.337 0.334 0.330 0.36 0.33 0.39 0.36 0.3 0.5 0.309 0.305 0.30 0.98 0.95 0.9 0.88 0.84 0.8 0.78 0.6 0.74 0.7 0.68 0.64 0.6 0.58 0.55 0.5 0.48 0.45 0.7 0.4 0.39 0.36 0.33 0.30 0.7 0.4 0. 0.8 0.5 0.8 0. 0.09 0.06 0.03 0.00 0.98 0.95 0.9 0.89 0.87 0.9 0.84 0.8 0.79 0.76 0.74 0.7 0.69 0.66 0.64 0.6.0 0.59 0.56 0.54 0.5 0.49 0.47 0.45 0.4 0.40 0.38. 0.36 0.33 0.3 0.9 0.7 0.5 0.3 0. 0.9 0.7. 0.5 0.3 0. 0.09 0.07 0.06 0.04 0.0 0.00 0.099.3 0.097 0.095 0.093 0.09 0.090 0.089 0.087 0.085 0.084 0.08.4 0.08 0.079 0.078 0.076 0.075 0.074 0.07 0.07 0.069 0.068.5 0.067 0.066 0.064 0.063 0.06 0.06 0.059 0.058 0.057 0.056.6 0.055 0.054 0.053 0.05 0.05 0.049 0.048 0.048 0.046 0.046.7 0.045 0.044 0.043 0.04 0.04 0.040 0.039 0.038 0.037 0.037.8 0.036 0.035 0.034 0.034 0.033 0.03 0.03 0.030 0.09 0.09.9 0.09 0.08 0.07 0.07 0.06 0.06 0.05 0.04 0.04 0.03.0 0.03 0.0 0.0 0.0 0.0 0.00 0.00 0.09 0.09 0.08. 0.08 0.07 0.07 0.07 0.06 0.06 0.05 0.05 0.05 0.04. 0.04 0.04 0.03 0.03 0.03 0.0 0.0 0.0 0.0 0.0.3 0.0 0.00 0.00 0.00 0.00 0.009 0.009 0.009 0.009 0.008.4 0.008 0.008 0.008 0.008 0.007 0.007 0.007 0.007 0.007 0.006.5 0.006 0.006 0.006 0.006 0.006 0.005 0.005 0.005 0.005 0.005.6 0.005 0.005 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004.7 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003.8 0.003 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00.9 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 P( x u - x d < 6) = 0.039 Calcolo dell Intervallo di Confidenza al 95% ( X ) + ( ) + + u X d z σ, X u X d z σ nu nd nu nd Informazioni n u = 8 n d = x u = 77.3 x d = 65.4 σ = 8.5 z =.96 Limite Inferiore ( 77.3 65.4).96 8.5 =.9 7.6 = 4. 3 Limite Superiore + 8 + 8 ( 77.3 65.4) +.96 8.5 =.9 + 7.6 = 9. 5 0

Se σ è sconosciuta? Problema Se la varianza della popolazione σ² non è nota? Soluzione Utilizzo le due varianze campionarie s e per stimare la s varianza della popolazione: S pooled = ( n ) S + ( n ) n + n S In questo caso la distribuzione delle differenza delle medie approssima alla distribuzione t con n + n - gradi di libertà Calcolo dell Intervallo di Confidenza al 95% ( X ) + ( ) + + u X d t gl s pooled, X u X d tgl s pooled nu nd nu nd Informazioni n u = 8 n d = x u = 77.3 x d = 65.4 s u = 58.8 s d = 5.5 gl = 8 t 8 =.0 Limite Inferiore ( 77.3 65.4).0 7.4 =.9 7. = 4. 8 Limite Superiore + 8 + 8 ( 77.3 65.4) +.0 7.4 =.9 + 7. = 9. 0