Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione al Campione e Ritorno POPOLAZIONE CAMPIONAMENTO PARAMETRO CAMPIONE INFERENZA STIMA Qual è la Media della Popolazione? POPOLAZIONE CAMPIONAMENTO? CAMPIONE
Stimare i Parametri della Popolazione La media del gruppo (campione) è una stima puntuale del parametro della popolazione Ogni media di gruppo fornisce una diversa stima connessa alle fluttuazioni casuali dovute al campionamento La stima puntuale non da indicazioni sulla variabilità della stima Costruisco un intervallo centrato intorno alla media di gruppo sul quale ho una certa confidenza che il parametro della popolazione cada nell intervallo L intervallo di confidenza è la stima intervallare del parametro della popolazione Intervallo di Confidenza e Parametro 6.0 64.5 68.0 7.5 75.0 78.5 8.0 Intervallo di Confidenza e Parametro 6.0 64.5 68.0 7.5 75.0 78.5 8.0
Intervallo di Confidenza e Parametro 6.0 64.5 68.0 7.5 75.0 78.5 8.0 Intervallo di Confidenza Gli intervalli di confidenza sono definiti come un intervallo di valori costruito a partire dai dati All interno dell intervallo ho una certa probabilità (tipicamente 95%) che sia compreso il parametro della popolazione Intervallo di Confidenza e Parametro Nel 95% circa dei campioni possibili l intervallo di confidenza al 95% comprende il parametro della popolazione (7.5 cm) 6.0 64.5 68.0 7.5 75.0 78.5 8.0 3
Intervallo di Confidenza Gli intervalli di confidenza sono definiti come un intervallo di valori costruito a partire dai dati All interno dell intervallo ho una certa probabilità (tipicamente 95%) che sia compreso il parametro della popolazione Per calcolare l intervallo utilizzo le proprietà della distribuzione di campionamento delle medie Calcolo dell Intervallo di Confidenza al 95% La distribuzione delle medie campionarie approssima la distribuzione Gaussiana, quindi il rapporto X µ Z = σ n è distribuito come una gaussiana standardizzata nella quale Pr {.96 Z.96} = 0. 95 e quindi sostituendo a Z il rapporto standardizzato ottengo X µ Pr.96.96 = 0.95 σ n Calcolo dell Intervallo di Confidenza al 95% Possiamo manipolare la disuguaglianza all interno delle parentesi X µ Pr.96.96 = 0.95 σ n moltiplicando i tre termini per σ/ n Pr.96.96 σ X µ σ = 0.95 n n sottraendo da ciascun termine x e cambiando di segno Pr.96.96 X σ µ X + σ = 0.95 n n 4
Esempio di Calcolo dell Intervallo di Confidenza al 95% X z σ, X + z σ n n Informazioni n = 0 x = 70 σ = 8.5 z =.96 Limite Inferiore 70.96*8.5/ 0 = 70 3.7 = 66.8 Limite Superiore 70 +.96*8.5/ 0 = 70 + 3.7 = 73.7 Intervallo di Confidenza Proprietà Maggiore è l ampiezza dell Intervallo di Confidenza minore è la precisione della stima La sua ampiezza, e quindi la precisione della stima, varia con la numerosità dello studio e il grado di confidenza desiderato All aumentare della numerosità l ampiezza diminuisce e la precisione aumenta All aumentare del grado di confidenza (es. 99% invece di 95%) l ampiezza aumenta e la precisione diminuisce Se σ è sconosciuta? Problema Se la varianza della popolazione σ² non è nota? (NB se µ non è nota, è probabile che anche σ² non sia nota) Soluzione Utilizzo la varianza campionaria s² come stima di σ² (NB nella formula della varianza divido per (n-): i gradi di libertà) 5
f(x) 0.5 0.4 0.3 0. 0. 0.0-4.0-3.0 -.0 -.0 0.0.0.0 3.0 4.0 x La distribuzione t di student X µ Z = σ n X µ t = s n Il nuovo rapporto standardizzato non ha una distribuzione normale standardizzata perché devo tener conto anche della variabilità di s che sarà maggiore quando n è piccolo. Questo rapporto è distribuito come una t di student con n- gradi di libertà Percentili della distribuzione t di Student PROBABILITA' ( code) PROBABILITA' ( coda) GL 0, 0,05 0,0 0,0 0,05 0,05 0,0 0,00 5 6,3,7 3,8 63,66 6,3,7 3,8 63,66,9 4,30 6,96 9,9,9 4,30 6,96 9,9 3,35 3,8 4,54 5,84,35 3,8 4,54 5,84 4,3,78 3,75 4,60,3,78 3,75 4,60 5,0,57 3,36 4,03,0,57 3,36 4,03 6,94,45 3,4 3,7,94,45 3,4 3,7 7,89,36 3,00 3,50,89,36 3,00 3,50 8,86,3,90 3,36,86,3,90 3,36 9,83,6,8 3,5,83,6,8 3,5 0,8,3,76 3,7,8,3,76 3,7,80,0,7 3,,80,0,7 3,,78,8,68 3,05,78,8,68 3,05 3,77,6,65 3,0,77,6,65 3,0 4,76,4,6,98,76,4,6,98 5,75,3,60,95,75,3,60,95 6,75,,58,9,75,,58,9 7,74,,57,90,74,,57,90 8,73,0,55,88,73,0,55,88 9,73,09,54,86,73,09,54,86 0,7,09,53,85,7,09,53,85,7,08,5,83,7,08,5,83,7,07,5,8,7,07,5,8 3,7,07,50,8,7,07,50,8 4,7,06,49,80,7,06,49,80 5,7,06,49,79,7,06,49,79 6,7,06,48,78,7,06,48,78 7,70,05,47,77,70,05,47,77 8,70,05,47,76,70,05,47,76 9,70,05,46,76,70,05,46,76 30,70,04,46,75,70,04,46,75,64,96,05,33,64,96,05,33 Area nelle due code 0,5 0,4 0,3 0, 0, 0,0-4,0-3,0 -,0 -,0 0,0,0,0 3,0 4,0 t Area nella coda superiore La distribuzione t di student Caratteristiche. È una distribuzione continua. È simmetrica rispetto alla media: µ 3. Media, mediana e moda coincidono 4. È una distribuzione di probabilità 5. Se n è basso i valori nelle code sono più probabili 6. Al crescere di n la distribuzione approssima la gaussiana standardizzata 6
f(x) 0.5 0.4 0.3 0. 0. 0.0-4.0-3.0 -.0 -.0 0.0.0.0 3.0 4.0 x Distribuzione t di Student e Intervallo di Confidenza Consideriamo i dati sull altezza raccolti da un gruppo di studenti n = 0 x = 7.0 s = 0.0 Qual è l intervallo di confidenza al 95% della media? Distribuzione t di Student e Intervallo di Confidenza Occorre modificare la formula precedente X z σ, X + z σ n n tenendo conto delle nuove informazioni X t s n n, X + tn s n Quali valori della distribuzione t di Student con 9 gradi di libertà lasciano un area nelle due code pari a 0.05? Percentili della distribuzione t di Student PROBABILITA' ( code) PROBABILITA' ( coda) GL 0, 0,05 0,0 0,0 0,05 0,05 0,0 0,00 5 6,3,7 3,8 63,66 6,3,7 3,8 63,66,9 4,30 6,96 9,9,9 4,30 6,96 9,9 3,35 3,8 4,54 5,84,35 3,8 4,54 5,84 4,3,78 3,75 4,60,3,78 3,75 4,60 5,0,57 3,36 4,03,0,57 3,36 4,03 6,94,45 3,4 3,7,94,45 3,4 3,7 7,89,36 3,00 3,50,89,36 3,00 3,50 8,86,3,90 3,36,86,3,90 3,36 9,83,6,8 3,5,83,6,8 3,5 0,8,3,76 3,7,8,3,76 3,7,80,0,7 3,,80,0,7 3,,78,8,68 3,05,78,8,68 3,05 3,77,6,65 3,0,77,6,65 3,0 4,76,4,6,98,76,4,6,98 5,75,3,60,95,75,3,60,95 6,75,,58,9,75,,58,9 7,74,,57,90,74,,57,90 8,73,0,55,88,73,0,55,88 9,73,09,54,86,73,09,54,86 0,7,09,53,85,7,09,53,85,7,08,5,83,7,08,5,83,7,07,5,8,7,07,5,8 3,7,07,50,8,7,07,50,8 4,7,06,49,80,7,06,49,80 5,7,06,49,79,7,06,49,79 6,7,06,48,78,7,06,48,78 7,70,05,47,77,70,05,47,77 8,70,05,47,76,70,05,47,76 9,70,05,46,76,70,05,46,76 30,70,04,46,75,70,04,46,75,64,96,05,33,64,96,05,33 Area nelle due code 0,5 0,4 0,3 0, 0, 0,0-4,0-3,0 -,0 -,0 0,0,0,0 3,0 4,0 t Area nella coda superiore 7
Calcolo dell Intervallo di Confidenza Inseriamo le informazioni raccolte nella formula X t s n n, X + tn 7.09 0,7 0 s n +.09 0 0 n = 0 x = 7.0 s = 0.0 t =.09 I limiti dell intervallo di confidenza sono 67.33 e 76.33 Altezza della Popolazione di Studenti per Genere Frequenza 0 5 0 5 0 5 30 35 40 45 50 DONNE µ d = 65.8 cm Frequenza 0 5 0 5 0 5 30 35 40 45 50 UOMINI µ u = 78.5 cm 50 55 60 65 70 75 80 85 90 95 50 55 60 65 70 75 80 85 90 95 Altezza (cm) Altezza (cm) La differenza dell altezza tra Uomini e Donne: µ u - µ d =.7 cm Altezza di un Campione di Studenti per Genere DONNE UOMINI Frequenza 0 4 6 8 0 x d = 65.4 cm Frequenza 0 4 6 8 0 x u = 77.3 cm 50 55 60 65 70 75 80 85 90 95 50 55 60 65 70 75 80 85 90 95 Altezza (cm) Altezza (cm) La differenza dell altezza tra Uomini e Donne: x u - x d =.8 cm 8
Distribuzione delle Medie Campionarie dell Altezza µ COMPLESSIVO 66 67 68 69 70 7 7 73 74 75 76 77 78 79 µ d DONNE 6 6 63 64 65 66 67 68 69 70 7 7 73 74 µ u UOMINI 7 7 73 74 75 76 77 78 79 80 8 8 83 84 µ u - µ d DIFFERENZA Uomini - Donne 6 7 8 9 0 3 4 5 6 7 8 9 Distribuzione delle Medie Campionarie Caratteristiche della distribuzione delle medie campionarie. È approssimativamente Gaussiana. La media della distribuzione è µ 3. La deviazione standard della distribuzione è uguale a σ/ n E la distribuzione della differenza delle medie campionarie? Occorre distinguere in due casi differenti: Campioni Indipendenti (es. Uomini-Donne) Campioni Appaiati (es. misure ripetute) Campioni Indipendenti Distribuzione della differenza delle medie campionarie. È approssimativamente Gaussiana. La media della distribuzione è µ - µ 3. L errore standard della distribuzione è uguale a: + La varianza delle due σ n n popolazioni è uguale Di questa situazione non ci occupiamo σ + σ n n La varianza delle due popolazioni non è uguale 9
f(x) 0.5 0.4 0.3 0. 0. Variabile Casuale Gaussiana Standardizzata 0.0-4.0-3.0 -.0 -.0 0.0.0.0 3.0 4.0 x Distribuzione della differenza delle medie Problema Qual è la probabilità che la differenza media di altezza tra uomini e donne in un gruppo formato da 0 uomini e 0 donne sia inferiore a 6 cm? Soluzione La distribuzione della differenza delle medie campionarie è gaussiana allora utilizzo il rapporto standardizzato: Z = ( x x ) ( µ µ ) σ + n n = 8.5 6.7 0 + 0 6.7 = =.76 3.8 La tavola della distribuzione Gaussiana Standardizzata Z 0.00 0.0 0.0 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.500 0.496 0.49 0.488 0.484 0.480 0.476 0.47 0.468 0.464 0. 0.460 0.456 0.45 0.448 0.444 0.440 0.436 0.433 0.49 0.45 0. 0.4 0.47 0.43 0.409 0.405 0.40 0.397 0.394 0.390 0.386 0.3 0.38 0.378 0.374 0.37 0.367 0.363 0.359 0.356 0.35 0.348 0.4 0.345 0.34 0.337 0.334 0.330 0.36 0.33 0.39 0.36 0.3 0.5 0.309 0.305 0.30 0.98 0.95 0.9 0.88 0.84 0.8 0.78 0.6 0.74 0.7 0.68 0.64 0.6 0.58 0.55 0.5 0.48 0.45 0.7 0.4 0.39 0.36 0.33 0.30 0.7 0.4 0. 0.8 0.5 0.8 0. 0.09 0.06 0.03 0.00 0.98 0.95 0.9 0.89 0.87 0.9 0.84 0.8 0.79 0.76 0.74 0.7 0.69 0.66 0.64 0.6.0 0.59 0.56 0.54 0.5 0.49 0.47 0.45 0.4 0.40 0.38. 0.36 0.33 0.3 0.9 0.7 0.5 0.3 0. 0.9 0.7. 0.5 0.3 0. 0.09 0.07 0.06 0.04 0.0 0.00 0.099.3 0.097 0.095 0.093 0.09 0.090 0.089 0.087 0.085 0.084 0.08.4 0.08 0.079 0.078 0.076 0.075 0.074 0.07 0.07 0.069 0.068.5 0.067 0.066 0.064 0.063 0.06 0.06 0.059 0.058 0.057 0.056.6 0.055 0.054 0.053 0.05 0.05 0.049 0.048 0.048 0.046 0.046.7 0.045 0.044 0.043 0.04 0.04 0.040 0.039 0.038 0.037 0.037.8 0.036 0.035 0.034 0.034 0.033 0.03 0.03 0.030 0.09 0.09.9 0.09 0.08 0.07 0.07 0.06 0.06 0.05 0.04 0.04 0.03.0 0.03 0.0 0.0 0.0 0.0 0.00 0.00 0.09 0.09 0.08. 0.08 0.07 0.07 0.07 0.06 0.06 0.05 0.05 0.05 0.04. 0.04 0.04 0.03 0.03 0.03 0.0 0.0 0.0 0.0 0.0.3 0.0 0.00 0.00 0.00 0.00 0.009 0.009 0.009 0.009 0.008.4 0.008 0.008 0.008 0.008 0.007 0.007 0.007 0.007 0.007 0.006.5 0.006 0.006 0.006 0.006 0.006 0.005 0.005 0.005 0.005 0.005.6 0.005 0.005 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004.7 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003.8 0.003 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00.9 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 P( x u - x d < 6) = 0.039 Calcolo dell Intervallo di Confidenza al 95% ( X ) + ( ) + + u X d z σ, X u X d z σ nu nd nu nd Informazioni n u = 8 n d = x u = 77.3 x d = 65.4 σ = 8.5 z =.96 Limite Inferiore ( 77.3 65.4).96 8.5 =.9 7.6 = 4. 3 Limite Superiore + 8 + 8 ( 77.3 65.4) +.96 8.5 =.9 + 7.6 = 9. 5 0
Se σ è sconosciuta? Problema Se la varianza della popolazione σ² non è nota? Soluzione Utilizzo le due varianze campionarie s e per stimare la s varianza della popolazione: S pooled = ( n ) S + ( n ) n + n S In questo caso la distribuzione delle differenza delle medie approssima alla distribuzione t con n + n - gradi di libertà Calcolo dell Intervallo di Confidenza al 95% ( X ) + ( ) + + u X d t gl s pooled, X u X d tgl s pooled nu nd nu nd Informazioni n u = 8 n d = x u = 77.3 x d = 65.4 s u = 58.8 s d = 5.5 gl = 8 t 8 =.0 Limite Inferiore ( 77.3 65.4).0 7.4 =.9 7. = 4. 8 Limite Superiore + 8 + 8 ( 77.3 65.4) +.0 7.4 =.9 + 7. = 9. 0