Statistiche per riassumere i dati María Eugenia Castellanos Dep. Estadística e I.O. Universidad Rey Juan Carlos Visiting Professor Università di Cagliari. Cagliari, Marzo 2010 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 1 / 30
Introduzione Il obiettivo in questo capitolo e sviluppare quantità che possano essere usate per sintetizzare un insieme di dati. Oggi gli esperimenti spesso ricercano informazioni su migliaia di individui per volta. Supponiamo di disporre di dati campionati da una popolazione. Nel capitolo precedente abbiamo visto come descrivere e ritrarre insiemi di dati nella loro interezza, in questo capitolo ci occupiamo di determinare alcune misure riassuntive sui dati. Queste misure riassuntive si chiamano statistice, dover per statistica intendiamo una quantità numerica il cui valore è determinato dai dati. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 2 / 30
Statistiche Statistiche Le quantità numeriche calcolate a partire da un insieme di dati si chiamano statistiche. Ci occuperemo de statistiche di due tipi: Quelle che descrivono la tendenza centrale di un insieme di dati; Quelle che si occupano della dispersione dei dati: misurano se i valori sono disposti in vicinanza del centro, o se si allontanano di molto. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 3 / 30
Misure di tendenza centrale Come misure per descrivere la parte centrale di un insieme di dati useremo tre statistiche distinte. Media; Mediana; Moda. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 4 / 30
Media campionaria Supponiamo di avere un campione di n dati i cui valori sono x 1, x 2,..., x n. Una statisticha per indicare il centro di questo insieme di dati è la media campionaria. Media campionaria La media campionaria, che indichiamo con x, è definita da x = n i=1 x i n María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 5 / 30
Media campionaria: Esempio Emissioni CO2 Il dipartimento di energia di USA disporre dei dati di emissione di CO2 (in milioni di tonnellate metriche di diossido di carbonio). Questi dati sono disponibili dal 1996 fino il 2006 e sono presentati per diversi paesi. Per la Italia questi valori sono: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 Calcolare la media per le emissioni di CO2 nella Italia in questi anni. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 6 / 30
Media campionaria: Dati disposti nella tabella de frequenze Abiti venduti per giorno II numero di abiti venduti in ciascuno degli ultimi 6 giorni in una boutique per signora è presentato nella seguente tabella delle frequenze: Abiti venduti 3 4 5 Frequenza 2 1 3 Qual è la media campionaria? L insieme di dati originale è costituito dai 6 valori 3, 3, 4, 5, 5, 5 la media campionaria è x = 3 + 3 + 4 + 5 + 5 + 5 6 = 3 2 + 4 1 + 5 3 6 = 25 6 = 4,2 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 7 / 30
Media campionaria: Dati disposti nella tabella de frequenze Quando i dati sono disposti in una tabella delle frequenze, la media campionaria può essere espressa come la somma del prodotto dei valori distinti per Ie loro frequenze, divisi per la dimensione dell insieme di dati. Supponiamo di disporre di una tabella delle frequenze che elenca k valori distinti, con le rispettive frequenze: X f i x 1 f 1 x 2 f 2...... x k f k La media campionaria per questo insieme di dati è: x = x 1 +... + x 1 + x 2 + + x 2 +... + x k +... + x k n = f 1x 1 + f 2 x 2 +... + f k x k n María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 8 / 30
Esempi In una azienda di 80 lavoratori: 60 guadagnano 30 euro per ora e 20 guadagnano 20 euro per ora. Calcolare la media del salario medio orario. Se il reddito annuale medio dei lavoratori agricoli e non agricoli nella USA sono di $ 35000 e $ 45000, rispettivamente, è il reddito medio annuale per entrambi i gruppi di $ 40000? María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 9 / 30
Esempi La tabella mostra i diversi salari degli impiegati di una azienda. Il direttore vuole sapere qual è il salario medio della sua azienda. Salario Numero di impiegati 20200 60 30000 20 45000 8 53000 6 65000 2 80000 1 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 10 / 30
Mediana campionaria I dati che seguono rappresentano il numero di settimane che sono trascorse, per un campione di sette persone, da quando hanno completato il corso di guida a quando hanno ottenuto la patente: 2,110,5,7,6,7,3 La media campionaria di questo insieme di dati è x = 140 7 = 20 Per tanto, sei valori sona inferiori alla media campionaria, mentre uno è decisamente maggiore. Questa situazione evidenzia un punto debole della media campionaria come indicatore del centro di un insieme di dati. II suo valore è molto influenzato da eventuali valori estremi, come in questo esempio. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 11 / 30
Mediana campionaria Un altra statistica che si usa per indicare il centro di un insieme di dati e che non è influenzata dai valori estremi è la mediana campionaria, denotata per la lettera m, è definita come: Mediana campionaria Si dispongano i valori dei dati in ordine dal più piccolo al più grande. Se il numero di valori è dispari, allora la mediana campionaria è il valore intermedio della lista ordinata; Se è pari, allora la mediana campionaria è la media dei due valori intermedi. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 12 / 30
Mediana campionaria. Esempi Settimane trascorse per ottenere la patente Nel esempio precedente, le settimane che sono trascorse, per un campione di sette persone, da quando hanno completato il corso di guida a quando hanno ottenuto la patente sono: Calcolare la mediana campionaria. 2,110,5,7,6,7,3 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 13 / 30
Mediana campionaria. Esempi Giorni fino smettere di fumare I dati che seguono rappresentano il numero di giorni dopo i quali 6 individui che hanno completato un corso per smettere di fumare hanno effettivamente smesso. Calcolare la mediana campionaria. 1,2,3,5,8,10 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 14 / 30
Mediana campionaria. Definizione generale In generale, per un insieme di dati di n valori, la mediana campionaria è il (n + 1)/2 valore più piccolo per n dispari; La media tra l n/2-esimo valore più piccolo e l n/2 + 1-esimo valore più piccolo se n è pari. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 15 / 30
Media e mediana: confronto La media campionaria e la mediana campionaria sono due statistiche utili per descrivere la tendenza centrale di un insieme di dati. La media campionaria, essendo una media aritmetica, prende in considerazione tutti i valori dell insieme di dati. Al contrario la mediana campionaria, visto che considera solo uno o due valori centrali, non e influenzata dai valori estremi. Le due misure sono importanti e per tanto è utile calcolare entrambe per la sintesi dei dati. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 16 / 30
Mediana campionaria: Esempi Nel esempio delle emissioni di CO2 dal 1996 fino il 2006 nella Italia, calcola la mediana campionaria. I dati sono: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 La tabella mostra i diversi salari degli impiegati di una azienda. Calcola la mediana campionaria, compara il valore con la media campionaria che avviamo calcolato previamente. Salario Numero di impiegati 20200 60 30000 20 45000 8 53000 6 65000 2 80000 1 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 17 / 30
Moda campionaria Un altro indicatore della tendenza centrale è la moda campionaria, che è il valore che si verifica con maggiore frequenza nell insieme di dati. Le seguenti sono le taglie degli ultimi 8 vestiti venduti in una boutique: Qual è la moda campionaria? 42, 40, 38, 36, 40, 34, 44, 40 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 18 / 30
Moda campionaria Le età di 6 bambini di una scuola materna sono le seguenti: seguenti sono le taglie degli ultimi 8 vestiti venduti in una boutique: 2, 5, 3, 5, 2, 4 Quali sono i valori modali di questo insieme di dati? La tabella delle frequenze che segue indica il risultato di 30 lanci di un dado Valore 1 2 3 4 5 6 Frequenza 6 4 5 8 3 4 Per questi dati, determina: (a) moda campionaria; (b) mediana campionaria; (c) media campionaria. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 19 / 30
Varianza campionaria e deviazione standard Fino a questa punto ci siamo occupati di statistiche che misurano il centro di un insieme di dati, ma non abbiamo ancora considerato statistiche che misurino la dispersione dei dati. Per esempio, supporre le seguenti situazioni: 1. Il reddito medio giornaliero di due famiglie è di: 54 e 66 euro, rispettivamente. 2. In un altra località il reddito medio giornaliero di due famiglie è di 24 e 96 euro, rispettivamente. Quale è la media per i due casi? In tutte i due casi è ugualmente rappresentativa la media dei valori veri? La differenza nei due esempi è che nel secondo caso la dispersione dei dati è più grande che nel primo. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 20 / 30
Varianza campionaria e deviazione standard Un modo per misurare la dispersione dei dati è considerare gli scarti dei valori dei dati rispetto a un valore centrale, per esempio rispetto a la mediana campionaria. Se i dati sono x 1,..., x n e la media è x, gli scarti si calcolano come: x i x Potrebbe sembrare naturale misurare la dispersione totale di un insieme di dati calcolando la media degli scarti dalla media, il problema è che n (x i x) = 0 i=1 Questa summa è 0 perché gli scarti positivi cancellano con quelle negativi. In definitiva ci interessa l entità dei singoli scarti indipendentemente dal segno. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 21 / 30
Varianza campionaria e deviazione standard Si può ottenere questa risultato sia: considerando il valore assoluto degli scarti; considerando il qudrato degli scarti; In pratica risulta più utile considerare il quadrato degli scarti. Varianza campionaria La varianra campionaria, scritta s 2, dell insieme di dati x 1,..., x n e di media x, è definita come: s 2 = n i=1 (x i x) 2 n 1 (Nella definizione di s 2 si divide per n 1 invece di dividere per n per ragioni tecniche.) María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 22 / 30
Esempio Calcolo della varianza campionarira Calcola la varianza campionaria nel seguente insieme di dati: 1, 2, 5, 6, 6 Otteniamo s 2 = 9 + 4 + 1 + 4 + 4 4 = 5,5 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 23 / 30
Varianza campionaria L identità algebrica che segue è utile per calcolare la varianza campionaria a mano: n (x i x) 2 = i=1 n i=1 x 2 i n x 2 Calcolo della varianza campionarira Verifica questa identità negli dati precedenti. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 24 / 30
Deviazione standard campionaria La radice quadrata positiva della varianza campionaria si dice deviazione standard campionaria. Deviazione standard: s La quantità s, definita come n i=1 s = (x i x) 2 = n 1 se dice deviazione standard campionaria. s 2 La deviazione standard campionaria è espressa nella stessa unità di misura dei dati originali. Questo significa, per esempio, che se i dati sono espressi in metri, allora la varianza campionaria e espressa in metri quadrati, mentre la deviazione standard campionaria è espressa in metri. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 25 / 30
Interpretazione della deviazione standard La devizione standard ci informa su quanto si discostino i singoli valori di un insieme dalla loro media. La devizione standard ha la seguente proprietà: L intervalo (x s, x + s) contiene al meno il 68 % dei dati del campione. L intervalo (x 2s, x + 2s) contiene al meno il 75 % dei dati del campione. L intervalo (x 3s, x + 3s) contiene al meno il 88 % dei dati del campione. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 26 / 30
Calcolo varianza e deviazione standard Nel esempio delle emissioni di CO2 dal 1996 fino il 2006 nella Italia, calcola la varianza campionaria e la deviazione standard. I dati sono: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 27 / 30
Esempio Ti vengono presentati due insiemi: A : 66, 68, 71, 72, 72, 75; b : 2, 5, 9, 10, 10, 16 (a) Quale insieme sembra avere la maggiore varianza campionaria? (b) Determina la varianza campionaria dell insieme A. (c) Determina la varianza campionaria dell insieme B. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 28 / 30
Coefficiente di variazione Se siamo interessati in comparare la dispersione di due campioni che provengono di due popolazioni diverse, è necessario disporre di una misura di variabilità relativa. Per esempio, non è lo stesso una variabilità di 600 euro nella economia domestica che nella economia di un paese. Un indicatore molto utile di variabilità relativa è il coefficiente di variazione Coefficiente di variazione: CV Se define il CV comoe CV = s x María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 29 / 30
Esempio Nelle emissioni di CO2 dal 1996 fino il 2006 compariamo le emissione della Italia e di United States: Italia: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 USA: 5512, 5592, 5620, 5682, 5860, 5762, 5824, 5878, 5969, 5994, 5903 In che paese c è più variabilità per le emissioni di CO2? María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 30 / 30