Statistica descrittiva in una variabile Dott. Nicola Pintus A.a. 2018-2019
Cosa è la statistica? La statistica è la scienza che studia con metodi matematici fenomeni collettivi. La statistica descrittiva è quella parte di statistica che si limita a descrivere i fenomeni attraverso indici e grafici. La statistica inferenziale, anche avvalendosi di metodi probabilistici, permette di trarre conclusioni generali a partire dall esame di un campione.
Fasi dell indagine statistica 1 Individuo il fenomeno di indagare. 2 Individuo le unità statistiche, ovvero il singolo oggetto interessato dal fenomeno. L insieme delle unità statistiche è detta popolazione statistiche o universo statistico. 3 Decido se la mia indagine prevede la rilevazione dei dati sull intero universo statistico o su un suo sottoinsieme. 4 Decido la modalità di svolgimento dell indagine. 5 Raccolta dei dati. 6 Spoglio dei dati. 7 Rappresentazione ed elaborazione dei dati. 8 Interpretazione dei dati.
Il tipo di carattere I dati che rilevo dalle unità statistiche sono di due tipi: Qualitativo: se il dato che rilevo è descritto da un aggettivo. Quantitativo: se il dato che rilevo è descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in un albero Quantitativo Il numero di animali in casa per nucleo famigliare L altezza di un gruppo di individui La rappresentazione dei dati sul grafico dipende dal tipo di dato.
Rappresentazione dei dati: quantitativo discreto X = (2, 1, 1, 2, 3, 1, 2) Modalità Freq. Ass. Freq. Rel. 1 3 0.4286 2 3 0.4286 3 1 0.1429
Rappresentazione dei dati Istogramma a classi di ampiezza uguale X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01) Classe Freq. Ass. Freq. Rel. [0.96, 0.99] 4 0.31 (0.99, 1.02] 5 0.38 (1.02, 1.05] 3 0.23 (1.05, 1.08] 1 0.08
Rappresentazione dei dati Istogramma a classi di ampiezza diversa X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01) Classe Freq. Ass. Freq. Rel. Altezza Barra frequenza rel. [0.96, 0.98] 3 0.23 ampiezza classe = 0.23 0.02 = 11.5 (0.98, 1.02] 6 0.46 11.5 (1.02, 1.08] 4 0.31 5.2
Rappresentazione dei dati Ortogramma Y = (giallo, rosso, rosso, blu, rosso, verde, verde) Modalità Freq. Ass. Freq. Rel. Blu 1 0.14 Giallo 1 0.14 Rosso 4 0.43 Verde 3 0.29
Indici di sintesi Gli indici di sintesi permettono di riassumere gli elementi del vettore dei dati rilevati. Gli indici di centralità sintetizzano con un unico numero il centro del vettore dei dati. Gli indici di dispersione sintetizzano quanto gli elementi del vettore dei dati sono distanti da un valore centrale.
Indici di centralità Medie Definizione Sia dato il vettore delle rilevazioni X = (x 1,, x N ). N i=1 Media aritmetica. X = x i N ; N Media geometrica. X g = N i=1 x i; N i=1 Media quadratica. X q = x i 2 ; N Media armonica. X a = N N i=1 1 x i. Per la media geometrica si richiede che x i > 0 per ogni i. Per la media armonica si richiede che x i 0.
Indici di centralità Medie La media aritmetica si usa per determinare il valore più preciso di una serie di misure purché gli errori di misurazione siano accidentali e non sistematici. La media geometrica si usa per determinare il tasso medio di accrescimento di un fenomeno.
Indici di centralità Medie Esempio Un malato si misura la febbre ogni 4 ore a partire dalle 7 di mattino fino alle 23 di sera, registrando i seguenti dati: Ore 7 Ore 11 Ore 15 Ore 19 Ore 23 37.5 C 38 C 38.8 C 38.5 C 37.9 C Calcola la temperatura media. x = 37.5 + 38 + 38.8 + 38.5 + 37.9 5 = 38.14 C.
Indici di centralità Medie Esempio Una colonia di batteri consiste di 2.7 10 6 unità. Dopo un ora vi è un aumento del 30% e dopo un altra ora di un ulteriore 50%. Calcolare l incremento medio. Ci aspettiamo che l incremento medio sia quella percentuale p% che, applicata successivamente dopo un ora e dopo due ore, porta allo stesso numero di batteri che abbiamo trovato applicando prima un aumento del 30% e poi uno del 50%. x 0 = 2.7 10 6 30% x 1 = 3.51 10 6 50% x 2 = 5.265 10 6
Indici di centralità Medie Se applichiamo un doppio incremento alla media aritmetica degli incrementi singoli non otteniamo x 2 : 2.7 10 6 40% 3.78 10 6 40% 5.292 10 6 x 2 Dunque l incremento medio non può essere la media aritmetica degli incrementi. Infatti l incremento medio è la media geometrica dei singoli incrementi. x g = 1.3 1.5 1.3964 Dunque l incremento medio è 39.64%.
Indici di centralità Mediana e moda Definizione Sia dato il vettore delle rilevazioni X = (x 1,, x N ). Consideriamo il nuovo vettore X avente gli stessi elementi di X ma posti in ordine crescente. Allora la mediana di X è x N+1 2 se N è dispari. x N2 + x N2 +1 2 se N è pari. Indichiamo la mediana con il simbolo X 0.5. Definizione Sia dato il vettore delle rilevazioni X = (x 1,, x N ). La moda è la modalità (o le modalità) che compare più frequentemente.
Indici di centralità Mediana e moda Esempio Consideriamo il vettore di rilevazione X = (2, 1, 1, 2, 3, 1, 2). Calcolare mediana e moda. Costruiamo il vettore X in cui poniamo in ordine crescente gli elementi di X : X = (1, 1, 1, 2, 2, 2, 3). Quindi la mediana è uguale a 2. Poiché le modalità 1 e 2 hanno la stessa massima frequenza assoluta, saranno entrambe moda. Quindi la distribuzione è bimodale.
Indici di dispersione Deviazione standard e varianza Definizione Sia dato il vettore delle rilevazioni X = (x 1,, x N ). Lo scarto medio quadratico o deviazione standard è σ X = 1 N ( xi X ) 2. N Definizione i=1 Sia dato il vettore delle rilevazioni X = (x 1,, x N ). La varianza di X è il quadrato della deviazione standard.
Indici di dispersione Deviazione standard e varianza Esempio Consideriamo il vettore X = (2, 1, 1, 2, 3, 1, 2). Calcolare la deviazione standard. Abbiamo X = 12 7 1.7 x i x i X (x i X ) 2 2 2 1.7 = 0.3 (0.3) 2 = 0.09 1 1 1.7 = 0.7 ( 0.7) 2 = 0.49 1 1 1.7 = 0.7 ( 0.7) 2 = 0.49 2 2 1.7 = 0.3 (0.3) 2 = 0.09 3 3 1.7 = 1.3 (1.3) 2 = 1.69 1 1 1.7 = 0.7 ( 0.7) 2 = 0.49 2 2 1.7 = 0.3 (0.3) 2 = 0.09
Indici di dispersione Deviazione standard e varianza Allora abbiamo che 3 0.49 σ = 2 + 3 0.09 2 + 1 1.69 2 0.69. 7
Indici di dispersione Significato della deviazione standard Sia dato il vettore di rilevazioni X = (x 1,, x N ). Se la numerosità campionaria è alta (nella teoria si indica una numerosità campionaria maggiore di 20), approssimativamente il 68% dei dati cadono dentro l intervallo (X σ, X + σ); il 95% dei dati cadono dentro l intervallo (X 2σ, X + 2σ); il 99% dei dati cadono dentro l intervallo (X 3σ, X + 3σ); Queste percentuali possono differire notevolmente se i dati in X non seguono un andamento a campana di Gauss.
Indici di dispersione Esempio Consideriamo il vettore delle rilevazioni X = (1, 2, 1, 3, 1, 2, 1, 1, 3, 2, 3, 2, 4, 1, 0, 2, 1, 3, 2, 3, 2, 1) Quanti valori cadono nell intervallo ( X σ, X + σ )? Abbiamo X = 36 20 e σ 0.98. Nell intervallo ( X σ, X + σ ) (0.82, 2.78) cadono 15 elementi di X, ovvero il 70% circa del campione.
Indici di dispersione Significato della deviazione standard 8 f i 6 4 2 X σ X X X + σ X 1 2 3 4 M
Formula di König Questa formula ci permette un calcolo più veloce della varianza, e quindi della deviazione standard. Teorema Consideriamo il vettore di rilevazioni X = (x 1,, x N ). Allora Var(X ) = X 2 X 2. Quindi σ = X 2 X 2.
Formula di König Esercizio Usando la formula di Konig calcolare la deviazione standard di X = (2, 1, 1, 2, 3, 1, 2). Calcoliamo X 2 : da cui X 2 = quindi σ X = x i 2 1 1 2 3 1 2 xi 2 4 1 1 4 9 1 4 i x2 i 7 = 24 7. Poiché X = 12 7 avremo che Var(X ) = X 2 X 2 = 24 7 144 49 = 24 49 24 49 0.69.
Esercizio proposto Abbiamo misurato la glicemia a 20 topi di laboratorio dopo la somministrazione di un farmaco. Si ha il seguente vettore delle rilevazioni in mg/dl: X = (120, 110, 121, 122, 109, 103, 110, 111, 121, 102, 110, 109, 113, 114, 110, 125, 111, 120, 121, 101) 1 Si illustri con una rappresentazione tabellare la distribuzione X con le classi M 1 = [100, 110], M 2 = (110, 120] e M 3 = (120, 130]. 2 Si calcoli la media aritmetica e mediana dei valori di X. 3 Si calcoli lo scarto quadratico medio dei valori di X. Si dica in percentuale quanti valori di X appartengono all intervallo X ± σ.
Esercizio proposto Un certo comune ha avuto la seguente variazione di popolazione Anno Popolazione 1990 20000 1995 24000 2000 22000 2005 23000 2010 25000 2005 15000 Calcolare la percentuale di incremento medio della popolazione.