La statistica è la descrizione delle qualità che caratterizzano e degli elementi che compongono uno Stato" (Ghislini, 1589) La statistica ha quindi per suo oggetto quello di presentare una fedele rappresentazione di uno stato in una determinata epoca (Quetelet, 1849) La statistica è stata riconosciuta nel ventesimo secolo come lo strumento matematico capace di analizzare i dati degli esperimenti e quelli osservati in ogni contesto (Porter, 1986) STATISTICA = etimologicamente è studio delle cose dello Stato Cenni storici Si hanno notizie di censimenti a partire dall antico Egitto. A Venezia e Firenze, nel Rinascimento, ha inizio la raccolta sistematica di dati su popolazione ed economia. In tutta Europa entro la metà del 1500 è consuetudine chiedere da parte dei governi alle parrocchie di tenere registri di nascite, matrimoni, morti.
Nel 1662 John Graunt pubblica Natural and Political Observation Made upon the Bills of Mortality. Nel 1693 gli studi di Edmund Halley convincono le compagnie assicuratrici a stipulare premi di assicurazione sulla base dell ètà dell assicurato. A partire dal 1600 si diffonde anche il calcolo delle probabilità. Basilare è la corrispondenza tra Pascal e Fermat (problema sul gioco dei dadi o problema dei punti). Cardano, Pacioli, Tartaglia, Bernoulli, Gauss, Laplace, Poisson si occupano tutti di calcolo delle probabilità, senza però fare inferenza probabilistica. Alla fine del 1800 Galton e Pearson iniziano ad occuparsi di inferire conclusioni sulla popolazione a partire dai dati campionari, utilizzando opportuni modelli probabilistici. All inizio del 1900 la statistica inferenziale è applicata soprattutto alla biologia umana e all agricoltura, ma le teorie sviluppate erano abbastanza generali da adattarsi ai contesti più diversi; la statistica diventa sempre più la scienza in grado di fornire risposte quantitative ai problemi più disparati.
Calcolo delle probabilità Statistica descrittiva Statistica inferenziale
Sintesi numeriche Popolazione Caratteri (variabili aleatorie) Raccolta dati Sintesi grafiche Analisi comparative
Categoriche Numeriche Discrete Continue Ordinabili Non ordinabili
Solo per v.a. ordinabili (modalità disposte in ordine crescente) X Frequenza assoluta Frequenza relativa Frequenza relativa percentuale Frequenza cumulata Modalità 1 f 1 f r1 =f 1 /n 100 f r1 f 1 Modalità 2 f 2 f r2 100 f r2 f 1 +f 2..... Modalità k f k f rk 100 f rk n k i1 f i n k i1 f 1 f ri % 100 ri k i1
Esempio X = professione di titolari della tessera fedeltà di un supermercato n= 850 Dati: casalinga, insegnante, panettiere, direttore amministrativo, disoccupato, impiegato, pensionato, benzinaio,. Tabella di frequenza X freq. ass. freq. rel. freq. perc. artigiano 62 0.0729 7.29 casalinga 51 0.0600 6.00 commerciante 27 0.0318 3.18 dirigente 25 0.0294 2.94 disoccupato 4 0.0047 0.47 impiegato 215 0.2529 25.29 insegnante 30 0.0353 3.53 operaio 40 0.0471 4.71 pensionato 196 0.2306 23.06 altro 200 0.2353 23.53
Diagramma a barre Grafico a torta
Esempio X = numero particelle cosmiche rilevate in periodi di un minuto n= 20 Dati: 0 2 1 4 3 1 2 2 5 2 1 3 3 1 2 5 8 2 3 3 Tabella di frequenza Numero particelle freq. ass. freq. rel. freq. perc. freq. ass. cum. freq. rel. cum. freq. perc. cum. 0 1 0.05 5 1 0.05 5 1 4 0.2 20 5 0.25 25 2 6 0.3 30 11 0.55 55 3 5 0.25 25 16 0.8 80 4 1 0.05 5 17 0.85 85 5 2 0.1 10 19 0.95 95 8 1 0.05 5 20 1 100
Grafico a barre verticali Grafico delle frequenze cumulate assolute
Esempio X = diametro (in cm) delle sferette prodotte da un macchinario n= 15 Dati: 2,08; 1,72; 1,9; 2,11; 1,79; 1,86; 1,8; 1,82; 1,84; 2,04; 1,86; 2,04; 1,8; 1,82; 1,91 Tabella di frequenza Diametro in classi freq. ass. freq. rel. freq. perc. freq. ass. cum. freq. rel. cum. freq. perc. cum. (1.7,1.8] 4 0.267 26.7 4 0.267 26.7 (1.8,1.9] 6 0.4 40 10 0.667 66.7 (1.9,2] 1 0.067 6.7 11 0.734 73.4 (2,2.1] 3 0.2 20 14 0.934 93.4 (2.1,2.2] 1 0.067 6.7 15 1.001 100.1
Istogramma Grafico delle frequenze cumulate percentuali
X Frequenza assoluta 1 f 1 2 f 2.. k f k n Media campionaria = 1 n k i1 i f i Mediana campionaria = dato di posto (n+1)/2 se n è dispari, media tra i dati di posto n/2 e n/2+1 se n è pari ( v.a. ordinabili, dati disposti in ordine crescente) Moda = modalità con la frequenza localmente massima
X Frequenza assoluta a 1 b 1 f 1 a 2 b 2 f 2.. a k b k f k n Media campionaria = 1 n k i1 i c f i i c a i 2 b i Mediana campionaria = si individua la classe mediana; al suo interno la mediana si può approssimare mediante interpolazione lineare Moda = si individua la classe modale.
Percentili campionari V.a. ordinabile, n dati disposti in ordine crescente, h N, 0 h 100 p h = h-esimo percentile = dato ( o media dei dati) che è contemporaneamente maggiore o uguale di almeno l h% dei dati e minore o uguale di almeno il (100-h)% dei dati: nh/100 non intero p h = dato di posto [nh/100]+1 nh/100 intero p h = media tra i dati di posto nh/100 e nh/100+1. Quartili Q 1 = primo quartile = p 25 Q 2 = mediana o secondo quartile = p 50 Q 3 = terzo quartile = p 75
Range = massimo minimo IQR = differenza interquartile = Q 3 Q 1 s 2 = varianza campionaria = s = deviazione standard campionaria = 2 1 2 1 2 1 1 1 1 n f n f n i k i i i k i i 2 s
Esempio X = professione di titolari della tessera fedeltà di un supermercato n= 850 Tabella di frequenza X freq. ass. artigiano 62 casalinga 51 commerciante 27 dirigente 25 disoccupato 4 impiegato 215 insegnante 30 operaio 40 pensionato 196 altro 200 Moda = impiegato
Esempio X = numero particelle cosmiche rilevate in periodi di un minuto n= 20 Tabella di frequenza Numero particelle freq. ass. freq. perc. cum. 0 1 5 1 4 25 2 6 55 3 5 80 4 1 85 5 2 95 8 1 100 Media = Moda = 2 1 20 Mediana = 2 0 1 1 4... 8 1 2. 65 Q 1 = 1.5 (media fra i dati di posto 5 e 6) Q 3 = 3 p 98 = 8 Range = 8 IQR = 1.5 1 2 29 s 2 2 2 2 = 0 1 1 4... 8 1 20 2. 65 3. s = 1.81 19
Esempio X = diametro (in cm) delle sferette prodotte da un macchinario n= 15 Tabella di frequenza Diametro in classi freq. ass. freq. perc. cum. (1.7,1.8] 4 26.7 (1.8,1.9] 6 66.7 (1.9,2] 1 73.4 (2,2.1] 3 93.4 (2.1,2.2] 1 100.1 Media = 1 15 Classe modale = 1.8 1.9 1. 75 4 1. 85 6... 2. 151 1. 89 Classe mediana = 1.8 1.9 Classe del primo quartile = 1.7 1.8 Classe del terzo quartile = 2 2.1 1 2 017 s 2 2 2 = 1. 75 4... 2. 15 1 151. 89 0. s = 0.13 14
X v.a. con media e deviazione standard s k1 La percentuale di dati appartenenti all intervallo almeno a 1 1 100% 2 k ks ; ks è pari Quindi: almeno il 75% dei dati appartiene all intervallo almeno l 88.89% dei dati appartiene all intervallo almeno il 93.75% dei dati appartiene all intervallo 2s ; 2s 3s ; 3s 4s ; 4s
Esempio X = numero particelle cosmiche rilevate in periodi di un minuto n= 20 Tabella di frequenza Numero particelle freq. ass. freq. perc. cum. = 2.65 s = 1.81 0 1 5 1 4 25 2 6 55 3 5 80 4 1 85 5 2 95 2 s ; 2s 0. 97 ; 6. 27 A questo intervallo appartengono 19 dati su 20, cioè il 95% dei dati. 8 1 100