Elementi di statistica Summer School: Data journalism e visualizzazione grafica dei dati! Flavon - 30 Agosto 2011!
La statistica! Chi vi sta parlando? 2
La statistica! Chi vi sta parlando?! Cos è la Statistica? La statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di non determinismo o incertezza ovvero di non completa conoscenza di esso o parte di esso. Wikipedia 3
La statistica! Chi vi sta parlando?! Cos è la Statistica? La statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di non determinismo o incertezza ovvero di non completa conoscenza di esso o parte di esso. Wikipedia Obiettivo 4
La statistica! Chi vi sta parlando?! Cos è la Statistica? La statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di non determinismo o incertezza ovvero di non completa conoscenza di esso o parte di esso. Wikipedia Condizioni 5
La statistica! Numerose aree di studio:! Aziendale! Economica! Sociale! Industriale! Diversi nomi per diversi obiettivi:! Statistica descrittiva! Statistica inferenziale 6
La statistica! Focus su elementi di statistica descrittiva! Leggere i dati! Sintetizzare i dati! Rappresentare i dati 7
La statistica! Terminologia! Unità statistica o osservazione Unità elementare sulla quale si osservano dei caratteri o comportamenti (persona, oggetto, pianta, etc )! Variabile Caratteristica che viene osservata sulle unità statistiche (altezza e peso, dimensioni, colore delle foglie, etc ) 8
La statistica! Terminologia! Campione Qualsiasi insieme di unità statistiche e variabili misurate su di esse! Popolazione Insieme esaustivo di tutte le unità statistiche 9
La statistica! Tipologia di variabili! Quantitative: espresse attraverso numeri 1.! Continue: risultato di una misurazione 2.! Discrete: risultato di un conteggio! Qualitative: espresse attraverso parole, aggettivi 10
La statistica! Esempio Studente Matricola Sesso Età Iscrizione Maria SP-102 F 25 1 Antonio TR-211 M 23 2 Laura TR-162 F 23 2 Elena SP-133 F 24 3 Marco SP-054 M 26 4 Davide TR-088 M 25 1! Quante unità statistiche? Quante variabili? Che tipo di variabili? 11
! Descrivere i dati! Analisi univariata: analizzare la distribuzione della variabile Persona Altezza 1 172 2 166 3 189 4 178 5 175 6 169 7 161 8 172 9 174 10 170 11 182 12 171 13 188 14 178 15 163 12
! Rappresentazione grafica! Variabili quantitative: istogramma, dispersione! Variabili qualitative: diagramma a torta, a barre 13
195 190 185 180 175 170 165 160 155 150 Altezza 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Persona Altezza 1 172 2 166 3 189 4 178 5 175 6 169 7 161 8 172 9 174 10 170 11 182 12 171 13 188 14 178 15 163 14
Sesso N persone M 8 F 7 Persona Sesso 1 F 2 F 3 M 4 M 5 M 6 M 7 F 8 M 9 F 10 F 11 M 12 F 13 M 14 F 15 M 15
Sesso N persone M 8 F 7 47% Sesso 53% M F Persona Sesso 1 F 2 F 3 M 4 M 5 M 6 M 7 F 8 M 9 F 10 F 11 M 12 F 13 M 14 F 15 M 16
! Analisi attraverso statistiche! Posizione: media, mediana, quartili! Variazione: range, scarto interquantilico, varianza! Altri indici (asimmetria, kurtosi) 17
Gruppo 1 Persona Altezza 1 167 2 164 3 189 4 188 5 179 6 178 7 161 8 175 9 165 10 164 11 182 12 168 13 187 14 166 15 176 Gruppo 2 Persona Altezza 1 172 2 166 3 189 4 178 5 175 6 169 7 161 8 172 9 174 10 170 11 182 12 171 13 188 14 178 15 163 18
! Confronto attraverso la media Media = n " x i i =1 n! Media gruppo 1: 173,9!! Media gruppo 2: 173,9 19
20
! Confronto attraverso il range Range = max i=1..n x i ( ) " min( ) i=1..n x i! Range gruppo 1: 28!! Range gruppo 2: 28 21
! Confronto attraverso i quartili! Valori limite che contengono il 25%, 50% e 75% delle osservazioni Persona 7 2 10 9 14 1 12 8 15 6 5 11 13 4 3 Altezza 161 164 164 165 166 167 168 175 176 178 179 182 187 188 189 Gruppo 1 1 Q. Median 3 Q. 165.5 175.0 180.5 22
! Confronto attraverso scarti interquartili! Differenza tra 3Q. E 1Q. Gruppo 1 1 Q. Median 3 Q. 165.5 175.0 180.5 Gruppo 2 1 Q. Median 3 Q. 169.5 172.0 178! Scarto gruppo 1: 15! Scarto gruppo 2: 8,5 23
! Confronto attraverso la varianza Varianza = n # i =1 ( x i " Media) 2 n! Varianza gruppo 1: 9,6!! Varianza gruppo 2: 8,1 24
! Conclusioni dati esempio:! campioni provenienti da due popolazioni diverse! Gruppo 1 molto più variabile rispetto a gruppo 2! Gruppo 2 presenta valori concentrati attorno alla media 25
! Dataset più complessi = informazioni più complesse! Elevato numero di unità statistiche! Maggior numero di variabili di natura diversa! Relazioni tra variabili! Misurazioni ripetute nel tempo 26
Gruppo 1 Persona Altezza Sesso 1 167 F 2 164 F 3 189 M 4 188 M 5 179 M 6 178 M 7 161 F 8 175 M 9 165 F 10 164 F 11 182 M 12 168 F 13 187 M 14 166 F 15 176 M Gruppo 2 Persona Altezza Sesso 1 172 F 2 166 F 3 189 M 4 178 M 5 175 M 6 169 M 7 161 F 8 172 M 9 174 F 10 170 F 11 182 M 12 171 F 13 188 M 14 178 F 15 163 M 27
! Analisi bivariata 185 180 175 170 165 Gruppo 1 Gruppo 2 160 155 F M 28
400 350 300 250 200 150 100 50! Correlazioni 0 Rapine VS Omicidi 0 5 10 15 20 Stato Omicidio Aggressione Alabama 13,2 236 Alaska 10 263 Arizona 8,1 294 Arkansas 8,8 190 California 9 276 Colorado 7,9 204 Connecticut 3,3 110 Delaware 5,9 238 Florida 15,4 335 Georgia 17,4 211 Hawaii 5,3 46 Idaho 2,6 120 Illinois 10,4 249 Indiana 7,2 113 29
400 350 300 250 200 150 100 50! Correlazioni 0 Rapine VS Omicidi 0 5 10 15 20 Stato Omicidio Aggressione Alabama 13,2 236 Alaska 10 263 Arizona 8,1 294 Arkansas 8,8 190 California 9 276 Colorado 7,9 204 Connecticut 3,3 110 Delaware 5,9 238 Florida 15,4 335 Georgia 17,4 211 Hawaii 5,3 46 Idaho 2,6 120 Illinois 10,4 249 Indiana 7,2 113 30
! Indice di correlazione "1 # Cor X,Y ( ) # 1! Cor(R,O)=0.8 400 350 300 250 200 150 100 50 0 Aggressioni VS Omicidi 0 5 10 15 20 31
! Dati Temporali 8 7 6 5 4 3 2 1 0 1944 1947 1950 1953 1956 1959 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 Year Count 1944 3 1945 2 1946 1 1947 2 1948 4 1949 3 1950 7 1951 2 1952 3 1953 3 1954 2 1955 5 1956 2 32
! 1950 -> +133% rispetto al 1949! ultimi 6 anni -> +228% rispetto 6 anni 8 precedenti 7 6 5! Dati allarmanti? 4 3 2 1 0 1944 1947 1950 1953 1956 1959 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 1995 1998 33
Numeri e trasformazioni! Attenzione a:! Dimensioni! Variazioni percentuali! Rapporti 34
Praticamente 35