Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica Antonio Azzollini antonio.azzollini@unibas.it Anno accademico 2016/2017
Che cos è la statistica?
Che cos è la statistica? La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Che cos è la statistica? La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza. Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica
Che cos è la statistica? La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza. Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.
Che cos è la statistica? La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza. Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema. 2. Individuazione dei dati pertinenti.
Che cos è la statistica? La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza. Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema. 2. Individuazione dei dati pertinenti. 3. Programmazione della rilevazione dei dati.
Che cos è la statistica? La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza. Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema. 2. Individuazione dei dati pertinenti. 3. Programmazione della rilevazione dei dati. 4. Analisi dei dati.
Che cos è la statistica? La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza. Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema. 2. Individuazione dei dati pertinenti. 3. Programmazione della rilevazione dei dati. 4. Analisi dei dati. 5. Interpretazione dei risultati
Statistica descrittiva vs statistica inferenziale La statistica descrittiva si occupa di individuare le tecniche per organizzare, riassumere e presentare i dati.
Statistica descrittiva vs statistica inferenziale La statistica descrittiva si occupa di individuare le tecniche per organizzare, riassumere e presentare i dati. Esempi Il 2% delle lavatrici vendute in un certo negozio è difettato Il voto medio di una classe di studenti è 25/30 L'abitante più anziano di una certa città ha 92 anni Tra i ragazzi fra i 15 ed i 25 anni il colore più diffuso negll'abbigliamento è il nero
Statistica descrittiva vs statistica inferenziale La statistica inferenziale si occupa di individuare le tecniche per generalizzare all'intera popolazione e con un certo margine di errore i risultati ottenuti da un sottoinsieme della popolazione, detto campione.
Esempio di applicazione della statistica inferenziale Se in questa classe (campione) l'altezza media è di 172 cm, è possibile asserire che essa corrisponde all'altezza media della popolazione costituita da tutti gli studenti UNIBAS? Se la risposta è affermativa, sono sicuro al 100% della validità di questa asserzione?
Esempio di applicazione della statistica inferenziale Se in questa classe (campione) l'altezza media è di 172 cm, è possibile asserire che essa corrisponde all'altezza media della popolazione costituita da tutti gli studenti UNIBAS? Se la risposta è affermativa, sono sicuro al 100% della validità di questa asserzione?
Terminologia essenziale
Terminologia essenziale Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l insieme di riferimento.
Terminologia essenziale Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l insieme di riferimento. Unità statistica. Il caso individuale componente del collettivo statistico. [un azienda, una singola ripetizione dell operazione di pesatura, un cittadino, un pezzo di produzione osservato]
Terminologia essenziale Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l insieme di riferimento. Unità statistica. Il caso individuale componente del collettivo statistico. [un azienda, una singola ripetizione dell operazione di pesatura, un cittadino, un pezzo di produzione osservato] Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo. [numero di addetti, peso dell oggetto, stato occupazionale]
Terminologia essenziale Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l insieme di riferimento. Unità statistica. Il caso individuale componente del collettivo statistico. [un azienda, una singola ripetizione dell operazione di pesatura, un cittadino, un pezzo di produzione osservato] Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo. [numero di addetti, peso dell oggetto, stato occupazionale] Modalità. Come un certo carattere si presenta nelle unità statistiche del collettivo. [nello stato occupazionale: occupato, disoccupato, in cerca della prima occupazione; nella professione: imprendiotore, libero professionista, impiegato; numero di vani di abitazioni: 1, 2, 3,...]
Esempio Collaudo di una bilancia
Esempio Collaudo di una bilancia Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Esempio Collaudo di una bilancia Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Esempio Collaudo di una bilancia Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Esempio Collaudo di una bilancia Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Caratteri
Caratteri Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi). [il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]
Caratteri Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi). [il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso] Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.
Caratteri Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi). [il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso] Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili. Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili. [numero di vani di un abitazione]
Caratteri Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi). [il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso] Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili. Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili. [numero di vani di un abitazione] Continui. Possono assumere tutti i valori in un certo intervallo di numeri reali. [statura di una persona]
Caratteri Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi). [il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso] Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili. Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili. [numero di vani di un abitazione] Continui. Possono assumere tutti i valori in un certo intervallo di numeri reali. [statura di una persona] I caratteri quantitativi si distinguono in trasferibili e non trasferibili, a seconda che sia possibile o meno il trasferimento di parte del carattere da un unità ad un altra, come ad esempio un reddito o un patrimonio.
Caratteri Caratteri di stato. Indipendenti dal fattore tempo. [il numero di vani di una casa, la memoria di un computer]
Caratteri Caratteri di stato. Indipendenti dal fattore tempo. [il numero di vani di una casa, la memoria di un computer] Caratteri di movimento. Soggetti a variare con il tempo e quindi devono essere misurati in un determinato arco di tempo. [numero di nati, numero di morti, produzione di automobili]
Misurazione dei caratteri e scale
Misurazione dei caratteri e scale Caratteri qualitativi
Misurazione dei caratteri e scale Caratteri qualitativi Costruzione di una "scala" fatta di nomi o espressioni lessicali. Sconnessi Scala nominale (non è ordinata). [celibe/nubile, coniugato/a, divorziato/a, vedovo/a]
Misurazione dei caratteri e scale Caratteri qualitativi Costruzione di una "scala" fatta di nomi o espressioni lessicali. Sconnessi Scala nominale (non è ordinata). [celibe/nubile, coniugato/a, divorziato/a, vedovo/a] Rettilinei Scala ordinale (è ordinata). [soldato, caporale, caporalmaggiore, sergente ].
Misurazione dei caratteri e scale Caratteri qualitativi Costruzione di una "scala" fatta di nomi o espressioni lessicali. Sconnessi Scala nominale (non è ordinata). [celibe/nubile, coniugato/a, divorziato/a, vedovo/a] Rettilinei Scala ordinale (è ordinata). [soldato, caporale, caporalmaggiore, sergente ]. Si osservi che il termine "scala" è, anche se usuale, usato impropriamente nel caso di caratteri sconnessi
Misurazione dei caratteri e scale Caratteri quantitativi discreti
Misurazione dei caratteri e scale Caratteri quantitativi discreti Le modalità, espresse attraverso valori in un insieme finito o "contabile", possono essere ordinate e confrontate fra loro attraverso la differenza o il rapporto. Per questo motivo si parla di scala proporzionale
Misurazione dei caratteri e scale Caratteri quantitativi continui Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro sempre attraverso differenze non sempre attraverso rapporti
Misurazione dei caratteri e scale Caratteri quantitativi continui Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro sempre attraverso differenze non sempre attraverso rapporti In particolare non è possibile utilizzare la scala proporzionale quando lo 0 è un valore convenzionale che non individua assenza del carattere (temperatura: 0 non vuole dire che il corpo non ha temperatura!).
Misurazione dei caratteri e scale Caratteri quantitativi continui Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro sempre attraverso differenze non sempre attraverso rapporti In particolare non è possibile utilizzare la scala proporzionale quando lo 0 è un valore convenzionale che non individua assenza del carattere (temperatura: 0 non vuole dire che il corpo non ha temperatura!). In questo caso si parla di scala intervallare.
Frequenze assolute, relative e distribuzioni di frequenze
Frequenze assolute, relative e distribuzioni di frequenze Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta.
Frequenze assolute, relative e distribuzioni di frequenze Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta. Si dice frequenza relativa il rapporto fra la frequenza assoluta ed il numero totale di osservazioni.
Frequenze assolute, relative e distribuzioni di frequenze Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta. Si dice frequenza relativa il rapporto fra la frequenza assoluta ed il numero totale di osservazioni. Si dice distribuzione di frequenze lo schema in cui vengono riportate in una colonna le varie modalità di un carattere ed in quelle successive le frequenze assolute e/o relative associate a ciascuna modalità.
Frequenze cumulate e frequenze relative cumulate
Frequenze cumulate e frequenze relative cumulate Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.
Frequenze cumulate e frequenze relative cumulate Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate. Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative.
Frequenze cumulate e frequenze relative cumulate Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate. Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative. Si dice frequenza cumulata h-esima la quantità Nh=n1+n2+...+nh, per h =1,...,k
Frequenze cumulate e frequenze relative cumulate Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate. Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative. Si dice frequenza cumulata h-esima la quantità Nh=n1+n2+...+nh, per h =1,...,k Si dice frequenza relativa cumulata h-esima la quantità Fh=f1+f2+...+fh, per h=1,...,k
Come si rappresentano i dati? Esempio di distribuzione di frequenze di un carattere qualitativo sconnesso Colore dei capelli N di persone Neri 10 Castani 6 Rossi 1 Biondi 5 Totale 22 Verde carattere Grigio modalità del carattere. Azzurro frequenza assoluta di ciascuna modalità.
Come si rappresentano i dati? Esempio di distribuzione di frequenze di un carattere quantitativo discreto. # stanze # appartamenti 1 300 2 500 3 2000 4 3000 5 150 6 100 7 300 Totale 6350
Come si rappresentano i dati? Quando il carattere si presenta in un numero elevato di modalità (per esempio nel caso di caratteri quantitativi continui) ed effettuiamo un numero elevato di osservazioni, può essere utile rappresentare la distribuzione di frequenze attraverso il raggruppamento in classi.
Come si rappresentano i dati? Esempio di distribuzione di frequenze di un carattere quantitativo continuo con raggruppamento in classi. Peso (in grammi) # neonati 1.800;2.200 10 2.200;2.600 32 2.600;3.000 120 3.000;3.400 254 3.400;3.800 134 3.800;4.200 40 4.200;4.600 10 Totale 600
Come si rappresentano i dati? Peso (Kg) Frequenza assoluta 52 1 54 1 55 2 61 1 63 1 68 2 69 3 71 1 73 1 75 1 76 1 Totale 15
Come si rappresentano i dati? Peso (Kg) Frequenza assoluta 52 1 54 1 55 2 61 1 63 1 68 2 69 3 71 1 73 1 75 1 76 1 Totale 15 Dalle modalità alle classi di modalità Classi di modalità Frequenza assoluta 50;60 4 60;70 7 70;80 4 Totale 15
Come si rappresentano i dati?
Come si rappresentano i dati? Gradimento dei professori Frequenze assolute Frequenze cumulate Frequenze relative Frequenze percentuali Frequenze percentuali cumulate molto deluso 36 36 36/250=0,144 14.4% 14.4% insoddisfatto 90 126 90/250=0,360 36% 14,4+36=50,4% parzialmente insoddisfatto 63 189 63/250=0,252 25.2% 50,4+25,2=75,6% soddisfatto 51 240 51/250=0,204 20.4% 75,6+20,4=96% entusiasta 10 250 10/250=0,040 4% 96+4=100% Totali 250 250 250/250=1,000 100% 100% In questa tabella riconosciamo dei caratteri qualitativi rettilinei!
Indagini statistiche Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:
Indagini statistiche Si parte da una popolazione finita e si può procedere in uno dei seguenti modi: Rilevazione censuaria. L indagine si estende a tutte le unità della popolazione.
Indagini statistiche Si parte da una popolazione finita e si può procedere in uno dei seguenti modi: Rilevazione censuaria. L indagine si estende a tutte le unità della popolazione. Rilevazione campionaria. I dati sono raccolti da un sottoinsieme della popolazione, scelto mediante un campionamento casuale o probabilistico.
Indagini statistiche Si parte da una popolazione finita e si può procedere in uno dei seguenti modi: Rilevazione censuaria. L indagine si estende a tutte le unità della popolazione. Rilevazione campionaria. I dati sono raccolti da un sottoinsieme della popolazione, scelto mediante un campionamento casuale o probabilistico. Dopo una rilevazione campionaria si procede al cosiddetto riporto all universo, ossia, si estendono all intera popolazione le elaborazioni effettuate, secondo opportuni procedimenti sul campione.
Indagini statistiche Ci sono più modi di procedere ad un campionamento casuale:
Indagini statistiche Ci sono più modi di procedere ad un campionamento casuale: Campionamento casuale semplice Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione.
Indagini statistiche Ci sono più modi di procedere ad un campionamento casuale: Campionamento casuale semplice Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione. Campionamento casuale stratificato Campionamento casuale semplice su singole sottopopolazioni derivanti dalla suddivisione della popolazione in sottoinsiemi omogenei.
Indagini statistiche Ci sono più modi di procedere ad un campionamento casuale: Campionamento casuale semplice Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione. Campionamento casuale stratificato Campionamento casuale semplice su singole sottopopolazioni derivanti dalla suddivisione della popolazione in sottoinsiemi omogenei. Un esempio tipico di campionamento casuale stratificato è quello cosiddetto a due stadi. Nel primo stadio viene estratto casualmente un certo numero di unità di primo stadio (sottoinsiemi); da ciascuna di queste viene estratto un nuovo campione casuale di unità elementari dette unità di secondo stadio.
Rappresentazione dei dati I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione visiva del fenomeno che si sta analizzando
Cartogramma Serve a rappresentare quegli elementi della popolazione che vengono identificati con modalità geografiche Stime di incidenza del carcinoma dei polmoni casi nei maschi 100.000
Istogramma (0) Abruzzo 7,252 Molise 933 Basilicata 1,726 Piemonte 25,341 Calabria 6,570 Puglia 24,377 Campania 21,587 Sardegna 8,628 Emilia Romagna 38,497 Sicilia 26,528 Friuli-Venezia Giulia 8,207 Toscana 34,380 Lazio 53,240 Trentino-Alto Adige 5,097 Liguria 17,048 Umbria 5,680 Lombardia 74,672 Valle D Aosta 642 Marche 12,373 Veneto 29,396 Indagine sugli incidenti stradali in Italia Numero di veicoli coinvolti in incidenti stradali per regione
Istogramma (1) Abruzzo Basilicata Calabria Campania Emilia Romagna Friuli-Venezia Giulia Lazio Liguria Lombardia Marche Molise Piemonte Puglia Sardegna Sicilia Toscana Trentino-Alto Adige Umbria Valle D'Aosta Veneto 0 20000 40000 60000 80000 Frequenze assolute La Lombardia ha il maggior numero di incidenti!
Incidenti per veicolo Regione Veicoli Incidenti Tasso Tasso% Abruzzo 1,131,299 7,252 0.006 0.641 Basilicata 457,376 1,726 0.004 0.377 Calabria 1,565,296 6,570 0.004 0.420 Campania 4,350,447 21,587 0.005 0.496 Emilia Romagna 3,724,937 38,497 0.010 1.033 Friuli-Venezia Giulia 1,010,877 8,207 0.008 0.812 Lazio 4,859,950 53,240 0.011 1.095 Liguria 1,328,553 17,048 0.013 1.283 Lombardia 7,693,053 74,672 0.010 0.971 Marche 1,350,814 12,373 0.009 0.916 Molise 272,883 933 0.003 0.342 Piemonte 3,710,183 25,341 0.007 0.683 Puglia 2,862,659 24,377 0.009 0.852 Sardegna 1,303,464 8,628 0.007 0.662 Sicilia 4,257,928 26,528 0.006 0.623 Toscana 3,289,007 34,380 0.010 1.045 Trentino-Alto Adige 1,050,066 5,097 0.005 0.485 Umbria 803,525 5,680 0.007 0.707 Valle D Aosta 201,564 642 0.003 0.319 Veneto 3,903,220 29,396 0.008 0.753
Istogramma (2) Abruzzo Basilicata Calabria Campania Emilia Romagna Friuli-Venezia Giulia Lazio Liguria Lombardia Marche Molise Piemonte Puglia Sardegna Sicilia Toscana Trentino-Alto Adige Umbria Valle D'Aosta Veneto 0 0.35 0.7 1.05 1.4 Tasso percentuale La Lombardia detiene ancora il primato?
Ideogramma Rappresentazione mediante figure stilizzate che rappresentano il fenomeno studiato. Qui mettiamo a confronto la produzione di quattro case automobilistiche in un certo anno
Ideogramma Produzione di zucche Mary 10 Joe 20 Anne 40 Mary Joe Anne = 10 quintali
Ideogramma Produzione di zucche Mary 10 Joe 20 Anne 40 Mary Joe Anne La prima zucca ha una superficie La seconda zucca ha una superficie La terza zucca ha una superficie xy 4xy 16xy
Diagramma cartesiano Viene usato soprattutto per serie temporali, ossia per visualizzare l andamento di un fenomeno nel tempo Ann Vendite auto 1996 10,000 1997 15,000 1998 20,000 1999 18,000 2000 17,000 2001 22,000 2001 23,000 24000 18000 12000 6000 2003 10,000 0 1996 1997 1998 1999 2000 2001 2002 2003 La linea continua è facoltativa
Semplicità nei confronti Media mese Media 5 anni Media assoluta 5 3.75 2.5 1.25 0-1.25-2.5 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 Andamento della temperatura media di dicembre ad Olmo al Brembo (BG) Media assoluta +1,88 C Serie storica 1977-2006 (tendenza -0,74 C/10 anni)