Introduzione alla statistica descrittiva



Documenti analoghi
Metodi statistici per le ricerche di mercato

La distribuzione Normale. La distribuzione Normale

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Statistica. Lezione 6

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

PROGRAMMA SVOLTO NELLA SESSIONE N.

Analisi e diagramma di Pareto

Analisi della performance temporale della rete

Grafici delle distribuzioni di frequenza

1. Distribuzioni campionarie

STATISTICA IX lezione

PLIDA Progetto Lingua Italiana Dante Alighieri Certificazione di competenza in lingua italiana

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

Corso di. Dott.ssa Donatella Cocca

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Settori di attività economica

MOCA. Modulo Candidatura. [Manuale versione 1.0 marzo 2013]

Facciamo qualche precisazione

Università per Stranieri di Siena Livello A1

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

matematica probabilmente

Osservazioni sulla continuità per le funzioni reali di variabile reale

Scuola dell infanzia di Loranzè Insegnante: Elisa Marta

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Statistica. Le rappresentazioni grafiche

Modelli descrittivi, statistica e simulazione

Rapporto dal Questionari Insegnanti

età sesso luogo-abitazione scuola superiore esperienza insegnamento

S-TRAINER v.1.00 Esempio d uso

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

PLIDA PARLARE. Livello. Progetto Lingua Italiana Dante Alighieri Certificazione di competenza in lingua italiana. giugno 2011

L età dei vincitori La presenza femminile. L età dei vincitori La presenza femminile. Confronto tra il concorso ordinario ed il concorso riservato

Il concetto di valore medio in generale

ESERCIZI DI STATISTICA DESCRITTIVA

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Metodi Matematici e Informatici per la Biologia Maggio 2010

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

IL SOFTWARE EXCEL 4 I GRAFICI

Progetto La fisica nelle attrazioni Attrazione ISPEED

Corso di Psicometria Progredito

Modulo didattico sulla misura di grandezze fisiche: la lunghezza

istruzioni per l uso

Il profiling dei disoccupati basato sull occupabilità: un alternativa di targeting in assenza di evidenza sull efficacia degli interventi

Indagine statistica sulle abitudini al consumo di fumo e alcool.

RAPPRESENTAZIONE DEI DATI

15. Antico gioco russo

Analisi di dati di frequenza

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Università per Stranieri di Siena Livello A1

S- magari si potrebbe dire la prima riga, la seconda riga UNITÀ DIDATTICA: TESTO POETICO. Obiettivi

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

per scrivere un articolo da prima pagina! per inviare una newsletter Come si crea Comunicazione Anfaa Edizione 4a.2013

Lavorare accuratamente e concentrati

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Statistica descrittiva Parte I

Tabella 1 Figura 1 Figura 2 Figura 3 Figura 4

I documenti di Gli ingredienti per l allenamento per la corsa LE RIPETUTE

Statistica descrittiva: prime informazioni dai dati sperimentali

SCHEDA M MOSAICI CLASSIFICARE CON LA SIMMETRIA

GUIDA ALLA RILEVANZA

Calcolo delle probabilità

PROGETTO EM.MA PRESIDIO

ALLEGATO D ANALISI STATISTICA DEI DATI METEOROLOGICI

COME RIOTTENERE L ACCESSO ALLA CASELLA PEC DI ARUBA

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

Criteri di Valutazione della scheda - Solo a carattere indicativo -

STATISTICA DESCRITTIVA - SCHEDA N. 1 VARIABILI QUALITATIVE

Corso di Laurea in Scienze della Formazione Primaria Università di Genova MATEMATICA Il

Live Trading Trading in diretta con forzaforex. Il servizio è attivo tutte le settimane, dal lunedì al venerdì.

Il confronto fra proporzioni

Conoscenza. Metodo scientifico

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

SPC e distribuzione normale con Access

Elementi di Psicometria con Laboratorio di SPSS 1

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Le miniguide di Umberto Santucci. Come stabilire le priorità? Miniguida per l'uso del Diagramma di Pareto

3 GRAFICI DI FUNZIONI

Cominciamo dalla barra multifunzione, ossia la struttura a schede che ha sostituito la barra dei menu e la barra delle icone (Figura 1).

Test di italiano di livello A2 e Permesso di soggiorno CE

Programma Gestione Presenze Manuale autorizzatore. Versione /08/2010. Area Sistemi Informatici - Università di Pisa

per le persone in formazione del ramo di formazione e d esame <inserire il ramo>

ECCO COME FUNZIONA. Ti mostriamo ora come acquistare un volantino.

PROCEDURA INVENTARIO DI MAGAZZINO di FINE ESERCIZIO (dalla versione 3.2.0)

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

ESERCIZI EVENTI E VARIABILI ALEATORIE

- CARATTERISTICHE SOCIO-DEMOGRAFICHE DELL INTERVISTATO - (PER TUTTI)

Excel Terza parte. Excel 2003

SCIENZE E TECNOLOGIA

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Automazione Industriale (scheduling+mms) scheduling+mms.

Transcript:

Dipartimento di Statistica Regione Toscana Comune di Firenze Progetto di diffusione della cultura Statistica Introduzione alla statistica descrittiva Carla Rampichini Dipartimento di Statistica G. Parenti Università di Firenze Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/

Tipi di variabili Riprendiamo in esame le domande contenute nel questionario e osserviamo che raccolgono informazioni di vario tipo: quantitative e qualitative Le variabili QUANTITATIVE misurano caratteristiche numeriche: p.e. il peso e l altezza di una persona Le variabili QUALITATIVE misurano delle qualità: p.e. il colore degli occhi e dei capelli Le variabili dicotomiche sono variabili qualitative con due sole modalità: p.e. la variabile genere assume le modalità maschio e femmina

Codici Osserviamo che accanto alle modalità delle variabili qualitative compaiono dei numeri Questi numeri NON sono quantità ma sono dei CODICI che facilitano il lavoro di registrazione dei dati

Classi di modalità Confrontiamo la dom. 8 e la dom. 9 del questionario: entrambe chiedono di indicare un orario in termini di ore e minuti Nella Dom. 8 l orario va indicato per esteso (ore, minuti)? : Mentre nella Dom. 9 vi è stato chiesto di CLASSIFICARVI in una delle possibili modalità di risposta 1 Prima delle 6.00 4 Dalle 7.00 alle 7.29 2 Dalle 6.00 alle 6.29 5 Dalle 7.30 in poi 3 Dalle 6.30 alle 6.59 Osservate che le modalità di risposta sono ESAUSTIVE e MUTUALMENTE esclusive quali sono secondo voi vantaggi e svantaggi di questi due modi di presentare la risposta?

Pro e contro domande a risposta aperta e chiusa Dom.8 A che ora vai a dormire la sera ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 21:00:00 1 21:30:00 1 22:00:00 2 22:15:00 2 22:30:00 6 22:45:00 1 22:49:00 1 23:00:00 6 23:15:00 3 23:30:00 12 23:45:00 4 23:47:00 1 0:00:00 11 0:50:00 1 1:00:00 3 1:30:00 1 Dom. 9 A che ora ti svegli al mattino ora Frequenza ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 prima delle 6.00 1 2 6.00-6.29 3 3 6.30-6.59 12 4 7.00-7.29 29 5 7.30 e oltre 11 Domande a risposta aperta chiusa risposte non note note a priori informazione più meno dispersione più meno errori misura più meno

Domande ambigue Come avreste posto la domanda 13 Tu fumi? Questa domanda è posta in maniera AMBIGUA Un modo migliore per porre la domanda è Quante sigarette hai fumato nelle ultime 24 ore? Confrontare anche le dom. 14 e 15 in cosa differiscono?

Consideriamo gli studenti presenti come unità di osservazione, e classifichiamo le seguenti variabili Quante ore hai dormito stanotte? Quantitativa: 1,2,, 12 Hai dormito almeno 7 ore stanotte? Quanti stati esteri hai visitato? Sei mancino? Qualitativa, dicotomica: sì, no Quantitativa: 0,1, Qualitativa, dicotomica: sì, no In quale giorno della settimana sei nato? Qualitativa: lun, mar, mer,gio,ven,sab,dom Hai studiato ieri pomeriggio? Qualitativa, dicotomica: sì, no Per quanto tempo hai studiato ieri pomeriggio? Quantitativa: ore, minuti

Ricordate La distinzione tra variabili qualitative e quantitative è importante per scegliere il metodo da utilizzare Molto spesso la classificazione di una variabile dipende da come viene misurata Una variabile che assume valori numerici corrispondenti a codici (p.e. CAP) è qualitativa

Validità e affidabilità di una misura (1) alla domanda 8 A che ora vai a dormire abitualmente la sera? avete probabilmente risposto con sincerità, e quindi questa domanda fornisce risposte affidabili Secondo voi, in base ai risultati della rilevazione, si possono fare affermazioni del tipo Qualche studente studia poco perché dorme troppo poco? In altri termini, secondo voi la dom. 8 dà indicazioni valide per analizzare il rendimento nello studio?

Validità e affidabilità di una misura (2) Il modo in cui abbiamo misurato il numero di battiti cardiaci è molto approssimato e quindi probabilmente i dati che abbiamo rilevato non sono molto affidabili Potete fare una verifica misurando per 2 volte i vostri battiti e osservare se avete ottenete la stessa misura Secondo voi, l informazione sul numero di battiti cardiaci ci dà indicazioni valide per lo studio del vostro stato di salute?

Osservazioni sulla variabilità La variabilità nei dati si riscontra: in due misurazioni dello stesso oggetto (errore di misura: p.e. due misurazioni del battito cardiaco) misurazione di due oggetti diversi (p.e. variabilità biologica : il battito cardiaco a riposo per un adulto dovrebbe variare tra 60 e 100, come nei i vostri dati) nei processi casuali (p.e. due estrazioni con reintroduzione da un urna contenente palline numerate da 1 a 20)

Statistica descrittiva scopo principale sintetizzare e descrivere i dati attraverso grafici (diagrammi a barre, a torta, boxplot, ecc.) tabelle indici sugli aspetti più importanti posizione, come la media variabilità, come la varianza concentrazione relazione tra variabili

Distribuzione e sintesi dei dati I dati sono un lungo elenco di valori ed è difficile trovare una regolarità: ecco i dati raccolti in classe Se volete confrontare la vostra altezza con quella dei compagni come fate? La lista di valori è lunga e ci vorrebbe molto tempo per confrontare tutti i numeri! Leggiamo invece una sintesi dei valori raccolti: il 50% centrale dei valori è compreso tra 168 e 180 cm la metà delle altezze è superiore a 175 cm e l altra metà è inferiore a questo valore

Distribuzione e sintesi dei dati Se siete alti p.e. 178 cm, in base a questa sintesi sapete subito che la vostra altezza si trova nella parte centrale della distribuzione, non lontana dal valore centrale Notate che questa sintesi vi fornisce due informazioni: il valore centrale è 175 cm e le altezze si distribuiscono intorno a questo valore, variando tra 170 e 180 cm nella parte centrale (50% delle altezze) della distribuzione Spesso questo tipo di sintesi fornisce tutte le informazioni necessarie per capire l andamento del fenomeno, soprattutto quando la forma della distribuzione è una di quelle tipiche

Matrice dei dati I dati sono di solito raccolti in forma RETTANGOLARE: matrice righe colonne ogni riga della matrice corrisponde ad una unità di osservazione ogni colonna della matrice corrisponde ad una variabile Esempio dati raccolti in classe: 56 oss 16 var Esempio dati mammiferi: 39 osserv 6 variabili

Distribuzioni L insieme dei valori assunti da una variabile e la frequenza con cui ogni valore si presenta tra le unità di osservazione produce la DISTRIBUZIONE dei dati 1 1 2 2 0 5 3 0 0 0 2 5 9 4 0 0 0 2 5 8 5 0 6 7 0 distribuzione dei mammiferi in base alla variabile SELVAGGIO Steam-and-leaf-plot selvaggio 1 29 0 10 TOT 39 Tabella modalità e frequenze distribuzione dei mammiferi in base alla velocità

Distribuzione degli studenti altezza Stem Leaf 192 0 190 188 00 186 184 00 182 000 180 00000000 178 0000000 176 0000 174 000 172 0000 170 00000 168 00000000 166 0 164 00 162 000 160 000 ----+----+----+----+ Mezzo di trasporto utilizzato mezzo cod freq % a piedi 1 4 7.14 bici 2 1 1.79 motorino 3 23 41.07 auto 4 16 28.57 bus 5 6 10.71 bus+altro 6 6 10.71 Totale 56 100.00

Come si esplorano i dati? Ogni analisi esplorativa dovrebbe seguire questi passi grafico forma centro dispersione 1. Tracciare il grafico più appropriato 2. Descrivere la forma della distribuzione in base al grafico e indici di forma 3. Calcolare una misura del centro della distribuzione, appropriata in base alla forma della distribuzione 4. Calcolare un indice di dispersione appropriato in base alla forma della distribuzione e coerente con la misura di centro utilizzata UTILIZZARE GRAFICI E INDICI APPROPRIATI IN BASE AL TIPO DI VARIABILE

Aspetti notevoli delle distribuzioni centro Coda sinistra Coda destra

Aspetti caratterizzanti le distribuzioni: posizione e variabilità Posizione Più a sinistra Più a destra Variabilità Meno variabile più variabile

Aspetti caratterizzanti le distribuzioni: forma asimmetrica simmetrica

Grafici per variabili quantitative Per capire come sintetizzare una distribuzione è utile conoscere la sua forma La forma di una distribuzione può essere vista attraverso un grafico Grafici più utilizzati Dotplot Istogramma Boxplot Steam and leaf plot Plot frequenze cumulate

Esempio mammiferi i gatti domestici vivono circa 12 anni, ma possono vivere anche fino a 28 anni. Questa durata è tipica di altri carnivori domestici? Cosa si può dire per i mammiferi domestici che non sono predatori, come le mucche e i maiali? E per i mammiferi che vivono allo stato selvaggio? I rinoceronti, mammiferi non predatori, vivono in media 15 anni, con una durata massima di 45 anni. Mentre l orso grizzly, che è un predatore, vive in media 25 anni, con una durata di vita massima di circa 50 anni. Possiamo affermare che tra i mammiferi selvaggi i carnivori vivono più a lungo dei vegetariani? Possiamo rispondere ad alcune di queste domande osservando i grafici dei dati raccolti

DOTPLOT mostra i singoli casi osservati come punti dal dotplot possiamo vedere la forma, il centro e la dispersione dei dati 5 15 25 35 45 55 65 75 velocità (mph) Il dot plot è utile quando: si hanno pochi casi si vogliono vedere i singoli valori si vuole vedere qual è la forma della distribuzione si vogliono confrontare pochi gruppi Quando leggete un dot plot, tenete presente che software diversi fanno dot plot diversi: a volte 1 punto rappresenta 1 singolo caso, a volte 2 o più casi, a volte i valori vengono arrotondati

dotplot studenti per genere e altezza (cm) 15 10 5 0 157 162 167 172 177 182 187 192 197 femmine, maschi Altezza in classi di 5cm ( valori centrali di classe p.e. 162 [160,164])

Alcuni approfondimenti Classifichiamo ogni variabile che compare nella matrice dei dati dei mammiferi come quantitativa o qualitativa Consideriamo la variabile velocità dei mammiferi Contiamo il numero di mammiferi la cui velocità finisce con 0 o 5 sono 12 su 18, cioè i 2/3 Quanti valori pensate sarebbero finiti per 0 o 5 per il solo effetto del caso? 2/10 di 18 cioè 3.6 Quali sono le spiegazioni possibili del fatto che le risposte ai due quesiti precedenti sono così diverse? Vedi risposta R1

Dotplot per durata della gestazione Costruiamo il dotplot (vedi foglio di lavoro) Osservando il dotplot proviamo a descrivere la forma, il centro e la dispersione Quali mammiferi presentano la gestazione più lunga? Quelli più grandi!

risposte

R1 La spiegazione più plausibile è che le velocità sono stime per gli animali selvaggi Chi andrebbe a misurare la velocità di un grizzly in natura? Le velocità che non finiscono per 0 o 5 sono quelle relative ad animali domestici: cane, volpe, giraffa, cavallo, maiale e scoiattolo. Per questi mammiferi, ad eccezione della giraffa, la velocità può essere misurata in maniera accurata: sicuramente nel caso di gare di corsa per cavalli e cani!

La distribuzione è centrata R2 verso i valori più bassi, senza gruppi o buchi particolari C è una sorta di muro a 0 giorni, perché nessun mammifero può avere un periodo di gestazione più piccolo! 160 0 100 200 300 400 500 600 700 durata gestazione (giorni) L elefante è l unico mammifero fuori norma (outlier) Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 160 giorni e la metà hanno un periodo più breve La metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni. elefante

Tipo variabili mammiferi Mammifero Periodo di gestazione Durata vita media Durata vita max Velocità Selvaggio Predatore È un etichetta Quantitativa gg Quantitativa anni Quantitativa anni Quantitativa mph Qualitativa sì/no Qualitativa sì/no

Istogramma altezza