Statistiche per riassumere i dati

Documenti analoghi
Una statistica è una quantità numerica il cui valore è determinato dai dati.

Statistica descrittiva II

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30


Elementi di Statistica

Statistica di base per l analisi socio-economica

INDICATORI DI TENDENZA CENTRALE

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Capitolo 3 Sintesi e descrizione dei dati quantitativi

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE

STATISTICHE DESCRITTIVE Parte II

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Statistica descrittiva

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Scale di Misurazione Lezione 2

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

La statistica descrittiva per le variabili quantitative

Esercitazioni di statistica

Nozioni di statistica

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

tabelle grafici misure di

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Istituzioni di Statistica e Statistica Economica

Statistica Un Esempio

Teoria e tecniche dei test. Concetti di base

Misure di tendenza centrale

Compiti tematici dai capitoli 2,3,4

Campo di Variazione Costituisce la misura di

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

STATISTICA Disciplina scien tifica che fornisce strumenti per l interpretazione delle informazioni contenute in insiemi di dati relativi a

La sintesi delle distribuzioni

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

La gestione dei risultati della valutazione. Claudio Mantovani

Tipi di variabili. Indici di tendenza centrale e di dispersione

MISURE DI SINTESI 54

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Lezione 4 a - Misure di dispersione o di variabilità

1/55. Statistica descrittiva

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

x i. Δ x i

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

STATISTICHE DESCRITTIVE

Lezione 4: Indici di posizione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Misure di dispersione (o di variabilità)

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Esempi di confronti grafici

Le medie. Antonello Maruotti

Quanti soggetti devono essere selezionati?

Indicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Esplorazione dei dati

SCOPO DELL ANALISI DI CORRELAZIONE

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

Variabilità e Concentrazione Esercitazione n 02

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Scuola di Calcolo Scientifico con MATLAB (SCSM) 2017 Palermo Luglio 2017

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

ESEMPI DI DOMANDE PER TUTTE E DUE LE TIPOLOGIE DI PARTECIPANTI

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

ESERCIZI STATISTICA DESCRITTIVA

Gli indici di variabilità

Prof. Giulio Vidotto (Università di Padova) Lez Trasformazione delle misure e significanza delle statistiche

STATISTICA SOCIALE Corso di laurea in Scienze Turistiche - A.A. 2005/2006 II Prova - 20 dicembre 2005

STATISTICA 1 ESERCITAZIONE 2

Parlami un po di te.

MISURE DI DISPERSIONE

DISTRIBUZIONI DI CAMPIONAMENTO

Distribuzioni campionarie. Antonello Maruotti

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

dott.ssa Gabriella Agrusti Docimologia 1

Esercitazione II Statistica e Calcolo delle Probabilità (con soluzioni)

ESERCIZI: riportare lo svolgimento dell esercizio e commentare il risultato

STATISTICA DESCRITTIVA (variabili quantitative)

Elementi di Probabilità e Statistica

ESERCIZI DI RIEPILOGO 1

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

esercitazione1 12/10/2015

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

L indagine campionaria Lezione 3

Modelli probabilistici variabili casuali

MATEMATICA CORSO A II COMPITINO (Tema 1) 5 Aprile 2013

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

TOPOGRAFIA 2013/2014. Prof. Francesco-Gaspare Caputo

Le misure numeriche. La media aritmetica

Elementi di statistica

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Relazione tra variabili (cont.) In questo parte del corso analizziamo la relazione tra una variabile continua e un altra qualitativa o discreta.

Misure di dispersione (o di variabilità)

Statistica. Campione

Settimana 2. G. M. Marchetti. 4 Marzo 2017

Transcript:

Statistiche per riassumere i dati María Eugenia Castellanos Dep. Estadística e I.O. Universidad Rey Juan Carlos Visiting Professor Università di Cagliari. Cagliari, Marzo 2010 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 1 / 30

Introduzione Il obiettivo in questo capitolo e sviluppare quantità che possano essere usate per sintetizzare un insieme di dati. Oggi gli esperimenti spesso ricercano informazioni su migliaia di individui per volta. Supponiamo di disporre di dati campionati da una popolazione. Nel capitolo precedente abbiamo visto come descrivere e ritrarre insiemi di dati nella loro interezza, in questo capitolo ci occupiamo di determinare alcune misure riassuntive sui dati. Queste misure riassuntive si chiamano statistice, dover per statistica intendiamo una quantità numerica il cui valore è determinato dai dati. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 2 / 30

Statistiche Statistiche Le quantità numeriche calcolate a partire da un insieme di dati si chiamano statistiche. Ci occuperemo de statistiche di due tipi: Quelle che descrivono la tendenza centrale di un insieme di dati; Quelle che si occupano della dispersione dei dati: misurano se i valori sono disposti in vicinanza del centro, o se si allontanano di molto. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 3 / 30

Misure di tendenza centrale Come misure per descrivere la parte centrale di un insieme di dati useremo tre statistiche distinte. Media; Mediana; Moda. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 4 / 30

Media campionaria Supponiamo di avere un campione di n dati i cui valori sono x 1, x 2,..., x n. Una statisticha per indicare il centro di questo insieme di dati è la media campionaria. Media campionaria La media campionaria, che indichiamo con x, è definita da x = n i=1 x i n María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 5 / 30

Media campionaria: Esempio Emissioni CO2 Il dipartimento di energia di USA disporre dei dati di emissione di CO2 (in milioni di tonnellate metriche di diossido di carbonio). Questi dati sono disponibili dal 1996 fino il 2006 e sono presentati per diversi paesi. Per la Italia questi valori sono: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 Calcolare la media per le emissioni di CO2 nella Italia in questi anni. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 6 / 30

Media campionaria: Dati disposti nella tabella de frequenze Abiti venduti per giorno II numero di abiti venduti in ciascuno degli ultimi 6 giorni in una boutique per signora è presentato nella seguente tabella delle frequenze: Abiti venduti 3 4 5 Frequenza 2 1 3 Qual è la media campionaria? L insieme di dati originale è costituito dai 6 valori 3, 3, 4, 5, 5, 5 la media campionaria è x = 3 + 3 + 4 + 5 + 5 + 5 6 = 3 2 + 4 1 + 5 3 6 = 25 6 = 4,2 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 7 / 30

Media campionaria: Dati disposti nella tabella de frequenze Quando i dati sono disposti in una tabella delle frequenze, la media campionaria può essere espressa come la somma del prodotto dei valori distinti per Ie loro frequenze, divisi per la dimensione dell insieme di dati. Supponiamo di disporre di una tabella delle frequenze che elenca k valori distinti, con le rispettive frequenze: X f i x 1 f 1 x 2 f 2...... x k f k La media campionaria per questo insieme di dati è: x = x 1 +... + x 1 + x 2 + + x 2 +... + x k +... + x k n = f 1x 1 + f 2 x 2 +... + f k x k n María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 8 / 30

Esempi In una azienda di 80 lavoratori: 60 guadagnano 30 euro per ora e 20 guadagnano 20 euro per ora. Calcolare la media del salario medio orario. Se il reddito annuale medio dei lavoratori agricoli e non agricoli nella USA sono di $ 35000 e $ 45000, rispettivamente, è il reddito medio annuale per entrambi i gruppi di $ 40000? María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 9 / 30

Esempi La tabella mostra i diversi salari degli impiegati di una azienda. Il direttore vuole sapere qual è il salario medio della sua azienda. Salario Numero di impiegati 20200 60 30000 20 45000 8 53000 6 65000 2 80000 1 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 10 / 30

Mediana campionaria I dati che seguono rappresentano il numero di settimane che sono trascorse, per un campione di sette persone, da quando hanno completato il corso di guida a quando hanno ottenuto la patente: 2,110,5,7,6,7,3 La media campionaria di questo insieme di dati è x = 140 7 = 20 Per tanto, sei valori sona inferiori alla media campionaria, mentre uno è decisamente maggiore. Questa situazione evidenzia un punto debole della media campionaria come indicatore del centro di un insieme di dati. II suo valore è molto influenzato da eventuali valori estremi, come in questo esempio. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 11 / 30

Mediana campionaria Un altra statistica che si usa per indicare il centro di un insieme di dati e che non è influenzata dai valori estremi è la mediana campionaria, denotata per la lettera m, è definita come: Mediana campionaria Si dispongano i valori dei dati in ordine dal più piccolo al più grande. Se il numero di valori è dispari, allora la mediana campionaria è il valore intermedio della lista ordinata; Se è pari, allora la mediana campionaria è la media dei due valori intermedi. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 12 / 30

Mediana campionaria. Esempi Settimane trascorse per ottenere la patente Nel esempio precedente, le settimane che sono trascorse, per un campione di sette persone, da quando hanno completato il corso di guida a quando hanno ottenuto la patente sono: Calcolare la mediana campionaria. 2,110,5,7,6,7,3 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 13 / 30

Mediana campionaria. Esempi Giorni fino smettere di fumare I dati che seguono rappresentano il numero di giorni dopo i quali 6 individui che hanno completato un corso per smettere di fumare hanno effettivamente smesso. Calcolare la mediana campionaria. 1,2,3,5,8,10 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 14 / 30

Mediana campionaria. Definizione generale In generale, per un insieme di dati di n valori, la mediana campionaria è il (n + 1)/2 valore più piccolo per n dispari; La media tra l n/2-esimo valore più piccolo e l n/2 + 1-esimo valore più piccolo se n è pari. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 15 / 30

Media e mediana: confronto La media campionaria e la mediana campionaria sono due statistiche utili per descrivere la tendenza centrale di un insieme di dati. La media campionaria, essendo una media aritmetica, prende in considerazione tutti i valori dell insieme di dati. Al contrario la mediana campionaria, visto che considera solo uno o due valori centrali, non e influenzata dai valori estremi. Le due misure sono importanti e per tanto è utile calcolare entrambe per la sintesi dei dati. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 16 / 30

Mediana campionaria: Esempi Nel esempio delle emissioni di CO2 dal 1996 fino il 2006 nella Italia, calcola la mediana campionaria. I dati sono: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 La tabella mostra i diversi salari degli impiegati di una azienda. Calcola la mediana campionaria, compara il valore con la media campionaria che avviamo calcolato previamente. Salario Numero di impiegati 20200 60 30000 20 45000 8 53000 6 65000 2 80000 1 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 17 / 30

Moda campionaria Un altro indicatore della tendenza centrale è la moda campionaria, che è il valore che si verifica con maggiore frequenza nell insieme di dati. Le seguenti sono le taglie degli ultimi 8 vestiti venduti in una boutique: Qual è la moda campionaria? 42, 40, 38, 36, 40, 34, 44, 40 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 18 / 30

Moda campionaria Le età di 6 bambini di una scuola materna sono le seguenti: seguenti sono le taglie degli ultimi 8 vestiti venduti in una boutique: 2, 5, 3, 5, 2, 4 Quali sono i valori modali di questo insieme di dati? La tabella delle frequenze che segue indica il risultato di 30 lanci di un dado Valore 1 2 3 4 5 6 Frequenza 6 4 5 8 3 4 Per questi dati, determina: (a) moda campionaria; (b) mediana campionaria; (c) media campionaria. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 19 / 30

Varianza campionaria e deviazione standard Fino a questa punto ci siamo occupati di statistiche che misurano il centro di un insieme di dati, ma non abbiamo ancora considerato statistiche che misurino la dispersione dei dati. Per esempio, supporre le seguenti situazioni: 1. Il reddito medio giornaliero di due famiglie è di: 54 e 66 euro, rispettivamente. 2. In un altra località il reddito medio giornaliero di due famiglie è di 24 e 96 euro, rispettivamente. Quale è la media per i due casi? In tutte i due casi è ugualmente rappresentativa la media dei valori veri? La differenza nei due esempi è che nel secondo caso la dispersione dei dati è più grande che nel primo. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 20 / 30

Varianza campionaria e deviazione standard Un modo per misurare la dispersione dei dati è considerare gli scarti dei valori dei dati rispetto a un valore centrale, per esempio rispetto a la mediana campionaria. Se i dati sono x 1,..., x n e la media è x, gli scarti si calcolano come: x i x Potrebbe sembrare naturale misurare la dispersione totale di un insieme di dati calcolando la media degli scarti dalla media, il problema è che n (x i x) = 0 i=1 Questa summa è 0 perché gli scarti positivi cancellano con quelle negativi. In definitiva ci interessa l entità dei singoli scarti indipendentemente dal segno. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 21 / 30

Varianza campionaria e deviazione standard Si può ottenere questa risultato sia: considerando il valore assoluto degli scarti; considerando il qudrato degli scarti; In pratica risulta più utile considerare il quadrato degli scarti. Varianza campionaria La varianra campionaria, scritta s 2, dell insieme di dati x 1,..., x n e di media x, è definita come: s 2 = n i=1 (x i x) 2 n 1 (Nella definizione di s 2 si divide per n 1 invece di dividere per n per ragioni tecniche.) María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 22 / 30

Esempio Calcolo della varianza campionarira Calcola la varianza campionaria nel seguente insieme di dati: 1, 2, 5, 6, 6 Otteniamo s 2 = 9 + 4 + 1 + 4 + 4 4 = 5,5 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 23 / 30

Varianza campionaria L identità algebrica che segue è utile per calcolare la varianza campionaria a mano: n (x i x) 2 = i=1 n i=1 x 2 i n x 2 Calcolo della varianza campionarira Verifica questa identità negli dati precedenti. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 24 / 30

Deviazione standard campionaria La radice quadrata positiva della varianza campionaria si dice deviazione standard campionaria. Deviazione standard: s La quantità s, definita come n i=1 s = (x i x) 2 = n 1 se dice deviazione standard campionaria. s 2 La deviazione standard campionaria è espressa nella stessa unità di misura dei dati originali. Questo significa, per esempio, che se i dati sono espressi in metri, allora la varianza campionaria e espressa in metri quadrati, mentre la deviazione standard campionaria è espressa in metri. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 25 / 30

Interpretazione della deviazione standard La devizione standard ci informa su quanto si discostino i singoli valori di un insieme dalla loro media. La devizione standard ha la seguente proprietà: L intervalo (x s, x + s) contiene al meno il 68 % dei dati del campione. L intervalo (x 2s, x + 2s) contiene al meno il 75 % dei dati del campione. L intervalo (x 3s, x + 3s) contiene al meno il 88 % dei dati del campione. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 26 / 30

Calcolo varianza e deviazione standard Nel esempio delle emissioni di CO2 dal 1996 fino il 2006 nella Italia, calcola la varianza campionaria e la deviazione standard. I dati sono: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 27 / 30

Esempio Ti vengono presentati due insiemi: A : 66, 68, 71, 72, 72, 75; b : 2, 5, 9, 10, 10, 16 (a) Quale insieme sembra avere la maggiore varianza campionaria? (b) Determina la varianza campionaria dell insieme A. (c) Determina la varianza campionaria dell insieme B. María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 28 / 30

Coefficiente di variazione Se siamo interessati in comparare la dispersione di due campioni che provengono di due popolazioni diverse, è necessario disporre di una misura di variabilità relativa. Per esempio, non è lo stesso una variabilità di 600 euro nella economia domestica che nella economia di un paese. Un indicatore molto utile di variabilità relativa è il coefficiente di variazione Coefficiente di variazione: CV Se define il CV comoe CV = s x María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 29 / 30

Esempio Nelle emissioni di CO2 dal 1996 fino il 2006 compariamo le emissione della Italia e di United States: Italia: 424, 425, 441, 441, 448, 445, 453, 475, 470, 473, 468 USA: 5512, 5592, 5620, 5682, 5860, 5762, 5824, 5878, 5969, 5994, 5903 In che paese c è più variabilità per le emissioni di CO2? María Eugenia Castellanos (URJC) Descrittiva2 Marzo 2010 30 / 30