Andrea Bonanomi Università Cattolica del Sacro Cuore. Principi di Statistica Descrittiva. Milano, 9 gennaio 2015 Camera di Commercio

Documenti analoghi
La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Elementi di Statistica

Nozioni di statistica

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

INDICATORI DI TENDENZA CENTRALE

1/55. Statistica descrittiva

Elementi di Probabilità e Statistica

Teoria e tecniche dei test. Concetti di base

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

MISURE DI SINTESI 54

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

Scale di Misurazione Lezione 2

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Statistica descrittiva II

Elementi di Psicometria con Laboratorio di SPSS 1

La sintesi delle distribuzioni

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Statistica di base per l analisi socio-economica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Tipi di variabili. Indici di tendenza centrale e di dispersione

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

Scheda Corso di STATISTICA (D.M. 270 per 9 CFU) Anno Accademico 2014/2015 (versione in Italiano)

STATISTICA DESCRITTIVA (variabili quantitative)

Esempi di confronti grafici

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

A1. La curva normale (o di Gauss)

Esplorazione dei dati

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione


Questionario 1. Sono assegnati i seguenti dati

Le medie. Antonello Maruotti

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Dispensa di Statistica

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

STATISTICA 1 ESERCITAZIONE 6

Statistica descrittiva

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Valori Medi. Docente Dott.ssa Domenica Matranga

Statistica. Alfonso Iodice D Enza

Esercitazioni di statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

STATISTICA 1 ESERCITAZIONE 2

Statistica. Alfonso Iodice D Enza

STATISTICA NOZIONI DI BASE

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Università degli Studi di Cassino. Corso di Laurea in Economia Aziendale. Corso di. Statistica. Docente: Simona Balzano.

Istituzioni di Statistica e Statistica Economica

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

TECNICHE DI ANALISI DEI DATI

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Lezione 4 a - Misure di dispersione o di variabilità

Indici di variabilità ed eterogeneità

Coincide con la media aritmetica degli n dati nel campione

Lezione 4: Indici di posizione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Sintesi numerica di distribuzioni statistiche

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

DISTRIBUZIONE NORMALE (1)

LE MEDIE DI POSIZIONE

Misure di dispersione (o di variabilità)

La Variabilità statistica

Statistica. Campione

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Corso di Statistica. Medie,Moda. Prof.ssa T. Laureti a.a Corso di Statistica a.a DEIM, Univ.TUSCIA - Prof.

Esercitazione: La distribuzione NORMALE

Prefazione Ringraziamenti

Distribuzioni e inferenza statistica

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Variabile casuale Normale

Esercitazioni di Statistica

2. Variabilità mediante il confronto di valori caratteristici della

ELEMENTI DI STATISTICA

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Gli indici di variabilità

Le misure numeriche. La media aritmetica

Fonte:

LEZIONI DI STATISTICA MEDICA

STATISTICHE DESCRITTIVE

Statistica Inferenziale

Statistica Sociale - modulo A

STATISTICHE DESCRITTIVE Parte II

LA DISTRIBUZIONE NORMALE. La distribuzione Gaussiana. Dott.ssa Marta Di Nicola

Ringraziamenti dell Editore

Principi di Statistica Descrittiva (3)

PROBABILITÀ ELEMENTARE

Transcript:

Andrea Bonanomi Università Cattolica del Sacro Cuore Principi di Milano, 9 gennaio 2015 Camera di Commercio

RIPETIBILITA ATTUALE RILEVAZIONE TOTALE RIPETIBILITA VIRTUALE RILEVAZIONE PARZIALE UNIVERSO CAMPIONE INSIEME UNITA STATISTICHE RILEVATE

REALTA FENOMENI NON COSTANTI (attitudine a variare) RILEVAZIONE 1. Individuazione di uno o più CARATTERI sui quali acquisire le informazioni 2. Individuazione delle UNITA STATISTICHE portatori del carattere in studio 3. Procedimento di misurazione del carattere che porta alla individuazione delle MODALITA con cui il carattere si presenta

Esempio di rilevazione di dati in Excel

BRANCHE DELLA STATISTICA statistica descrittiva sintesi delle osservazioni campionarie o dei dati censuari statistica probabilistica studio del meccanismo generatore delle realizzazioni campionarie (modello campione) statistica inferenziale dal campione al suo meccanismo generatore (campione modello)

FASI RICERCA STATISTICA - Identificazione del problema - Astrazione - individuazione variabili osservabili/ proxy - Rilevazione - sperimentazione, questionari, - Spoglio dei dati - organizzazione dati - classificazione

- Elaborazione dei dati - sintesi - interpretazione - inferenza osservazione: una prima statistica consiste nel costruire le tabelle riassuntive

Data Set Esempio: 94 immobili venduti in un anno da un agenzia immobiliare. Vengono rilevate le seguenti variabili: Codice, Indirizzo, Valore, Categoria Energetica, Giorni sul mercato, Metratura, Numero di Stanze.

TABELLE DI FREQUENZA organizzazione dei dati elementari prospetti/elenchi delle osservazioni se i dati sono tanti è utile riorganizzarli in TABELLE utilizzando la nozione fondamentale di FREQUENZA

Non ha molto senso meglio raggruppare i valori in classi!

Gli indici si posizione sono misure sintetiche ( valori caratteristici ) che descrivono la tendenza centrale di un fenomeno La tendenza centrale è, in prima approssimazione, la modalità della relativa variabile verso la quale i casi tendono a gravitare, ossia il baricentro della distribuzione

ALCUNI INDICI TIPICI - moda - percentili di ordine p - mediana - medie potenziate aritmetica armonica geometrica quadratica. non analitici analitici

da qualitativi in su MODA (o norma) da qualitativi ordinati in su MEDIANA (o percentili) MEDIE da quantitativi

MODA MODALITA A CUI E ASSOCIATA LA MAGGIOR FREQUENZA O DENSITA DI FREQUENZA può essere calcolata sia per caratteri qualitativi che quantitativi può non essere unica VANTAGGI: può essere sempre calcolata SVANTAGGI: - perdita di informazioni - no confronti

Max frequenza: 28 Moda: Bunker Hill Dr Utile per i caratteri qualitativi non ordinabili. Per gli altri caratteri non è informativa

ESEMPIO VARIABILE QUANTITATIVA RAGGRUPPATA IN CLASSI: si calcolano le densità di frequenza classi età numero lettori 6-11 221 11-14 573 14-20 2883 20-25 2864 25-35 5449 35-!45 5384 45-55 4607 55-65 3692 65-80 2694 totale 28367 classi età numero lettori ai li 6-11 221 5 44.2 11-14 573 3 191 14-20 2883 6 480.5 20-25 2864 5 572.8 25-35 5449 10 544.9 35-!45 5384 10 538.4 45-55 4607 10 460.7 55-65 3692 10 369.2 65-80 2694 15 179.6 totale 28367 Fonte; ISTAT, indagine sulla lettura e su altro impiego del tempo libero, 1986 Classe modale: 20-25 Mo=(20+25)/2=22.5

MEDIANA MODALITA CHE OCCUPA LA POSIZIONE CENTRALE NELLA SEQUENZA ORDINATA DEI DATI può essere calcolata sia per caratteri qualitativi che quantitativi purchè ordinabili percentile di ordine 0.5 VANTAGGI: non risente dei valori estremi SVANTAGGI: solo per caratteri ordinabili - perdita di informazioni - no confronti

Formule operative di calcolo per i vari tipi di caratteri ordinabili numerosità dei dati n = pari/dispari esempio caso carattere quantitativo discreto: n = dispari Me = x 0.5 = valore di posizione (n+1)/2 n = pari Me = x 0.5 = semisomma dei valori di posto n/2 ed (n/2+1)

caso n=94 pari n/2=47 e (n/2+1)=48 sulle Ni=53 con le frequenze relative sulle Fi=0.564 Mediana= 4 4 stanze per abitazione

PERCENTILE di ordine p MODALITA CHE DIVIDE LA DISTRIBUZIONE ORDINATA DEI DATI IN PIU PARTI può essere calcolato sia per caratteri qualitativi che quantitativi purché ordinabili 0<p<1 valore preceduto da almeno il p% dei casi e seguito da almeno il (1-p)% dei casi

quartili Alcuni esempi sono dividono in 4 parti la distribuzione x min x max decili dividono in 10 parti la distribuzione percentili dividono in 100 parti la distribuzione

Per i QUARTILI x 0.25 = Q 1 = 1 quartile (lascia alla sua sinistra il 25% e alla sua destra il 75%) x 0.50 = Q 2 = 2 quartile (lascia alla sua sinistra il 50% e alla sua destra il 50%) x 0.75 = Q 3 = 3 quartile (lascia alla sua sinistra il 75% e alla sua destra il 25%) Q 1 Q 2 Q 3 x min x max

In generale: il percentile x p di ordine p è quella modalità che è: - preceduta da almeno p% dei casi - superata da almeno (1p)% dei casi

Grafici BOX PLOT (o BOX&WHISKERS) GRAFICO RIASSUNTIVO DEI MAGGIORI INDICI DESCRITTIVI UNIVARIATI CHE CONSENTE CONFRONTI VISIVI TRA DIVERSE VARIABILI Per ogni variabile vengono rappresentate: - mediana (Q 2 ) - I e III quartile (Q 1 e Q 3 ) - Differenza interquartile H = Q 3 Q 1 - minimo e massimo

500 BOX 400 300 200 Q 3 Q 2 Il BOX è la scatola rossa. E delimitata da Q 1 e Q 3 mentre la linea nera al suo interno indica la mediana Q 2. 100 0 Q 1 Tra Q 3 e Q 1 si trova il 50% delle unità statistiche. -100 N = 406 Cilindrata in cc

W H I S K E R S 500 400 300 200 100 0 Q 3 Q 2 Q 1 Q 3 + 1.5(Q 3 Q 1 ) o x max Q 1 1.5(Q 3 Q 1 ) o x min -100 N = 406 Cilindrata in cc

300 x max 200 124 103 20 9 7 102 32 8 Q 3 + 1.5(Q 3 Q 1 ) Valori anomali 100 (outliers) 0 N = 400 Potenza (CV)

MEDIA ARITMETICA La media è il valore caratteristico più noto fra quelli che rilevano la tendenza centrale E il valore atteso di una successiva rilevazione E la parte del totale delle intensità che spetta a ciascuna unità Può essere calcolata solo per variabili quantitative ATTENZIONE: Molto spesso è comodo associare alle modalità qualitative codici numerici (es. numero di matricola, codice identificativo cliente). Nonostante la ricodifica, la variabile rimane connotata secondo la caratteristica intrinseca del fenomeno di cui essa è rilevazione. NON HA SENSO FARE LA MEDIA DEL NUMERO DI CODICE!!!!!!!!!!

VANTAGGI: - molto immediata - la più conosciuta e usata - è lo stimatore ottimale della media di una popolazione nella stima puntuale e intervallare SVANTAGGI: - assume anche valori non osservati - risente dei valori estremi e degli outliers x n 1 ( ) x n i1 i

La mediana varia maggiormente passando da un campione all altro, mentre la media è più stabile La media può essere utilizzata per la statistica induttiva mentre la mediana non può essere utilizzata La mediana è stabile rispetto ai valori estremi, mentre la media non lo è. Questo può comportare vantaggi e svantaggi a seconda dei casi

INDICI DI VARIABILITA - indice sintetico di posizione è utile per alcuni confronti - appare tuttavia insufficiente - sintesi troppo spinta, perde informazioni - interessano anche indicatori della diversità (molteplicità) dei valori di un carattere

..senza variabilità non ci sarebbe la statistica Se tutti votassimo lo stesso partito alle elezioni (=moda), non ci sarebbero i sondaggi, ne le previsioni elettorali il voto politico sarebbe una unica modalità Se tutte le persone fossero alte uguali (=media) non esisterebbe la variabile altezza, perché non la misureremmo La statistica si basa sulla diversità, studia l attitudine a variare dei fenomeni

MUTABILITA LA VARIABILITA DEI FENOMENI QUALITATIVI Per misurarla si usano gli indici di eterogeneità Sono indici che si basano sulla frequenze relative o percentuali Non sono vincolati da un particolare ordinamento delle modalità Quindi possono essere calcolati per qualsiasi tipo di fenomeno

MUTABILITA LA VARIABILITA DEI FENOMENI QUALITATIVI Proprietà degli indici di eterogeneità Sono sempre positivi Sono massimi quando ad ogni modalità assunta dal fenomeno corrisponde la stessa frequenza, cioè f i =1/k per ogni i Sono minimi quando il fenomeno assume una sola modalità, cioè una pi è uguale a 1 e tutte le altre (k-1) sono uguali a 0

MUTABILITA LA VARIABILITA DEI FENOMENI QUALITATIVI Indice di eterogeneità di Gini E 1 k 1 i1 p 2 i Assume valori compresi tra 0 (minimo) e (k-1)/k (massimo) Per normalizzarlo in modo che vari tra 0 e 1 bisogna dividerlo per il suo massimo: E * 1 1 k E k 1

Altissima eterogeneità, valore prossimo a uno.

VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Per misurarla si usano gli indici di variabilità globale si basano sulle differenze tra i valori delle modalità gli indici di dispersione si basano sulle differenze tra i valori delle modalità e un prefissato indice di posizione Entrambi possono essere calcolati solo per fenomeni quantitativi

Proprietà degli indici di variabilità e di dispersione Sono sempre positivi VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Sono uguali a zero quando tutte le unità osservate assumono la stessa modalità, la variabile statistica in tal caso si dice degenere Sono invarianti per traslazione, cioè se ad ogni x i viene aggiunta una quantità c costante, la variabilità di X non cambia NOTA: per gli indici di variabilità e dispersione non è immediata la determinazione del loro valore massimo, tralasceremo il calcolo dei valori normalizzati degli indici

VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI 1700 1400 2000 1700 1650 1750

VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Indici di variabilità globale Differenza Interquartile D.I. = Q 3 -Q 1 Campo di Variazione K= x max -x min

VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Varianza Si basa sulla differenze tra i valori delle modalità e la loro media. x i x xi x Si considerano gli scostamenti al quadrato per evitare compensazioni tra distanze positive e negative.

VARIANZA Se si considera una tabella di rilevazione, la varianza aritmetica è data dalla seguente formula n 2 n 2 2 1 1 2 x i x x i x n i1 n i1 FORMULA OPERATIVA

VARIANZA: problemi Elevando al quadrato si perde l unità di misura del fenomeno Ex. Se si è partiti dal peso, la varianza risulta espressa in kg 2 E un indice assoluto, cioè risente dell unità di misura del fenomeno, e ciò impedisce di fare confronti di variabilità E lo stimatore ottimale della variabilità nella stima puntuale e intervallare E un numero puro, non risente della scala di misurazione SCARTO QUADRATICO MEDIO 2 COEFFICIENTE DI VARIAZIONE CV x Indice relativo

SIMMETRIA Una v.s. è simmetrica rispetto ad un centro c se: - per ogni x i = c k - esiste un x j = c k (simmetrico) con stessa frequenza: f(x i ) = f(x j ) 8 7 6 5 4 3 2 1 0 N = 23 X

ASIMMETRIA POSITIVA (a sinistra) 8 7 6 5 4 3 2 1 0 N = 23 X curva obliqua a sinistra Mo < Me <

ASIMMETRIA NEGATIVA (a destra) 8 7 6 5 4 3 2 1 0 N = 23 X curva obliqua a destra <Me < Mo

Indici di simmetria o asimmetria Indice di FISHER o di SKEWNESS (più comunemente usato) 1 M[(X)3 ] 3-3 3 se asimmetria sinistra 1 > 0 se asimmetria destra 1 < 0 se simmetria 1 = 0 NB ( = 0 ) è solo sintomo di simmetria!!

Se una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss) Se la curva è più appuntita si dice più appiattita si dice Indici di curtosi curva Leptocurtica curva Platicurtica - K < + Se K = 0 distribuzione normale se K > 0 curva leptocurtica Se K < 0 curva platicurtica. K 1 x i i i 4 i f x i 4 f 3

Indice di curtosi

IMPORTANTE Si può utilizzare anche lo strumento di excel Strumenti>analisi dati>statistica descrittiva

Distribuzione gaussiana DISTRIBUZIONE NORMALE o gaussiana Y X

Distribuzione gaussiana La curva normale o curva di Gauss è una distribuzione teorica di punteggi in una popolazione Riguarda solo le variabili metriche continue, quindi le misure almeno su scale a intervalli equivalenti L importanza di questa distribuzione è dovuta al fatto che molti dei fenomeni osservati si distribuiscono normalmente o con forme che si approssimano alla curva normale Inoltre gran parte della statistica inferenziale si basa sulle proprietà di questa distribuzione La curva NORMALE è interamente definita dai parametri (la media che corrisponde al valore x con la frequenza massima) e (dev. st.) Poiché la distribuzione normale varia al variare di e si può parlare di famiglia di distribuzioni normali con medie e deviazioni standard diverse

Distribuzione gaussiana Y Funzione di densità E definita dalla seguente funzione di densità: f x 1 2 dove: =media della popolazione =dev. st. della popolazione =costante (=3.14) e=costante (=2.718) e 1 2 x 2

Distribuzione gaussiana

Distribuzione gaussiana Qualsiasi siano i parametri e, l AREA sottesa dall intera curva è = 1 Area(, ) f(x)dx 1 L area sottesa alla curva normale rappresenta la PROBABILITA degli intervalli!

Distribuzione gaussiana la porzione di curva delimitata dalla media e un ordinata espressa in termini di deviazioni standard è costante += 34.13% della distribuzione +2= 47.73% della distribuzione +3= 49.86% della distribuzione

Distribuzione gaussiana Porzioni della distribuzione comprese tra 1,2,3 deviazioni standard da (in %) Y 99.73% 95.46% 68.26% -3-2 - + +2 +3 X

Distribuzione gaussiana Per gli usi pratici della distribuzione normale si ricorre alla CURVA NORMALE STANDARDIZZATA l equazione della curva dipende da un solo parametro, zeta; Y f z 1 1 z 2 e 2 2 I valori di questa distribuzione sono tabulati z X X X

Distribuzione gaussiana

Distribuzione gaussiana Per testare che una distribuzione ha un andamento «simile» o «approssimabile» a quello della Normale: 1)Test appositi (Kolmogorov-Smirnov)molto complessi e di difficilissima accettazione 2)Valutazione degli indici di asimmetria e curtosi: Se gli indici di asimmetria e curtosi sono compresi tra -1 e +1, allora la distribuzione è approssimabile con la normale/gaussiana