Andrea Bonanomi Università Cattolica del Sacro Cuore Principi di Milano, 9 gennaio 2015 Camera di Commercio
RIPETIBILITA ATTUALE RILEVAZIONE TOTALE RIPETIBILITA VIRTUALE RILEVAZIONE PARZIALE UNIVERSO CAMPIONE INSIEME UNITA STATISTICHE RILEVATE
REALTA FENOMENI NON COSTANTI (attitudine a variare) RILEVAZIONE 1. Individuazione di uno o più CARATTERI sui quali acquisire le informazioni 2. Individuazione delle UNITA STATISTICHE portatori del carattere in studio 3. Procedimento di misurazione del carattere che porta alla individuazione delle MODALITA con cui il carattere si presenta
Esempio di rilevazione di dati in Excel
BRANCHE DELLA STATISTICA statistica descrittiva sintesi delle osservazioni campionarie o dei dati censuari statistica probabilistica studio del meccanismo generatore delle realizzazioni campionarie (modello campione) statistica inferenziale dal campione al suo meccanismo generatore (campione modello)
FASI RICERCA STATISTICA - Identificazione del problema - Astrazione - individuazione variabili osservabili/ proxy - Rilevazione - sperimentazione, questionari, - Spoglio dei dati - organizzazione dati - classificazione
- Elaborazione dei dati - sintesi - interpretazione - inferenza osservazione: una prima statistica consiste nel costruire le tabelle riassuntive
Data Set Esempio: 94 immobili venduti in un anno da un agenzia immobiliare. Vengono rilevate le seguenti variabili: Codice, Indirizzo, Valore, Categoria Energetica, Giorni sul mercato, Metratura, Numero di Stanze.
TABELLE DI FREQUENZA organizzazione dei dati elementari prospetti/elenchi delle osservazioni se i dati sono tanti è utile riorganizzarli in TABELLE utilizzando la nozione fondamentale di FREQUENZA
Non ha molto senso meglio raggruppare i valori in classi!
Gli indici si posizione sono misure sintetiche ( valori caratteristici ) che descrivono la tendenza centrale di un fenomeno La tendenza centrale è, in prima approssimazione, la modalità della relativa variabile verso la quale i casi tendono a gravitare, ossia il baricentro della distribuzione
ALCUNI INDICI TIPICI - moda - percentili di ordine p - mediana - medie potenziate aritmetica armonica geometrica quadratica. non analitici analitici
da qualitativi in su MODA (o norma) da qualitativi ordinati in su MEDIANA (o percentili) MEDIE da quantitativi
MODA MODALITA A CUI E ASSOCIATA LA MAGGIOR FREQUENZA O DENSITA DI FREQUENZA può essere calcolata sia per caratteri qualitativi che quantitativi può non essere unica VANTAGGI: può essere sempre calcolata SVANTAGGI: - perdita di informazioni - no confronti
Max frequenza: 28 Moda: Bunker Hill Dr Utile per i caratteri qualitativi non ordinabili. Per gli altri caratteri non è informativa
ESEMPIO VARIABILE QUANTITATIVA RAGGRUPPATA IN CLASSI: si calcolano le densità di frequenza classi età numero lettori 6-11 221 11-14 573 14-20 2883 20-25 2864 25-35 5449 35-!45 5384 45-55 4607 55-65 3692 65-80 2694 totale 28367 classi età numero lettori ai li 6-11 221 5 44.2 11-14 573 3 191 14-20 2883 6 480.5 20-25 2864 5 572.8 25-35 5449 10 544.9 35-!45 5384 10 538.4 45-55 4607 10 460.7 55-65 3692 10 369.2 65-80 2694 15 179.6 totale 28367 Fonte; ISTAT, indagine sulla lettura e su altro impiego del tempo libero, 1986 Classe modale: 20-25 Mo=(20+25)/2=22.5
MEDIANA MODALITA CHE OCCUPA LA POSIZIONE CENTRALE NELLA SEQUENZA ORDINATA DEI DATI può essere calcolata sia per caratteri qualitativi che quantitativi purchè ordinabili percentile di ordine 0.5 VANTAGGI: non risente dei valori estremi SVANTAGGI: solo per caratteri ordinabili - perdita di informazioni - no confronti
Formule operative di calcolo per i vari tipi di caratteri ordinabili numerosità dei dati n = pari/dispari esempio caso carattere quantitativo discreto: n = dispari Me = x 0.5 = valore di posizione (n+1)/2 n = pari Me = x 0.5 = semisomma dei valori di posto n/2 ed (n/2+1)
caso n=94 pari n/2=47 e (n/2+1)=48 sulle Ni=53 con le frequenze relative sulle Fi=0.564 Mediana= 4 4 stanze per abitazione
PERCENTILE di ordine p MODALITA CHE DIVIDE LA DISTRIBUZIONE ORDINATA DEI DATI IN PIU PARTI può essere calcolato sia per caratteri qualitativi che quantitativi purché ordinabili 0<p<1 valore preceduto da almeno il p% dei casi e seguito da almeno il (1-p)% dei casi
quartili Alcuni esempi sono dividono in 4 parti la distribuzione x min x max decili dividono in 10 parti la distribuzione percentili dividono in 100 parti la distribuzione
Per i QUARTILI x 0.25 = Q 1 = 1 quartile (lascia alla sua sinistra il 25% e alla sua destra il 75%) x 0.50 = Q 2 = 2 quartile (lascia alla sua sinistra il 50% e alla sua destra il 50%) x 0.75 = Q 3 = 3 quartile (lascia alla sua sinistra il 75% e alla sua destra il 25%) Q 1 Q 2 Q 3 x min x max
In generale: il percentile x p di ordine p è quella modalità che è: - preceduta da almeno p% dei casi - superata da almeno (1p)% dei casi
Grafici BOX PLOT (o BOX&WHISKERS) GRAFICO RIASSUNTIVO DEI MAGGIORI INDICI DESCRITTIVI UNIVARIATI CHE CONSENTE CONFRONTI VISIVI TRA DIVERSE VARIABILI Per ogni variabile vengono rappresentate: - mediana (Q 2 ) - I e III quartile (Q 1 e Q 3 ) - Differenza interquartile H = Q 3 Q 1 - minimo e massimo
500 BOX 400 300 200 Q 3 Q 2 Il BOX è la scatola rossa. E delimitata da Q 1 e Q 3 mentre la linea nera al suo interno indica la mediana Q 2. 100 0 Q 1 Tra Q 3 e Q 1 si trova il 50% delle unità statistiche. -100 N = 406 Cilindrata in cc
W H I S K E R S 500 400 300 200 100 0 Q 3 Q 2 Q 1 Q 3 + 1.5(Q 3 Q 1 ) o x max Q 1 1.5(Q 3 Q 1 ) o x min -100 N = 406 Cilindrata in cc
300 x max 200 124 103 20 9 7 102 32 8 Q 3 + 1.5(Q 3 Q 1 ) Valori anomali 100 (outliers) 0 N = 400 Potenza (CV)
MEDIA ARITMETICA La media è il valore caratteristico più noto fra quelli che rilevano la tendenza centrale E il valore atteso di una successiva rilevazione E la parte del totale delle intensità che spetta a ciascuna unità Può essere calcolata solo per variabili quantitative ATTENZIONE: Molto spesso è comodo associare alle modalità qualitative codici numerici (es. numero di matricola, codice identificativo cliente). Nonostante la ricodifica, la variabile rimane connotata secondo la caratteristica intrinseca del fenomeno di cui essa è rilevazione. NON HA SENSO FARE LA MEDIA DEL NUMERO DI CODICE!!!!!!!!!!
VANTAGGI: - molto immediata - la più conosciuta e usata - è lo stimatore ottimale della media di una popolazione nella stima puntuale e intervallare SVANTAGGI: - assume anche valori non osservati - risente dei valori estremi e degli outliers x n 1 ( ) x n i1 i
La mediana varia maggiormente passando da un campione all altro, mentre la media è più stabile La media può essere utilizzata per la statistica induttiva mentre la mediana non può essere utilizzata La mediana è stabile rispetto ai valori estremi, mentre la media non lo è. Questo può comportare vantaggi e svantaggi a seconda dei casi
INDICI DI VARIABILITA - indice sintetico di posizione è utile per alcuni confronti - appare tuttavia insufficiente - sintesi troppo spinta, perde informazioni - interessano anche indicatori della diversità (molteplicità) dei valori di un carattere
..senza variabilità non ci sarebbe la statistica Se tutti votassimo lo stesso partito alle elezioni (=moda), non ci sarebbero i sondaggi, ne le previsioni elettorali il voto politico sarebbe una unica modalità Se tutte le persone fossero alte uguali (=media) non esisterebbe la variabile altezza, perché non la misureremmo La statistica si basa sulla diversità, studia l attitudine a variare dei fenomeni
MUTABILITA LA VARIABILITA DEI FENOMENI QUALITATIVI Per misurarla si usano gli indici di eterogeneità Sono indici che si basano sulla frequenze relative o percentuali Non sono vincolati da un particolare ordinamento delle modalità Quindi possono essere calcolati per qualsiasi tipo di fenomeno
MUTABILITA LA VARIABILITA DEI FENOMENI QUALITATIVI Proprietà degli indici di eterogeneità Sono sempre positivi Sono massimi quando ad ogni modalità assunta dal fenomeno corrisponde la stessa frequenza, cioè f i =1/k per ogni i Sono minimi quando il fenomeno assume una sola modalità, cioè una pi è uguale a 1 e tutte le altre (k-1) sono uguali a 0
MUTABILITA LA VARIABILITA DEI FENOMENI QUALITATIVI Indice di eterogeneità di Gini E 1 k 1 i1 p 2 i Assume valori compresi tra 0 (minimo) e (k-1)/k (massimo) Per normalizzarlo in modo che vari tra 0 e 1 bisogna dividerlo per il suo massimo: E * 1 1 k E k 1
Altissima eterogeneità, valore prossimo a uno.
VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Per misurarla si usano gli indici di variabilità globale si basano sulle differenze tra i valori delle modalità gli indici di dispersione si basano sulle differenze tra i valori delle modalità e un prefissato indice di posizione Entrambi possono essere calcolati solo per fenomeni quantitativi
Proprietà degli indici di variabilità e di dispersione Sono sempre positivi VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Sono uguali a zero quando tutte le unità osservate assumono la stessa modalità, la variabile statistica in tal caso si dice degenere Sono invarianti per traslazione, cioè se ad ogni x i viene aggiunta una quantità c costante, la variabilità di X non cambia NOTA: per gli indici di variabilità e dispersione non è immediata la determinazione del loro valore massimo, tralasceremo il calcolo dei valori normalizzati degli indici
VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI 1700 1400 2000 1700 1650 1750
VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Indici di variabilità globale Differenza Interquartile D.I. = Q 3 -Q 1 Campo di Variazione K= x max -x min
VARIABILITA LA VARIABILITA DEI FENOMENI QUANTITATIVI Varianza Si basa sulla differenze tra i valori delle modalità e la loro media. x i x xi x Si considerano gli scostamenti al quadrato per evitare compensazioni tra distanze positive e negative.
VARIANZA Se si considera una tabella di rilevazione, la varianza aritmetica è data dalla seguente formula n 2 n 2 2 1 1 2 x i x x i x n i1 n i1 FORMULA OPERATIVA
VARIANZA: problemi Elevando al quadrato si perde l unità di misura del fenomeno Ex. Se si è partiti dal peso, la varianza risulta espressa in kg 2 E un indice assoluto, cioè risente dell unità di misura del fenomeno, e ciò impedisce di fare confronti di variabilità E lo stimatore ottimale della variabilità nella stima puntuale e intervallare E un numero puro, non risente della scala di misurazione SCARTO QUADRATICO MEDIO 2 COEFFICIENTE DI VARIAZIONE CV x Indice relativo
SIMMETRIA Una v.s. è simmetrica rispetto ad un centro c se: - per ogni x i = c k - esiste un x j = c k (simmetrico) con stessa frequenza: f(x i ) = f(x j ) 8 7 6 5 4 3 2 1 0 N = 23 X
ASIMMETRIA POSITIVA (a sinistra) 8 7 6 5 4 3 2 1 0 N = 23 X curva obliqua a sinistra Mo < Me <
ASIMMETRIA NEGATIVA (a destra) 8 7 6 5 4 3 2 1 0 N = 23 X curva obliqua a destra <Me < Mo
Indici di simmetria o asimmetria Indice di FISHER o di SKEWNESS (più comunemente usato) 1 M[(X)3 ] 3-3 3 se asimmetria sinistra 1 > 0 se asimmetria destra 1 < 0 se simmetria 1 = 0 NB ( = 0 ) è solo sintomo di simmetria!!
Se una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss) Se la curva è più appuntita si dice più appiattita si dice Indici di curtosi curva Leptocurtica curva Platicurtica - K < + Se K = 0 distribuzione normale se K > 0 curva leptocurtica Se K < 0 curva platicurtica. K 1 x i i i 4 i f x i 4 f 3
Indice di curtosi
IMPORTANTE Si può utilizzare anche lo strumento di excel Strumenti>analisi dati>statistica descrittiva
Distribuzione gaussiana DISTRIBUZIONE NORMALE o gaussiana Y X
Distribuzione gaussiana La curva normale o curva di Gauss è una distribuzione teorica di punteggi in una popolazione Riguarda solo le variabili metriche continue, quindi le misure almeno su scale a intervalli equivalenti L importanza di questa distribuzione è dovuta al fatto che molti dei fenomeni osservati si distribuiscono normalmente o con forme che si approssimano alla curva normale Inoltre gran parte della statistica inferenziale si basa sulle proprietà di questa distribuzione La curva NORMALE è interamente definita dai parametri (la media che corrisponde al valore x con la frequenza massima) e (dev. st.) Poiché la distribuzione normale varia al variare di e si può parlare di famiglia di distribuzioni normali con medie e deviazioni standard diverse
Distribuzione gaussiana Y Funzione di densità E definita dalla seguente funzione di densità: f x 1 2 dove: =media della popolazione =dev. st. della popolazione =costante (=3.14) e=costante (=2.718) e 1 2 x 2
Distribuzione gaussiana
Distribuzione gaussiana Qualsiasi siano i parametri e, l AREA sottesa dall intera curva è = 1 Area(, ) f(x)dx 1 L area sottesa alla curva normale rappresenta la PROBABILITA degli intervalli!
Distribuzione gaussiana la porzione di curva delimitata dalla media e un ordinata espressa in termini di deviazioni standard è costante += 34.13% della distribuzione +2= 47.73% della distribuzione +3= 49.86% della distribuzione
Distribuzione gaussiana Porzioni della distribuzione comprese tra 1,2,3 deviazioni standard da (in %) Y 99.73% 95.46% 68.26% -3-2 - + +2 +3 X
Distribuzione gaussiana Per gli usi pratici della distribuzione normale si ricorre alla CURVA NORMALE STANDARDIZZATA l equazione della curva dipende da un solo parametro, zeta; Y f z 1 1 z 2 e 2 2 I valori di questa distribuzione sono tabulati z X X X
Distribuzione gaussiana
Distribuzione gaussiana Per testare che una distribuzione ha un andamento «simile» o «approssimabile» a quello della Normale: 1)Test appositi (Kolmogorov-Smirnov)molto complessi e di difficilissima accettazione 2)Valutazione degli indici di asimmetria e curtosi: Se gli indici di asimmetria e curtosi sono compresi tra -1 e +1, allora la distribuzione è approssimabile con la normale/gaussiana