Statistica di base per l analisi socio-economica

Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it

Definizioni di base Una popolazione è l insieme di tutte la unità di interesse che si stanno analizzando N è la dimensione della popolazione Un campione è un sotto insieme della popolazione n è la dimensione del campione Un parametro è una caratteristica della popolazione Una statistica è una caratteristica specifica di un campione

Popolazione e campione Popolazione a b c d ef gh i jk l m n o p q rs t u v w x y I valori calcolati utilizzando i dati della popolazione sono i parametri z Campione b g i c o r u y n I valori calcolati utilizzando i dati del campione sono le statistiche

Esempi di popolazioni I nomi di tutte le persone registrate all anagrafe I redditi di tutte le persone che vivono a Roma I rendimento annuale di tutte le azioni scambiate nella borsa di Milano I voti di tutti gli studenti dell università

Campionamento casuale Il campionamento casuale semplice è una procedura per selezionare un campione in cui Ogni membro della popolazione viene scelto con una per caso Ognuno ha la stessa probabilità di essere selezionato), Ogni possibile sotto linseme di dimensione n di membri della popolazione ha la stessa probabilità di essere selezionato Il campione ottenuto con questa procedura è detto campione casuale

Analisi descrittiva dei dati Descrizione dei dati Tendenza centrale Media aritmetica Mediana Moda Media geometrica Variabilità Campo di variazione Campo interquartile Varianza Deviazione standard Coefficiente di variazione

Misure della tendenza centrale Tendenza centrale Media Mediana Moda x n i 1 n x Media aritmetica i Punto di mezzo dei dati ordinati Valore più osservato

Media aritmetica La media aritmetica (media) è la misura più comune della tendenza centrale Per una popolazione di N unità: μ Per un campione di dimensione n: x N i xi 1 x1 + x2 + + N N n n x x + x + n i i 1 1 2 Valori n + x x N Valori per la popolazione Dimensioni popolazione osservati Dimensioni del campione

Media geometrica La media geometrica è una misura comune di tendenza centrale quando si ha a che fare con i tassi (tassi di crescita, tassi di interesse, etc.) Per N valori: μ geo N N i 1 x i N x 1 x 2 x N

Media aritmetica Misura più comune della tendenza centrale Media somma valori diviso numero dei valori Influenzata dai valori estremi (outliers) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 media 3 media 4 1+ 2 + 3 + 5 4 + 5 15 5 3 1+ 2 + 3 + 5 4 + 10 20 5 4

La mediana In una lista ordinata, la mediana è il valore di mezzo (50% prima, 50% dopo) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 mediana 3 mediana 3 Non è influenzata dai valori estremi!!!

Come si trova la mediana La mediana: Posizione mediana n + 1 2 posizione nei dati ordinati Se il numero dei dati è dispari, la mediana è il numero di mezzo Se il numero è pari, è la media dei due numeri di mezzo Nota che n +1 non è il valore della mediana, ma solo la 2 sua posizione nella lista ordinata dei dati

La moda Misura la tendenza centrale Il valore che appare più volte Non è influenzato dagli outliers Può non esserci una moda Oppure ce ne possono essere più di una 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 moda 9 nessuna moda

Esempio Cinque case su una collina sulla spiaggia Prezzi case: $2,000,000 500,000 300,000 100,000 100,000 $300 K $2,000 K $500 K $100 K $100 K

Esempio Prezzi case: $2,000,000 500,000 300,000 100,000 100,000 Media: ($3,000,000/5) $600,000 Mediana: Valore di mezzo dei dati $300,000 Somma 3,000,000 Moda: Valore più frequente $100,000

Forma (shape) di una distribuzione Descrive come sono distribuiti I dati Misura la forma (shape) Simmetrica o asimmetrica (skewed) Left-Skewed Media < Mediana Symmetric Media Mediana Right-Skewed Mediana < Media

Misure di variabilità variabilità Campo di variazione Campo interquartile Varianza Deviazione standard Coefficiente di variaizone Le misure di variazione danno informazioni sullo spread o variabilità dei dati. Stesso centro, Diversa variabilità

Campo di variazione (range) La più semplice misura di variabilità Differenza tra la più grande e più piccola osservazione: Range X maggiore X minore Esempio: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Range 14 1 13

Svantaggi del campo di variazione Ignora la distribuzione dei dati 7 8 9 10 11 12 Range 12 7 5 7 8 9 10 11 12 Range 12 7 5 Sensibile rispetto gli outliers 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Range 5 1 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Range 120 1 119

Campo interquartile Si possono utilizzare alcuni problemi con gli outliers usando il campo (di variazione) interquartile (interquartile range) Elimina le osservazioni più grandi e più piccole, calcolando il range del 50% dei dati Interquartile range 3 rd quartile 1 st quartile IQR Q 3 Q 1

Campo interquartile Esempio: X minimum Q1 mediana (Q2) Q3 25% 25% 25% 25% X maximum 12 30 45 57 70 Interquartile range 57 30 27

Quartili I quartili dividono i dati in 4 segmenti, ognuno dei quali contiene lo stesso numero di osservazioni. 25% 25% 25% 25% Q1 Q2 Q3 Il primo quartile, Q 1, è il valore per cui il 25% delle osservazioni è minore e il 75% maggiore Q 2 è la mediana (50% maggiori, 50% minori) Solo il 25% delle osservazioni sono maggiori, invece, del terzo quartile, Q 3.

Calcolo dei quartili Per trovare i quartili occorre trovare i valori corrispondenti alle posizioni dei dati ordinati: Posizione primo quartile: Posizione secondo quartile: (posizione mediana) Posizione terzo quartile: Q 1 0.25(n+1) Q 2 0.50(n+1) Q 3 0.75(n+1) dove n è il numero dei dati osservati

Esempio Esempio: Primo quartile Sample Ranked Data: 11 12 13 16 16 17 18 21 22 (n 9) Q 1 è nella 0.25(9+1) 2.5 posizione dei dati ordinati, quindi a meta tra il 2 o e il 3 o valore, ovvero Q 1 12.5

Varianza della popolazione Media degli scarti quadratici dalla media Varianza della popolazione: σ 2 N i 1 (x i N μ) 2 dove μ media della popolazione N dimensione della popolazione x i i esimo valore della variabile x

Varianza campionaria Media (approssimata) degli scarti quadratici dalla media Varianza campionaria: s 2 n i 1 (x i n -1 x) 2 dove X media aritmetica n dimensioni del campione X i i esimo della variabile X

Deviazione standard (popolazione) La misura più comune di variabilità Mostra la variazione rispetto la media Misurata con la stessa unità dei dati originali Deviazione standard: (popolazione) σ N i 1 (x i N μ) 2

Deviazione standard del campione La misura più comune di variabilità Mostra la variazione rispetto la media Misurata con la stessa unità dei dati originali Deviazione standard: (campione) S n i 1 (x i n -1 x) 2

Skewness (momento terzo) Indica l asimmetria Misurata con la stessa unità dei dati originali Skewness 1 n n i 1 (x 3 i x) s 3

Esempio Campione Dati (x i ) : 10 12 14 15 17 18 18 24 n 8 media x 16 s (10 X) 2 + (12 x) 2 + (14 n 1 x) 2 + + (24 x) 2 (10 16) 2 + (12 16) 2 + (14 16) 8 1 2 + + (24 16) 2 126 7 4.2426 Misura lo scatter medio attorno alla media

Misurare la variabilità Piccola deviazione standard Grande deviazione standard

Deviazioni standard a confronto Dataset A 11 12 13 14 15 16 17 18 19 20 21 media 15.5 s 3.338 Dataset B 11 12 13 14 15 16 17 18 19 20 21 Dataset C 11 12 13 14 15 16 17 18 19 20 21 media 15.5 s 0.926 media 15.5 s 4.570

Vantaggi Nel calcolo della varianza e della deviazione standard si utilizzano tutti i valori della distribuzione Il quadrato enfatizza i valori più lontani dalla media

Una regola empirica Se i dati della distribuzione sono a campana, allora l intervallo: μ ± 1σ contiene circa il 68% dei valori della popolazione o del campione 68% μ μ ±1σ

Una regola empirica μ ± 2σ contiene circa il 95% dei valori della popolazione o del campione μ ± 3σ contiene circa il 99.7% dei valori della popolazione o del campione 95% 99.7% μ ± 2σ μ ± 3σ

Il coefficiente di variazione Misura la variazione relativa Espresso in percentuale (%) Mostra la variazione relativa rispetto alla media Si può usare per confrontare due o più set di data espressi in diverse unità di misura CV s x 100%

Esempio Stock A: Prezzo medio $50 Deviazione standard $5 Stock B: s $5 CV A 100% 100% 10% x $50 Prezzo medio $100 Deviazione standard $5 s $5 CV B 100% 100% x $100 5% Entrambi gli stock hanno la stessa deviazione standard ma lo stock B è meno variabile rispetto la sua media

Covarianza La covarianza misura la consistenza di una relazione lineare tra due variabili Covarianza della popolazione: Cov (x,y) σ xy N i 1 (x i µ )(y x N i µ ) y Covarianza del campione: Cov (x,y) s xy x)(y n 1 y) Misura solo la consistenza (come variano assieme) Non implica effetti causali (chi causa cosa) n i 1 (x i i

Interpretazione Covarianza tra due variabili: Cov(x,y) > 0 Cov(x,y) < 0 Cov(x,y) 0 x e y tendono a muoversi nella stessa direzione x e y tendono a muoversi nella direzione opposta x e y sono indipendenti

Coefficiente di correlazione Misura la relativa forza della correlazione lineare tra due variabili Coefficiente di correlazione della popolazione: ρ Coefficiente di correlazione del campione: r Cov (x, y) σ σ X Y Cov (x, y) s s X Y

Proprietà Indipendente dall unità di misura Varia tra 1 e 1 Più è vicino a 1, maggiore è la correlazione lineare negativa Più è vicino a 1, maggiore è la correlazione lineare positiva Più è vicino a 0, più debole è qualunque tipo di correlazione lineare

Scatter plots Y Y Y Y X X r -1 r -.6 r 0 Y Y X r +1 X r +.3 X r 0 X

Relazione lineare Si può ipotizzare che esista una relazione lineare (ignota) tra le due variabili: Y β 0 + β 1 X dove Y è la variabile dipendente e X la variabile indipendente

Stima dei minimi quadrati I coefficienti β 0 e β 1, ignoti, si trovano minimizzando la somma dei quadrati dei residui La retta di regressione, basata sul campione, è yˆ b + b x 0 1 dove b 1 è la pendenza e b 0 l intercetta: Cov(x,y) b 1 s y r b 2 0 y b1x sx sx

Nota: dati raggruppati (frequenze) Si assuma che i valori osservati m 1, m 2,..., m k, appaiano con frequenza f 1, f 2,... f K Per una popolazione con N osservazioni la media sarà K μ i i 1 fm N Per un campione con n osservazioni, la media sarà invece x K i i 1 n i fm i K dove N f i 1 K dove n f i 1 i i

Nota: dati raggruppati (frequenze) Si assuma che i valori osservati m 1, m 2,..., m k, appaiano con frequenza f 1, f 2,... f K Per una popolazione con N osservazioni la varianza sarà K 2 fi(mi μ) 2 i 1 σ N Per un campione con n osservazioni, la varianza sarà invece s 2 K i 1 f (m i i n 1 x) 2