Statistica di base per l analisi socio-economica

Documenti analoghi
Teoria e tecniche dei test. Concetti di base

Nozioni di statistica

Dispensa di Statistica

Capitolo 3 Sintesi e descrizione dei dati quantitativi

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Regressione Lineare Semplice e Correlazione

INDICATORI DI TENDENZA CENTRALE

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Istituzioni di Statistica e Statistica Economica

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Settimana 2. G. M. Marchetti. 4 Marzo 2017

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi


Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

tabelle grafici misure di

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Misure di dispersione (o di variabilità)

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

STATISTICHE DESCRITTIVE Parte II

Indici di Dispersione

Ringraziamenti dell Editore

Challenge test: metodologia e strumenti pratici per una corretta valutazione

STATISTICA DESCRITTIVA (variabili quantitative)

Statistica multivariata Donata Rodi 17/10/2016

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

STATISTICHE DESCRITTIVE

MISURE DI SINTESI 54

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

Statistica Un Esempio

Statistica descrittiva II

Scale di Misurazione Lezione 2

Esercitazione del

Statistica descrittiva

Probabilità e Statistica Prova del 29/07/2016 Traccia E TEORIA Università degli Studi di Verona Laurea in Informatica e Bioinformatica A.A.

Statistica. Alfonso Iodice D Enza

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

STATISTICA Disciplina scien tifica che fornisce strumenti per l interpretazione delle informazioni contenute in insiemi di dati relativi a

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Regressione lineare semplice

Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

Statistica. Alfonso Iodice D Enza

Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA

1/55. Statistica descrittiva

Cognome e Nome:... Corso di laurea:...

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

x i x f i f i + log1, 07 + log1,065 = 0, log1,05+ log1,06 + log1,055+ log( 1+ i)= 1 5

Lezione 4 a - Misure di dispersione o di variabilità

Statistica. Alfonso Iodice D Enza

Statistica Capitolo 1 Perchè h st d u i diare la st ti a sti? ca Cap. 1-1

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

STATISTICA A K (60 ore)

Esercitazione 1.3. Indici di variabilità ed eterogeneità. Prof.ssa T. Laureti a.a

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Metodologie statistiche per l analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L ANALISI DEL RISCHIO

Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

ESERCIZI DI RIEPILOGO 1

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Presentazione dell edizione italiana

Esercizi di statistica

STATISTICA 1 ESERCITAZIONE 6

Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato

ELEMENTI DI STATISTICA

Istituzioni di Statistica

Una statistica è una quantità numerica il cui valore è determinato dai dati.

ESAME. 9 Gennaio 2017 COMPITO B

Principi di Statistica Descrittiva (3)

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Statistica. Alfonso Iodice D Enza

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

PROBABILITÀ ELEMENTARE

SCOPO DELL ANALISI DI CORRELAZIONE

Prova Pratica di Statistica I+II - Prof. M. Romanazzi

Compiti tematici dai capitoli 2,3,4

Questionario 1. Sono assegnati i seguenti dati

Statistica. Alfonso Iodice D Enza

Statistiche per riassumere i dati

Le medie. Antonello Maruotti

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Gli indici di variabilità

Transcript:

Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it

Definizioni di base Una popolazione è l insieme di tutte la unità di interesse che si stanno analizzando N è la dimensione della popolazione Un campione è un sotto insieme della popolazione n è la dimensione del campione Un parametro è una caratteristica della popolazione Una statistica è una caratteristica specifica di un campione

Popolazione e campione Popolazione a b c d ef gh i jk l m n o p q rs t u v w x y I valori calcolati utilizzando i dati della popolazione sono i parametri z Campione b g i c o r u y n I valori calcolati utilizzando i dati del campione sono le statistiche

Esempi di popolazioni I nomi di tutte le persone registrate all anagrafe I redditi di tutte le persone che vivono a Roma I rendimento annuale di tutte le azioni scambiate nella borsa di Milano I voti di tutti gli studenti dell università

Campionamento casuale Il campionamento casuale semplice è una procedura per selezionare un campione in cui Ogni membro della popolazione viene scelto con una per caso Ognuno ha la stessa probabilità di essere selezionato), Ogni possibile sotto linseme di dimensione n di membri della popolazione ha la stessa probabilità di essere selezionato Il campione ottenuto con questa procedura è detto campione casuale

Analisi descrittiva dei dati Descrizione dei dati Tendenza centrale Media aritmetica Mediana Moda Media geometrica Variabilità Campo di variazione Campo interquartile Varianza Deviazione standard Coefficiente di variazione

Misure della tendenza centrale Tendenza centrale Media Mediana Moda x n i 1 n x Media aritmetica i Punto di mezzo dei dati ordinati Valore più osservato

Media aritmetica La media aritmetica (media) è la misura più comune della tendenza centrale Per una popolazione di N unità: μ Per un campione di dimensione n: x N i xi 1 x1 + x2 + + N N n n x x + x + n i i 1 1 2 Valori n + x x N Valori per la popolazione Dimensioni popolazione osservati Dimensioni del campione

Media geometrica La media geometrica è una misura comune di tendenza centrale quando si ha a che fare con i tassi (tassi di crescita, tassi di interesse, etc.) Per N valori: μ geo N N i 1 x i N x 1 x 2 x N

Media aritmetica Misura più comune della tendenza centrale Media somma valori diviso numero dei valori Influenzata dai valori estremi (outliers) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 media 3 media 4 1+ 2 + 3 + 5 4 + 5 15 5 3 1+ 2 + 3 + 5 4 + 10 20 5 4

La mediana In una lista ordinata, la mediana è il valore di mezzo (50% prima, 50% dopo) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 mediana 3 mediana 3 Non è influenzata dai valori estremi!!!

Come si trova la mediana La mediana: Posizione mediana n + 1 2 posizione nei dati ordinati Se il numero dei dati è dispari, la mediana è il numero di mezzo Se il numero è pari, è la media dei due numeri di mezzo Nota che n +1 non è il valore della mediana, ma solo la 2 sua posizione nella lista ordinata dei dati

La moda Misura la tendenza centrale Il valore che appare più volte Non è influenzato dagli outliers Può non esserci una moda Oppure ce ne possono essere più di una 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 moda 9 nessuna moda

Esempio Cinque case su una collina sulla spiaggia Prezzi case: $2,000,000 500,000 300,000 100,000 100,000 $300 K $2,000 K $500 K $100 K $100 K

Esempio Prezzi case: $2,000,000 500,000 300,000 100,000 100,000 Media: ($3,000,000/5) $600,000 Mediana: Valore di mezzo dei dati $300,000 Somma 3,000,000 Moda: Valore più frequente $100,000

Forma (shape) di una distribuzione Descrive come sono distribuiti I dati Misura la forma (shape) Simmetrica o asimmetrica (skewed) Left-Skewed Media < Mediana Symmetric Media Mediana Right-Skewed Mediana < Media

Misure di variabilità variabilità Campo di variazione Campo interquartile Varianza Deviazione standard Coefficiente di variaizone Le misure di variazione danno informazioni sullo spread o variabilità dei dati. Stesso centro, Diversa variabilità

Campo di variazione (range) La più semplice misura di variabilità Differenza tra la più grande e più piccola osservazione: Range X maggiore X minore Esempio: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Range 14 1 13

Svantaggi del campo di variazione Ignora la distribuzione dei dati 7 8 9 10 11 12 Range 12 7 5 7 8 9 10 11 12 Range 12 7 5 Sensibile rispetto gli outliers 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Range 5 1 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Range 120 1 119

Campo interquartile Si possono utilizzare alcuni problemi con gli outliers usando il campo (di variazione) interquartile (interquartile range) Elimina le osservazioni più grandi e più piccole, calcolando il range del 50% dei dati Interquartile range 3 rd quartile 1 st quartile IQR Q 3 Q 1

Campo interquartile Esempio: X minimum Q1 mediana (Q2) Q3 25% 25% 25% 25% X maximum 12 30 45 57 70 Interquartile range 57 30 27

Quartili I quartili dividono i dati in 4 segmenti, ognuno dei quali contiene lo stesso numero di osservazioni. 25% 25% 25% 25% Q1 Q2 Q3 Il primo quartile, Q 1, è il valore per cui il 25% delle osservazioni è minore e il 75% maggiore Q 2 è la mediana (50% maggiori, 50% minori) Solo il 25% delle osservazioni sono maggiori, invece, del terzo quartile, Q 3.

Calcolo dei quartili Per trovare i quartili occorre trovare i valori corrispondenti alle posizioni dei dati ordinati: Posizione primo quartile: Posizione secondo quartile: (posizione mediana) Posizione terzo quartile: Q 1 0.25(n+1) Q 2 0.50(n+1) Q 3 0.75(n+1) dove n è il numero dei dati osservati

Esempio Esempio: Primo quartile Sample Ranked Data: 11 12 13 16 16 17 18 21 22 (n 9) Q 1 è nella 0.25(9+1) 2.5 posizione dei dati ordinati, quindi a meta tra il 2 o e il 3 o valore, ovvero Q 1 12.5

Varianza della popolazione Media degli scarti quadratici dalla media Varianza della popolazione: σ 2 N i 1 (x i N μ) 2 dove μ media della popolazione N dimensione della popolazione x i i esimo valore della variabile x

Varianza campionaria Media (approssimata) degli scarti quadratici dalla media Varianza campionaria: s 2 n i 1 (x i n -1 x) 2 dove X media aritmetica n dimensioni del campione X i i esimo della variabile X

Deviazione standard (popolazione) La misura più comune di variabilità Mostra la variazione rispetto la media Misurata con la stessa unità dei dati originali Deviazione standard: (popolazione) σ N i 1 (x i N μ) 2

Deviazione standard del campione La misura più comune di variabilità Mostra la variazione rispetto la media Misurata con la stessa unità dei dati originali Deviazione standard: (campione) S n i 1 (x i n -1 x) 2

Skewness (momento terzo) Indica l asimmetria Misurata con la stessa unità dei dati originali Skewness 1 n n i 1 (x 3 i x) s 3

Esempio Campione Dati (x i ) : 10 12 14 15 17 18 18 24 n 8 media x 16 s (10 X) 2 + (12 x) 2 + (14 n 1 x) 2 + + (24 x) 2 (10 16) 2 + (12 16) 2 + (14 16) 8 1 2 + + (24 16) 2 126 7 4.2426 Misura lo scatter medio attorno alla media

Misurare la variabilità Piccola deviazione standard Grande deviazione standard

Deviazioni standard a confronto Dataset A 11 12 13 14 15 16 17 18 19 20 21 media 15.5 s 3.338 Dataset B 11 12 13 14 15 16 17 18 19 20 21 Dataset C 11 12 13 14 15 16 17 18 19 20 21 media 15.5 s 0.926 media 15.5 s 4.570

Vantaggi Nel calcolo della varianza e della deviazione standard si utilizzano tutti i valori della distribuzione Il quadrato enfatizza i valori più lontani dalla media

Una regola empirica Se i dati della distribuzione sono a campana, allora l intervallo: μ ± 1σ contiene circa il 68% dei valori della popolazione o del campione 68% μ μ ±1σ

Una regola empirica μ ± 2σ contiene circa il 95% dei valori della popolazione o del campione μ ± 3σ contiene circa il 99.7% dei valori della popolazione o del campione 95% 99.7% μ ± 2σ μ ± 3σ

Il coefficiente di variazione Misura la variazione relativa Espresso in percentuale (%) Mostra la variazione relativa rispetto alla media Si può usare per confrontare due o più set di data espressi in diverse unità di misura CV s x 100%

Esempio Stock A: Prezzo medio $50 Deviazione standard $5 Stock B: s $5 CV A 100% 100% 10% x $50 Prezzo medio $100 Deviazione standard $5 s $5 CV B 100% 100% x $100 5% Entrambi gli stock hanno la stessa deviazione standard ma lo stock B è meno variabile rispetto la sua media

Covarianza La covarianza misura la consistenza di una relazione lineare tra due variabili Covarianza della popolazione: Cov (x,y) σ xy N i 1 (x i µ )(y x N i µ ) y Covarianza del campione: Cov (x,y) s xy x)(y n 1 y) Misura solo la consistenza (come variano assieme) Non implica effetti causali (chi causa cosa) n i 1 (x i i

Interpretazione Covarianza tra due variabili: Cov(x,y) > 0 Cov(x,y) < 0 Cov(x,y) 0 x e y tendono a muoversi nella stessa direzione x e y tendono a muoversi nella direzione opposta x e y sono indipendenti

Coefficiente di correlazione Misura la relativa forza della correlazione lineare tra due variabili Coefficiente di correlazione della popolazione: ρ Coefficiente di correlazione del campione: r Cov (x, y) σ σ X Y Cov (x, y) s s X Y

Proprietà Indipendente dall unità di misura Varia tra 1 e 1 Più è vicino a 1, maggiore è la correlazione lineare negativa Più è vicino a 1, maggiore è la correlazione lineare positiva Più è vicino a 0, più debole è qualunque tipo di correlazione lineare

Scatter plots Y Y Y Y X X r -1 r -.6 r 0 Y Y X r +1 X r +.3 X r 0 X

Relazione lineare Si può ipotizzare che esista una relazione lineare (ignota) tra le due variabili: Y β 0 + β 1 X dove Y è la variabile dipendente e X la variabile indipendente

Stima dei minimi quadrati I coefficienti β 0 e β 1, ignoti, si trovano minimizzando la somma dei quadrati dei residui La retta di regressione, basata sul campione, è yˆ b + b x 0 1 dove b 1 è la pendenza e b 0 l intercetta: Cov(x,y) b 1 s y r b 2 0 y b1x sx sx

Nota: dati raggruppati (frequenze) Si assuma che i valori osservati m 1, m 2,..., m k, appaiano con frequenza f 1, f 2,... f K Per una popolazione con N osservazioni la media sarà K μ i i 1 fm N Per un campione con n osservazioni, la media sarà invece x K i i 1 n i fm i K dove N f i 1 K dove n f i 1 i i

Nota: dati raggruppati (frequenze) Si assuma che i valori osservati m 1, m 2,..., m k, appaiano con frequenza f 1, f 2,... f K Per una popolazione con N osservazioni la varianza sarà K 2 fi(mi μ) 2 i 1 σ N Per un campione con n osservazioni, la varianza sarà invece s 2 K i 1 f (m i i n 1 x) 2