Anno Accademico 2014-2015. Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA



Documenti analoghi
Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA

Corso di. Dott.ssa Donatella Cocca

Lezione n. 2 (a cura di Chiara Rossi)

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Il concetto di valore medio in generale

ESAME DI STATISTICA Nome: Cognome: Matricola:

INDICE PREFAZIONE VII

UNIVERSITÀ DEGLI STUDI DI MILANO-BICOCCA A. A FACOLTÀ DI ECONOMIA. Programma del modulo di STATISTICA I (6 crediti)

Grafici delle distribuzioni di frequenza

Statistica. Alfonso Iodice D Enza iodicede@unina.it

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Brugnaro Luca Boscaro Gianni (2009) 1

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Istituzioni di Statistica e Statistica Economica

Elementi di Statistica

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Slide Cerbara parte1 5. Le distribuzioni teoriche

Metodi statistici per le ricerche di mercato

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Elementi di Psicometria con Laboratorio di SPSS 1

Dott.ssa Caterina Gurrieri

Capitolo 12 La regressione lineare semplice

Prova di autovalutazione Prof. Roberta Siciliano

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Analisi di dati di frequenza

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

ESERCIZI DI STATISTICA DESCRITTIVA

STATISTICA DESCRITTIVA UNIVARIATA

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Indici di dispersione

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Facciamo qualche precisazione

Elementi di Psicometria

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

ESERCIZI DI RIEPILOGO 2. 7 jj(addi

Relazioni statistiche: regressione e correlazione

Statistica descrittiva

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Lezione 1. Concetti Fondamentali

Statistica (Prof. Capitanio) Slide n. 1. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

E naturale chiedersi alcune cose sulla media campionaria x n

1. Richiami di Statistica. Stefano Di Colli

LA CORRELAZIONE LINEARE

Lezione 1. Concetti Fondamentali

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

Statistica descrittiva

INDICI DI TENDENZA CENTRALE

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati

Regressione Mario Guarracino Data Mining a.a. 2010/2011

MINIMI QUADRATI. REGRESSIONE LINEARE

Inferenza statistica. Statistica medica 1

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

Appunti di Statistica Descrittiva

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

Statistica. L. Freddi. L. Freddi Statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 1

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Analisi della performance temporale della rete

Cenni di statistica descrittiva

Relazioni tra variabili

1. Distribuzioni campionarie

Premesse alla statistica

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

Misure della dispersione o della variabilità

La categoria «ES» presenta (di solito) gli stessi comandi

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Statistica descrittiva univariata

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

ANALISI DI CORRELAZIONE

Corso di Psicometria Progredito

Elementi di Psicometria con Laboratorio di SPSS 1

Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

FONDAMENTI DI PSICOMETRIA - 8 CFU

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

Elementi di statistica

Statistica descrittiva: prime informazioni dai dati sperimentali

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Amministrazione, finanza e marketing - Turismo Ministero dell Istruzione, dell Università e della Ricerca PROGRAMMAZIONE DISCIPLINARE PER U. di A.

SPC e distribuzione normale con Access

Matematica II: Calcolo delle Probabilità e Statistica Matematica

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Transcript:

Statistica, CLEA p. 1/68 Anno Accademico 2014-2015 Corso di Laurea in Economia Aziendale Università di Bologna STATISTICA Monia Lupparelli monia.lupparelli@unibo.it http://www2.stat.unibo.it/lupparelli

Statistica, CLEA p. 2/68 Informazioni sul corso Orario delle lezioni: - Martedì 14.00-17.00 - Venerdì 13.00-16.00 Orario di ricevimento: martedì 11.00-12.00 Testo di riferimento: P. Newbold, W. L.Carlson, B. Thorne (2007). Statistica (Versione Italiana). Pearson - Prentice Hall. Altre letture consigliate: - S. Borra e A. Di Ciaccio (2004) Statistica : metodologie per le scienze economico e sociali. McGraw-Hill. - G. Cicchitelli (2008). Statistica. Principi e metodi. Pearson Paravia Bruno Mondatori.

Statistica, CLEA p. 3/68 Struttura del corso Il corso si struttura in 20 lezioni di 3 ore: Statistica descrittiva (6 lezioni) Elementi di calcolo delle probabilità (6 lezioni) Statistica inferenziale (8 lezioni) Ogni lezione si articolerà nel seguente modo (in linea generale): 2 ore di teoria 1 ora di esercitazione sugli argomenti teorici precedentemente trattati

Statistica, CLEA p. 4/68 Fasi dell indagine statistica 1. Definizione degli obiettivi 2. Pianificazione della raccolta dei dati 3. Rilevazione dei dati 4. Elaborazione metodologica 5. Presentazione dei risultati 6. Utilizzazione dei risultati della ricerca.

Statistica, CLEA p. 5/68 Le fonti e la rilevazione dei dati I dati raccolti possono provenire da: esperimenti sondaggi studi di settore fonti pubbliche o private Definita la fonte, la rilevazione dei dati può avvenire attraverso: censimento campione

Statistica, CLEA p. 6/68 Alcune definizioni preliminari VARIABILE/CARATTERE X: fenomeno di interesse. MODALITA : valori/livelli/categorie diversi che può assumere la variabile di interesse. UNITA STATISTICA: entità elementare osservabile che presenta la variabile X. POPOLAZIONE: l insieme completo delle unità statistiche che esauriscono le informazioni sulla variabile X. Definiamo con N la dimensione della popolazione. CAMPIONE: sottoinsieme di unità osservate nella popolazione. Definiamo con n la dimensione del campione (n N) TIPO DI CAMPIONAMENTO: procedimento utilizzato per selezionare un campione di dimensione n da una popolazione contenente N unità statistiche. PARAMETRO: caratteristica specifica della popolazione STATISTICA: caratteristica specifica del campione.

Statistica, CLEA p. 7/68 Metodologia statistica Statistica descrittiva: l insieme delle metodologie statistiche utilizzate per descrivere il comportamento della popolazione attraverso l elaborazione e la sintesi dei dati rappresentazioni grafiche indicatori sintetici modello Calcolo delle probabilità: è lo strumento attraverso il quale si descrive il comportamento della popolazione in condizioni di incertezza. Statistica inferenziale: è un processo che studia il comportamento della popolazione in condizioni di incertezza tramite l analisi del campione: stima verifica di ipotesi previsione

Statistica, CLEA p. 8/68 STATISTICA DESCRITTIVA Premessa importante: nella statistica descrittiva si opera in condizioni di certezza. Per ogni variabile X, ipotizziamo di conoscere tutte le informazioni relative all intera popolazione. Gli indicatori sintetici che utilzzeremo per l elaborazione dei dati sono dei parametri poiché descrivono una specifica caratteristica della popolazione. Per ogni parametro, possiamo però individuare una o più statistiche corrispondenti che individuano la stessa caratterestica in un campione della popolazione. Esempio. Data una variabile X, indicheremo con µ X la media della popolazione e con x la media campionaria. Indicheremo con σ 2 X la varianza della popolazione e con s2 X la varianza campionaria.

Statistica, CLEA p. 9/68 Classificazione delle variabili VARIABILI QUALITATIVE (categoriche) Alla modalità della variabile osservata non si può attribuire un valore numerico; le modalità possono essere: sconnesse (sesso, colore dei capelli) ordinali (titolo di studio, livello di soddisfazione) VARIABILI QUANTITATIVE (numeriche) Alla modalità della variabile osservata si attribuisce un valore numerico, pertanto le modalità osservate sono sempre ordinali: discrete (numero di esami, numero di dipendenti) continue (altezza, peso)

Statistica, CLEA p. 10/68 Distribuzione individuale dei dati Data una variabile X osservata su N unità statistiche (nella statistica descrittiva ipotizziamo di osservare tutta la popolazione), la distribuzione individuale dei dati {a 1, a 2, a 3,..., a N } è l insieme delle modalità ossservate per ogni unità. Sesso (M, F ) per N = 12 unità: {M, M, F, F, F, F, M, F, F, M, F, F } Titolo di studio (E, M, S, L) per N = 12 unità: {M, L, S, S, S, E, L, M, L, S, E, S} Età per N = 12 unità: {27, 39, 42, 57, 81, 48, 33, 21, 17, 10, 60, 28} Peso per N = 12 unità: {72.5, 63.2, 59.1, 74.8, 75.3, 69.6, 58.2, 54.9, 50.4, 33.8, 80.1, 53.9}.

Statistica, CLEA p. 11/68 Distribuzione di frequenza X è una variabile qualitativa o quantitativa discreta osservata su N unità K è il numero modalità che può assumere la variabile X. x k, (k = 1,..., K), è una delle possibili modalità che si possono osservare n k è la frequenza assoluta: il numero delle unità per cui X assume modalità x k. K k=1 n k = N f k = n k /N è la frequenza relativa. K k=1 f k = 1. p k = f k 100 è la frequenza percentuale. K k=1 p k = 100. Variabile Modalità n k f k p k x 1 n 1 f 1 p 1.... x K n K f K p K N 1.00 100% Specializzazione degli iscritti al master Modalità n k f k p k Finanza 160 0.40 40% Marketing 140 0.35 35% Contabilità 100 0.25 25% 400 1.00 100%

Statistica, CLEA p. 12/68 Distribuzioni di frequenza per variabili ordinali Se X è una variabile qualitativa ordinale o quantitativa discreta N k = K k=1 n k è la frequenza cumulata; N 1 = n 1, N 2 = (n 1 + n 2 ),..., N k = (n 1 + + n k ),..., N K = N. F k = K k=1 f k è la frequenza relativa cumulata; F 1 = f 1, F 2 = (f 1 + f 2 ),..., F k = (f 1 + + f k ),..., F K = 1. Variabile X Modalità freq. ass. freq. rel. freq. perc. freq. cum. freq. cum. rel x 1 n 1 f 1 p 1 N 1 F 1 x 2 n 2 f 2 p 2 N 2 F 2...... x k n k f k p k N k F k...... x K 1 n K 1 f K 1 p K 1 N K 1 F K 1 x K n K f K p K N 1 N 1.00 100 - -

Statistica, CLEA p. 13/68 Tabella di frequenza per variabili ordinali Livello di soddisfazione Modalità freq. ass. freq. rel. freq. perc. freq. cum. freq. cum. rel molto insoddisfatto 40 0.37 37 40 0.37 abbastanza insoddisfatto 6 0.06 6 46 0.43 indifferente 37 0.35 35 83 0.78 abbastanza soddisfatto 17 0.16 16 100 0.94 molto soddisfatto 7 0.06 6 107 1.00 107 1.00 100 - - N.B. La frequenza cumulata e la frequenza relativa cumulata hanno senso solo se le modalità sono ordinabili, quindi non ha senso calcolarle per variabili qualitative sconnesse.

Statistica, CLEA p. 14/68 Distribuzioni di frequenza per variabili continue Sia X una variabile quantitativa continua non si può definire il numero K di modalità assunte dalla variabile è necessario classificare le osservazioni attraverso degli intervalli l uso delle classi comporta una sintesi dei dati ma anche una perdita di informazione criteri di costruzione delle classi le classi sono contingue, collettivamente esaustive e mutuamente esclusive chiusura delle classi (chiuse a destra o chiuse a sinistra ) ampiezza della classe w k e valore centrale m k Uso del cellulare in minuti Classi n k m k w k f k p k N k F k 0 250 26 250/2=125 250 0.24 24 26 0.24 250 280 67 (280+250)/2=265 (280-250)=30 0.61 61 93 0.85 280 300 17 (280+300)/2=290 (300-280)=20 0.15 15 110 1.00 110 - - 1.00 100 - -

Statistica, CLEA p. 15/68 Distribuzioni in classi per variabili discrete Sia X una variabile quantitativa discreta a volte il numero K di modalità assunte dalla variabile può essere molto alto classificare le osservazioni attraverso degli intervalli facilita la sintesi dei dati anche se comporta sempre una perdita di informazione essendo le classi contingue, è importante definire la chiusura delle classi Età Classi n k m k w k f k p k N k F k 0 10 8 5 10 0.16 16 8 0.16 10 20 10 15 10 0.21 21 18 0.37 20 30 13 25 10 0.27 27 31 0.64 30 40 12 35 10 0.24 24 43 0.88 40 50 6 45 10 0.12 12 49 1.00 49 - - 1.00 100 - - N.B. Un soggetto che ha 20 anni appartiene alla terza classe.

Statistica, CLEA p. 16/68 Rappresentazioni grafiche Variabili qualitative: tabella di frequenza grafico a barre grafico a torta Variabili quantitative: tabella di frequenza funzione di ripartizione grafico a aste (discrete) istogramma (continue)

Statistica, CLEA p. 17/68 Grafici per variabili qualitative 180 Specializzazione degli iscritti al master 160 140 120 100 25% Contabilità 80 Finanza 40% 60 40 20 0 Finanza Marketing Contabilità Marketing 35% Modalità Finanza Marketing Contabilità freq. ass. 160 140 100

Statistica, CLEA p. 18/68 Grafici per variabili qualitative 90 80 Tasso alcolemico nel sangue in relazione al luogo di consumo Casa di amici 24% frequenze assolute 70 60 50 40 30 Bar 32% 20 10 10% 0 Bar Ristorante Casa propria Casa di amici Ristorante 34% Casa propria Modalità Bar Ristorante Casa propria Casa di amici freq. ass. 78 24 82 58

Statistica, CLEA p. 19/68 Grafico a aste per variabili discrete 25 Grafico a aste 20 frequenze assolute 15 10 5 0 1 0 1 2 3 4 5 numero di figli Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2

Statistica, CLEA p. 20/68 Funzione di ripartizione per variabili discrete 1 Funzione di ripartizione 0.9 0.8 frequenze rel. cumulate 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 0 1 2 3 4 5 numero di figli Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2 freq. rel. 0.24 0.46 0.18 0.08 0.04 freq. rel. cum. 0.24 0.70 0.88 0.96 1.00

Statistica, CLEA p. 21/68 Funzione di ripartizione per variabili continue 1 Funzione di ripartizione 0.9 0.8 frequenze rel. cumulate 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 300 350 400 minuti al cellulare Modalità 0 250 250 280 280 300 freq. ass. 26 67 17 freq. rel. 0.24 0.61 0.15 freq. rel. cum. 0.24 0.85 1.00

Statistica, CLEA p. 22/68 Funzione di ripartizione per variabili discrete in classi 1 Funzione di ripartizione 0.9 0.8 0.7 Freq. realtive cumulate 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 30 35 40 45 50 età Modalità 0 10 10 20 20 30 30 40 40 50 freq. ass. 8 10 13 12 6 freq. rel. 0.16 0.21 0.27 0.24 0.12 freq. rel. cum. 0.16 0.37 0.64 0.88 1.00

Statistica, CLEA p. 23/68 Densità per distribuzioni in classi Data una distribuzione in classi per una variabile X, la densità è d k = f k /w k. Uso del cellulare in minuti Classi n k w k f k d k 0 250 26 250 0.24 0.24/250=0.001 250 280 67 (280-250)=30 0.61 0.61/30=0.20 280 300 17 (300-280)=20 0.15 0.15/20= 0.008 110-1.00 Età Classi n k w k f k d k 0 10 8 10 0.16 0.016 10 20 10 10 0.21 0.021 20 30 13 10 0.27 0.027 30 40 12 10 0.24 0.024 40 50 6 10 0.12 0.012 49-1.00

Statistica, CLEA p. 24/68 Istogramma per distribuzioni in classi L area di ogni rettangolo corrisponde alla freq. rel. della classe La densità consente di confrontare classi di diversa ampiezza. 0.025 Istogramma 0.02 densità relativa 0.015 0.01 0.005 0 50 0 50 100 150 200 250 300 350 minuti al cellulare Uso del cellulare in minuti Classi 0 250 250 280 280 300 freq. rel. 0.24 0.61 0.15 ampiezza 250 30 20 densità rel. 0.001 0.02 0.008

Statistica, CLEA p. 25/68 Istogramma per distribuzioni in classi 0.03 Istogramma 0.025 0.02 densità relativa 0.015 0.01 0.005 0 10 0 10 20 30 40 50 60 età Età Classi 0 10 10 20 20 30 30 40 40 50 fre. rel. 0.16 0.21 0.27 0.24 0.12 densità rel. 0.016 0.021 0.027 0.024 0.012

Statistica, CLEA p. 26/68 Ipotesi di uniforme distribuzione nelle classi Ipotesi: le singole osservazioni si distribuiscono in modo uniforme nella classe la densità = freq. rel. in un intervallo di ampiezza unitaria valore centrale della classe = media delle osservazioni appartenenti alla classe. 0.025 Istogramma 1 Funzione di ripartizione 0.9 0.02 0.8 densità relativa 0.015 0.01 frequenze rel. cumulate 0.7 0.6 0.5 0.4 0.3 0.005 0.2 0.1 0 50 0 50 100 150 200 250 300 350 minuti al cellulare 0 0 50 100 150 200 250 300 350 400 minuti al cellulare

Statistica, CLEA p. 27/68 Rappresentazione grafica per due variabili Si considerino 100 osservazioni relative alla variabile X età del consumatore e Y costo dei fiori: 80 70 60 costo dei fiori 50 40 30 20 10 20 30 40 50 60 70 80 età del consumatore

Statistica, CLEA p. 28/68 Rappresentazione grafica per due variabili 4 3.8 votazione media alla laurea 3.6 3.4 3.2 3 2.8 2.6 450 500 550 600 650 700 punteggi dei test di matematica per l ammissione all università del Midwest X 450 480 500 520 560 580 590 600 620 650 700 Y 3.25 2.60 2.88 2.85 3.30 3.10 3.35 3.20 3.50 3.59 3.95

Statistica, CLEA p. 29/68 Descrizione numerica dei dati Misure di tendenza centrale moda media (variabili quantitative) mediana (variabili qualitative ordinali e quantitative) Misure di variabilità (variabili quantitative) campo di variazione e coefficiente interquartile varianza e scarto quadratico medio coefficiente di variazione Misure di asimmetria Misure di relazioni fra le variabili Relazioni lineari: modello di regressione

Statistica, CLEA p. 30/68 Moda e classe modale La moda è la modalità della X che si presenta il maggior numero di volte. sesso: {M, M, F, M, F, F, F }, la moda è la modalità F voti: {21, 30, 24, 18, 21, 29}, la moda è la modalità 21 La moda può non esistere. Es. sesso: {M, M, F, M, F, F, F, M} La moda, se esite, corrisponde alla modalità con la maggiore frequenza Nel caso di distribuzioni in classi, non si può definire la moda ma la classe modale, cioè la classe con maggiore frequenza. Modalità Livello di soddisfazione freq. ass. molto insoddisfatto 40 abbastanza insoddisfatto 6 indifferente 37 abbastanza soddisfatto 17 molto soddisfatto 7 107 Classi Età n k 0 10 8 10 20 10 20 30 13 30 40 12 40 50 6 49

Statistica, CLEA p. 31/68 Media aritmetica e sue proprietà Data una variabile quantitativa X, la media aritmetica µ per distribuzioni individuali {a 1,..., a N } si calcola: N µ = 1 N i=1 a i Proprietà della media aritmetica: la somma degli scarti dalla media è zero: N i=1 (a i µ) = 0 la somma degli scarti al quadrato N i=1 (a i c) 2 è minima quando c = µ N i=1 a i = Nµ la media è compresa sempre fra il valore minimo e massino della X aggiungendo o sottraendo a tutti i valori a i una costante c 0, la media risulta aumetata o diminuita di c moltiplicando o dividendo tutti i valori a i per una stessa costante c la media risulta moltiplicata per c N.B. Dato un campione di n < N osservazioni, la media campionaria è x = 1 n n i=1 a i

Statistica, CLEA p. 32/68 Media aritmetica per distribuzioni di frequenza distrib. frequenza: 1 N K x k n k = k=1 k x k f k k=1 distrib. frequenza in classi media esatta 1 N K µ k n k = k=1 K µ k f k k=1 dove µ k è la media delle osservazioni in ogni classe media approssimata 1 N K m k n k = k=1 K m k f k k=1 dove m k è il valore centrale della classe ( ) N.B. (*) Sotto l ipotesi di uniforme distribuzione nelle classi, µ k = m k.

Statistica, CLEA p. 33/68 Media aritmetica per distribuzioni di frequenza Voto all esame di 10 studenti = {18, 23, 18, 25, 30, 30, 27, 25, 29, 20}. distrib. individuale µ = 1 (18 + 23 + 18 + 25 + 30 + 30 + 27 + 25 + 29 + 20) = 24.5 10 distrib. frequenza: Voto x k 18 20 23 25 27 29 30 n k 2 1 1 2 1 1 2 10 x k n k 36 20 23 50 27 29 60 245 µ = 1 [(18 2) + 20 + 23 + (25 2) + 27 + 29 + (30 2)] = 24.5 10

Statistica, CLEA p. 34/68 Media per distribuzioni in classi Voto Classi n k µ k µ k n k m k m k n k Classi n k µ k m k m k n k 18 24 4 (18+18+20+23)/4= 19.75 79 21 84 18 26 6 21.5 22 132 24 28 3 (25+25+27)/3= 25.67 77 26 78 26 28 1 27 27 27 28 30 3 (29+30+30)/3= 29.67 89 29 87 28 30 3 29.67 29 87 10 245 249 10 246 media aritmetica: µ = 1 K 10 k=1 µ kn k = 245 10 = 24.5 media approssimata con classi (18 24), (24 28), (28 30): µ = 1 K 10 k=1 m kn k = 249 10 = 24.9 media approssimata con classi (18 26), (26 28), (28 30): µ = 1 Kk=1 m 10 k n k = 246 10 = 24.6 N.B. L approssimazione migliora quanto più i valori centrali m k sono vicini alle medie di classe µ k

Statistica, CLEA p. 35/68 Media di potenza: M r = r 1 K N k=1 x k r n k r = 1: la media aritmetica M 1 = µ r = 0: media geometrica (se e solo se x k 0 ) M 0 = N K x n k k = k=1 K k=1 x k f k r = 1: media armonica M 1 = N K k=1 1 x k n k = 1 K k=1 1 x k f k r = 2: media quadratica M 2 = 1 N K x k 2 n k = K x k 2 f k k=1 k=1

Statistica, CLEA p. 36/68 Mediana La mediana M e: per calcolarla è necessario ordinare le osservazioni in modo crecsente è un indice di posizione indica il valore che divide essattamente i dati osservati in due gruppi della stessa numerosità Nel caso di distribuzione unitaria: N dispari: N pari: Me = a N+1 2 Me = a N/2 + a N/2+1 2 Esempio: {10, 25, 2, 17, 24, 9, 12} {2, 9, 10, 12, 17, 24, 25}; (N + 1)/2 = 4, perciò Me = a 4 = 12. {10, 25, 2, 24, 9, 12} {2, 9, 10, 12, 24, 25}; N/2 = 3, perciò Me = (a 3 + a 4 )/2 = (10 + 12)/2 = 11.

Statistica, CLEA p. 37/68 Mediana per distribuzioni di frequenza La mediana Me in una distrib. frequenza è la modalità x k, tale che F k > 0.5 1 0.9 Funzione di ripartizione F(2) = 0.88 F(3) = 0.96 F(4) = 1 frequenze rel. cumulate 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Me = 1; F(1) = 0.7 >0.5 F(0) = 0.24 < 0.5 non esite x, tale che F(x) = 0.5 perché la funzione non è continua 0.1 0 1 0 1 2 3 4 5 numero di figli Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2 freq. rel. 0.24 0.46 0.18 0.08 0.04 freq. rel. cum. 0.24 0.70 0.88 0.96 1.00 Me = 1

Statistica, CLEA p. 38/68 Mediana per distribuzioni in classi La mediana Me in una distrib. in classi è la modalità x k, tale che F (x k ) = 0.5 1 Funzione di ripartizione 0.9 0.8 Freq. realtive cumulate 0.7 0.6 0.5 0.4 0.3 F(24.8) = 0.5 esiste x tale che F(x)=0.5 perché la funzione è continua 0.2 0.1 Me = 24.8 0 0 5 10 15 20 25 30 35 40 45 50 età Età Me = 20 + 0.5 0.37 0.27 10 = 24.8 Classi 0 10 10 20 20 30 30 40 40 50 fre. rel. 0.16 0.21 0.27 0.24 0.12 freq rel. cum 0.16 0.37 0.64 0.88 1.00

Statistica, CLEA p. 39/68 Quantili Un quantile Q: per calcolarlo è necessario ordinare le osservazioni in modo crecsente è un indice di posizione indica il valore che divide essattamente i dati osservati secondo una certa proporzione la mediana è un quantile particolare i quantili più usati sono Q 1 : primo quartile che o 25-esimo percentile Q 2 : secondo quartile che coincide con la Me Q 3 : terzo quartile o 75-esimo percentile Nel caso di distribuzione unitaria: N dispari: N pari: Q 1 = a N+1 4 Q 1 = a N/4 + a N/4+1 2, Q 3 = a 3(N+1) 4, Q 3 = a 3N/4 + a 3N/4+1 2

Statistica, CLEA p. 40/68 Quartili per distribuzioni di frequenza Q 1 e Q 3 in una distrib. freq. sono la modalità x k, tale che F (x k ) > 0.25 e F (x k ) > 0.75 1 Funzione di ripartizione 0.9 frequenze rel. cumulate 0.8 0.7 0.6 0.5 0.4 Q3 = 2 ; F(2)=0.88 Q1 = Me = 1; F(1) = 0.7 0.75 0.3 0.2 0.25 0.1 0 1 0 1 2 3 4 5 numero di figli Modalità 0 1 2 3 4 freq. ass. 12 24 9 4 2 freq. rel. 0.24 0.46 0.18 0.08 0.04 freq. rel. cum. 0.24 0.70 0.88 0.96 1.00 Q 1 = Me = 1, Q 3 = 2

Statistica, CLEA p. 41/68 Quartili per distribuzioni in classi Q 1 e Q 3 in una distrib. in classi è la modalità x k, tale che F (x k ) = 0.25 e F (x k ) = 0.75 1 Funzione di ripartizione 0.9 0.8 F(34.6)=0.75 Freq. realtive cumulate 0.7 0.6 0.5 0.4 0.3 0.2 F(14.3)=0.25 0.1 Q1 = 14.3 Q3 = 34.6 0 0 5 10 15 20 25 30 35 40 45 50 età Età Classi 0 10 10 20 20 30 30 40 40 50 fre. rel. 0.16 0.21 0.27 0.24 0.12 freq rel. cum 0.16 0.37 0.64 0.88 1.00

Statistica, CLEA p. 42/68 Proprietà della mediana e dei quartili Sono medie di posizione che si possono calcolare per variabili quantitative o qualitative ordinali una volta ordinati i dati, corrispondono alla modalità della X che occupa una certa posizione Q 1 Me Q 3 N i=1 a i c è minimo se c = Me Differenza fra media e mediana: la media è un indice analitico che risente dei valori estremi, la mediana no perché è un indice di posizione confrontando media e mediana si può verificare la simmetria/asimmetria della distribuzione Dist. simmetrica: {4, 8, 12, 10, 2, 6, 14} {2, 4, 6, 8, 10, 12, 14} : µ = 8 = Me = 8 Dist. asimmetrica positiva: {3, 4, 20, 3, 2, 25, 2} {2, 2, 3, 3, 4, 20, 25} : µ = 8.4 > Me = 3 Dist. asimmetrica negativa: {16, 1, 15, 15, 2, 16, 2} {1, 2, 2, 15, 15, 16, 16} : µ = 9.6 < Me = 15

Statistica, CLEA p. 43/68 Simmetria La simmetria di una distribuzione si può capire anche dall istogramma: Istogramma x 104 3.5 3 Media = 0.005 Mediana = 0.005 2.5 2 1.5 1 0.5 0 5 4 3 2 1 0 1 2 3 4 5 Distrib. simmetrica: media = moda = mediana

Statistica, CLEA p. 44/68 Asimmetria L asimmetria di una distribuzione si può capire anche dall istogramma: 4000 Istogramma 4000 Istogramma 3500 Media = 5.03 Mediana = 4.39 3500 Media = 3.99 Mediana = 3.39 3000 3000 2500 2500 2000 2000 1500 1500 1000 1000 500 500 0 0 5 10 15 20 25 30 35 Distrib. asimmetrica positiva: moda < mediana < media 0 25 20 15 10 5 0 5 Distrib. asimmetrica negativa: media < mediana < moda

Statistica, CLEA p. 45/68 Variabilità La variabilità è un ulteriore indicatore sintetico dei dati che ci dice quanto le osservazioni si discostano dalla media. E un indicatore di dispersione. Esempio banale: nella distribuzione {10, 10, 10, 10, 10, 10, 10, 10} la media è 10 e la variabilità è 0 in quanto assente. nella distribuzione {10, 15, 5, 18, 2, 19, 1, 10} la media è sempre 10 ma non c è assenza di variabilità. Indici di variabilità (solo per variabili quantitative): scarto quadratico medio varianza coefficiente di variazione campo di variazione differenza interquartile

Statistica, CLEA p. 46/68 Scarto quadratico medio distr. semplici σ = 1 N N (a i µ) 2 i=1 distr. frequenza σ = 1 N K (x k µ) 2 n k = K (x k µ) 2 f k k=1 k=1 distr. in classi σ = 1 N K (m k µ) 2 n k = K (m k µ) 2 f k k=1 k=1 N.B. Dato un campione di n < N osservazioni, la dev. standard campionaria è s = 1 n n 1 i=1 (a i µ) 2, s = 1 n n 1 i=1 (x i µ) 2 n i,...

Statistica, CLEA p. 47/68 Varianza La varianza è lo scarto quadratico medio al quadrato: V AR(X) = σ 2 = 1 N K (x k µ) 2 n k k=1 Esempio banale: nella distribuzione {10, 10, 10, 10, 10, 10, 10, 10}: µ = 10, σ = σ 2 = 0 nella distribuzione {10, 15, 5, 18, 2, 19, 1, 10}: µ = 10, σ = 6.5192, σ 2 = 42.5 Entrambi gli indici di variabilità dipendono dall unità di misura: date due distribuzioni X e Y, la loro variabilità non si può confrontare se si utilizzano unità di misura diverse. N.B. Dato un campione di n < N osservazioni, la varianza campionaria è s 2 = 1 n 1 n (x i µ) 2 n i. i=1

Statistica, CLEA p. 48/68 Altri indici di variabilità Coefficiente di variazione (non risente dell unità di misura) CV = σ µ campo di variazione x max x min differenza interquartilica: Q 3 Q 1

Statistica, CLEA p. 49/68 Indice di asimmetria distr. individuali α = 1 σ 3 N (a i µ) 3 i=1 distr. frequenza distr. in classi Interpretazione dell indice: α = 0: simmetria α > 0: asimmetria positiva α < 0: asimmetria negativa α = 1 σ 3 α = 1 σ 3 K (x k µ) 3 f k k=1 K (m k µ) 3 f k k=1

Statistica, CLEA p. 50/68 Simmetria Istogramma x 104 3.5 3 2.5 Media = 0.005 Mediana = 0.005 Stand. Deviation = 1.2 Ind. Asimm. = 0 2 1.5 1 0.5 0 5 4 3 2 1 0 1 2 3 4 5 Distrib. simmetrica: media = moda = mediana

Statistica, CLEA p. 51/68 Asimmetria 4000 Istogramma 4000 Istogramma 3500 3000 Media = 5.03 Mediana = 4.39 Dev. standard = 3.15 Ind. asimm. = 1.27 3500 3000 Media = 3.99 Mediana = 3.39 Dev. standard = 3.19 Ind. Asimm. = 1.31 2500 2500 2000 2000 1500 1500 1000 1000 500 500 0 0 5 10 15 20 25 30 35 Distrib. asimmetrica positiva: moda < mediana < media 0 25 20 15 10 5 0 5 Distrib. asimmetrica negativa: media < mediana < moda

Statistica, CLEA p. 52/68 Analisi congiunta di due variabili Fino ad ora abbiamo analizzato singolarmente ogni variabile attraverso indicatori di posizione (indicatori dell andamento medio) indicatori di scala (indicatori di variabilità) Date due variabili X e Y vogliamo effettuare un analisi congiunta per valutare se esiste una relazione lineare fra le due variabili. Lo faremo attraverso degli indicatori sintetici covarianza coefficiente di correlazione modello di regressione

Statistica, CLEA p. 53/68 Covarianza Date N osservazioni su due variabili quantitative X = {x 1,..., x N } e Y = {y 1,..., y N }, la covarianza è un indice che ci dice come la Y varia in media linearmente rispetto alla X e viceversa: COV (X, Y ) = σ XY = 1 N N (x i µ X )(y i µ Y ) i=1 il segno di σ XY indica la direzione della relazione: σ XY (+): quando X, in media Y e viceversa σ XY ( ): quando X, in media Y e viceversa il valore assoluto σ XY indica la forza della relazione, ma dipende dall unità di misura delle due variabili, perciò non è confrontabile con σ V Z di altre due variabili V e Z. Non ha nè un massimo nè un minimo. N.B. Dato un campione di n < N osservazioni, la covarianza campionaria è s XY = 1 n 1 n (x i x)(y i y) i=1

Statistica, CLEA p. 54/68 Coefficiente di correlazione Il coefficiente di correlazione è un indice relativo che varia fra 1 e 1 misura la relazione lineare fra due variabili X e Y. Quindi è confrontabile fra diverse ditribuzioni: CORR(X, Y ) = ρ XY = Ni=1 (x i µ X )(y i µ Y ) N i=1 (x N = i µ X ) 2 i=1 (y i µ Y ) 2 σ XY σ X σ Y il segno di ρ XY indica la direzione della relazione: ρ XY (+): quando X, in media Y e viceversa ρ XY ( ): quando X, in media Y e viceversa il segno di ρ XY dipende solo dalla covarianza σ XY 1 ρ XY 1 ρ XY = 1: perfetta dipendenza lineare positiva ρ XY = 1: perfetta dipendenza lineare negativa N.B. Dato un campione di n < N osservazioni, il coeff. di corr. campionario è r XY = s xy s x s y

Statistica, CLEA p. 55/68 Covarianza e coefficiente di correlaione Misurano la relazione lineare fra due variabili: 80 4 70 VAR(X) = 108.618 VAR(Y) = 128.511 COV (X,Y) = 2.097 CORR(X,Y)= 0.017 3.8 VAR(X) = 5716.4 VAR(Y) = 0.142 COV(X,Y)= 23.327 CORR(X,Y)= 0.818 costo dei fiori 60 50 40 votazione media alla laurea 3.6 3.4 3.2 3 30 2.8 20 0 10 20 30 40 50 60 70 80 età del consumatore 2.6 450 500 550 600 650 700 punteggi dei test di matematica per l ammissione all università del Midwest

Statistica, CLEA p. 56/68 Perfetta dipendenza lineare Perfetta dipendenza lineare perché i punti sono allineati su una retta: 50 Perfetta dipendenza lineare positiva 15 Perfetta dipendenza lineare negativa 45 40 35 VAR(X) = 224.5 VAR(Y) = 110 COV(X,Y) = 157.15 CORR(X,Y) = 1 10 5 0 VAR(X) = 224.5 VAR(Y) = 110 COV(X,Y) = 157.15 CORR(X,Y) = 1 Y 30 25 20 15 Y 5 10 15 10 20 5 25 0 0 5 10 15 20 25 30 35 40 45 50 X 30 0 5 10 15 20 25 30 35 40 45 50 X

Statistica, CLEA p. 57/68 Assenza di dipendenza lineare I punti sono allineati su una parabola. Questo indica la presenza di un legame funzionale che non è di tipo lineare: 5000 Assenza di dipendenza lineare 4500 4000 3500 VAR(X) = 627.793 VAR(Y) = 2134749.84 COV(X,Y) = 941.680 CORR(X,Y) = 0 3000 Y 2500 2000 1500 1000 500 0 50 40 30 20 10 0 10 20 30 40 50 X

Statistica, CLEA p. 58/68 Un modello per l analisi bivariata Si cerca un modello in grado di spiegare al meglio la relazione fra due variabili Y e X, in particolare l effetto che la X ha sulla Y Y : variabile dipendente, variabile risposta X: variabile indipendente, variabile esplicativa 80 4 70 3.8 costo dei fiori 60 50 40 votazione media alla laurea 3.6 3.4 3.2 3 30 2.8 20 10 20 30 40 50 60 70 80 età del consumatore 2.6 450 500 550 600 650 700 punteggi dei test di matematica per l ammissione all università del Midwest

Statistica, CLEA p. 59/68 Regressione lineare semplice Si ipotizza che la relazione fra due variabili X e Y si può descrivere Y = f(x) + errore f(x) indica il comportamento della variabile Y spiegato dalla X l errore indica la parte residuale di Y che non può essere spiegata dalla X se f(x) è lineare Y = α + βx + errore il problema statistico consiste nel trovare i valori dei coefficienti di regressione (a, b) tali che, data la X, la retta Ŷ = a + bx approssima al meglio i dati Y, (a, b) : e = Y Ŷ l errore è molto piccolo

Statistica, CLEA p. 60/68 Alcuni esempi 19 2 60 18 CORR(X,Y) = 0.96 4 CORR(X,Y) = 0.92 40 CORR(X,Y) = 0.11 17 6 20 16 8 15 10 0 14 12 20 13 14 40 12 16 11 18 60 10 2 0 2 4 6 8 10 12 14 60 20 10 5 0 5 10 15 20 4.5 x 106 80 50 40 30 20 10 0 10 20 30 40 1 x 106 40 CORR(X,Y) = 0.01 4 CORR(X,Y) = 0.26 0 CORR(X,Y) = 0.30 3.5 1 20 3 2 0 2.5 3 2 4 20 1.5 5 1 6 40 0.5 7 60 30 20 10 0 10 20 30 40 50 60 0 40 30 20 10 0 10 20 30 40 8 50 40 30 20 10 0 10 20 30 40

Statistica, CLEA p. 61/68 Problema statistico Dato un insieme di osservazioni X = {x 1,..., x N }, Y = {y 1,..., y N }, si devono trovare i valori dei coefficienti di regressione (a, b) tali che, per ogni x i, la retta ŷ i = a + bx i approssima al meglio y i (minimizza la componente di errore e i = y i ŷ i ) Y 18 Rette di regressione, qual è la migliore? 14 Y = a + b X 10 6 Y = a + b X 22 18 e 14 e 10 6 2 2 6 10 2 2 6 10 X

Statistica, CLEA p. 62/68 Metodo dei minimi quadrati Dato un insieme di osservazioni X = {x 1,..., x N }, Y = {y 1,..., y N }, si scelgono i valori dei coefficienti di regressione (a, b) tali che R(a, b) è minimo R(a, b) = N N e 2 i = (y i ŷ i ) 2 = i=1 i=1 N (y i a bx i ) 2 i=1 per ogni valore x i, il valore stimato della y i è ŷ i = a + bx i e l errore è la differenza fra il valore osservato e stimato e i = y i ŷ i per ogni valore x i e la corrispondente stima ŷ i, il valore osservato è y i = ŷ i + e i

Statistica, CLEA p. 63/68 Stime dei minimi quadrati Dato un insieme di osservazioni X = {x 1,..., x N }, Y = {y 1,..., y N }, le stime dei coefficienti di regressione sono b = COV (X, Y ) V AR(X) = σ XY σ 2 X = ρ XY σ Y σ X, a = µ y bµ x Il segno del coeff. angolare b della retta dipende dal segno della COV (X, Y ) e quindi della CORR(X, Y ) questi sono i valori (a, b) tali che R(a, b) = N i=1 e2 i è minimo

Statistica, CLEA p. 64/68 Due esempi 19 16 18 17 16 Media(X) = 5.02 Media(Y) = 14.50 COV(X,Y) = 7.78 VAR(X) = 15.38 VAR(Y) = 4.24 CORR(X,Y) = 0.96 14 12 Media(X) = 4.62 Media(Y) = 9.75 VAR(X) = 14.11 VAR(Y) = 4.01 COV(X,Y) = 7.30 CORR(X,Y) = 0.97 15 14 10 13 12 11 b = (7.78/15.38) = 0.51 a = 14.50 0.51*5.02 = 11.97 8 6 b = 7.30/14.11 = 0.52 a = 9.75 4.62*( 0.52) = 12.15 10 9 6 4 2 0 2 4 6 8 10 12 14 4 10 5 0 5 10 15

Statistica, CLEA p. 65/68 Bontà di adattamento La qualità della regressione è tanto migliore quanto più la variabilità della Y è spiegata dal modello piuttosto che dall errore V AR(Y ) = 1 N N (y i µ y ) 2 = 1 N i=1 N (ŷ i µ y ) 2 + 1 N i=1 N (y i ŷ i ) 2 i=1 dove SSR = 1 N N i=1 (ŷ i µ y ) 2 è la variabilità della Y spiegata dal modello SSE = 1 N N i=1 (y i ŷ i ) 2 è la variabilità non spiegata dal modello. In particolare, SSE = R(a, b) = N i=1 e2 i che viene minimizzata col metodo dei minimi quadrati

Statistica, CLEA p. 66/68 Indice di bontà di adattamento Dato che V AR(Y ) = SSR + SSE, si ottiene un indice della bontà di adattamento del modello di regressione: R 2 = SSR V AR(Y ) = 1 SSE V AR(Y ) = ρ2 XY 0 R 2 1, è un indice relativo R 2 = 0: pessima regressione poiché V AR(Y ) = SSE e la retta di regressione è costante ŷ = µ y con b = 0 e ρ XY = 0 R 2 = 1: regressione perfetta poiché V AR(Y ) = SSR e i punti sono già allineati su una retta (ρ XY = ±1)

Statistica, CLEA p. 67/68 0 < R 2 < 1 0 7000 2 4 Bontà di adattamentobonb Bontà di attamento = 0.78 CORR(X,Y) = 0.89 a = 6.42 b = 0.90 6000 5000 Bontà di adattamento = 0.64 CORR(X,Y)= 0.80 a = 269.41 b = 73.89 6 4000 8 3000 10 2000 12 1000 14 0 16 1000 18 4 2 0 2 4 6 8 10 12 2000 60 50 40 30 20 10 0 10 20 30

Statistica, CLEA p. 68/68 R 2 = 0, R 2 = 1 5000 4 4500 4000 3500 Bontà di adattamento = 0 CORR(X,Y) = 0 a = media(y) = 1218.73 b = 0 3.5 3 2.5 Bontà di adattamento = 1 CORR(X,Y) = 1 a = 2 b = 0.7 3000 2 2500 1.5 2000 1500 1 1000 0.5 500 0 0 50 40 30 20 10 0 10 20 30 40 50 0.5 4 3 2 1 0 1 2 3