Tommaso Rigon Università Milano-Bicocca

Documenti analoghi
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Metodi statistici per le ricerche di mercato

Esercitazione del

Statistica descrittiva III

Corso in Statistica Medica

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Statistica 1 A.A. 2015/2016

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Lezione 5 Corso di Statistica. Domenico Cucina

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Distribuzioni di due variabili aleatorie

lezione 4 AA Paolo Brunori

ESERCITAZIONI N. 3 corso di statistica

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Lezione 5 Corso di Statistica. Francesco Lagona

Statistica. Variabili doppie. Domenico De Stefano. a.a. 2017/2018. Domenico De Stefano Descrittiva a.a. 2017/ / 62

Regressione & Correlazione

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII

Ringraziamenti dell Editore

Esercitazioni di statistica

Statistica. Alfonso Iodice D Enza

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Esercizi su Regressione e Connessione

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Indici di eterogeneità e di concentrazione

INDICE PARTE METODOLOGICA

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

1.1 Obiettivi della statistica Struttura del testo 2

Statistica descrittiva in due variabili

docente: J. Mortera/P. Vicard Nome

Matematica Lezione 22

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Statistiche e relazioni

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

STATISTICA (I modulo - Statistica Descrittiva) Soluzione Esercitazione I ( )

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Statistica Descrittiva Soluzioni 8. Dipendenza

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Teoria e tecniche dei test. Concetti di base

Corso di Laurea in Amministrazione Aziendale Complex Learning. Statistica per l azienda (T) SECS-S/01 a. a. 2017/2018

Analisi dell associazione tra due caratteri

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

REGRESSIONE E CORRELAZIONE

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Test per la correlazione lineare

7. STATISTICA DESCRITTIVA

Università degli Studi di Padova Facoltà di Scienze Statistiche, CL. in Astronomia

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Casa dello Studente. Casa dello Studente

Corso di formazione per Mathesis

Argomenti della lezione:

Dispensa di Statistica

Analisi di Regressione Multipla

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

Statistica 1 A.A. 2015/2016

Presentazione dell edizione italiana

STATISTICA (I modulo - Statistica Descrittiva) Esercitazione I 24/02/2006

Statistica. Alfonso Iodice D Enza

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

ESERCITAZIONI N. 3 corso di statistica

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Indici di eterogeneità e di concentrazione

STATISTICA A K (60 ore)

Statistica descrittiva in due variabili

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

TEST DI AUTOVALUTAZIONE STATISTICA DESCRITTIVA

Esercitazione 1. 6 Marzo 2019

Dispense Associazione PRELIMINARY DRAFT

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.

PROBABILITÀ ELEMENTARE

STATISTICA. Regressione-4 ovvero Macron!

Statistica ARGOMENTI. Calcolo combinatorio

Test F per la significatività del modello

Prova d esame di Statistica - II canale - nuovo ordinamento Dott.ssa C. Conigliani 19/06/2003

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Nota dell editore Presentazione

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

DISTRIBUZIONI DI CAMPIONAMENTO

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

STATISTICA DESCRITTIVA I

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Stesso valore medio per distribuzioni diverse

SOLUZIONI DI ALCUNI ESERCIZI. Appello del

Statistica. Esercizi: 7. Statistica Descrittiva Bivariata 3 Probabilità 1

Statistica. Alfonso Iodice D Enza

Transcript:

Statistica I Unità N: analisi della varianza Tommaso Rigon Università Milano-Bicocca Tommaso Rigon (Milano-Bicocca) 1 / 23

Unità N Argomenti affrontati Rapporto tra medie e varianze condizionate e media e varianza marginali Una misura della dipendenza in media Analisi della varianza Riferimenti al libro di testo 74 Tommaso Rigon (Milano-Bicocca) 2 / 23

Descrizione del problema Per capire quanto il tipo di carne con cui vengono preparati gli hot-dog influenza il loro contenuto calorico, sono state misurate le calorie di ciascun hotdog in n = 54 confezioni di diverse marche È inoltre noto se l hot-dog era stato preparato con: carne bovina; carne mista (in larga parte maiale); pollame (pollo o tacchino) Siamo interessati a quantificare la correlazione tra la variabile carne e la variabile calorie Le prossime pagine mostrano: i dati grezzi; le funzioni di ripartizione empirica; i boxplot; le principali statistiche descrittive dei tre gruppi Tommaso Rigon (Milano-Bicocca) 3 / 23

I dati grezzi carne calorie carne calorie carne calorie Bovina 186 Bovina 181 Bovina 176 Bovina 149 Bovina 184 Bovina 190 Bovina 158 Bovina 139 Bovina 175 Bovina 148 Bovina 152 Bovina 111 Bovina 141 Bovina 153 Bovina 190 Bovina 157 Bovina 131 Bovina 149 Bovina 135 Bovina 132 Mista 173 Mista 191 Mista 182 Mista 190 Mista 172 Mista 147 Mista 146 Mista 139 Mista 175 Mista 136 Mista 179 Mista 153 Mista 107 Mista 195 Mista 135 Mista 140 Mista 138 Pollame 129 Pollame 132 Pollame 102 Pollame 106 Pollame 94 Pollame 102 Pollame 87 Pollame 99 Pollame 107 Pollame 113 Pollame 135 Pollame 142 Pollame 86 Pollame 143 Pollame 152 Pollame 146 Pollame 144 Tommaso Rigon (Milano-Bicocca) 4 / 23

Distribuzione bivariata Le osservazioni a nostra disposizione possono essere viste come un insieme di dati bivariati Le unità statistiche sono i singoli hot-dog, le due variabili sono carne (qualitativa) e calorie (numerica) hot-dog carne calorie 1 Bovina 186 2 Bovina 149 54 Pollame 144 Tommaso Rigon (Milano-Bicocca) 5 / 23

Statistiche descrittive È evidente che gli hot-dog preparati con pollame sono tendenzialmente più poveri di calorie Questo è confermato dalla media e dalla mediana, riportati nella tabella seguente Tipo di carne Numerosità Media Mediana Deviazione standard Bovina 20 15685 1525 2207 Mista 17 15871 153 2448 Pollame 17 11876 113 2188 È inoltre noto che la media complessiva dei dati è x = 14544 Le variabile carne e la variabile calorie sono intuitivamente correlate Infatti, le medie di ciascun gruppo sono diverse tra loro Tommaso Rigon (Milano-Bicocca) 6 / 23

I boxplot 200 175 Calorie 150 125 Carne Bovina Mista Pollame 100 Bovina Mista Pollame Carne Tommaso Rigon (Milano-Bicocca) 7 / 23

Le funzioni di ripartizione 100 075 F(calorie) 050 Carne Bovina Mista Pollame 025 000 100 125 150 175 200 Calorie Tommaso Rigon (Milano-Bicocca) 8 / 23

La dipendenza in media Siamo interessati a quantificare, con opportuni indici, la correlazione tra due variabili Quando una delle due variabili è qualitativa, non possiamo ovviamente utilizzare la definizione di correlazione vista nell unità J Sebbene esistano vari modi per definire tale correlazione, noi ci focalizzeremo principalmente sulle differenze tra le medie dei gruppi Quindi, quando la correlazione è forte, diremo che c è dipendenza in media, nel senso che le medie dipendono dalla variabile qualitativa Viceversa, se le medie dei gruppi sono uguali tra loro, la correlazione è debole e parleremo invece di indipendenza in media Tommaso Rigon (Milano-Bicocca) 9 / 23

Le medie dei gruppi In generale, indicheremo con k il numero di gruppi Inoltre, le frequenze n 1,, n k indicano il numero di osservazioni per ciascun gruppo, e quindi k (numerosità campionaria) = n = n j L insieme di tutte le osservazioni può essere quindi indicato come x ij = (osservazione i-esima del gruppo j-esimo), i = 1,, n j, j = 1,, k È quindi possibile calcolare le medie dei gruppi, che indicheremo come x j = 1 n j n j i=1 j=1 x ij, j = 1,, k Nel nostro caso avremo k = 3 gruppi con frequenze n 1 = 20 (carne bovina), n 2 = 17 (carne mista) e n 3 = 17 (pollame) Inoltre: x 1 = 15685, x 2 = 15871 e x 3 = 11876 Tommaso Rigon (Milano-Bicocca) 10 / 23

La distribuzione delle medie dei gruppi Modalità x 1 x 2 x k Frequenze n 1 n 2 n k Consideriamo una distribuzione le cui modalità sono le medie dei k gruppi e le cui frequenze sono le numerosità delle osservazioni nei gruppi Proprietà La media di questa distribuzione è pari a x = 1 n k n j x j = 1 n j=1 n k j j=1 i=1 x ij, ovvero è pari alla media complessiva dei dati Esercizio Si dimostri questa proprietà Tommaso Rigon (Milano-Bicocca) 11 / 23

La devianza tra i gruppi Lo scopo dell analisi è identificare un indice di dipendenza in media Se le medie dei gruppi sono molto diverse tra loro significa che la dipendenza è forte Di conseguenza, un possibile indice di dipendenza potrebbe essere la varianza delle medie dei gruppi Per praticità, in questo contesto si preferisce usare la devianza Devianza tra i gruppi La devianza tra i gruppi è pari a D 2 tr = k n j( x j x) 2 j=1 La devianza è quindi una varianza che non viene divisa per n La devianza tra i gruppi tuttavia dipende dalla scala di y ed è di difficile interpretazione Tommaso Rigon (Milano-Bicocca) 12 / 23

Devianza entro i gruppi e devianza totale Prima di procedere, consideriamo due ulteriori quantità: le varianze delle osservazioni in ciascun gruppo e la varianza complessiva σ 2 (o meglio, le rispettive devianze) Devianza entro i gruppi La devianza delle osservazioni nel j-esimo gruppo è n j dj 2 = (x ij x j) 2, j = 1,, k Quindi, la devianza entro i gruppi è pari a n k k j Den 2 = dj 2 = (x ij x j) 2 i=1 j=1 j=1 i=1 Devianza totale La devianza complessiva delle osservazioni è D 2 = n k j (x ij x) 2, j=1 i=1 Tommaso Rigon (Milano-Bicocca) 13 / 23

Decomposizione della devianza La devianza tra i gruppi misura la dispersione delle medie dei gruppi dal loro centro La devianza entro i gruppi misura la dispersione delle osservazioni dal centro del rispettivo gruppo La devianza totale misura la dispersione delle osservazioni dalla media dei dati Teorema (decomposizione della devianza) Vale la seguente decomposizione (devianza totale) = (devianza tra i gruppi) + (devianza entro i gruppi) Più precisamente, avremo che D 2 = D 2 tr + D 2 en Di conseguenza si avrà che 0 D 2 tr D 2, suggerendo quindi una normalizzazione per la devianza entro i gruppi Tommaso Rigon (Milano-Bicocca) 14 / 23

Dimostrazione La dimostrazione è molto semplice: D 2 = = = = n k j (x ij x) 2 = j=1 i=1 n k j [(x ij x j) + ( x j x)] 2 = j=1 i=1 n k j [(x ij x j) 2 + ( x j x) 2 + 2(x ij x j)( x j x)] = j=1 i=1 n k j (x ij x j) 2 + n k k j n j( x j x) 2 + 2 ( x j x) (x ij x j) = j=1 i=1 j=1 j=1 i=1 = D 2 en + D 2 tr Tommaso Rigon (Milano-Bicocca) 15 / 23

Il rapporto di correlazione η 2 Il teorema di decomposizione della devianza consente di definire un indicatore normalizzato di correlazione Il rapporto di correlazione η 2 Il rapporto di correlazione η 2 è pari a ovvero η 2 = (devianza tra i gruppi) (devianza totale) = 1 η 2 = D 2 tr D 2 = 1 D 2 en D 2 (devianza entro i gruppi), (devianza totale) L indice è normalizzato, poiché 0 η 2 1 L indice η 2 misura la forza della dipendenza in media Tommaso Rigon (Milano-Bicocca) 16 / 23

Interpretazione di η 2 L interpretazione dell indice η 2 è agevole Se le osservazioni non variano entro i gruppi (sono tutte pari alla media del gruppo), allora la devianza entro i gruppi è nulla D 2 en = 0 e la dipendenza è massima e η 2 = 1 La dipendenza massima si ottiene anche quando la varianza tra i gruppi è molto grande rispetto alla varianza entro i gruppi Se la devianza tra i gruppi è nulla D 2 tr = 0, allora le medie di tutti i gruppi sono uguali tra loro Di conseguenza la dipendenza è minima e η 2 = 0 Si noti che η 2 non è definito quando D 2 = 0 Questo non costituisce un problema, in pratica, poiché D 2 = 0 significa che tutte le osservazioni sono uguali tra loro Nell ultimo caso descritto, non c è nessuna "varianza" da analizzare Tommaso Rigon (Milano-Bicocca) 17 / 23

Hot-dog e decomposizione della devianza Nel caso degli hot-dog, il coefficiente η 2 è facilmente calcolabile A partire dalla tabella presentata nella slide 5, si ottiene (devianza tra i gruppi) = D 2 tr 176922, (devianza entro i gruppi) = D 2 en 2806778, (devianza totale) = D 2 4575933 Pertanto, si ottiene η 2 = 039 Il valore indica la presenza di una discreta ma non eccezionale dipendenza in media tra carne e calorie Questo è probabilmente dovuto al fatto che vi sono poche differenze tra carne bovina e carne mista, in termini di calorie Esercizio Si ottengano le devianze D 2 tr, D 2 en e D 2 a partire dalla slide 5 Tommaso Rigon (Milano-Bicocca) 18 / 23

Derivazione alternativa di η 2 Il rapporto di correlazione η 2 ha una seconda interpretazione, legata al concetto di residui di un modello di regressione Nel caso degli hot-dog, supponiamo quindi che esista una relazione del tipo (calorie) = f (tipo di carne) + (errore), per una qualche funzione f ( ) che assume in totale k = 3 valori Ad esempio, avremo f (carne bovina) = α 1, f (carne mista) = α 2 e f (pollame) = α 3 Siamo interessati a prevedere le calorie sulla base della tipologia di carne In termini generali, supponiamo che x ij = α j + ɛ ij, i = 1,, n j, j = 1,, k, dove α 1,, α k sono i valori assunti da f ( ), mentre ɛ ij sono i termini di errore Tommaso Rigon (Milano-Bicocca) 19 / 23

La funzione di regressione Come nel caso della regressione lineare semplice, vorremmo considerare dei valori ˆα 1,, ˆα k tali che x i1 ˆα 1, i = 1,, n 1, x i2 ˆα 2, i = 1,, n 2, x ik ˆα k, i = 1,, n k, ovvero dei valori che rendono i valori osservati circa pari alle previsioni Una valore ragionevole per la previsione ˆα j è la media del gruppo, ovvero ˆα j = x j, j = 1,, k In altri termini, le medie dei gruppi rappresentano le previsioni di questo particolare modello di regressione Tommaso Rigon (Milano-Bicocca) 20 / 23

I residui della regressione Come nel modello di regressione lineare, vorremmo valutare la bontà delle previsioni ottenute paragonando i valori effettivi con i valori previsti In questo contesto, i residui sono pari a r ij = x ij ˆα j = x ij x j, i = 1,, n j, j = 1,, k Esercizio - proprietà Si dimostri che anche in questo contesto i residui hanno media nulla, ovvero n 1 k j r ij = 0 n j=1 i=1 Proprietà La devianza dei residui è quindi pari a n k j (r ij 0) 2 = j=1 i=1 n k j (x ij x j) 2 = Den, 2 j=1 i=1 ovvero la devianza entro i gruppi Tommaso Rigon (Milano-Bicocca) 21 / 23

Bontà d adattamento e coefficiente η 2 Il teorema della decomposizione delle devianze implica che la varianza dei residui è minore o uguale della varianza totale, ovvero var(r) var(x) Questo suggerisce un modo per costruire un indice di bontà d adattamento, come nel caso dell indice R 2 Proprietà Il rapporto di correlazione η 2 è quindi pari a η 2 = 1 var(r) var(x) = 1 D 2 en D 2 Il rapporto di correlazione η 2 pertanto misura la capacità delle medie dei gruppi di prevedere i valori osservati La devianza entro i gruppi è interpretabile come la devianza residuale La devianza tra i gruppi è interpretabile come la devianza spiegata dalle medie Tommaso Rigon (Milano-Bicocca) 22 / 23

Hot-dog: previsioni e residui Nella tabella seguente tabella sono riportati alcuni dati, le rispettive previsioni e i residui La dipendenza in media η 2 è tanto più alta quanto più piccoli sono i residui rispetto alla variabilità totale hot-dog carne calorie Previsione Residuo 1 Bovina 186 15685 2915 2 Bovina 149 15685-785 7 Mista 191 15871 3229 8 Mista 172 15871 1329 54 Pollame 144 11876 2524 Tommaso Rigon (Milano-Bicocca) 23 / 23