Statistica e informatica

Documenti analoghi
Statistica. Relazioni tra variabili. Francesco Pauli A.A. 2015/2016

Esercitazioni di statistica

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

Analisi congiunta di più fenomeni

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.

REGRESSIONE E CORRELAZIONE

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Statistica descrittiva

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Teoria e tecniche dei test. Concetti di base

Statistica. Alfonso Iodice D Enza

Associazione tra caratteri quantitativi: gli indici di correlazione

STATISTICA 1 ESERCITAZIONE 6

Corso di Psicometria Progredito

Corso di Psicometria Progredito

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Esercitazione del

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

LEZIONI DI STATISTICA MEDICA

Statistica. Alfonso Iodice D Enza

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Statistiche e relazioni

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Statistica. Alfonso Iodice D Enza

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Esercitazione di Statistica Indici di associazione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Istituzioni di Statistica e Statistica Economica

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Statistica. Alfonso Iodice D Enza

La regressione lineare. Rappresentazione analitica delle distribuzioni

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Dispensa di Statistica

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

Analisi delle corrispondenze

Copyright Esselibri S.p.A.

La dipendenza. Antonello Maruotti

Analisi delle corrispondenze

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Statistica Descrittiva Soluzioni 3. Medie potenziate

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

A proposito di valutazione scolastica

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

SCOPO DELL ANALISI DI CORRELAZIONE

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Statistica a.a Autovalutazione 1

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Le medie. Antonello Maruotti

Statistica descrittiva in due variabili

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Rappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Statistica Descrittiva III

Test per la correlazione lineare

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA 1 ESERCITAZIONE 2

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Esempio sulla media geometrica

La distribuzione delle frequenze. T 10 (s)

Premessa: la dipendenza in media

INDICATORI DI TENDENZA CENTRALE

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Una statistica è una quantità numerica il cui valore è determinato dai dati.

MISURE DI SINTESI 54

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

x i. Δ x i

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Capitolo 3 Sintesi e descrizione dei dati quantitativi

FENOMENI CASUALI. fenomeni casuali

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015

DISTRIBUZIONE NORMALE (1)

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Indice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione...

Esercitazioni di Statistica

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Indici di variabilità ed eterogeneità

LA STATISTICA

Esplorazione dei dati

Indici di eterogeneità e di concentrazione

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE

Statistica. Alfonso Iodice D Enza

UNITÀ DIDATTICA 5 LA RETTA

08/04/2014. Misure di posizione. INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA

Statistica Sociale - modulo A

Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato

Transcript:

Statistica e informatica Statistica descrittiva:variabili doppie Francesco Pauli & Nicola Torelli A.A. 2016/2017

Solo una variabile... Finora abbiamo trattato di come rappresentare graficamente, sintetizzare numericamente (con medie, mediane, varianze, eccetera), singole variabili, in modo da descrivere l insieme delle unità statistiche rispetto a quel particolare carattere. Altezze degli studenti Libri letti dagli studenti 0.00 0.01 0.02 0.03 150 160 170 180 190 200 Altezza media=169 Altezza mediana=168 SD altezza=7.69 0 20 40 60 80 0 1 2 3 4 5 6 7 8 9 10 12 16 25 # libri medio=2.85 # libri mediano=2 SD # libri=4.2 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 2 / 63

... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. Altezze degli studenti maschi 0.00 0.03 0.00 0.03 0.06 160 170 180 190 Altezze degli studenti femmine 160 170 180 190 Altezza media e mediana maschi: 181.2; 181; femmine: 166.8; 167 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 3 / 63

... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. # libri 0.00 0.05 0.10 0.15 0.20 Femmina Maschio 0 2 4 6 8 10 12 16 25 # Libri medio e mediano maschi: 2.3; 2; femmine: 2.8; 2 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 3 / 63

... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. In particolare, ogniqualvolta abbiamo confrontato le distribuzioni di Y condizionate a diversi valori assunti da una seconda variabile X (di per sé, come abbiamo visto, usando gli stessi strumenti che usiamo per la distribuzione marginale di Y ). Si ha una distribuzione doppia quando si esaminano congiuntamente due caratteri nelle unità statistiche del collettivo. Come nel caso di distribuzioni relative ad un singolo carattere, si parlerà di distribuzioni doppie disaggregate quando si elencano le N coppie di modalità e di distribuzioni doppie di frequenze, quando le osservazioni sono aggregate per modalità o classi. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 3 / 63

Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 4 / 63

Esempio: ore di sonno e genere Consideriamo la variabile doppia: (Y, X )=(ore di sonno, genere). La distribuzione di frequenze assolute è data da Y X totale X = Fem X = Mas 0 1 0 1 2 0 1 1 4 0 2 2 5 4 2 6 6 17 26 43 7 62 64 126 8 83 68 151 9 16 22 38 10 4 3 7 12 1 0 1 Totale 188 188 376 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 5 / 63

Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63

Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. La 1 a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y X = Fem). Analogamente, la 2 a mostra la distribuzione della variabile condizionata (Y X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63

Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. La 1 a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y X = Fem). Analogamente, la 2 a mostra la distribuzione della variabile condizionata (Y X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y X. La 1 a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine e quanti maschi, cioè la distribuzione della variabile condizionata (X Y = 4). Quindi, le righe riportano le distribuzioni della variabile condizionata X Y. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63

Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. La 1 a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y X = Fem). Analogamente, la 2 a mostra la distribuzione della variabile condizionata (Y X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y X. La 1 a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine e quanti maschi, cioè la distribuzione della variabile condizionata (X Y = 4). Quindi, le righe riportano le distribuzioni della variabile condizionata X Y. L ultima colonna, mostra la distribuzione delle ore di sonno senza riguardo al genere. L ultima riga, invece, mostra la distribuzione della variabile Genere. Sono cioè rappresentate le distribuzioni marginali. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63

Esempio: ore di TV e Sanremo Consideriamo la variabile doppia: (Y, X )=(ore di TV, Sanremo). La distribuzione di frequenze assolute (per tutti gli studenti) è data da Y X totale X = NonV X = VeNP X = VeP 0 23 0 1 24 1 13 2 0 15 2 26 1 2 29 3 20 1 3 24 4 17 2 3 22 5 20 2 5 27 6 14 3 7 24 7 22 3 3 28 8 16 2 2 20 10 32 5 17 54 11 0 1 0 1 12 8 1 3 12 13 1 0 0 1 14 12 5 2 19 15 12 2 6 20 16 1 0 1 2 17 1 0 0 1 18 2 0 0 2 20 6 1 9 16 21 2 0 3 5 25 3 0 2 5 30 3 0 1 4 41 0 1 0 1 42 0 1 0 1 Totale 254 33 70 357 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 7 / 63

Tabella a doppia entrata Una distribuzione doppia di frequenze è normalmente chiamata tabella (di contigenza) a doppia entrata. In generale, una tabella di contingenza (con due variabili) si presenta nella forma: X Y x 1 x j x t totale y 1 n 11 n 1j n 1t n 10..... y i n i1 n ij n it n i0..... y s n s1 n sj n st n s0 totale n 01 n 0j n 0t N Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 8 / 63

Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63

Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63

Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63

Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y n ij è la frequenza congiunta assoluta per Y = y i e X = x j Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63

Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y n ij è la frequenza congiunta assoluta per Y = y i e X = x j n 0j, è il totale della colonna j, n 0j = s i=1 n ij. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63

Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y n ij è la frequenza congiunta assoluta per Y = y i e X = x j n 0j, è il totale della colonna j, n 0j = s i=1 n ij. Quindi è la frequenza assoluta marginale per la modalità x j di X. n i0, è il totale della riga i: n i0 = t j=1 n ij. Quindi è la frequenza assoluta marginale per la modalità y i di Y. NB. La scelta di quale variabile (X o Y ) mettere sulle righe/colonne e quale indice massimo (s o t) associare alle modalità delle variabili è libera. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63

Titanic Il transatlantico britannico RMS Titanic affonda a seguito della collisione con un iceberg nella notte tra il 14 e il 15 aprile 1912. Delle 2201 persone a bordo tra passeggeri ed equipaggio, sopravvivono solo 711. Tra le polemiche che seguono al naufragio c è chi sostiene che i passeggeri di III classe vennero trascurati nelle operazioni di evacuazioni, dando preferenza ai ricchi. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 10 / 63

Titanic Deceduto Sopravv. I Cl. 122 203 II Cl. 167 118 III Cl. 528 178 Equipaggio 673 212 I dati a disposizione sono riassumibili in una tabella a doppia entrata, in cui si riporta il numero di sopravvissuti e di deceduti a seconda della classe di appartenenza. Il sospetto per cui i passeggeri di III classe vennero trascurati si traduce nel dire che le due caratteristiche osservate: sopravvivenza e classe, sono legate. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 11 / 63

Esempio: il disastro del Titanic Nome Passeggero (tipologia) Sopravvivenza nome 1 II sopravvissuto nome 2 III non sopravvissuto nome 3 I non sopravvissuto... nome 2201 equipaggio sopravvissuto Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 12 / 63

Esempio: il disastro del Titanic Tabella a doppia entrata per le variabili Passeggero (tipologia) e Sopravvivenza 1st 2nd 3rd Crew Totale Morto 122 167 528 673 1490 Sopravv. 203 118 178 212 711 Totale 325 285 706 885 2201 118 passeggeri di seconda classe sopravvissero 178 passeggeri di terza classe sopravvissero I passeggeri di terza classe avevano minori chance di sopravvivere? Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 13 / 63

Esempio: il disastro del Titanic Alla domanda precedente si risponde meglio guardando alle frequenze relative (o percentuali). 1st 2nd 3rd Crew Totale Morto freq. ass. 122 167 528 673 1490 % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. freq. ass. 203 118 178 212 711 % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% Totale 325 285 706 885 2201 In seconda classe, sopravvisse il 41.4% dei passeggeri In terza, sopravvisse il 25.2% dei passeggeri Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 14 / 63

Tabella a doppia entrata (cont) Come l esempio del Titanic dimostra, il calcolo delle frequenze relative in una tabella a doppia entrata è più delicato, perché la tabella contiene tante distribuzioni. 1st 2nd 3rd Crew Totale Morto freq. ass. 122 167 528 673 1490 % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. freq. ass. 203 118 178 212 711 % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% Totale 325 285 706 885 2201 Qui, abbiamo calcolato le frequenze percentuali della variabile condizionata Sopravvivenza Passeggero. Questa sono le distribuzioni condizionate rilevanti se l obiettivo è studiare la Sopravvivenza, come variabile risposta confrontando le distribuzioni consizionate di tale variabile per ogni modalità della variabile concomitante Passeggero Si noti che, per ogni tipologia di passeggero, le percentuali sommano a 100. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 15 / 63

Tabella a doppia entrata per un verso... In generale, le frequenze relative per le distribuzioni di Y X si calcolano a partire dalle frequenze assolute così: X Y x 1 x j x t totale y 1 n 11 /n 01 n 1j /n 0j n 1t /n 0t n 10 /N..... y i n i1 /n 01 n ij /n 0j n it /n 0t n i0 /N..... y s n s1 /n 01 n sj /n 0j n st /n 0t n s0 /N totale 1 1 1 1 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 16 / 63

...e per un altro... Viceversa, le frequenze relative per le distribuzioni di X Y si calcolano a partire dalle frequenze assolute così: X Y x 1 x j x t totale y 1 n 11 /n 10 n 1j /n 10 n 1t /n 10 1..... y i n i1 /n i0 n ij /n i0 n it /n i0 1..... y s n s1 /n s0 n sj /n s0 n st /n s0 1 totale n 01 /N n 0j /N n 0t /N 1 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 17 / 63

...o per tutti e due Infine, possiamo costruire le frequenze relative per la distribuzione congiunta di (X, Y ), che si calcolano a partire dalle frequenze assolute così: X Y x 1 x j x t totale y 1 n 11 /N n 1j /N n 1t /N n 10 /N..... y i n i1 /N n ij /N n it /N n i0 /N..... y s n s1 /N n sj /N n st /N n s0 /N totale n 01 /N n 0j /N n 0t /N 1 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 18 / 63

Il disastro del Titanic Morto Sopravv. Totale 1st 2nd 3rd Crew Totale freq. ass. 122 167 528 673 1490 % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% % di riga 8.2% 11.2% 35.4% 45.2% 100.0% % congiunta 5.6% 7.6% 24.0% 30.6% 67.7% freq. ass. 203 118 178 212 711 % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% % di riga 28.6% 16.6% 25.0% 29.8% 100.0% % congiunta 9.2% 5.4% 8.1% 9.6% 32.3% 325 285 706 885 2201 % di colonna 100% 100% 100% 100% 100% % di riga 14.8% 12.9% 32.1% 40.2% 100.0% % congiunta 14.8% 12.9% 32.1% 40.2% 100.0% Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 19 / 63

Indice Variabili statistiche bivariate Rappresentazioni grafiche Distribuzioni multiple Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 20 / 63

Rappresentazioni grafiche Anche nel caso di variabili statistiche bivariate, le rappresentazioni grafiche aiutano molto (se ben fatte) ad interpretare i dati. La rappresentazione dipende dalla natura delle variabili (qualitativi, quantitativi) e dalla forma in cui ci sono forniti i dati (aggregata/non aggregata). Abbiamo già visto alcune di queste rappresentazioni (verranno richiamate per dare loro un nome); altre sono nuove. Per ogni grafico, si provi a fornire una lettura di quanto il grafico ci sta dicendo. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 21 / 63

Istogrammi appaiati (side-by-side histograms) Y Peso degli studenti (quantitativa continua) X Genere (qualitativa) rappresentazione di Y X. Peso degli studenti maschi 0.00 0.02 0.04 50 60 70 80 90 100 Peso degli studenti femmine 0.00 0.03 50 60 70 80 90 100 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 22 / 63

Diagrammi a scatola appaiati (multiple boxplots) Y Peso degli studenti (quantitativa continua) X Genere (qualitativa) rappresentazione di Y X. 50 60 70 80 90 100 Femmina Maschio Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 23 / 63

Diagrammi a barre condizionati Y Classe / Equipaggio X Sopravvivenza rappresentazione di Y X. 0.0 0.2 0.4 0.6 0.8 1.0 Crew 3rd 2nd 1st No Yes Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 24 / 63

Diagrammi a barre condizionati Y Classe / Equipaggio X Sopravvivenza rappresentazione di Y X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 25 / 63

Prima le donne e i bambini? Donne e Bambini Maschi adulti Totale Morto 161 1329 1490 Sopravv. 373 338 711 Totale 534 1667 2201 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 26 / 63

Prima le donne e i bambini? Cosa rappresentano i due grafici? 0 500 1000 1500 0.0 0.2 0.4 0.6 0.8 1.0 Donne e Bambini Maschi adulti Donne e Bambini Maschi adulti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 27 / 63

Indice Variabili statistiche bivariate Rappresentazioni grafiche Distribuzioni multiple Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 28 / 63

Variabili statistiche multivariate (cenno) L idea di variabile statistica bivariata può essere generalizzata senza difficoltà. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 29 / 63

Variabili statistiche multivariate (cenno) L idea di variabile statistica bivariata può essere generalizzata senza difficoltà. Si parla di variabile statistica trivariata, se si considerano congiuntamente tre caratteri; quadrivariata, se si considerano congiuntamente quattro caratteri; in generale, multivariata, se si considerano congiuntamente almeno due caratteri; Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 29 / 63

Distribuzioni di frequenza multiple (cenno) Anche le distribuzioni di frequenza si generalizzano di conseguenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 30 / 63

Distribuzioni di frequenza multiple (cenno) Anche le distribuzioni di frequenza si generalizzano di conseguenza. Si parla di distribuzione di frequenza tripla, se mostra la distribuzione di una variable statistica trivariata; quadrupla, se mostra la distribuzione di una variable statistica quadrivariata; in generale, multipla, se si considera una variable statistica multivariata; Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 30 / 63

Esempio: esiti ammissione a Berkeley, 1973 I dati che abbiamo mostrato, anche se organizzati in forma non tabellare, rappresentano una distribuzione di frequenza tripla. Admit Gender Dept Frequenza assoluta Admitted Male A 512 Rejected Male A 313 Admitted Female A 89 Rejected Female A 19 Admitted Male B 353 Rejected Male B 207 Admitted Female B 17 Rejected Female B 8 Admitted Male C 120 Rejected Male C 205 Admitted Female C 202 Rejected Female C 391 Admitted Male D 138 Rejected Male D 279 Admitted Female D 131 Rejected Female D 244 Admitted Male E 53 Rejected Male E 138 Admitted Female E 94 Rejected Female E 299 Admitted Male F 22 Rejected Male F 351 Admitted Female F 24 Rejected Female F 317 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 31 / 63

Esempio: esiti ammissione a Berkeley, 1973 In forma tabellare: Dept Gender Admit Admitted Rejected A Male 512 313 Female 89 19 B Male 353 207 Female 17 8 C Male 120 205 Female 202 391 D Male 138 279 Female 131 244 E Male 53 138 Female 94 299 F Male 22 351 Female 24 317 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 32 / 63

Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 33 / 63

Indice Variabili statistiche bivariate Associazione tra variabili Dipendenza e indipendenza Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 34 / 63

Relazioni tra variabili A ben vedere, il commento più naturale che abbiamo fatto leggendo i grafici precedenti era del tipo: il comportamento di questa variabile cambia al cambiare dell altra, oppure, questa variabile è influenzata da quest altra. Quindi, quando guardiamo a più di una variabile, viene naturale esplorare se esiste una qualche associazione tra le stesse. Quando due variabili mostrano qualche forma di connessione tra loro, si parla di associazione o dipendenza. Quando due variabili non mostrano alcuna forma di connessione tra loro, si parla di indipendenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 35 / 63

Esercizio Sulla base del diagramma a dispersione sulla destra, quale delle seguenti affermazioni è corretta? Altezza degli studenti 190 180 170 160 50 60 70 80 90 100 Peso degli studenti (a) Non c è relazione tra altezza e peso; (b) altezza e peso sono associati (positivamente); (c) altezza e peso sono associati (negativamente); (d) un peso maggiore causa una maggiore altezza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 36 / 63

Esercizio Sulla base del diagramma a dispersione sulla destra, quale delle seguenti affermazioni è corretta? # amici di Facebook 1e+05 1e+04 1e+03 1e+02 1e+01 0 5 10 15 20 25 # libri letti (a) Non c è relazione tra numero di libri e numero di amici di Facebook; (b) numero di libri e numero di amici di Facebook sono associati (positivamente); (c) numero di libri e numero di amici di Facebook sono associati (negativamente); (d) un maggior numero di libri letti causa un maggior/minor numero di amici su Facebook. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 37 / 63

Esercizio Sulla base del diagramma a dispersione, sembra esserci associazione tra il peso alla nascita e la durata della gravidanza da madri fumatrici e non fumatrici? Peso del neonato 3400 3200 3000 2800 2600 2400 Madri non fumatrici Madri fumatrici 34 36 38 40 42 Durata della gravidanza Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 38 / 63

Riprendiamo il Titanic Riprendiamo la tabella che abbiamo analizzato in precedenza 1st 2nd 3rd Crew Totale Morto freq. ass. 122 167 528 673 1490 % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. freq. ass. 203 118 178 212 711 % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% Totale 325 285 706 885 2201 I passeggeri di terza classe avevano minori chance di sopravvivere? Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 39 / 63

Riprendiamo il Titanic (cont) Per rispondere, abbiamo guardato alla variabile condizionata Sopravvivenza Tipologia. Sembrerebbe sensato affermare che l esito dipende dalla classe. 1st 2nd 3rd Crew Totale Morto 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. 62.5% 41.4% 25.2% 24.0% 32.3% Totale 100% 100% 100% 100% 100% Y (L esito) dipende da X (la classe in cui viaggiava il passeggero) poichè le distribuzioni di Y condizionate ad X sono diverse nel senso che hanno frequenze relative diverse Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 40 / 63

Indipendenza in distribuzione Diciamo che Y è indipendente in distribuzione da X se, per qualsivoglia i = 1,..., s, n i1 = n i2 = = n ij = = n it n 01 n 02 n 0j n 0t Altrimenti, diremo che Y dipende in distribuzione da X. Se le distribuzioni condizionate di Y dato X sono uguali tra di loro, allora sono anche uguali alla distribuzione marginale di Y. L uguaglianza, al solito, deve essere intesa nel senso delle frequenze relative. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 41 / 63

X Y x 1 x j x t totale n y 11 n 1 01 1j n 01 1t n 10 0t N n y 21 n 2 n 01 2j n n 01 2t n 20 n 0t N. y i. n i1 n 01. n ij n 01. n it n 0t.... n y s1 n s n 01 sj n 01 totale 1 1 1 n st n 0t. n i0 N. n s0 N Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 42 / 63

Indipendenza in distribuzione (cont) Per dimostrare la proposizione ci basta far vedere che n i0 N = n i1 n 01, i = 1,..., s. Ora, dalla (41) segue che n ij = (n i1 n 0j )/n 01. Quindi, t n i0 N = j=1 n t ij j=1 = n i1n 0j = N Nn 01 = n t i1 j=1 n 0j = Nn i1 = n i1. Nn 01 n 01 Nn 01 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 43 / 63

Esempio: indipendenza in distribuzione x1 x2 x3 x4 Sum y1 5 7 3 2 17 y2 30 42 18 12 102 y3 15 21 9 6 51 y4 10 14 6 4 34 Sum 60 84 36 24 204 x1 x2 x3 x4 marginale y1 0.083 0.083 0.083 0.083 0.083 y2 0.500 0.500 0.500 0.500 0.500 y3 0.250 0.250 0.250 0.250 0.250 y4 0.167 0.167 0.167 0.167 0.167 totale 1.000 1.000 1.000 1.000 1.000 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 44 / 63

Simmetria dell indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora n ij = n i0, i = 1,..., s; j = 1,..., t. (1) n 0j N Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63

Simmetria dell indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora n ij che può essere riscritta nella forma = n i0, i = 1,..., s; j = 1,..., t. (1) n 0j N n ij = n 0j, i = 1,..., r; j = 1,..., c n i0 N ovvero, l indipendenza in distribuzione di Y da X implica l uguaglianza di tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale di X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63

Simmetria dell indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora n ij che può essere riscritta nella forma = n i0, i = 1,..., s; j = 1,..., t. (1) n 0j N n ij = n 0j, i = 1,..., r; j = 1,..., c n i0 N ovvero, l indipendenza in distribuzione di Y da X implica l uguaglianza di tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale di X. Quindi, tutte le distribuzioni condizionate di X dato Y sono tra di loro uguali. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63

Esempio: indipendenza in distribuzione x1 x2 x3 x4 Sum y1 5 7 3 2 17 y2 30 42 18 12 102 y3 15 21 9 6 51 y4 10 14 6 4 34 Sum 60 84 36 24 204 x1 x2 x3 x4 totale y1 0.294 0.412 0.176 0.118 1.000 y2 0.294 0.412 0.176 0.118 1.000 y3 0.294 0.412 0.176 0.118 1.000 y4 0.294 0.412 0.176 0.118 1.000 marginale 0.294 0.412 0.176 0.118 1.000 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 46 / 63

Frequenze attese Poniamo ˆn ij = n i0n 0j N. Se esiste indipendenza tra le due variabili, n ij = ˆn ij per qualsivoglia i e per qualsivoglia j, ovvero, le ˆn ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63

Frequenze attese Poniamo ˆn ij = n i0n 0j N. Se esiste indipendenza tra le due variabili, n ij = ˆn ij per qualsivoglia i e per qualsivoglia j, ovvero, le ˆn ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. Per questo motivo, le ˆn ij sono chiamate le frequenze attese (sotto l ipotesi di indipendenza in distribuzione). Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63

Frequenze attese Poniamo ˆn ij = n i0n 0j N. Se esiste indipendenza tra le due variabili, n ij = ˆn ij per qualsivoglia i e per qualsivoglia j, ovvero, le ˆn ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. Per questo motivo, le ˆn ij sono chiamate le frequenze attese (sotto l ipotesi di indipendenza in distribuzione). Come è ovvio, le frequenze attese ˆn ij ci mostrano anche come le frequenze marginali si comporterebbero nel caso di indipendenza in distribuzione. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63

Esempio: indipendenza in distribuzione x1 x2 x3 x4 Sum y1 5= 60 17 204 7= 84 17 204 3 2 17 y2 30= 60 12 204 42 18 12 102 y3 15 21 9 6 51 y4 10 14 6 4 34 Sum 60 84 36 24 204 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 48 / 63

X 2 L indice di uso più comune per misurare la dipendenza in distribuzione si basa sul confronto tra frequenze attese e frequenze osservate. Si tratta del cosidetto X 2 di Pearson X 2 = s t i=1 j=1 (n ij ˆn ij ) 2 ˆn ij. X 2 è sempre maggiore o uguale a zero ed è uguale a 0 in caso di indipendenza (n ij = ˆn ij, per ogni i e per ogni j) e cresce man mano che le frequenze osservate si allontano da quelle attese. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 49 / 63

X 2 (cont) Si può dimostrare che X 2 N min(s 1, t 1). Il massimo è raggiunto quando la distribuzione doppia assume una struttura particolare, quella di una tabella di dipendenza perfetta. Si chiama tabella di dipendenza perfetta la tabella tale che ad ogni modalità del carattere X corrisponde una sola modalità del carattere Y. Quindi, si può costruire un indice normalizzato X 2 = X 2 N min(s 1, t 1) che assumerà valori tra 0 e 1: 0 X 2 1. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 50 / 63

Tabella di dipendenza perfetta x1 x2 x3 x4 Sum y1 45 0 0 0 45 y2 0 20 0 0 20 y3 0 0 0 92 92 y4 0 0 37 0 37 Sum 45 20 37 92 194 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 51 / 63

Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 52 / 63

Descrivere la dipendenza: diagramma di dispersione Il diagramma di dispersione è la rappresentazione delle coppie (x 1, y 1 ), (x 2, y 2 ),... (x N, y N ) ossia della distribuzione doppia disaggregata della variabile doppia (X, Y ). Altezza degli studenti 190 185 180 175 170 165 160 155 50 60 70 80 Si dice che tra X e Y c è associazione positiva quando essi tendono a crescere insieme. Si dice che tra X e Y c è associazione negativa quando essi tendono decrescere insieme. Peso degli studenti Il diagramma di dispersione è uno strumento per esplorare graficamente la presenza di associazione positiva o negativa tra due caratteri. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 53 / 63

Misurare l associazione Il punto rosso è il punto di coordinate ( x, ȳ). 190 185 Altezza degli studenti 180 175 170 165 + 160 155 50 60 70 80 Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63

Misurare l associazione Il punto rosso è il punto di coordinate ( x, ȳ). Valori maggiori della media di X corrispondono a valori maggiori della media per Y. Valori inferiori alla media di X corrispondono a valori inferiori alla media per Y. Altezza degli studenti 190 185 180 175 170 165 160 + 155 50 60 70 80 Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63

Misurare l associazione Il punto rosso è il punto di coordinate ( x, ȳ). Valori maggiori della media di X corrispondono a valori maggiori della media per Y. Valori inferiori alla media di X corrispondono a valori inferiori alla media per Y. più osservazioni cadono nelle regioni contrassegnate da un + rispetto a quante ne cadono nelle regioni contrassegnate da un - più è manifesta l associazione. Altezza degli studenti 190 185 180 175 170 165 160 155 + + + 50 60 70 80 Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63

La covarianza Questo suggerisce di partire dalla seguente quantità σ XY = 1 N N (x i x)(y i y) i=1 dove (x i, y i ), i = 1,..., N, sono i dati disponibili su due variabili numeriche, mentre x e y indicano le due medie aritmetiche. σ XY è detta covarianza. Il suo numeratore è detto codevianza, indicata con C XY. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 55 / 63

La covarianza (cont) 1. In presenza di una qualche forma di relazione monotona, più è forte la relazione tra le due variabili più ci aspettiamo che la covarianza diventi grande in valore assoluto. Infatti, più è forte la relazione, più grande dovrebbe essere il numero di addendi concordi nella somma. Inoltre, un certo numero di addendi sarà il prodotto di scarti dalle media grandi in valore assoluto. 2. In assenza di una qualche forma di relazione monotona tra le due variabili, viceversa, gli addendi saranno in parte positivi ed in parte negativi. Quindi in questi casi ci aspettiamo che la covarianza risulti nulla o comunque vicina allo zero. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 56 / 63

Covarianza: esempio Altezza degli studenti 190 185 180 175 170 165 160 155 + 70 80 90 100 Voto di matura Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 57 / 63

Covarianza: esempio Altezza degli studenti 190 185 180 175 170 165 160 155 + Altezza degli studenti 190 185 180 175 170 165 160 155 + 70 80 90 100 50 60 70 80 Voto di matura Peso degli studenti 1 N i x iy i = 1.39021 10 4 x = 82.1034 ȳ = 169 σ XY = 26.5862 1 N i x iy i = 1.01191 10 4 x = 59.5862 ȳ = 169 σ XY = 49.0345 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 58 / 63

Covarianza: esempio Altezza degli studenti 190 185 180 175 170 165 160 155 + Altezza degli studenti (metri) 1.90 1.85 1.80 1.75 1.70 1.65 1.60 1.55 + 70 80 90 100 50 60 70 80 Voto di matura 1 N i x iy i = 1.39021 10 4 x = 82.1034 ȳ = 169 σ XY = 26.5862 Peso degli studenti 1 N i x iy i = 101.191 x = 59.5862 ȳ = 1.69 σ XY = 0.490345 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 58 / 63

Grande quanto? L esempio su altezza e peso illustra uno dei problemi connessi con l utilizzo della covarianza. L interpretazione del segno non pone nessuno problema. La covarianza indica una associazione tendenzialmente positiva tra le due grandezze Ma quanto forte è questa dipendenza? Per rispondere alla domanda avremmo bisogno di conoscere un estremo superiore, possibilmente con una chiara interpretazione, per il valore assoluto della covarianza. Si dimostra che σ Y σ X σ XY σ Y σ X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 59 / 63

Il coefficiente di correlazione (lineare) I limiti per la covarianza suggeriscono che per affermare se la covarianza è piccola o è grande dobbiamo confrontarla con il prodotto degli scarti quadratici medi. In altre parole, dobbiamo costruire l indice normalizzato, chiamato coefficiente di correlazione (lineare) r = σ XY σ X σ Y. Il coefficiente di correlazione è spesso indicato con la lettera greca ρ. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 60 / 63

Interpretazione di r ora se ricordiamo che σ Y σ X σ XY σ Y σ X. dividendo tutti i membri di questa diseguaglianza per σ Y σ X si ottiene 1 r +1 = 1 perfetta dipendenza lineare negativa tra X e Y r < 0 associazione negativa tra X e Y r = 0 assenza di relazione monotona tra X e Y r > 0 associazione positiva tra X e Y = +1 perfetta dipendenza lineare positiva tra X e Y Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 61 / 63

Attenzione a cosa misura r y 10000 8000 6000 4000 2000 0 + 2 4 6 8 10 x I dati si dispingono sulla curva Y = X 4. la relazione è perfetta ma non lineare e non monotona. r = 0.8852 4 3 I dati si dispingono sulla curva Y = X 2. y 2 1 + la relazione è perfetta ma non lineare e non monotona. 0 r = 0 2 1 0 1 2 Francesco Pauli & Nicola Torelli x Statistica descrittiva:variabili doppie 62 / 63

Morale r misura la correlazione lineare tra le variabili. Un valore di r inferiore in valore assoluto a 1 non implica necessariamente assenza di un legame perfetto tra le variabili, ma assenza di un legame lineare perfetto. Un valore di r uguale a zero non implica necessariamente assenza di relazione tra le variabili, ma assenza di relazione lineare (più in generale, monotona). Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 63 / 63