Statistica e informatica
|
|
- Agnello Bettini
- 6 anni fa
- Visualizzazioni
Transcript
1 Statistica e informatica Statistica descrittiva:variabili doppie Francesco Pauli & Nicola Torelli A.A. 2016/2017
2 Solo una variabile... Finora abbiamo trattato di come rappresentare graficamente, sintetizzare numericamente (con medie, mediane, varianze, eccetera), singole variabili, in modo da descrivere l insieme delle unità statistiche rispetto a quel particolare carattere. Altezze degli studenti Libri letti dagli studenti Altezza media=169 Altezza mediana=168 SD altezza= # libri medio=2.85 # libri mediano=2 SD # libri=4.2 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 2 / 63
3 ... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. Altezze degli studenti maschi Altezze degli studenti femmine Altezza media e mediana maschi: 181.2; 181; femmine: 166.8; 167 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 3 / 63
4 ... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. # libri Femmina Maschio # Libri medio e mediano maschi: 2.3; 2; femmine: 2.8; 2 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 3 / 63
5 ... o quasi A ben vedere, in molti casi abbiamo guardato congiuntamente a due variabili. In particolare, ogniqualvolta abbiamo confrontato le distribuzioni di Y condizionate a diversi valori assunti da una seconda variabile X (di per sé, come abbiamo visto, usando gli stessi strumenti che usiamo per la distribuzione marginale di Y ). Si ha una distribuzione doppia quando si esaminano congiuntamente due caratteri nelle unità statistiche del collettivo. Come nel caso di distribuzioni relative ad un singolo carattere, si parlerà di distribuzioni doppie disaggregate quando si elencano le N coppie di modalità e di distribuzioni doppie di frequenze, quando le osservazioni sono aggregate per modalità o classi. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 3 / 63
6 Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 4 / 63
7 Esempio: ore di sonno e genere Consideriamo la variabile doppia: (Y, X )=(ore di sonno, genere). La distribuzione di frequenze assolute è data da Y X totale X = Fem X = Mas Totale Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 5 / 63
8 Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63
9 Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. La 1 a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y X = Fem). Analogamente, la 2 a mostra la distribuzione della variabile condizionata (Y X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63
10 Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. La 1 a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y X = Fem). Analogamente, la 2 a mostra la distribuzione della variabile condizionata (Y X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y X. La 1 a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine e quanti maschi, cioè la distribuzione della variabile condizionata (X Y = 4). Quindi, le righe riportano le distribuzioni della variabile condizionata X Y. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63
11 Esempio: ore di sonno e genere La distribuzione doppia appena vista contiene" varie distribuzioni di frequenza. Infatti: Il centro della distribuzione (in questo caso le 10 righe e le 2 colonne centrali) mostra il numero di individui che presentano una particolare modalità della coppia (Y, X ): mostra cioè la distribuzione congiunta. La 1 a colonna, per esempio, mostra la distribuzione delle ore di sonno tra le femmine, cioè la distribuzione della variabile condizionata (Y X = Fem). Analogamente, la 2 a mostra la distribuzione della variabile condizionata (Y X = Mas). Quindi, le colonne riportano le distribuzioni della variabile condizionata Y X. La 1 a riga mostra, tra le persone che dormono 4 ore per note, quante sono femmine e quanti maschi, cioè la distribuzione della variabile condizionata (X Y = 4). Quindi, le righe riportano le distribuzioni della variabile condizionata X Y. L ultima colonna, mostra la distribuzione delle ore di sonno senza riguardo al genere. L ultima riga, invece, mostra la distribuzione della variabile Genere. Sono cioè rappresentate le distribuzioni marginali. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 6 / 63
12 Esempio: ore di TV e Sanremo Consideriamo la variabile doppia: (Y, X )=(ore di TV, Sanremo). La distribuzione di frequenze assolute (per tutti gli studenti) è data da Y X totale X = NonV X = VeNP X = VeP Totale Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 7 / 63
13 Tabella a doppia entrata Una distribuzione doppia di frequenze è normalmente chiamata tabella (di contigenza) a doppia entrata. In generale, una tabella di contingenza (con due variabili) si presenta nella forma: X Y x 1 x j x t totale y 1 n 11 n 1j n 1t n y i n i1 n ij n it n i y s n s1 n sj n st n s0 totale n 01 n 0j n 0t N Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 8 / 63
14 Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63
15 Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63
16 Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63
17 Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y n ij è la frequenza congiunta assoluta per Y = y i e X = x j Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63
18 Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y n ij è la frequenza congiunta assoluta per Y = y i e X = x j n 0j, è il totale della colonna j, n 0j = s i=1 n ij. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63
19 Tabella a doppia entrata (cont) Nella tabella X e Y sono le due variabili considerate {x 1,..., x t } sono le modalità di X {y 1,..., y s } sono le modalità di Y n ij è la frequenza congiunta assoluta per Y = y i e X = x j n 0j, è il totale della colonna j, n 0j = s i=1 n ij. Quindi è la frequenza assoluta marginale per la modalità x j di X. n i0, è il totale della riga i: n i0 = t j=1 n ij. Quindi è la frequenza assoluta marginale per la modalità y i di Y. NB. La scelta di quale variabile (X o Y ) mettere sulle righe/colonne e quale indice massimo (s o t) associare alle modalità delle variabili è libera. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 9 / 63
20 Titanic Il transatlantico britannico RMS Titanic affonda a seguito della collisione con un iceberg nella notte tra il 14 e il 15 aprile Delle 2201 persone a bordo tra passeggeri ed equipaggio, sopravvivono solo 711. Tra le polemiche che seguono al naufragio c è chi sostiene che i passeggeri di III classe vennero trascurati nelle operazioni di evacuazioni, dando preferenza ai ricchi. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 10 / 63
21 Titanic Deceduto Sopravv. I Cl II Cl III Cl Equipaggio I dati a disposizione sono riassumibili in una tabella a doppia entrata, in cui si riporta il numero di sopravvissuti e di deceduti a seconda della classe di appartenenza. Il sospetto per cui i passeggeri di III classe vennero trascurati si traduce nel dire che le due caratteristiche osservate: sopravvivenza e classe, sono legate. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 11 / 63
22 Esempio: il disastro del Titanic Nome Passeggero (tipologia) Sopravvivenza nome 1 II sopravvissuto nome 2 III non sopravvissuto nome 3 I non sopravvissuto... nome 2201 equipaggio sopravvissuto Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 12 / 63
23 Esempio: il disastro del Titanic Tabella a doppia entrata per le variabili Passeggero (tipologia) e Sopravvivenza 1st 2nd 3rd Crew Totale Morto Sopravv Totale passeggeri di seconda classe sopravvissero 178 passeggeri di terza classe sopravvissero I passeggeri di terza classe avevano minori chance di sopravvivere? Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 13 / 63
24 Esempio: il disastro del Titanic Alla domanda precedente si risponde meglio guardando alle frequenze relative (o percentuali). 1st 2nd 3rd Crew Totale Morto freq. ass % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. freq. ass % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% Totale In seconda classe, sopravvisse il 41.4% dei passeggeri In terza, sopravvisse il 25.2% dei passeggeri Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 14 / 63
25 Tabella a doppia entrata (cont) Come l esempio del Titanic dimostra, il calcolo delle frequenze relative in una tabella a doppia entrata è più delicato, perché la tabella contiene tante distribuzioni. 1st 2nd 3rd Crew Totale Morto freq. ass % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. freq. ass % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% Totale Qui, abbiamo calcolato le frequenze percentuali della variabile condizionata Sopravvivenza Passeggero. Questa sono le distribuzioni condizionate rilevanti se l obiettivo è studiare la Sopravvivenza, come variabile risposta confrontando le distribuzioni consizionate di tale variabile per ogni modalità della variabile concomitante Passeggero Si noti che, per ogni tipologia di passeggero, le percentuali sommano a 100. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 15 / 63
26 Tabella a doppia entrata per un verso... In generale, le frequenze relative per le distribuzioni di Y X si calcolano a partire dalle frequenze assolute così: X Y x 1 x j x t totale y 1 n 11 /n 01 n 1j /n 0j n 1t /n 0t n 10 /N..... y i n i1 /n 01 n ij /n 0j n it /n 0t n i0 /N..... y s n s1 /n 01 n sj /n 0j n st /n 0t n s0 /N totale Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 16 / 63
27 ...e per un altro... Viceversa, le frequenze relative per le distribuzioni di X Y si calcolano a partire dalle frequenze assolute così: X Y x 1 x j x t totale y 1 n 11 /n 10 n 1j /n 10 n 1t /n y i n i1 /n i0 n ij /n i0 n it /n i y s n s1 /n s0 n sj /n s0 n st /n s0 1 totale n 01 /N n 0j /N n 0t /N 1 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 17 / 63
28 ...o per tutti e due Infine, possiamo costruire le frequenze relative per la distribuzione congiunta di (X, Y ), che si calcolano a partire dalle frequenze assolute così: X Y x 1 x j x t totale y 1 n 11 /N n 1j /N n 1t /N n 10 /N..... y i n i1 /N n ij /N n it /N n i0 /N..... y s n s1 /N n sj /N n st /N n s0 /N totale n 01 /N n 0j /N n 0t /N 1 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 18 / 63
29 Il disastro del Titanic Morto Sopravv. Totale 1st 2nd 3rd Crew Totale freq. ass % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% % di riga 8.2% 11.2% 35.4% 45.2% 100.0% % congiunta 5.6% 7.6% 24.0% 30.6% 67.7% freq. ass % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% % di riga 28.6% 16.6% 25.0% 29.8% 100.0% % congiunta 9.2% 5.4% 8.1% 9.6% 32.3% % di colonna 100% 100% 100% 100% 100% % di riga 14.8% 12.9% 32.1% 40.2% 100.0% % congiunta 14.8% 12.9% 32.1% 40.2% 100.0% Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 19 / 63
30 Indice Variabili statistiche bivariate Rappresentazioni grafiche Distribuzioni multiple Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 20 / 63
31 Rappresentazioni grafiche Anche nel caso di variabili statistiche bivariate, le rappresentazioni grafiche aiutano molto (se ben fatte) ad interpretare i dati. La rappresentazione dipende dalla natura delle variabili (qualitativi, quantitativi) e dalla forma in cui ci sono forniti i dati (aggregata/non aggregata). Abbiamo già visto alcune di queste rappresentazioni (verranno richiamate per dare loro un nome); altre sono nuove. Per ogni grafico, si provi a fornire una lettura di quanto il grafico ci sta dicendo. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 21 / 63
32 Istogrammi appaiati (side-by-side histograms) Y Peso degli studenti (quantitativa continua) X Genere (qualitativa) rappresentazione di Y X. Peso degli studenti maschi Peso degli studenti femmine Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 22 / 63
33 Diagrammi a scatola appaiati (multiple boxplots) Y Peso degli studenti (quantitativa continua) X Genere (qualitativa) rappresentazione di Y X Femmina Maschio Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 23 / 63
34 Diagrammi a barre condizionati Y Classe / Equipaggio X Sopravvivenza rappresentazione di Y X Crew 3rd 2nd 1st No Yes Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 24 / 63
35 Diagrammi a barre condizionati Y Classe / Equipaggio X Sopravvivenza rappresentazione di Y X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 25 / 63
36 Prima le donne e i bambini? Donne e Bambini Maschi adulti Totale Morto Sopravv Totale Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 26 / 63
37 Prima le donne e i bambini? Cosa rappresentano i due grafici? Donne e Bambini Maschi adulti Donne e Bambini Maschi adulti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 27 / 63
38 Indice Variabili statistiche bivariate Rappresentazioni grafiche Distribuzioni multiple Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 28 / 63
39 Variabili statistiche multivariate (cenno) L idea di variabile statistica bivariata può essere generalizzata senza difficoltà. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 29 / 63
40 Variabili statistiche multivariate (cenno) L idea di variabile statistica bivariata può essere generalizzata senza difficoltà. Si parla di variabile statistica trivariata, se si considerano congiuntamente tre caratteri; quadrivariata, se si considerano congiuntamente quattro caratteri; in generale, multivariata, se si considerano congiuntamente almeno due caratteri; Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 29 / 63
41 Distribuzioni di frequenza multiple (cenno) Anche le distribuzioni di frequenza si generalizzano di conseguenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 30 / 63
42 Distribuzioni di frequenza multiple (cenno) Anche le distribuzioni di frequenza si generalizzano di conseguenza. Si parla di distribuzione di frequenza tripla, se mostra la distribuzione di una variable statistica trivariata; quadrupla, se mostra la distribuzione di una variable statistica quadrivariata; in generale, multipla, se si considera una variable statistica multivariata; Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 30 / 63
43 Esempio: esiti ammissione a Berkeley, 1973 I dati che abbiamo mostrato, anche se organizzati in forma non tabellare, rappresentano una distribuzione di frequenza tripla. Admit Gender Dept Frequenza assoluta Admitted Male A 512 Rejected Male A 313 Admitted Female A 89 Rejected Female A 19 Admitted Male B 353 Rejected Male B 207 Admitted Female B 17 Rejected Female B 8 Admitted Male C 120 Rejected Male C 205 Admitted Female C 202 Rejected Female C 391 Admitted Male D 138 Rejected Male D 279 Admitted Female D 131 Rejected Female D 244 Admitted Male E 53 Rejected Male E 138 Admitted Female E 94 Rejected Female E 299 Admitted Male F 22 Rejected Male F 351 Admitted Female F 24 Rejected Female F 317 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 31 / 63
44 Esempio: esiti ammissione a Berkeley, 1973 In forma tabellare: Dept Gender Admit Admitted Rejected A Male Female B Male Female 17 8 C Male Female D Male Female E Male Female F Male Female Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 32 / 63
45 Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 33 / 63
46 Indice Variabili statistiche bivariate Associazione tra variabili Dipendenza e indipendenza Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 34 / 63
47 Relazioni tra variabili A ben vedere, il commento più naturale che abbiamo fatto leggendo i grafici precedenti era del tipo: il comportamento di questa variabile cambia al cambiare dell altra, oppure, questa variabile è influenzata da quest altra. Quindi, quando guardiamo a più di una variabile, viene naturale esplorare se esiste una qualche associazione tra le stesse. Quando due variabili mostrano qualche forma di connessione tra loro, si parla di associazione o dipendenza. Quando due variabili non mostrano alcuna forma di connessione tra loro, si parla di indipendenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 35 / 63
48 Esercizio Sulla base del diagramma a dispersione sulla destra, quale delle seguenti affermazioni è corretta? Altezza degli studenti Peso degli studenti (a) Non c è relazione tra altezza e peso; (b) altezza e peso sono associati (positivamente); (c) altezza e peso sono associati (negativamente); (d) un peso maggiore causa una maggiore altezza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 36 / 63
49 Esercizio Sulla base del diagramma a dispersione sulla destra, quale delle seguenti affermazioni è corretta? # amici di Facebook 1e+05 1e+04 1e+03 1e+02 1e # libri letti (a) Non c è relazione tra numero di libri e numero di amici di Facebook; (b) numero di libri e numero di amici di Facebook sono associati (positivamente); (c) numero di libri e numero di amici di Facebook sono associati (negativamente); (d) un maggior numero di libri letti causa un maggior/minor numero di amici su Facebook. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 37 / 63
50 Esercizio Sulla base del diagramma a dispersione, sembra esserci associazione tra il peso alla nascita e la durata della gravidanza da madri fumatrici e non fumatrici? Peso del neonato Madri non fumatrici Madri fumatrici Durata della gravidanza Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 38 / 63
51 Riprendiamo il Titanic Riprendiamo la tabella che abbiamo analizzato in precedenza 1st 2nd 3rd Crew Totale Morto freq. ass % di colonna 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. freq. ass % di colonna 62.5% 41.4% 25.2% 24.0% 32.3% Totale I passeggeri di terza classe avevano minori chance di sopravvivere? Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 39 / 63
52 Riprendiamo il Titanic (cont) Per rispondere, abbiamo guardato alla variabile condizionata Sopravvivenza Tipologia. Sembrerebbe sensato affermare che l esito dipende dalla classe. 1st 2nd 3rd Crew Totale Morto 37.5% 58.6% 74.8% 76.0% 67.7% Sopravv. 62.5% 41.4% 25.2% 24.0% 32.3% Totale 100% 100% 100% 100% 100% Y (L esito) dipende da X (la classe in cui viaggiava il passeggero) poichè le distribuzioni di Y condizionate ad X sono diverse nel senso che hanno frequenze relative diverse Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 40 / 63
53 Indipendenza in distribuzione Diciamo che Y è indipendente in distribuzione da X se, per qualsivoglia i = 1,..., s, n i1 = n i2 = = n ij = = n it n 01 n 02 n 0j n 0t Altrimenti, diremo che Y dipende in distribuzione da X. Se le distribuzioni condizionate di Y dato X sono uguali tra di loro, allora sono anche uguali alla distribuzione marginale di Y. L uguaglianza, al solito, deve essere intesa nel senso delle frequenze relative. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 41 / 63
54 X Y x 1 x j x t totale n y 11 n j n 01 1t n 10 0t N n y 21 n 2 n 01 2j n n 01 2t n 20 n 0t N. y i. n i1 n 01. n ij n 01. n it n 0t.... n y s1 n s n 01 sj n 01 totale n st n 0t. n i0 N. n s0 N Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 42 / 63
55 Indipendenza in distribuzione (cont) Per dimostrare la proposizione ci basta far vedere che n i0 N = n i1 n 01, i = 1,..., s. Ora, dalla (41) segue che n ij = (n i1 n 0j )/n 01. Quindi, t n i0 N = j=1 n t ij j=1 = n i1n 0j = N Nn 01 = n t i1 j=1 n 0j = Nn i1 = n i1. Nn 01 n 01 Nn 01 Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 43 / 63
56 Esempio: indipendenza in distribuzione x1 x2 x3 x4 Sum y y y y Sum x1 x2 x3 x4 marginale y y y y totale Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 44 / 63
57 Simmetria dell indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora n ij = n i0, i = 1,..., s; j = 1,..., t. (1) n 0j N Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63
58 Simmetria dell indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora n ij che può essere riscritta nella forma = n i0, i = 1,..., s; j = 1,..., t. (1) n 0j N n ij = n 0j, i = 1,..., r; j = 1,..., c n i0 N ovvero, l indipendenza in distribuzione di Y da X implica l uguaglianza di tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale di X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63
59 Simmetria dell indipendenza in distribuzione SeY è indipendente da X allora X è indipendente da Y e viceversa. Dimostrazione. Se Y è indipendente da X allora n ij che può essere riscritta nella forma = n i0, i = 1,..., s; j = 1,..., t. (1) n 0j N n ij = n 0j, i = 1,..., r; j = 1,..., c n i0 N ovvero, l indipendenza in distribuzione di Y da X implica l uguaglianza di tutte le distribuzioni condizionate di X dato Y alla distribuzione marginale di X. Quindi, tutte le distribuzioni condizionate di X dato Y sono tra di loro uguali. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 45 / 63
60 Esempio: indipendenza in distribuzione x1 x2 x3 x4 Sum y y y y Sum x1 x2 x3 x4 totale y y y y marginale Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 46 / 63
61 Frequenze attese Poniamo ˆn ij = n i0n 0j N. Se esiste indipendenza tra le due variabili, n ij = ˆn ij per qualsivoglia i e per qualsivoglia j, ovvero, le ˆn ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63
62 Frequenze attese Poniamo ˆn ij = n i0n 0j N. Se esiste indipendenza tra le due variabili, n ij = ˆn ij per qualsivoglia i e per qualsivoglia j, ovvero, le ˆn ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. Per questo motivo, le ˆn ij sono chiamate le frequenze attese (sotto l ipotesi di indipendenza in distribuzione). Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63
63 Frequenze attese Poniamo ˆn ij = n i0n 0j N. Se esiste indipendenza tra le due variabili, n ij = ˆn ij per qualsivoglia i e per qualsivoglia j, ovvero, le ˆn ij sono le frequenze che ci aspettiamo di trovare quando esiste indipendenza. Per questo motivo, le ˆn ij sono chiamate le frequenze attese (sotto l ipotesi di indipendenza in distribuzione). Come è ovvio, le frequenze attese ˆn ij ci mostrano anche come le frequenze marginali si comporterebbero nel caso di indipendenza in distribuzione. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 47 / 63
64 Esempio: indipendenza in distribuzione x1 x2 x3 x4 Sum y1 5= = y2 30= y y Sum Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 48 / 63
65 X 2 L indice di uso più comune per misurare la dipendenza in distribuzione si basa sul confronto tra frequenze attese e frequenze osservate. Si tratta del cosidetto X 2 di Pearson X 2 = s t i=1 j=1 (n ij ˆn ij ) 2 ˆn ij. X 2 è sempre maggiore o uguale a zero ed è uguale a 0 in caso di indipendenza (n ij = ˆn ij, per ogni i e per ogni j) e cresce man mano che le frequenze osservate si allontano da quelle attese. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 49 / 63
66 X 2 (cont) Si può dimostrare che X 2 N min(s 1, t 1). Il massimo è raggiunto quando la distribuzione doppia assume una struttura particolare, quella di una tabella di dipendenza perfetta. Si chiama tabella di dipendenza perfetta la tabella tale che ad ogni modalità del carattere X corrisponde una sola modalità del carattere Y. Quindi, si può costruire un indice normalizzato X 2 = X 2 N min(s 1, t 1) che assumerà valori tra 0 e 1: 0 X 2 1. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 50 / 63
67 Tabella di dipendenza perfetta x1 x2 x3 x4 Sum y y y y Sum Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 51 / 63
68 Indice Variabili statistiche bivariate Associazione tra variabili Relazioni tra variabili Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 52 / 63
69 Descrivere la dipendenza: diagramma di dispersione Il diagramma di dispersione è la rappresentazione delle coppie (x 1, y 1 ), (x 2, y 2 ),... (x N, y N ) ossia della distribuzione doppia disaggregata della variabile doppia (X, Y ). Altezza degli studenti Si dice che tra X e Y c è associazione positiva quando essi tendono a crescere insieme. Si dice che tra X e Y c è associazione negativa quando essi tendono decrescere insieme. Peso degli studenti Il diagramma di dispersione è uno strumento per esplorare graficamente la presenza di associazione positiva o negativa tra due caratteri. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 53 / 63
70 Misurare l associazione Il punto rosso è il punto di coordinate ( x, ȳ) Altezza degli studenti Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63
71 Misurare l associazione Il punto rosso è il punto di coordinate ( x, ȳ). Valori maggiori della media di X corrispondono a valori maggiori della media per Y. Valori inferiori alla media di X corrispondono a valori inferiori alla media per Y. Altezza degli studenti Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63
72 Misurare l associazione Il punto rosso è il punto di coordinate ( x, ȳ). Valori maggiori della media di X corrispondono a valori maggiori della media per Y. Valori inferiori alla media di X corrispondono a valori inferiori alla media per Y. più osservazioni cadono nelle regioni contrassegnate da un + rispetto a quante ne cadono nelle regioni contrassegnate da un - più è manifesta l associazione. Altezza degli studenti Peso degli studenti Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 54 / 63
73 La covarianza Questo suggerisce di partire dalla seguente quantità σ XY = 1 N N (x i x)(y i y) i=1 dove (x i, y i ), i = 1,..., N, sono i dati disponibili su due variabili numeriche, mentre x e y indicano le due medie aritmetiche. σ XY è detta covarianza. Il suo numeratore è detto codevianza, indicata con C XY. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 55 / 63
74 La covarianza (cont) 1. In presenza di una qualche forma di relazione monotona, più è forte la relazione tra le due variabili più ci aspettiamo che la covarianza diventi grande in valore assoluto. Infatti, più è forte la relazione, più grande dovrebbe essere il numero di addendi concordi nella somma. Inoltre, un certo numero di addendi sarà il prodotto di scarti dalle media grandi in valore assoluto. 2. In assenza di una qualche forma di relazione monotona tra le due variabili, viceversa, gli addendi saranno in parte positivi ed in parte negativi. Quindi in questi casi ci aspettiamo che la covarianza risulti nulla o comunque vicina allo zero. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 56 / 63
75 Covarianza: esempio Altezza degli studenti Voto di matura Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 57 / 63
76 Covarianza: esempio Altezza degli studenti Altezza degli studenti Voto di matura Peso degli studenti 1 N i x iy i = x = ȳ = 169 σ XY = N i x iy i = x = ȳ = 169 σ XY = Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 58 / 63
77 Covarianza: esempio Altezza degli studenti Altezza degli studenti (metri) Voto di matura 1 N i x iy i = x = ȳ = 169 σ XY = Peso degli studenti 1 N i x iy i = x = ȳ = 1.69 σ XY = Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 58 / 63
78 Grande quanto? L esempio su altezza e peso illustra uno dei problemi connessi con l utilizzo della covarianza. L interpretazione del segno non pone nessuno problema. La covarianza indica una associazione tendenzialmente positiva tra le due grandezze Ma quanto forte è questa dipendenza? Per rispondere alla domanda avremmo bisogno di conoscere un estremo superiore, possibilmente con una chiara interpretazione, per il valore assoluto della covarianza. Si dimostra che σ Y σ X σ XY σ Y σ X. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 59 / 63
79 Il coefficiente di correlazione (lineare) I limiti per la covarianza suggeriscono che per affermare se la covarianza è piccola o è grande dobbiamo confrontarla con il prodotto degli scarti quadratici medi. In altre parole, dobbiamo costruire l indice normalizzato, chiamato coefficiente di correlazione (lineare) r = σ XY σ X σ Y. Il coefficiente di correlazione è spesso indicato con la lettera greca ρ. Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 60 / 63
80 Interpretazione di r ora se ricordiamo che σ Y σ X σ XY σ Y σ X. dividendo tutti i membri di questa diseguaglianza per σ Y σ X si ottiene 1 r +1 = 1 perfetta dipendenza lineare negativa tra X e Y r < 0 associazione negativa tra X e Y r = 0 assenza di relazione monotona tra X e Y r > 0 associazione positiva tra X e Y = +1 perfetta dipendenza lineare positiva tra X e Y Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 61 / 63
81 Attenzione a cosa misura r y x I dati si dispingono sulla curva Y = X 4. la relazione è perfetta ma non lineare e non monotona. r = I dati si dispingono sulla curva Y = X 2. y la relazione è perfetta ma non lineare e non monotona. 0 r = Francesco Pauli & Nicola Torelli x Statistica descrittiva:variabili doppie 62 / 63
82 Morale r misura la correlazione lineare tra le variabili. Un valore di r inferiore in valore assoluto a 1 non implica necessariamente assenza di un legame perfetto tra le variabili, ma assenza di un legame lineare perfetto. Un valore di r uguale a zero non implica necessariamente assenza di relazione tra le variabili, ma assenza di relazione lineare (più in generale, monotona). Francesco Pauli & Nicola Torelli Statistica descrittiva:variabili doppie 63 / 63
Statistica. Relazioni tra variabili. Francesco Pauli A.A. 2015/2016
Relazioni tra variabili Francesco Pauli Statistica A.A. 2015/2016 Solo una variabile... Finora abbiamo trattato di come rappresentare graficamente, sintetizzare numericamente (con medie, mediane, varianze,
DettagliEsercitazioni di statistica
Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 22 ottobre 2014 Stefania Spina Esercitazioni
DettagliStatistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.
DettagliDISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:
DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a. 2007-2008 Prerequisiti Popolazione, unità, carattere Come nascono i dati: osservazione e sperimentazione Popolazione: reale e virtuale Classificazione
DettagliDistribuzioni secondo due caratteri. Rappresentazioni e prime sintesi
Distribuzioni secondo due caratteri Rappresentazioni e prime sintesi Rappresentazioni delle distribuzioni doppie Quando per ogni unità del collettivo rileviamo due caratteri otteniamo una Esempio. Ad alcuni
DettagliANALISI STATISTICHE BIVARIATE. Tabelle di contingenza
ANALISI STATISTICHE BIVARIATE Tabelle di contingenza 1 Analisi Statistica Bivariata Generalmente, lo studio quantitativo di un fenomeno di interesse si svolge rilevando contemporaneamente più caratteri
DettagliAnalisi congiunta di più fenomeni
Analisi congiunta di più fenomeni Dati relativi al disastro del Titanic: Morti Sopravvissuti Classe Sesso Età 1 a Uomini Bambini 0 5 Adulti 118 57 Donne Bambini 0 1 Adulti 4 140 2 a Uomini Bambini 0 11
DettagliDIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.
DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI Sinora abbiamo considerato l analisi di un unica variabile per volta Tuttavia, le rilevazioni su un unità statistica sono in generale
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliStatistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
DettagliStatistica descrittiva
Statistica descrittiva Dati statistici Francesco Pauli a.a. 2016/2017 Francesco Pauli Descrittiva a.a. 2016/2017 1 / 72 Tipi di dati Indice 1 Tipi di dati Osservazioni e caratteri (variabili) 2 Matrice
DettagliCorso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010 Statistica Esercitazione 4 12 maggio 2010 Dipendenza in media. Covarianza e
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 41 Outline 1 2 3 4 5 () Statistica 2 / 41 Misura del legame Data una variabile doppia (X, Y ), la
DettagliAssociazione tra caratteri quantitativi: gli indici di correlazione
Associazione tra caratteri quantitativi: gli indici di correlazione Per correlazione si intende una relazione tra due variabili tale che a ciascun valore della prima variabile corrisponda con una certa
DettagliSTATISTICA 1 ESERCITAZIONE 6
STATISTICA 1 ESERCITAZIONE 6 Dott. Giuseppe Pandolfo 5 Novembre 013 CONCENTRAZIONE Osservando l ammontare di un carattere quantitativo trasferibile su un collettivo statistico può essere interessante sapere
DettagliCorso di Psicometria Progredito
Corso di Psicometria Progredito 43 I principali test statistici per la verifica di ipotesi: Il test del χ 2 per tavole di contingenza a 2 vie Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia
DettagliCorso di Psicometria Progredito
Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliCapitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento
Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo
DettagliLEZIONI DI STATISTICA MEDICA
LEZIONI DI STATISTICA MEDICA A.A. 2010/2011 Lezione n.6 - Distribuzione bivariata Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona Esempio: distribuzione dell abitudine al
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 24 Outline 1 () Statistica 2 / 24 Outline 1 2 () Statistica 2 / 24 Outline 1 2 3 () Statistica 2 /
DettagliSTATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
DettagliStatistiche e relazioni
tatistiche descrittive per frequenze e misure Frequenze e misure Per le frequenze e le misure, molte di queste statistiche perdono senso. In compenso, esistono indici appropriati, inutilizzabili per i
DettagliEsercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa
Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza
DettagliPROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE
PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE 1. Distribuzione congiunta Ci sono situazioni in cui un esperimento casuale non si può modellare con una sola variabile casuale,
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliIndicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica
Indicatori di Posizione e di Variabilità Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indici Sintetici Consentono il passaggio da una pluralità
DettagliEsercitazione di Statistica Indici di associazione
Esercitazione di Statistica Indici di associazione 28/10/2015 La relazione tra caratteri Indipendenza logica Quando si suppone che tra due caratteri non ci sia alcuna relazione di causa-effetto. Indipendenza
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione
DettagliIstituzioni di Statistica e Statistica Economica
Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 1 A. I dati riportati nella seguente tabella si riferiscono
DettagliLa statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci
La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliLa regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Sintesi a cinque e misure di variabilità rispetto ad un centro Una catena di fast-food ha selezionato
DettagliLa variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliEsercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella
DettagliCapitolo uno STATISTICA DESCRITTIVA BIVARIATA
Capitolo uno STATISTICA DESCRITTIVA BIVARIATA La statistica unidimensionale si occupa di studiare una sola variabile statistica. La statistica bidimensionale o bivariata si occupa dello studio congiunto
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
DettagliCopyright Esselibri S.p.A.
70 3000 500 000 1500 1000 500 A B C D (a) Capitolo Terzo A B C D 500 1000 1500 000 5003000 3500 Fig. 1 - Ortogramma a colonne (a) e ortogramma a nastri (b) 4. MISURE DI ASSOCIAZIONE E DI COGRADUAZIONE
DettagliLa dipendenza. Antonello Maruotti
La dipendenza Antonello Maruotti Outline 1 Distribuzioni doppie 2 Medie e varianze condizionate 3 Indici di associazione Distribuzione doppia Definizione Una distribuzione doppia si ha quando su di uno
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliLA RAPPRESENTAZIONE E LA SINTESI DEI DATI
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 LA RAPPRESENTAZIONE E LA SINTESI
DettagliStatistica Descrittiva Soluzioni 3. Medie potenziate
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
DettagliLa media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
DettagliSTATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I
2. e 3. STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I 1. Le unità statistiche sono costituite dai singoli ristoranti, mentre la popolazione è costituita da tutte le unità del
DettagliFacoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003
Compito di Statistica del 7/1/2003 I giovani addetti all agricoltura in due diverse regioni sono stati classificati per età; la distribuzione di frequenze congiunta è data dalla tabella seguente Età in
DettagliA proposito di valutazione scolastica
A proposito di valutazione scolastica Livello scolare: 2 biennio Abilità interessate Identificare situazioni che richiedono di rilevare lo stesso carattere su una unità statistica formata da 2 elementi,
DettagliLezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
DettagliSCOPO DELL ANALISI DI CORRELAZIONE
CORRELAZIONE 1 SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2 diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica
DettagliProgrammazione con Foglio di Calcolo Cenni di Statistica Descrittiva
Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di
DettagliUNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.
Lezione 4 DISTRIBUZIONE DI FREQUENZA 1 DISTRIBUZIONE DI PROBABILITA Una variabile i cui differenti valori seguono una distribuzione di probabilità si chiama variabile aleatoria. Es:il numero di figli maschi
DettagliStatistica a.a Autovalutazione 1
Statistica a.a. 016-17 Autovalutazione 1 CORSO: Diritto per le Imprese e le Istituzioni ATTENZIONE: alle domande aperte è stato dato un possibile esempio di risposta, altre parole possono essere usate
DettagliLezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 26 Outline 1 2 3 4 () Statistica 2 / 26 Misura del legame Data una variabile doppia (X, Y ), la misura
DettagliLe medie. Antonello Maruotti
Le medie Antonello Maruotti Outline 1 Medie di posizione 2 Definizione Moda La moda di un collettivo, distributio secondo un carattere qualsiasi, è la modalità prevalente del carattere ossia quella a cui
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con
DettagliStatistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 7 home - indice In base agli arrotondamenti effettuati nei calcoli,
DettagliRappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica
Rappresentazioni Tabellari e Grafiche Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Vocabolario Essenziale Unità Statistica Unità elementare
DettagliStatistica Descrittiva III
Serie Bi-variate Statistica Descrittiva III Definizioni Serie statistiche bi-variate Rappresentazioni tabellari e grafiche Indici di posizione e di variabilità Dipendenza lineare: retta di regressione
DettagliTest per la correlazione lineare
10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche
DettagliESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo
ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo 1 La seguente tabella riporta le frequenze relative riguardanti gli studenti di un università e gli esiti dell esame da essi sostenuto. Qual è la percentuale
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 05-Deviazione standard e punteggi z vers. 1.1 (22 ottobre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca
DettagliSTATISTICA 1 ESERCITAZIONE 2
Frequenze STATISTICA 1 ESERCITAZIONE 2 Dott. Giuseppe Pandolfo 7 Ottobre 2013 RAPPRESENTAZIONE GRAFICA DEI DATI Le rappresentazioni grafiche dei dati consentono di cogliere la struttura e gli aspetti caratterizzanti
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliEsempio sulla media geometrica
Media geometrica La media geometrica di un insieme di n valori positivi x, x 2,, x n di un carattere quantitativo X è pari alla radice n-esima del prodotto dei singoli valori: x g n x x2 K x n Esempio
DettagliLa distribuzione delle frequenze. T 10 (s)
1 La distribuzione delle frequenze Si vuole misurare il periodo di oscillazione di un pendolo costituito da una sferetta metallica agganciata a un filo (fig. 1). A Figura 1 B Ricordiamo che il periodo
DettagliPremessa: la dipendenza in media
Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa
DettagliINDICATORI DI TENDENZA CENTRALE
INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla
DettagliSTATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA
STATISTICA: esercizi svolti sulla DIPEDEZA I MEDIA 1 1 LA DIPEDEZA I MEDIA 2 1 LA DIPEDEZA I MEDIA 1. La popolazione in migliaia di unità occupata in Piemonte nel 1985 per reddito annuo Y (migliaia di
DettagliCorso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio
Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 3 Esercizi: 5, 6 Docente: Alessandra Durio 1 Contenuti I quantili nel caso dei dati raccolti in classi
DettagliUna statistica è una quantità numerica il cui valore è determinato dai dati.
STATISTICHE CAMPIONARIE Quando i dati sono molti e illeggibili nella forma grezza, si rende necessario introdurre quantità numeriche che possano essere usate per sintetizzarli. Queste misure riassuntive
DettagliMISURE DI SINTESI 54
MISURE DI SINTESI 54 MISURE DESCRITTIVE DI SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ 30 0 µ Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità. 30 0 Le due
DettagliE la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano
Capitolo uno STATISTICA DESCRITTIVA BIVARIATA La statistica bidimensionale o bivariata si occupa dello studio del grado di dipendenza di due caratteri distinti della stessa unità statistica. E possibile,
Dettaglix i. Δ x i
ITCS "R. LUXEMBURG" BO- AS 011-01 5CL MATEMATICA- COGOME: OME: VERIFICA UD 1.A : STATISTICA DESCRITTIVA (ORE ) DATA: 1] Data la serie del numero di componenti dei nuclei familiari rilevati in un gruppo
DettagliProf. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale
INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla scala di misura dei dati in
DettagliCapitolo 3 Sintesi e descrizione dei dati quantitativi
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità
DettagliFENOMENI CASUALI. fenomeni casuali
PROBABILITÀ 94 FENOMENI CASUALI La probabilità si occupa di fenomeni casuali fenomeni di cui, a priori, non si sa quale esito si verificherà. Esempio Lancio di una moneta Testa o Croce? 95 DEFINIZIONI
DettagliIstituzioni di Statistica 1 Esercizi su tabelle di contingenza
Istituzioni di Statistica 1 Esercizi su tabelle di contingenza Esercizio 1 Per stimare la percentuale di fumatori nella popolazione italiana adulta viene intervistato un campione di 60 donne e uno di 40
DettagliStatistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015
Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015 a.a. 2015/16 Prof. Maria Francesca Romano mariafrancesca.romano@sssup.it Libri di riferimento per la statistica descrittiva
DettagliDISTRIBUZIONE NORMALE (1)
DISTRIBUZIONE NORMALE (1) Nella popolazione generale molte variabili presentano una distribuzione a forma di campana, bene caratterizzata da un punto di vista matematico, chiamata distribuzione normale
DettagliSintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)
Sintesi dei dati in una tabella Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici
DettagliIndice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione...
INSEGNAMENTO DI STATISTICA DEL TURISMO LEZIONE IX LE RELAZIONI TRA CARATTERI PROF. GIOVANNI DI TRAPANI Indice 1. Premessa.... 3 2. Le relazioni tra coppie di caratteri.... 4 3. L analisi della contingenza....
DettagliEsercitazioni di Statistica
Esercitazioni di Statistica Variabili casuali Prof. Livia De Giovanni statistica@dis.uniroma.it Esercizio Determinare se le funzioni seguenti: 0.0 se x < 0. se x = g(x) = 0.5 se x = 0.7 se x = 3 se x =
DettagliEsercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:
Istituzioni di Statistica 1 Esercizi su indici di posizione e di variabilità Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche: Durata (ore) Frequenza 0 100? 100 200
DettagliCorso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza
Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza CALCOLO DELLE PROBABILITÀ E STATISTICA ESAME DEL 16/06/2016 NOME: COGNOME: MATRICOLA: Esercizio 1 Cinque lettere
DettagliEsercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:
4. STATISTICA DESCRITTIVA ESERCIZI Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano: 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144
DettagliUNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:
UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi donatella.siepi@unipg.it tel: 075 5853525 4 LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati Rappresentazione
DettagliIndici di variabilità ed eterogeneità
Indici di variabilità ed eterogeneità Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di apoli Federico II Professore supplente, Università della Basilicata a.a. 011/01
DettagliLA STATISTICA
http://www.biostatistica.unich.it LA STATISTICA E l insieme dei metodi che consentono di raccogliere, ordinare, riassumere, presentare ed analizzare dati e informazioni, trarne valide conclusioni e prendere
DettagliEsplorazione dei dati
Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione
DettagliIndici di eterogeneità e di concentrazione
Indici di eterogeneità e di concentrazione Dario Malchiodi e Anna Maria Zanaboni 12 gennaio 2016 1 Indici di eterogeneità Nel caso di variabili qualitative nominali la varianza e gli altri indici da essa
DettagliINDICATORI DI TENDENZA CENTRALE
Psicometria (8 CFU) Corso di laurea triennale INDICATORI DI TENDENZA CENTRALE Torna alla pri ma pagina INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore
DettagliINDICATORI DI TENDENZA CENTRALE
INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo è indice che riassume o descrive i dati e dipende
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 1 Outline () Statistica 2 / 1 La curtosi La curtosi è la caratteristica della forma della distribuzione
DettagliUNITÀ DIDATTICA 5 LA RETTA
UNITÀ DIDATTICA 5 LA RETTA 5.1 - La retta Equazione generica della retta Dalle considerazioni emerse nel precedente capitolo abbiamo compreso come una funzione possa essere rappresentata da un insieme
Dettagli08/04/2014. Misure di posizione. INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA
Misure di posizione INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA 1 MODA E la scelta fatta dalla maggioranza della popolazione, lo stile che tutti seguono in
DettagliStatistica Sociale - modulo A
Statistica Sociale - modulo A e-mail: stella.iezzi@uniroma2.it in Excel in Excel e un evento (soggetto, entita, accadimento, caratteristica) osservato e registrato che si differenzia dall evento stesso,
DettagliStatistica descrittiva con fogli di calcolo. Stoianov, Ceccato
Statistica descrittiva con fogli di calcolo Stoianov, Ceccato Distribuzioni di probabilità empirica 1) OSSERVAZIONI campione X: N osservazioni {x 1,x 2 x N } scala di misura Y K livelli [y 1 y K ] Esempio:
Dettagli