Statistica bivariata: il problema della dipendenza

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Statistica bivariata: il problema della dipendenza"

Transcript

1 Statistica bivariata: il problema della dipendenza Antonio Punzo Università di Catania, Dipartimento di Economia e Impresa antoniopunzo@unictit Orario delle lezioni: Martedì, ore 16:00-18:00, Palazzo delle Scienze, Aula 8 Mercoledì, ore 14:00-16:00, Palazzo delle Scienze, Aula 8 Orario di ricevimento: Venerdì ore 11:00-13:00, Palazzo delle Scienze, 3 piano, Stanza 24 Testo di riferimento: Zenga, M (2007), Lezioni di Statistica Descrittiva, Giappichelli Editore, Torino Zenga, M (1996), Inferenza Statistica, Giappichelli Editore, Torino 1 / 74

2 Tabella a doppia entrata Si effettua la rilevazione contemporanea di due caratteri se si ritiene che fra essi vi possa essere una relazione Sia A un carattere (qualitativo o quantitativo) con c modalità (o classi di modalità) a 1,, a j,, a c e B un carattere (qualitativo o quantitativo) con r modalità (o classi di modalità) b 1,, b i,, b r Si può allora considerare la seguente tabella a doppia entrata A B a 1 a j a c Totale b 1 n 11 n 1j n 1c n 1 b i n i1 n ij n ic n i b r n r1 n rj n rc n r Totale n 1 n j n c N n ij = n ( ) b i, a j indica il numero di unità statistiche in cui vi è la contemporanea presenza di b i e di a j Per questo motivo n ij è detta frequenza congiunta c n i = n ij fornisce la frequenza assoluta n (b i ) della modalità b i del carattere B, j=1 indipendentemente dalle modalità di A r n j = n ij fornisce la frequenza assoluta n ( ) a j della modalità aj di A i=1 indipendentemente dalle modalità di B 2 / 74

3 In altre parole in una tabella a doppia entrata sono presenti: r c frequenze congiunte n ij ; r frequenze n i = n (b i ) del carattere B; c frequenze n j = n ( ) a j del carattere A Osservazione Le frequenze n i e n j fanno cioè riferimento ai due caratteri separatamente considerati Osservazione Valgono le seguenti relazioni: c r n ij = N, j=1 i=1 c c n j = n ( ) r r a j = N e n i = n (b i ) = N j=1 j=1 i=1 i=1 Le relazioni sopra scritte informano che in una tabella a doppia entrata vi è: una distribuzione bivariata caratterizzata dalle r c coppie di modalità ( b i, a j ) con frequenze congiunte n ij ; una distribuzione univariata (totale), relativa al carattere A, caratterizzata dalle c modalità a j con le frequenze n j = n ( a j ) ; una distribuzione univariata (totale) relativa alle r modalità b i di B con le rispettive frequenze n i = n (b i ) 3 / 74

4 Oltre alle tre sopra precisate distribuzioni totali (ciascuna con somma delle frequenze assolute pari a N) è possibile individuare, nella tabella a doppia entrata, altre c + r distribuzioni parziali univariate Un gruppo per ogni colonna della tabella a doppia entrata Il totale N è diviso fra c frequenze n 1,, n j,, n c Si possono cioè individuare c gruppi, uno per ogni colonna, le cui numerosità sono appunto i totali di colonna Con riferimento alle n j unità della colonna j-ma, tale totale parziale è ripartito nelle r caselle della colonna j-ma secondo le frequenze n 1j,, n ij,, n rj Queste frequenze fanno riferimento alla modalità a j (tenuta fissa) ed alle modalità b 1,, b i,, b r del carattere B Pertanto si ha una distribuzione parziale di B caratterizzata dal fatto che la modalità di A è sempre a j Questa distribuzione parziale di B si può denotare con {( bi, n ij ) ; i = 1, 2,, r } NB: Di distribuzioni parziali di questo tipo ve ne sono c, una per ogni colonna Un gruppo per ogni riga della tabella a doppia entrata Analogamente è possibile dividere il totale N fra le r frequenze marginali n 1,, n i,, n r Il totale parziale n i della riga i-ma è ripartito fra le c caselle della riga stessa secondo le frequenze n i1,, n ij,, n ic Queste frequenze fanno riferimento alla modalità b i (tenuta fissa) ed alle modalità a 1,, a j,, a c del carattere A Pertanto si ha una distribuzione parziale di A caratterizzata dal fatto che la modalità di B è sempre b i Questa distribuzione parziale si denota con {( aj, n ij ) ; j = 1, 2,, c } NB: Di distribuzioni parziali di questo tipo ve ne sono r, una per ogni modalità b i di B 4 / 74

5 Osservazione Data l ubicazione tabellare delle frequenze totali di riga (n i ) e di colonna ( n j ) le stesse sono anche denominate frequenze marginali In conclusione in una tabella a doppia entrata sono presenti: una distribuzione totale bivariata c + 1 distribuzioni del carattere B: una distribuzione totale (marginale) di numerosità N, c distribuzioni parziali (condizionate) di numerosità n 1,, n j,, n c, r + 1 distribuzioni del carattere A: una distribuzione totale (marginale) di numerosità N, r distribuzioni parziali (condizionate) di numerosità n 1,, n i,, n r 5 / 74

6 Frequenze relative nelle distribuzioni di frequenza bivariate Per ciascuna delle distribuzioni presenti in una tabella a doppia entrata è possibile calcolare le corrispettive frequenze relative Frequenze relative congiunte Interpretazione fr ( ) n ij b i, a j =, i = 1,, r e j = 1,, c (1) N La (1) indica l importanza numerica relativa della coppia ( b i, a j ) nella popolazione Frequenze relative marginali Per ciascuno dei due caratteri si possono calcolare le frequenze relative marginali: e Ovviamente: fr (b i ) = n i N, i = 1,, r fr ( ) n j a j =, j = 1,, c N r fr (b i ) = 1 i=1 e c fr ( ) a j = 1 j=1 6 / 74

7 Frequenze relative condizionate (o parziali) Per ogni distribuzione parziale (o condizionata) di ciascuno dei due caratteri si possono, infine, calcolare le corrispettive frequenze relative condizionate Considerando così la distribuzione parziale di B corrispondente alla modalità a j di A si può calcolare la frequenza relativa di b i che è fornita da fr ( b i a j ) = n ( b i, a j ) n ( a j ) = n ij n j La frequenza relativa fr ( b i a j ) indica l importanza relativa della modalità bi nell ambito della popolazione parziale di numerosità n ( a j ) = n j In modo analogo, considerando la distribuzione parziale di A corrispondente alla modalità b i di B, si può calcolare la frequenza relativa di a j che è fornita da fr ( a j b i ) = n ( b i, a j ) n (b i ) = n ij n i 7 / 74

8 Relazione fra le frequenze relative marginali e condizionate Proprietà La frequenza relativa marginale fr (b i ) è uguale alla media aritmetica ponderata delle frequenze relative condizionate fr ( b i a j ) con pesi pari alle numerosità n j delle distribuzioni parziali In formula: fr (b i ) = 1 N c fr ( ) b i a j n j, i = 1, 2,, r j=1 Dimostrazione La dimostrazione è immediata fr (b i ) = n i N = n i1 + + n ij + + n ic N = = n i1 n n ij n j + + n ic n c n 1 n j n c N Ma, n i1 = fr (b i a 1 ),, n ij = fr ( ) n b i a j,, ic = fr (b i a c) Tenuto conto di n 1 n j n c queste relazioni, fr (b i ) risulta effettivamente pari a fr (b i ) = fr (b i a 1 ) n fr ( ) b i a j n j + + fr (b i a c) n c N 8 / 74

9 Esercizio Si consideri nuovamente la seguente tabella statistica (distribuzione di unità): Numero d ordine (i) della famiglia Settore di attività economica del capofamiglia Titolo di godimento dell abitazione Titolo di studio del capofamiglia Numero di figli Reddito annuo lordo (euro) Età del capofamiglia (discretizzato) 1 Industria Affitto Diploma Industria Affitto Laurea Agricoltura Proprietà Licenza Media Industria Proprietà Diploma Altra Attività Proprietà Laurea Industria Affitto Licenza Media Industria Altro titolo Licenza Media Industria Affitto Diploma Agricoltura Proprietà Senza titolo Agricoltura Proprietà Licenza Media Industria Proprietà Licenza Media Altra Attività Affitto Laurea Altra Attività Altro titolo Diploma Agricoltura Affitto Laurea Altra Attività Proprietà Laurea Industria Proprietà Laurea Industria Affitto Laurea Altra Attività Affitto Licenza Elem Industria Proprietà Licenza Media Industria Proprietà Diploma / 74

10 Domanda Costruire le tabelle a doppia entrata delle frequenze assolute e relative della coppia di caratteri settore di attività e numero di figli e della coppia età e reddito La tabella a doppia entrata delle frequenze assolute dei caratteri settore di attività e numero di figli è la seguente: Settore di attività A I AA Totale Figli Totale Analogamente, la tabella a doppia entrata delle frequenze relative è: Settore di attività A I AA Totale Figli Totale / 74

11 La tabella a doppia entrata delle frequenze assolute dei caratteri età e reddito è la seguente: Età del capofamiglia Totale Reddito Totale Infine la tabella a doppia entrata delle frequenze relative è: Età del capofamiglia Totale Reddito Totale / 74

12 Differenza tra indipendenza distributiva ed indipendenza in media 12 / 74

13 Indipendenza distributiva (o connessione nulla) Definizione Il carattere B è indipendente in distribuzione dal carattere A se per ogni distribuzione parziale di B le frequenze relative condizionate sono uguali a quelle della distribuzione totale (di B) In formula, B è indipendente in distribuzione da A se per ogni (colonna) j = 1,, c si ha n ( ) b i, a j n ( ) = n ij a j n j }{{} frequenza relativa ) condizionata fr (b i a j = n i N = n (b i ) N }{{} frequenza relativa marginale fr (b i ) per i = 1,, r, (2) cioé se le c distribuzioni condizionate del carattere B sono identiche ( simili ) a quella marginale Osservazione Dalla (2) si ricava che l indipendenza distributiva è una relazione simmetrica, cioè se B è indipendente da A, allora anche A è indipendente da B e viceversa Infatti n ( ) b i, a j n ( ) n ( ) aj a j n (b i ) = n (b i ) N n ( ) aj n ( ) b i, a j = n ( ) a j n (b i ) n (b i ) N, ovvero ricordando il significato dei due ultimi rapporti fr ( a j b i ) = fr ( aj ), per ogni i e per ogni j (3) La (3) indica, appunto, l indipendenza distributiva di A da B 13 / 74

14 Esempio in cui B è indipendente in distribuzione da A Si rileva che: Si rileva altresì che: Interpretazione A B a 1 a 2 a 3 Totale b b b Totale Table: Distribuzione bivariata 3 3 con indipendenza di B da A fr (b 1 a 1 ) = 5 10 = 0, 5 fr (b 1 a 2 ) = = 0, 5 fr (b 1 a 3 ) = = 0, 5 fr (b 1 ) = 30 = 0, 5 60 fr (b 2 a 1 ) = fr (b 2 a 2 ) = fr (b 2 a 3 ) = fr (b 2 ) = 0, 3; fr (b 3 a 1 ) = fr (b 3 a 2 ) = fr (b 3 a 3 ) = fr (b 3 ) = 0, 2 L importanza numerica relativa delle modalità di B è la stessa nelle tre distribuzioni parziali e nella distribuzione totale Ciò significa che il carattere A non ha nessuna influenza su come si distribuiscono le unità statistiche fra le modalità di B 14 / 74

15 È molto utile in alcuni contesti presentare la condizione di indipendenza distributiva nel modo che verrà ora ricavato Moltiplicando prima e seconda parte della (2) per n ( ) a j si ottiene: n ( ) b i, a j da cui Interpretazione n ( a ) j n ( b i, a j ) = n (b i ) n ( a j ) N n ( a ) n (b j = i ) N n ( ) a j (4) j = 1, 2,, c e i = 1, 2,, r (5) La (5) informa che in caso di indipendenza distributiva le frequenze congiunte si possono ottenere dal prodotto delle frequenze marginali diviso per N In altre parole, nell ipotesi di indipendenza distributiva, la conoscenza delle frequenze marginali è sufficiente per avere quelle congiunte Infatti, dividendo prima e seconda parte della (5) per N si ottiene n ( ) b i, a j = n (b i ) n ( ) a j (6) N N } N {{ } fr(b i,a j ) }{{} fr(b i ) }{{} fr(a j ) Interpretazione La (6) informa che nell ipotesi di indipendenza distributiva le frequenze relative congiunte si fattorizzano nel prodotto delle corrispettive frequenze marginali 15 / 74

16 Notazione Per distinguere le frequenze marginali osservate n ij da quelle che si dovrebbero avere nell ipotesi di indipendenza distributiva, queste ultime verranno indicate con n ij, essendo, per la (5) n ij = n i n j (7) N Utilizzando la (7) è possibile ricavare le frequenze teoriche nell ipotesi di indipendenza che possono essere collocate nella cosiddetta tabella delle frequenze teoriche : A B a 1 a j a c Totale b 1 n 11 n 1j n 1c n 1 b i n i1 n ij n ic n i b r n r1 n rj n rc n r Totale n 1 n j n c N Table: Tabella a doppia entrata delle frequenze teoriche in caso di indipendenza distributiva 16 / 74

17 Proprietà: Le frequenze marginali teoriche sono uguali a quelle effettive Enunciato La proprietà afferma che: n i = n i, per ogni i = 1,, r e che n j = n j, per ogni j = 1,, c Dimostrazione Sappiamo che Sappiamo anche che per la (5) Tenuto conto di ciò n i = c j=1 n i n j N n i = c n ij j=1 n ij = n i n j N = n i N In modo analogo si dimostra che n j = n j c j=1 n j = n i N N = n i 17 / 74

18 Massima dipendenza (Connessione massima) Oltre alla situazione di indipendenza distributiva riveste una certa importanza la situazione opposta di massima dipendenza (connessione massima) Il concetto di massima dipendenza del carattere B dal carattere A viene comunemente inteso nel senso che se di una unità statistica è nota la modalità di A allora è univocamente determinata la sua modalità di B A B a 1 a 2 a 3 a 4 Tot b b b Tot Table: Massima dipendenza di B da A La tabella mostra che partendo da una qualsiasi modalità di A si ottiene una sola modalità di B: (a 1 b 2 ) (a 2 b 1 ) (a 3 b 3 ) (a 4 b 2 ) La situazione ora precisata è quella di massima dipendenza unilaterale di B da A: se si parte da una modalità di B non sempre si ottiene una sola modalità di A: (b 1 a 2 ) (b 2 a 1, a 4 ) (b 3 a 3 ) 18 / 74

19 Nella massima dipendenza solo di B da A in ogni colonna le frequenze sono concentrate in una sola casella e vi è almeno una riga con frequenze concentrate in più di una casella 19 / 74 Si ha la massima dipendenza bilaterale se si ha contemporaneamente la massima dipendenza unilaterale di B da A e la massima dipendenza unilaterale di A da B In altre parole si ha la massima dipendenza bilaterale se essendo nota la modalità di A è univocamente determinata la modalità di B e viceversa A B a 1 a 2 a 3 a 4 Tot b b b b Tot Table: Massima dipendenza bilaterale La tabella mostra che partendo da una qualsiasi modalità di A si ottiene una sola modalità di B e viceversa: (a 1 b 2 ) (a 2 b 3 ) (a 3 b 1 ) (a 4 b 4 ) Si può così affermare che si ha la massima dipendenza bilaterale se vi è corrispondenza biunivoca fra le modalità dei due caratteri Osservazione pratica Per avere la massima dipendenza bilaterale bisogna che r = c e che per ogni riga e per ogni colonna le frequenze siano concentrate in una sola casella

20 Indici di dipendenza distributiva (o di connessione) Contingenze assolute Lo studio della eventuale relazione esistente fra due caratteri, indipendentemente dal fatto che essi siano qualitativi o quantitativi, può essere agevolmente basato sul confronto fra le frequenze effettive n ij e le frequenze teoriche n ij dell ipotesi di indipendenza distributiva Si hanno così le contingenze assolute C ij fornite da C ij = n ij n ij, i = 1,, r e j = 1,, c Osservazione 1 La connessione aumenta mano a mano che aumentano le divergenze fra n ij e n ij Se n ij = n ij e quindi C ij = 0, per ogni casella, allora vi è indipendenza distributiva o connessione nulla; n ij n ij = C ij 0 per almeno una casella, allora vi è una certa connessione fra i due caratteri Il segno delle contingenze fornisce inoltre utili informazioni; se C ij > 0 vi è attrazione tra le modalità x i e y j ; C ij < 0 vi è repulsione tra le modalità x i e y j 20 / 74

21 Osservazione 2 Essendo n i = n i e n j = n j risulta che la somma delle contingenze è uguale a zero per ogni riga e per ogni colonna Contingenze relative Solitamente il grado di divergenza fra frequenza effettiva n ij e frequenza teorica n ij si valuta rapportando la contingenza ( n ij n ij ) al valore della frequenza teorica: si hanno così le contingenze relative ρ ij = n ij n ij n ij, i = 1,, r e j = 1,, c, che non sono altro che delle semplici variazioni relative Per avere una sintesi della connessione esistente fra i due caratteri si possono calcolare opportune medie dei moduli delle contingenze relative L indice di cui ci occuperemo nel corso è quello di Karl Pearson 21 / 74

22 L indice quadratico di dipendenza distributiva L indice (quadratico) di dipendenza distributiva (o di connessione) di Pearson è dato da: M 2 ( ρ ) = 1 c r ( ) ρ ij 2 nij = 1 c r 2 Cij n ij N N n j=1 i=1 j=1 i=1 ij = 1 c r C 2 ij = 1 ( ) c r 2 nij n ij N n j=1 i=1 ij N n j=1 i=1 ij Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri è opportuno ricorrere ad un indice normalizzato Un indice che possiede tale caratteristica viene ottenuto dividendo M 2 ( ρ ) per il suo massimo valore assumibile Il valore massimo assumibile da M 2 ( ρ ) corrisponde al caso di massima dipendenza distributiva tra i due caratteri e, in tale caso, si dimostra che max {M 2 ( ρ )} = k 1 con k = min(r, c) Otteniamo quindi l indice normalizzato di dipendenza distributiva (o di connessione) di Cramer: C M 2 ( ρ ) = max {M 2 ( ρ )} = M 2( ρ ) k 1 L indice appena introdotto gode delle seguenti proprietà: 0 C 1; C = 0 se e solo se tra i caratteri in considerazione vi è indipendenza distributiva; C = 1 se e solo se tra i caratteri vi è massima dipendenza distributiva 22 / 74

23 Test χ 2 di indipendenza Si consideri ora il problema dal punto di vista non descrittivo ma inferenziale Si formulino le ipotesi: H 0 : A B contro H 1 : A B Per la verifica dell ipotesi H 0 si ricorre alla statistica test ( ) r c 2 X 2 nij n ij = n i=1 j=1 ij n χ 2 (r 1)(c 1) Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test X 2 è asintotica ed è calcolata sotto H 0 La regione critica di livello α del test può essere così definita come { } C = X 2 : X 2 > c dove c = χ 2 [(r 1)(c 1);1 α] è il quantile di ordine 1 α di una χ 2 (r 1)(c 1) 23 / 74

24 Esercizio 1 I dati relativi alla popolazione occupata per grande ripartizione geografica e per settore di attività economica sono riportati nella seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) Industria (I) Altre attività (AA) Totale Determinare la distribuzione bivariata di frequenze relative; 2 determinare le distribuzioni condizionate di frequenze relative; 3 calcolare le contingenze assolute e fornire la loro interpretazione; 4 calcolare le contingenze relative e fornire la loro interpretazione; 5 valutare il grado di dipendenza distributiva tra i due caratteri mediante un opportuno indice 6 valutare, al livello di significatività del 5%, se si può ritenere che vi sia indipendenza distributiva tra i due caratteri 24 / 74

25 Esercizio 1 - quesito 1 Le frequenze congiunte relative sono ricavabili dalle frequenze congiunte attraverso la relazione: f ij = n ij per i = 1, 2, 3 e j = 1, 2 n Nel nostro caso abbiamo ad esempio che: Interpretazione fr(a, N) = n 11 n = = Il 332% della popolazione occupata risiede al nord ed è impiegata nel settore agricolo Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte relative si ottiene la seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) Industria (I) Altre attività (AA) Totale / 74

26 Interpretazione delle frequenze congiunte relative fr(i, N) = indica che il 1965% della popolazione occupata risiede al nord ed è impiegata nel settore industriale; fr(i, CS) = indica che il 125% della popolazione occupata risiede al centro sud ed è impiegata nel settore industriale; fr(aa, N) = indica che il 2712% della popolazione occupata risiede al nord ed è impiegata nelle altre attività; fr(aa, CS) = indica che il 3147% della popolazione occupata risiede al centro sud ed è impiegata nelle altre attività; Nell ultima riga e colonna della tabella precedente sono riportate le frequenze marginali relative rispettivamente dei caratteri Ripartizione Geografica e Settore di Attività Economica 26 / 74

27 Interpretazione delle frequenze marginali relative Le frequenze marginali sono state calcolate mediante: f j = n j n j = 1, 2 e f i = n i n i = 1, 2, 3 Le frequenze marginali relative del carattere Ripartizione Geografica forniscono le seguenti informazioni: fr(n) = indica che il 5009% della popolazione occupata risiede al nord fr(cs) = indica che il 4991% della popolazione occupata risiede al centro sud Le frequenze marginali relative del carattere Settore di Attività Economica forniscono invece le seguenti informazioni: fr(a) = indica che il 926% della popolazione occupata è impiegata nel settore agricolo fr(i) = indica che il 3215% della popolazione occupata è impiegata nel settore industriale fr(aa) = indica che il 5859% della popolazione occupata è impiegata in altre attività 27 / 74

28 Esercizio 1 - quesito 2 Fissiamo innanzitutto l attenzione sulla distribuzione parziale associata alla modalità N del carattere Ripartizione Geografica In tal caso le frequenze relative condizionate sono date da: fr(a N) = n 11 = 698 n = fr(i N) = n 21 n 1 = = fr(aa N) = n 31 n 1 = = In modo del tutto analogo possono essere ricavate le frequenze relative del carattere Settore di Attività Economica condizionate alla modalità CS del carattere Ripartizione Geografica Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) Industria (I) Altre attività (AA) / 74

29 L ultima colonna della tabella precedente contiene le frequenze relative marginali del carattere Settore di Attività Economica Interpretazione delle frequenze relative condizionate di colonna Le frequenze relative condizionate del carattere Settore di Attività Economica danno le seguenti informazioni: fr(a N) = indica che il 664% della popolazione occupata residente al nord è impiegata nel settore agricolo; fr(i N) = indica che il 3923% della popolazione occupata residente al nord è impiegata nel settore industriale; fr(aa N) = indica che il 5413% della popolazione occupata residente al nord è impiegata in altre attività; fr(a CS) = indica che il 1191% della popolazione occupata residente al centro sud è impiegata nel settore agricolo; fr(i CS) = indica che il 2504% della popolazione occupata residente al centro sud è impiegata nel settore industriale; fr(aa CS) = indica che il 6305% della popolazione occupata residente al centro sud è impiegata in altre attività 29 / 74

30 Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere Ripartizione Geografica, fissiamo innanzitutto l attenzione sulla distribuzione parziale associata alla modalità A del carattere Settore di attività Economica In tal caso le frequenze relative condizionate sono date da: fr(n A) = n 11 n 1 = = fr(cs A) = n 12 n 1 = = In modo del tutto analogo possono essere ricavate le frequenze relative del carattere Ripartizione Geografica condizionate alla modalità I e AA del carattere Settore di attività Economica Ripartiz Nord (N) Centro-Sud (CS) Attività Agricoltura (A) Industria (I) Altre attività (AA) Totale / 74

31 L ultima riga della tabella sopra riportata contiene le frequenze relative marginali del carattere Ripartizione Geografica Interpretazione delle frequenze relative condizionate di riga Le frequenze relative condizionate del carattere Ripartizione geografica forniscono le seguenti informazioni: fr(n A) = indica che il 3587% della popolazione occupata impiegata nel settore agricolo risiede al nord; fr(cs A) = indica che il 6413% della popolazione occupata impiegata nel settore agricolo risiede al centro sud; fr(n I) = indica che il 6612% della popolazione occupata impiegata nel settore industriale risiede al nord; fr(cs I) = indica che il 3888% della popolazione occupata impiegata nel settore industriale risiede al centro sud; fr(n AA) = indica che il 4629% della popolazione occupata impiegata in altri settori risiede al nord; fr(cs AA) = indica che il 5371% della popolazione occupata impiegata in altri settori risiede al centro sud 31 / 74

32 Esercizio 1 - quesito 3 La tabella delle frequenze osservate n ij era: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) Industria (I) Altre attività (AA) Totale La tabella delle frequenze teoriche n ij, in caso di indipendenza distributiva, risulta: Osservazione Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) Industria (I) Altre attività (AA) Totale Si osservi, come detto in precedenza, che le distribuzioni marginali della tabella delle frequenze teoriche n ij coincidono con quelle della tabella delle frequenze effettive n ij 32 / 74

33 Le contingenze assolute C ij sono per definizione costituite dalla differenza tra la frequenza effettiva n ij e quella teorica nel caso di indipendenza distributiva n ij : C ij = n ij n ij i = 1, 2, 3 e j = 1, 2 Il loro calcolo è riportato nella seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) Industria (I) Altre attività (AA) Totale Osservazione Si osservi, come detto in precedenza, che sia i totali di riga che di colonna delle contingenze assolute sono nulli 33 / 74

34 Informazioni desumibili dalle contingenze assolute C 11 = : la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e N del carattere Ripartizione Geografica, è minore rispetto a quella teorica in ipotesi di indipendenza distributiva Tra le modalità A del carattere Settore di attività Economica, e N del carattere Ripartizione Geografica vi è repulsione in quanto la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; C 12 = : la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e CS del carattere Ripartizione Geografica, è maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva Tra le modalità A del carattere Settore di Attività Economica e CS del carattere Ripartizione Geografica vi è attrazione in quanto la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva 34 / 74

35 Esercizio 1 - quesito 4 Il calcolo delle contingenze relative ρ ij è riportato nella seguente tabella: Ripartiz Nord (N) Centro-Sud (CS) Attività Agricoltura (A) Industria (I) Altre attività (AA) Informazioni desumibili dalle contingenze relative ρ 11 = 02839: la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e N del carattere Ripartizione Geografica, è inferiore del 2839% rispetto a quella teorica d indipendenza distributiva ρ 12 = 02839: la frequenza congiunta effettiva associata alle modalità A del carattere Settore di Attività Economica e CS del carattere Ripartizione Geografica, supera del 2839% quella teorica d indipendenza distributiva 35 / 74

36 Esercizio 1 - quesito 5 Nella seguente tabella sono riportati i valori dei rapporti C 2 ij / n ij, utili per il calcolo dell indice di dipendenza distributiva di K Pearson Ripartiz Nord (N) Centro-Sud (CS) Attività Totale Agricoltura (A) Industria (I) Altre attività (AA) Totale L indice quadratico di dipendenza distributiva di KPearson risulta: M 2 ( ρ ) = C 2 ij = = n n i=1 j=1 ij Interpretazione del risultato Il valore appena individuato informa che, in media quadratica, le frequenze effettive n ij differiscono da quelle teoriche n ij di / 74

37 Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri, è opportuno ricorrere all indice normalizzato di dipendenza distributiva Ricordiamo che r = 3 ed c = 2, da cui si ricava k = min {r, c} = 2 Nel nostro caso abbiamo quindi: C = M 2 ( ρ ) max {M 2 ( ρ )} = = = k 1 1 Lettura del risultato L indice normalizzato di dipendenza distributiva è pari al 1629% del suo massimo valore teorico (che corrisponde al caso di massima dipendenza distributiva) Si può quindi concludere che tra i due caratteri Settore di Attività Economica e Ripartizione geografica vi è un basso grado di dipendenza distributiva 37 / 74

38 Esercizio 1 - quesito 6 Per avere un idea se il valore trovato dell indice sia statisticamente sintomo di indipendenza o meno tra i fenomeni Settore di Attività Economica e Ripartizione geografica, possiamo fare ricorso al test χ 2 di indipendenza Dalla tabella ricavata al quesito 5 si è visto che il valore osservato della statistica test è pari a X 2 = Al livello del 5% (α = 005), il valore critico c che definisce la regione critica C del test risulta c = χ 2 [2;095] = Essendo X 2 = > c = 59914, siamo portati a rifiutare l ipotesi nulla di indipendenza al livello del 5% p-value del test di indipendenza Si noti che, nell esempio in esame, tale conclusione è valida indipendentemente dal livello di significatività scelto dal momento che il p-value associato al test è praticamente nullo 38 / 74

39 Indipendenza in media Sia Y un carattere quantitativo che assume i valori y 1,, y i,, y r rispettivamente con frequenze n 1,, n i,, n r Sia A un carattere qualitativo o quantitativo che assume i valori (o classi di valori) a 1,, a j,, a c rispettivamente con frequenze n 1,, n j,, n c La popolazione totale di N unità si può così considerare divisa in c popolazioni parziali (gruppi) una per ogni modalità a j di A di numerosità rispettivamente n 1,, n j,, n c A Gruppo 1 Gruppo j Gruppo c Y a 1 a j a c Totale y 1 n 11 n 1j n 1c n 1 y i n i1 n ij n ic n i y r n r1 n rj n rc n r Totale n 1 n j n c N Per quanto riguarda il carattere Y, per ciascun gruppo si può calcolare la media e la varianza σ 2 j = 1 n j y j = 1 n j r i=1 r y i n ij i=1 ( y i y j ) 2 nij 39 / 74

40 Sempre per quanto riguarda il carattere Y se ne può calcolare la media aritmetica (totale) y = 1 r y i n i N i=1 e la varianza (totale) σ 2 = 1 r (y i y) 2 n i N i=1 Con lo studio della indipendenza in media si vuol sapere se al mutare delle modalità di A la media aritmetica del carattere Y varia o meno Definizione Il carattere (quantitativo) Y è indipendente in media dal carattere A se: y 1 = = y j = = y c = y 40 / 74

41 Esempio - Indipendenza in media ma non indipendenza in distribuzione A Y a 1 a 2 a 3 a 4 Tot (n i ) Tot ( ) n j Table: Distribuzione bivariata secondo un carattere quantitativo Y ed uno qualitativo A La media totale e le medie parziali si ottengono agevolmente con il seguente prospetto y i y i n i1 y i n i2 y i n i3 y i n i4 y i n i Tot Dal prospetto si ricavano le seguenti medie per Y : y 1 = = 11 y 2 = 88 8 = 11 y 3 = 88 8 = 11 y 4 = = 11 e y = = 11 Risultato 1 Le medie parziali sono fra loro uguali e sono, conseguentemente, uguali alla media totale Il carattere Y è quindi indipendente in media dal carattere A 41 / 74

42 Nel prospetto che segue sono riportate le frequenze relative (percentuali) delle modalità di Y nelle quattro distribuzioni parziali e nella distribuzione totale y i a 1 a 2 a 3 a 4 Tot 4 16, 67 0, 00 37, 50 25, 00 20, , 33 50, 00 12, 50 25, 00 30, , 33 50, 00 12, 50 25, 00 30, , 67 0, 00 37, 50 25, 00 20, 00 Tot 100, , , , , 00 Il prospetto mostra che al mutare delle modalità di A le frequenze relative (percentuali) di Y variano Ciò significa che vi è una certa dipendenza di Y da A Nonostante ciò, le medie parziali di Y non variano Risultato 2 In altre parole vi può essere indipendenza in media di Y da A in presenza di una certa connessione Teorema Indipendenza in media Indipendenza distributiva Dimostrazione L esempio appena illustrato dimostra il teorema 42 / 74

43 Esempio - Sia indipendenza in media che indipendenza in distribuzione y i a 1 a 2 a 3 a 4 Totale Totale Table: Distribuzione congiunta di N = 100 unità secondo i caratteri Y ed A Dalla tabella si ricavano le medie parziali (medie di gruppo) y 1 = y 2 = y 3 = y 4 = e la media totale ( ) = ( ) = = ( ) = ( ) = = ( ) = ( ) = = ( ) = ( ) = = 8 y = ( ) = ( ) = = 8 43 / 74

44 Risultato 1 L uguaglianza fra le medie parziali e la media totale di Y indicano che il carattere quantitativo Y è indipendente in media da A Il prospetto che segue riporta le frequenze relative (percentuali) delle quattro modalità di Y nelle quattro distribuzioni parziali e nella distribuzione totale y i a 1 a 2 a 3 a 4 Totale 4 40, 00 40, 00 40, 00 40, 00 40, , 00 30, 00 30, 00 30, 00 30, , 00 20, 00 20, 00 20, 00 20, , 00 10, 00 10, 00 10, 00 10, 00 Totale 100, , , , , 00 Risultato 2 Dal prospetto si desume che al mutare delle modalità di A le frequenze relative (percentuali) di Y non variano Ciò significa che fra i due caratteri vi è indipendenza distributiva 44 / 74

45 Teorema - L indipendenza distributiva implica l indipendenza in media Quanto riscontrato nei due esempi precedenti trova spiegazione nel seguente teorema Enunciato Indipendenza distributiva Indipendenza in media Dimostrazione Bisogna dimostrare che dall ipotesi di indipendenza distributiva n ij = n j n i, i = 1, 2,, r e j = 1, 2,, c, N deriva l indipendenza in media, ovvero deriva l uguaglianza La media parziale y j è fornita da y j = y, j = 1, 2,, c y j = 1 n j r y i n ij Per l ipotesi di indipendenza distributiva n ij = n j n i, consegue che N i=1 y j = 1 n j r i=1 y i n j n i N = n j n j N r y i n i = 1 N i=1 r y i n i = y i=1 45 / 74

46 Il rapporto di correlazione di Karl Pearson Nei casi in cui al mutare delle modalità di A le medie parziali variano vuol dire che non vi è indipendenza in media ovvero vi è una certa dipendenza in media di Y da A Per misurare il grado della dipendenza in media Karl Pearson (sempre lui) propose il seguente rapporto η 2 Y A = = = Devianza fra le medie = D F Devianza totale D T Devianza fra le medie Devianza nei gruppi + Devianza fra le medie c ( 2 y j y) n j j=1 { c r } ( ) 2 c ( ) 2 y i y j nij + y j y n j j=1 i=1 j=1 Il rapporto di correlazione ηy 2, da non confondere con il coefficiente di correlazione A che vedremo in seguito, ha la stuttura di un rapporto di composizione ed assume valori nell intervallo 0 ηy 2 A 1 46 / 74

47 In particolare: c ( 2 ηy 2 = 0 se e solo se la devianza fra le medie y A j y) n j è uguale a j=1 zero Ciò accade solo se per ogni j si ha y j = y, ovvero il rapporto di correlazione è nullo solo se vi è indipendenza in media η 2 Y A = 1 solo se D F = D T, ovvero se D N = 0 In formula { c r } ( ) 2 y i y j nij = 0 j=1 } i=1 {{ } D j solo se le singole devianze nei gruppi D j sono nulle ovvero se per ogni j r ( ) 2 D j = y i y j nij = 0, i=1 ovvero se in ogni distribuzione parziale di Y la variabile assume un solo valore (in tal caso non è una variabile, piuttosto una quantità deterministica) che è anche uguale a y j In altre parole ciò significa che per ogni colonna della tabella a doppia entrata (per ogni a j ) la Y assume un solo valore Dal punto di vista dei numeri nella tabella a doppia entrata, se vi è la massima dipendenza in media di Y da A, per ogni colonna la frequenza n j si concentra in una sola casella 47 / 74

48 ANOVA (ad un criterio di classificazione) 1/2 Siano dati c 2 gruppi in cui il fenomeno di interesse Y è distribuito normalmente Si supponga che i gruppi siano caratterizzati da una comune, ma incognita, varianza σ 2 Si ha quindi: ( Y gruppo 1 N µ 1, σ 2) (,, Y gruppo j N µ j, σ 2) (,, Y gruppo c N µ c, σ 2) Obiettivo Si vuol verificare l ipotesi nulla H 0 : µ 1 = = µ j = = µ c = µ contro H 1 : c i=1 j=1 c µ i µ j > 0 In altre parole, l alternativa afferma che vi sono almeno due medie non uguali Come l ANOVA persegue tale obiettivo? L analisi della varianza (ANOVA) utilizza la scomposizione della devianza totale (varianza totale) in devienza fra i gruppi (varianza fra i gruppi) e devianza nei gruppi (varianza nei gruppi) La varianza fra i gruppi viene rapportata alla varianza nei gruppi: quanto più è elevata la varianza fra i gruppi, nei confronti di quella nei gruppi, tanto più si mette in discussione la validità dell ipotesi H 0 Osservazione Sia sotto H 0 che sotto H 1 si suppone che le varianze dei c gruppi siano uguali al valore ignoto σ 2 48 / 74

49 ANOVA (ad un criterio di classificazione) 2/2 Per confrontare le ipotesi indicate si estrae da ciascuna popolazione un campione di numerosità n j, j = 1,, c Da ciascun campione si calcolano le medie Y j e le varianze corrette S 2 j, essendo Y j = 1 n j r Y i n ij e S 2 1 j = n i=1 j 1 r i=1 Per la verifica dell ipotesi H 0 si ricorre alla statistica test V = D F / (c 1) n F[(c 1),(n c)], D N / (n c) ( Y i Y j ) 2 nij, j = 1,, c dove F [(c 1),(n c)] denota un distribuzione di Fisher con (c 1) e (n c) gradi di libertà Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test V è asintotica ed è calcolata sotto H 0 La regione critica di livello α del test può essere così definita come { } C = V : V > c, dove c = F [(c 1),(n c);1 α] è il quantile di ordine 1 α di una F (c 1),(n c) 49 / 74

50 Esempio - Massima dipendenza in media di Y da A y i a 1 a 2 a 3 a 4 Totale Totale Table: Distribuzione bivariata con la massima dipendenza di Y da A Le medie parziali y j sono pari a: La media totale è pari a y 1 = y 2 = y 3 = y 4 = = 12 = 8 = 4 = 8 y = = = 8 50 / 74

51 La devianza fra le medie risulta La devianza totale D F = (12 8) (8 8) (4 8) (8 8) 2 1 = = 96 3 (y i y) 2 n i, calcolata sulla colonna marginale, risulta i=1 D T = (4 8) (8 8) (12 8) 2 3 = = 96 La devianza nei gruppi 4 3 j=1 i=1 ha D j = 0 Ad esempio D 1 = ( y i y j ) 2 nij è nulla in quanto per ogni j = 1, 2, 3, 4 si 3 (y i y 1 ) 2 n i1 = (4 12) (8 12) (12 12) 2 3 = 0 i=1 Pertanto η 2 Y A = = 1 51 / 74

52 Esempio di riepilogo Nelle applicazioni reali quasi mai si hanno i casi estremi D F = 0 o D N = 0 Salario Operaio Impiegato Dirigente Totale Totale Table: Dipendenti di un azienda classificati secondo il salario (migliaia di euro all anno) e la posizione Quesito Si calcoli il grado di dipendenza in media dei salari (Y ) rispetto alla posizione professionale (A) 52 / 74

53 Il prospetto che segue è utile per il calcolo dei salari medi Salari (valori centrali) Operaio Impiegato Dirigente Totale y i n i1 y i n i1 n i2 y i n i2 n i3 y i n i3 n i y i n i Totale Salario medio 21, 85 30, 67 56, 33 27, 39 I salari medi variano notevolmente al mutare della posizione professionale La varianza fra le medie è fornita da σ 2 F = = 1 66 D F = 1 66 } + (56, 33 27, 39) , 84 = 98, { (21, 85 27, 39) (30, 67 27, 39) = 1 {1289, , , 14} 66 La devianza fra le medie D F è pari a 6507, 84 Lo scarto quadratico medio è pari a σ F = 98, 61 = 9, 93 In altre parole i salari medi parziali differiscono (in media quadratica) da quello medio totale di circa 9, 93 migliaia di euro 53 / 74

54 Per il calcolo della devianza totale e della devianza nei gruppi si può agevolmente impiegare il procedimento indiretto con le formule consuete: r D j = yi 2 n ij n j y 2 j (8) i=1 e r D T = yi 2 n i N y 2 (9) i=1 Il prospetto che segue è utile per il calcolo delle sommatorie previste nelle formule (8) e (9) Operai Impiegati Dirigenti Totale yi 2 n i1 yi 2 n i1 n i2 yi 2 n i2 n i3 yi 2 n i3 n i yi 2 n i Totale Le devianze nei singoli gruppi risultano così Operai : D 1 = , 85 2 = 982, 25 Impiegati : D 2 = , 67 2 = 772, 32 Dirigenti : D 3 = , 33 2 = 253, / 74

55 La devianza nei gruppi risulta La devianza totale risulta D N = 982, , , 58 = 2008, 15 D T = , 39 2 = 8516, 00 Ovviamente è possibile ottenere la devianza fra i gruppi sottraendo la devianza nei gruppi alla devianza totale Si ottiene così D F = D T D N = 8516, , 15 = 6507, 85 Questo valore coincide con quello ricavato in precedenza con la formula Il rapporto di correlazione risulta D F = c i=1 ( y j y) 2 n j ηy 2 A = D F 6507, 85 = = 0, 764 D T 8516, 00 Interpretazione Il valore dell indice informa che la variabilità fra le medie parziali rappresenta il 76, 4% della variabilità totale dei salari Ciò è equivalente ad affermare che la variabilità interna (variabilità nei gruppi) rappresenta il 23, 6% della variabilità totale dei salari dei dipendenti dell azienda 55 / 74

56 Dal punto di vista inferenziale, per avere un idea se il valore trovato dell indice sia statisticamente sintomo di indipendenza in media o meno del salario rispetto la posizione, possiamo fare ricorso all ANOVA Si consideri, a tale scopo, un livello di significatività α = 005 Dai risultati precedenti è facile ricavare il seguente valore osservato della statistica test: V = D F / (c 1) 6507, 85/2 = D N / (n c) 2008, 15/63 = Al livello del 5% (α = 005), il valore critico c che definisce la regione critica C del test risulta c = F [2,63;095] = Essendo V = > c = 31428, siamo portati a rifiutare l ipotesi nulla di indipendenza in media al livello del 5% p-value del test di indipendenza Si noti che, nell esempio in esame, tale conclusione è valida indipendentemente dal livello di significatività scelto dal momento che il p-value associato al test è praticamente nullo 56 / 74

57 La concordanza Nel caso di due caratteri quantitativi si può studiare, come si è visto in precedenza, la dipendenza di uno di essi dall altro Relazione fra voto al diploma X e voto alla laurea Y In questo caso ha senso studiare la dipendenza del voto di laurea Y rispetto al voto del diploma X Non ha invece senso ritenere che Y abbia influenza su X in quanto X si manifesta alcuni anni prima Vi possono però essere coppie di caratteri per i quali ha senso ritenere sia che vi sia dipendenza di Y da X, sia che vi sia dipendenza di X da Y Relazione fra età degli sposi X ed età delle spose Y Se si hanno n matrimoni classificati secondo l età delle spose Y e l età degli sposi X ha senso ritenere che i due caratteri si influenzino vicendevolmente Nelle situazioni in cui vi è una reciproca influenza dei due caratteri si afferma che vi è interdipendenza Nel caso di interdipendenza fra due caratteri quantitativi è molto utile lo studio della concordanza (ovvero della discordanza) Un indice di concordanza dovrebbe assumere: valori positivi se i valori elevati di una variabile tendono ad associarsi con i valori elevati dell altra variabile, ovvero se i valori piccoli di una variabile tendono ad associarsi con i valori piccoli dell altra; valori negativi se i valori elevati (piccoli) di una variabile tendono ad associarsi con i valori piccoli (elevati) dell altra 57 / 74

58 Per la comprensione della concordanza sono molto utili i grafici delle Figure A e B Figura A Figura B I grafici si basano innanzi tutto sulla ripartizione del piano in quattro quadranti ottenuti tracciando due parallele agli assi cartesiani passanti per il punto di coordinate x = x e y = y 58 / 74

59 Le osservazioni che cadono nel: primo (I) quadrante hanno variazioni concordanti in quanto (x i x) > 0 e (y i y) > 0; In altre parole i punti sono tali che: x i > x e y i > y; terzo (III) quadrante hanno variazioni concordanti in quanto (x i x) < 0 e (y i y) < 0 In altre parole i punti sono tali che: x i < x e y i < y; secondo (II) quadrante hanno variazioni discordanti in quanto (x i x) < 0 e (y i y) > 0 In altre parole i punti sono tali che: x i < x e y i > y; quarto (IV) quadrante hanno variazioni discordanti in quanto (x i x) > 0 e (y i y) < 0 In altre parole i punti sono tali che: x i > x e y i < y Si può allora affermare che nella Figura A si ha concordanza in quanto prevalgono i punti situati nel primo e nel terzo quadrante Nella Figura B si ha invece discordanza in quanto prevalgono i punti situati nel secondo e nel quarto quadrante Si vuole ora trovare una funzione dei due scarti (x i x) e (y i y) che sia: a) positiva per i punti che si trovano nel primo e nel terzo quadrante e negativa per i punti ubicati nel secondo e nel quarto quadrante b) crescente (in valore assoluto) mano a mano che un punto posto in un quadrante si allontana dal punto di coordinate (x, y) c) simmetrica rispetto alle due variabili 59 / 74

60 La covarianza Una funzione che soddisfa tali condizioni è in quanto: Z i = (x i x) (y i y), a) è di segno + per i punti del I e del III quadrante ed è di segno per i punti del II e del IV quadrante; b) cresce all aumentare degli scarti (x i x) e (y i y); c) è simmetrica nei due scarti (x i x) e (y i y) Z i è denominata covariazione Per valutare l ordine di grandezza ed il segno prevalente delle covariazioni se ne può fare la loro media aritmetica e si ottiene così la covarianza Cov (X, Y ) = 1 N N (x i x) (y i y) (10) i=1 Con il procedimento indiretto la (10) è pari a Cov (X, Y ) = 1 N N x i y i x y i=1 60 / 74

61 La covarianza per tabelle a doppia entrata Nel caso di una tabella a doppia entrata si può determinare per ciascuna delle r c caselle la covariazione: ( xj x ) (y i y) i = 1,, r e j = 1,, c Per il calcolo della covarianza bisogna ricordarsi che in ogni casella vi è la frequenza n ij per cui la covarianza è fornita da Cov (X, Y ) = 1 N c r ( xj x ) (y i y) n ij (11) j=1 i=1 È immediato verificare che il procedimeto indiretto per il calcolo della (11) fornisce Cov (X, Y ) = 1 N c r x j y i n ij x y j=1 i=1 61 / 74

62 La covarianza in (11) può anche scriversi come: Cov (X, Y ) = 1 N c j=1 ( xj x ) ( y j y) n j (12) Dimostrazione: Cod (X, Y ) = c j=1 i=1 r ( xj x ) (y i y) n ij = Svolgendo l ultima sommatoria della (13) otteniamo Ricordando che si ha: r (y i y) n ij = i=1 y j = 1 n j r y i n ij i=1 i=1 Tenuto conto di questo risultato la (13) diventa r c ( xj x ) r (y i y) n ij (13) j=1 r y i n ij y i=1 e r n ij i=1 r n ij = n j, i=1 i=1 ( ) (y i y) n ij = y j n j y n j = y j y n j Cod (X, Y ) = c j=1 ( xj x ) ( y j y) n j Dividendo per N si ha Cov (X, Y ) = 1 N c j=1 ( xj x ) ( y j y) n j 62 / 74

63 La covarianza - Proprietà 1 Enunciato L indipendenza distributiva implica che: Cov (X, Y ) = 0 Dimostrazione Per ipotesi fra i due caratteri vi è indipendenza distributiva ovvero n ij = n i n j Si ha N così Cov (X, Y ) = 1 c r (y i y) ( x j x ) n ij N j=1 i=1 = 1 c r (y i y) ( x j x ) ni n j N N j=1 i=1 1 c ( = xj N 2 x ) r n j (y i y) n i j=1 i=1 Per la prima proprietà della media aritmetica le due ultime sommatorie sono uguali a zero Osservazione Non necessariamente se Cov (X, Y ) = 0 vi è indipendenza distributiva 63 / 74

64 La covarianza - Proprietà 2 Enunciato Se uno dei due caratteri X o Y è indipendente in media dall altro, allora Cov (X, Y ) = 0 Dimostrazione Si supponga che Y sia indipendente in media da X Ciò significa che: y 1 = = y j = = y c = y ovvero che ( ) (y 1 y) = = y j y = = (y c y) = 0 Consegue, utilizzando la (12), che Cov (X, Y ) = 1 N c ( xj x ) ( ) 0 y j y n j = 0 j=1 Osservazione Non necessariamente se Cov (X, Y ) = 0 vi è indipendenza in media 64 / 74

65 Si esclude così che vi sia indipendenza distributiva Inoltre, essendo y 1 y si esclude che vi sia indipendenza in media di Y da X Infine, essendo x 1 x si esclude che vi sia indipendenza in media di X da Y 65 / 74 Esempio di Cov (X, Y ) = 0 con dipendenza in distribuzione ed in media X Y Tabella bivariata osservata Tot Tot Cov (X, Y ) = 1 N c r j=1 i=1 y = x = Prospetto per il calcolo di X Y r i=1 j=1 c y i x j n ij y i x j n ij x y = = ( ) = ( ) = 5 12 M 1 (Y X = 2) = y 1 = 1 ( ) = 5, 67 3 M 1 (X Y = 3) = x 1 = 1 ( ) = 4 3 Le frequenze teoriche di indipendenza distributiva sono tutte pari a: n ij = Le frequenze congiunte reali n ij sono pari a 0, a 1 e a 2 = 0,

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA STATISTICA: esercizi svolti sulla DIPEDEZA I MEDIA 1 1 LA DIPEDEZA I MEDIA 2 1 LA DIPEDEZA I MEDIA 1. La popolazione in migliaia di unità occupata in Piemonte nel 1985 per reddito annuo Y (migliaia di

Dettagli

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1

Dettagli

Esercitazioni di statistica

Esercitazioni di statistica Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 22 ottobre 2014 Stefania Spina Esercitazioni

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 41 Outline 1 2 3 4 5 () Statistica 2 / 41 Misura del legame Data una variabile doppia (X, Y ), la

Dettagli

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA

Dettagli

Casa dello Studente. Casa dello Studente

Casa dello Studente. Casa dello Studente Esercitazione - 14 aprile 2016 ESERCIZIO 1 Di seguito si riporta il giudizio (punteggio da 0 a 5) espresso da un gruppo di studenti rispetto alle diverse residenze studentesche di un Ateneo: a) Si calcolino

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 26 Outline 1 2 3 4 () Statistica 2 / 26 Misura del legame Data una variabile doppia (X, Y ), la misura

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Differenze semplici medie, confronti in termini di mutua variabilità La distribuzione del prezzo

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

Premessa: la dipendenza in media

Premessa: la dipendenza in media Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 43 I principali test statistici per la verifica di ipotesi: Il test del χ 2 per tavole di contingenza a 2 vie Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle abelle riportate alla fine del documento. Esercizio 1 La concentrazione media di sostanze inquinanti osservata nelle acque di un fiume

Dettagli

Indice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione...

Indice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione... INSEGNAMENTO DI STATISTICA DEL TURISMO LEZIONE IX LE RELAZIONI TRA CARATTERI PROF. GIOVANNI DI TRAPANI Indice 1. Premessa.... 3 2. Le relazioni tra coppie di caratteri.... 4 3. L analisi della contingenza....

Dettagli

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Esercizio 1. Questo e alcuni degli esercizi che proporremo nei prossimi giorni si basano sul

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.

Dettagli

Esercitazione di Statistica Indici di associazione

Esercitazione di Statistica Indici di associazione Esercitazione di Statistica Indici di associazione 28/10/2015 La relazione tra caratteri Indipendenza logica Quando si suppone che tra due caratteri non ci sia alcuna relazione di causa-effetto. Indipendenza

Dettagli

Esercitazione: La distribuzione NORMALE

Esercitazione: La distribuzione NORMALE Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle

Dettagli

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE

Dettagli

La dipendenza. Antonello Maruotti

La dipendenza. Antonello Maruotti La dipendenza Antonello Maruotti Outline 1 Distribuzioni doppie 2 Medie e varianze condizionate 3 Indici di associazione Distribuzione doppia Definizione Una distribuzione doppia si ha quando su di uno

Dettagli

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa Esercizi Svolti Esercizio 1 Per una certa linea urbana di autobus sono state effettuate una serie di rilevazioni sui tempi di attesa ad una determinata fermata; la corrispondente distribuzione di frequenza

Dettagli

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi Distribuzioni secondo due caratteri Rappresentazioni e prime sintesi Rappresentazioni delle distribuzioni doppie Quando per ogni unità del collettivo rileviamo due caratteri otteniamo una Esempio. Ad alcuni

Dettagli

Istituzioni di Statistica e Statistica Economica

Istituzioni di Statistica e Statistica Economica Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 1 A. I dati riportati nella seguente tabella si riferiscono

Dettagli

Analisi della varianza

Analisi della varianza Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.

Dettagli

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo

Dettagli

Analisi della varianza a una via

Analisi della varianza a una via Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici

Dettagli

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA

STATISTICA: esercizi svolti sulla MEDIA ARITMETICA STATISTICA: esercizi svolti sulla MEDIA ARITMETICA 1 1 MEDIA ARITMETICA 2 1 MEDIA ARITMETICA 1. La seguente tabella riporta il numero di persone divise per sesso che si sono presentate durante l anno 1997

Dettagli

Esercitazioni del corso: RELAZIONI TRA VARIABILI

Esercitazioni del corso: RELAZIONI TRA VARIABILI A. A. 009 010 Esercitazioni del corso: RELAZIONI TRA VARIABILI Isabella Romeo: i.romeo@campus.unimib.it ommario Esercitazione 1: Tabelle a doppia entrata Distribuzioni marginali e condizionate Indipendenza

Dettagli

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella

Dettagli

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indicatori di Posizione e di Variabilità Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indici Sintetici Consentono il passaggio da una pluralità

Dettagli

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I 2. e 3. STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I 1. Le unità statistiche sono costituite dai singoli ristoranti, mentre la popolazione è costituita da tutte le unità del

Dettagli

Analisi congiunta di più fenomeni

Analisi congiunta di più fenomeni Analisi congiunta di più fenomeni Dati relativi al disastro del Titanic: Morti Sopravvissuti Classe Sesso Età 1 a Uomini Bambini 0 5 Adulti 118 57 Donne Bambini 0 1 Adulti 4 140 2 a Uomini Bambini 0 11

Dettagli

STATISTICA esercizi svolti sulla VARIABILITA

STATISTICA esercizi svolti sulla VARIABILITA STATISTICA esercizi svolti sulla VARIABILITA 1 1 VARIABILITA 2 1 VARIABILITA 1.1 Esercizi 1. La seguente tabella riporta il tempo (in giorni) impiegato da sei individui per il consumo di una confezione

Dettagli

STATISTICA: esercizi svolti sulla DISTRIBUZIONE NORMALE

STATISTICA: esercizi svolti sulla DISTRIBUZIONE NORMALE STATISTICA: esercizi svolti sulla DISTRIBUZIONE NORMALE 1 2 Tavole della normale standard. Φ(x) = x 1 2π e t2 2 dt z.00.01.02.03.04.05.06.07.08.09 0.0 0.0 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279

Dettagli

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo 1 La seguente tabella riporta le frequenze relative riguardanti gli studenti di un università e gli esiti dell esame da essi sostenuto. Qual è la percentuale

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

Test per la correlazione lineare

Test per la correlazione lineare 10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche

Dettagli

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi Esercitazione 14 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 14 Ex.1: Verifica Ipotesi sulla media (varianza nota) Le funi prodotte da un certo macchinario hanno una

Dettagli

Statistiche e relazioni

Statistiche e relazioni tatistiche descrittive per frequenze e misure Frequenze e misure Per le frequenze e le misure, molte di queste statistiche perdono senso. In compenso, esistono indici appropriati, inutilizzabili per i

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Misura dell associazione tra due caratteri Uno store manager è interessato a studiare la relazione

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione

Dettagli

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione Statistica Analisi bidimensionale La dipendenza in media alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Nella sezione precedente abbiamo esaminato i principali metodi

Dettagli

STATISTICA esercizi svolti su: INTERPOLAZIONE PER/FRA PUNTI NOTI

STATISTICA esercizi svolti su: INTERPOLAZIONE PER/FRA PUNTI NOTI STATISTICA esercizi svolti su: INTERPOLAZIONE PER/FRA PUNTI NOTI 1 2 1. La popolazione (in migliaia) residente a Milano negli anni 1971 e 1981 è riportata nella seguente tabella: Anno 1971 1981 Abitanti

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme

Dettagli

STATISTICHE DESCRITTIVE Parte II

STATISTICHE DESCRITTIVE Parte II STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una

Dettagli

Esercitazioni del corso: STATISTICA

Esercitazioni del corso: STATISTICA A. A. 0-0 Esercitazioni del corso: STATISTICA Sommario Esercitazione 4: Medie e varianze marginali Medie e varianze condizionate Scomposizione della varianza Indipendenza in media ESERCIZIO UNIVERSITÀ

Dettagli

STATISTICA DESCRITTIVA BIVARIATA

STATISTICA DESCRITTIVA BIVARIATA STATISTICA DESCRITTIVA BIVARIATA Si parla di Analisi Multivariata quando su ogni unità statistica, appartenente ad una determinata popolazione, si rileva un certo numero s di caratteri X, X 2,,X s. Si

Dettagli

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione Consentono di descrivere la variabilità all interno della distribuzione di requenza tramite un unico valore che ne sintetizza le caratteristiche CAMPO DI VARIAZIONE DIFFERENZA INTERQUARTILE SCOSTAMENTO

Dettagli

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili. DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI Sinora abbiamo considerato l analisi di un unica variabile per volta Tuttavia, le rilevazioni su un unità statistica sono in generale

Dettagli

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati: DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a. 2007-2008 Prerequisiti Popolazione, unità, carattere Come nascono i dati: osservazione e sperimentazione Popolazione: reale e virtuale Classificazione

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Questa esercitazione ha l obiettivo di consolidare ulteriormente gli strumenti di analisi bivariata

Dettagli

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016 Esame di Statistica 0 o CFU) CLEF febbraio 06 Esercizio Si considerino i seguenti dati, relativi a 00 clienti di una banca a cui è stato concesso un prestito, classificati per età e per esito dell operazione

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Sintesi a cinque e misure di variabilità rispetto ad un centro Una catena di fast-food ha selezionato

Dettagli

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello

Dettagli

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

Statistiche per riassumere i dati

Statistiche per riassumere i dati Statistiche per riassumere i dati María Eugenia Castellanos Dep. Estadística e I.O. Universidad Rey Juan Carlos Visiting Professor Università di Cagliari. Cagliari, Marzo 2010 María Eugenia Castellanos

Dettagli

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

STATISTICA: esercizi svolti sulle VARIABILI CASUALI STATISTICA: esercizi svolti sulle VARIABILI CASUALI VARIABILI CASUALI 2 VARIABILI CASUALI. Variabili casuali generiche. Si supponga che un dado truccato, formato da sei facce contrassegnate dai numeri

Dettagli

Capitolo 6 La distribuzione normale

Capitolo 6 La distribuzione normale Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Valori Medi. Docente Dott.ssa Domenica Matranga

Valori Medi. Docente Dott.ssa Domenica Matranga Valori Medi Docente Dott.ssa Domenica Matranga Valori medi Medie analitiche - Media aritmetica - Media armonica - Media geometrica - Media quadratica Medie di posizione - Moda -Mediana - Quantili La media

Dettagli

STATISTICA APPLICATA Prof.ssa Julia Mortera. Concentrazione

STATISTICA APPLICATA Prof.ssa Julia Mortera. Concentrazione STATISTICA APPLICATA Prof.ssa Julia Mortera Concentrazione Questo materiale non sufficiente per la conoscenza/preparazione dell argomento per il quale si rimanda al testo: Cicchitelli (2012) Statistica:

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente

Dettagli

Tema d esame del 15/02/12

Tema d esame del 15/02/12 Tema d esame del 15/0/1 Volendo aprire un nuovo locale, una catena di ristoranti chiede ad un consulente di valutare la posizione geografica ideale all interno di un centro abitato. A questo scopo, avvalendosi

Dettagli

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE 1. Distribuzione congiunta Ci sono situazioni in cui un esperimento casuale non si può modellare con una sola variabile casuale,

Dettagli

Analisi della varianza: I contrasti e il metodo di Bonferroni

Analisi della varianza: I contrasti e il metodo di Bonferroni Analisi della varianza: I contrasti e il metodo di Bonferroni 1 Contrasti In molti problemi risulta importante stabilire, nel caso venga rifiutata l ipotesi nulla, di uguaglianza delle medie µ j delle

Dettagli

Esercitazione 8 del corso di Statistica 2

Esercitazione 8 del corso di Statistica 2 Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione

Dettagli

STATISTICA: esercizi svolti su MODA, MEDIANA, QUARTILI, DECILI e CENTILI

STATISTICA: esercizi svolti su MODA, MEDIANA, QUARTILI, DECILI e CENTILI STATISTICA: esercizi svolti su MODA, MEDIANA, QUARTILI, DECILI e CENTILI 1 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 2 1 MODA, MEDIANA, QUARTILI, DECILI E CENTILI 1. Viene rilevato il tempo X (in secondi)

Dettagli

Appunti su Indipendenza Lineare di Vettori

Appunti su Indipendenza Lineare di Vettori Appunti su Indipendenza Lineare di Vettori Claudia Fassino a.a. Queste dispense, relative a una parte del corso di Matematica Computazionale (Laurea in Informatica), rappresentano solo un aiuto per lo

Dettagli

SCOPO DELL ANALISI DI CORRELAZIONE

SCOPO DELL ANALISI DI CORRELAZIONE CORRELAZIONE 1 SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2 diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica

Dettagli

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Condizione di allineamento di tre punti

Condizione di allineamento di tre punti LA RETTA L equazione lineare in x e y L equazione: 0 con,,, e non contemporaneamente nulli, si dice equazione lineare nelle due variabili e. Ogni coppia ; tale che: 0 si dice soluzione dell equazione.

Dettagli

Associazione tra caratteri quantitativi: gli indici di correlazione

Associazione tra caratteri quantitativi: gli indici di correlazione Associazione tra caratteri quantitativi: gli indici di correlazione Per correlazione si intende una relazione tra due variabili tale che a ciascun valore della prima variabile corrisponda con una certa

Dettagli

Ringraziamenti dell Editore

Ringraziamenti dell Editore Indice Elenco dei simboli e delle abbreviazioni in ordine di apparizione Ringraziamenti dell Editore XI XVII 1 Introduzione FAQ e qualcos altro, da leggere prima 1 1.1 QuestoèunlibrodiStatistica....................

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Indici di posizione e di variabilità Prof. Livia De Giovanni lstatistica@dis.uniroma1.it Esercizio 1 Data la seguente distribuzione unitaria del carattere X: X : 4 2 4 2 6 4

Dettagli

Statistica ARGOMENTI. Calcolo combinatorio

Statistica ARGOMENTI. Calcolo combinatorio Statistica ARGOMENTI Calcolo combinatorio Probabilità Disposizioni semplici Disposizioni con ripetizione Permutazioni semplici Permutazioni con ripetizioni Combinazioni semplici Assiomi di probabilità

Dettagli

STATISTICA DESCRITTIVA (canale B)

STATISTICA DESCRITTIVA (canale B) STATISTICA DESCRITTIVA (canale B) compito n. 1 del 28 marzo 2008 nome e cognome: corso di laurea: Astronomia matricola: Parte teorica Si ricorda che la corretta risposta ai quesiti della parte teorica

Dettagli

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza Istituzioni di Statistica 1 Esercizi su tabelle di contingenza Esercizio 1 Per stimare la percentuale di fumatori nella popolazione italiana adulta viene intervistato un campione di 60 donne e uno di 40

Dettagli

Capitolo 6. La distribuzione normale

Capitolo 6. La distribuzione normale Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Matematica con Elementi di Statistica a.a. 2015/16 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Indici di posizione variabilità e forma per caratteri qualitativi Il seguente data set riporta la rilevazione

Dettagli

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza CALCOLO DELLE PROBABILITÀ E STATISTICA ESAME DEL 16/06/2016 NOME: COGNOME: MATRICOLA: Esercizio 1 Cinque lettere

Dettagli

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano Capitolo uno STATISTICA DESCRITTIVA BIVARIATA La statistica bidimensionale o bivariata si occupa dello studio del grado di dipendenza di due caratteri distinti della stessa unità statistica. E possibile,

Dettagli

INDICATORI DI TENDENZA CENTRALE

INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE INDICATORI DI TENDENZA CENTRALE Consentono di sintetizzare un insieme di misure tramite un unico valore rappresentativo indice che riassume o descrive i dati e dipende dalla

Dettagli

Indici di eterogeneità e di concentrazione

Indici di eterogeneità e di concentrazione Indici di eterogeneità e di concentrazione Dario Malchiodi e Anna Maria Zanaboni 12 gennaio 2016 1 Indici di eterogeneità Nel caso di variabili qualitative nominali la varianza e gli altri indici da essa

Dettagli

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Statistica inferenziale La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Verifica delle ipotesi sulla medie Quando si conduce una

Dettagli

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07 PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 006/07 Esercizio 1 Prova scritta del 16/1/006 In un ufficio postale lavorano due impiegati che svolgono lo stesso compito in maniera indipendente, sbrigando

Dettagli

A1. La curva normale (o di Gauss)

A1. La curva normale (o di Gauss) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 202/203 lezione n. 8 dell aprile 203 - di Massimo Cristallo - A. La curva normale (o di Gauss) La curva

Dettagli

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015 Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015 a.a. 2015/16 Prof. Maria Francesca Romano mariafrancesca.romano@sssup.it Libri di riferimento per la statistica descrittiva

Dettagli

Caratterizzazione dei consumi energetici (parte 3)

Caratterizzazione dei consumi energetici (parte 3) ESERCITAZIONE 4 Caratterizzazione dei consumi energetici (parte 3) 4.1 CuSum: elementi di analisi statistica Il diagramma delle somme cumulate dei residui in funzione del tempo (CuSum) può essere in generale

Dettagli

ESERCIZI STATISTICA DESCRITTIVA

ESERCIZI STATISTICA DESCRITTIVA ESERCIZI STATISTICA DESCRITTIVA Frequenze assolute e relative Titolo di studio Frequenze assolute Frequenze relative Proporzioni Percentuali Senza titolo 30 0,025 2,5 Lic. elementare 509 0,424 42,4 Licenza

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

Università degli studi della Tuscia. Principi di Statistica dr. Luca Secondi A.A. 2014/2015. Esercitazione di riepilogo Variabili casuali

Università degli studi della Tuscia. Principi di Statistica dr. Luca Secondi A.A. 2014/2015. Esercitazione di riepilogo Variabili casuali Università degli studi della Tuscia Principi di Statistica dr. Luca Secondi A.A. 014/015 Esercitazione di riepilogo Variabili casuali ESERCIZIO 1 Il peso delle compresse di un determinato medicinale si

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it TIPI DI MEDIA: GEOMETRICA, QUADRATICA, ARMONICA Esercizio 1. Uno scommettitore puntando una somma iniziale

Dettagli