Statistica. Alfonso Iodice D Enza iodicede@unicas.it



Documenti analoghi
Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Metodi statistici per l economia (Prof. Capitanio) Slide n. 4. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica. Alfonso Iodice D Enza

Prova di autovalutazione Prof. Roberta Siciliano

Dott.ssa Caterina Gurrieri

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

STATISTICA DESCRITTIVA BIVARIATA

STATISTICA (A-K) a.a Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 2007

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Analisi di dati di frequenza

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

Dipendenza tra caratteri: connessione. N:B: Si tratta di coppie di caratteri sia qualitativi

Appunti di Statistica Descrittiva

Capitolo 2 Distribuzioni di frequenza

Relazioni statistiche: regressione e correlazione

Il test del Chi-quadrato

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Capitolo 11 Test chi-quadro

CENNI DI METODI STATISTICI

ANALISI DELLE FREQUENZE: IL TEST CHI 2

STATISTICA IX lezione

Slide Cerbara parte1 5. Le distribuzioni teoriche

Facoltà di ECONOMIA Corso di Statistica a.a. 2005/2006 Esame del 27/09/2006 Statistica descrittiva

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Statistica. Alfonso Iodice D Enza

Statistica (Prof. Capitanio) Slide n. 1. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Facciamo qualche precisazione

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Confronto tra media e mediana Indice di Yule-Bowley Indice di Fisher

Corso di laurea in Scienze Motorie. Corso di Statistica. Docente: Dott.ssa Immacolata Scancarello Lezione 2: Misurazione, tabelle

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Statistica. Alfonso Iodice D Enza

Statistica. Lezione 6

Corso di. Dott.ssa Donatella Cocca

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

LA STATISTICA NEI TEST INVALSI

LEZIONE n. 5 (a cura di Antonio Di Marco)

Basi di matematica per il corso di micro

Il coefficiente di correlazione di Spearman per ranghi

Fonti e strumenti statistici per la comunicazione (prof.ssa I.Mingo) Esercizi (soluzioni e suggerimenti )

Esercitazioni di statistica

Capitolo 4 Probabilità

FONDAMENTI DI PSICOMETRIA - 8 CFU

Il concetto di valore medio in generale

STATISTICA DESCRITTIVA - SCHEDA N. 1 VARIABILI QUALITATIVE

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Elementi di Psicometria con Laboratorio di SPSS 1

Sistema di misurazione e valutazione delle posizioni dirigenziali


ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

11. Analisi statistica degli eventi idrologici estremi

3. Confronto tra medie di due campioni indipendenti o appaiati

La dipendenza. Antonello Maruotti

Statistica. Alfonso Iodice D Enza

PROGRAMMA SVOLTO NELLA SESSIONE N.

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Secondo Rapporto sulla Previdenza Privata I giovani. A cura del centro studi AdEPP

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

età sesso luogo-abitazione scuola superiore esperienza insegnamento

(Esercizi Tratti da Temi d esame degli ordinamenti precedenti)

Elementi di Psicometria con Laboratorio di SPSS 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE SIMULAZIONE della PROVA SCRITTA di STATISTICA 23/03/2011

Soluzioni Esercizi elementari

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

PARTE TERZA. STATISTICA DESCRITTIVA MULTIDIMENSIONALE (Analisi delle Relazioni)

Comune di OLGIATE OLONA SISTEMA DI MISURAZIONE E VALUTAZIONE DELLA PERFORMANCE

GRUPPO QUATTRO RUOTE. Alessandro Tondo Laura Lavazza Matteo Scordo Alessandro Giosa Gruppo Quattro Ruote 1

Excel Terza parte. Excel 2003

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x x2. 2, x3 +2x +3.

Capitolo 12 La regressione lineare semplice

La dissomiglianza tra due distribuzioni normali

Lezione 5. Fogli di calcolo

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

IMPONIBILE PREVIDENZIALE E FISCALE ESEMPI

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI

VALIDAZIONE METODI DI PROVA PROVE MICROBIOLOGICHE

Statistica. Le rappresentazioni grafiche

PROBABILITA CONDIZIONALE

Appunti di complementi di matematica

Indagine sulla mobilità privata per acquisti delle famiglie a Piacenza. ESTRATTO Piacenza@fondazioneitl.org

Transcript:

Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 2

Outline 1 2 3 4 () Statistica 2 / 2

Misura del legame Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce se X e Y sono mutabili correlazione se X e Y sono () Statistica 3 / 2

Interdipendenza e dipendenza Se le componenti di una variabile doppia (X, Y ) oggetto di studio rivestono lo stesso ruolo ai fini dell analisi si studia l interdipendenza tra X e Y. Se si vuole studiare, invece, l andamento della variabile Y rispetto ad X, si farà riferimento alla dipendenza di Y da X. Y si definisce variabile dipendente X si definisce variabile indipendente () Statistica 4 / 2

Frequenze condizionate () Statistica 5 / 2

Frequenze condizionate () Statistica / 2

Frequenze relative condizionate La distribuzione delle frequenze relative condizionate della variabile A (k modalità) rispetto alla j sima modalità della variabile B (h modalità) si ottiene dividendo ciascun elemento dell j ma colonna (frequenza assoluta) per il rispettivo totale di di colonna n ij /n.j per i = 1,..., k. () Statistica 7 / 2

Frequenze relative condizionate La distribuzione delle frequenze relative condizionate della variabile B (h modalità) rispetto alla i sima modalità della variabile A (k modalità) si ottiene dividendo ciascun elemento dell i ma riga (frequenza assoluta) per il rispettivo totale di riga n ij /n i. per j = 1,..., h. () Statistica 8 / 2

Esempio di tabella a doppia entrata Si consideri di aver registrato la meta del viaggio e il mezzo di trasporto di un collettivo di 592 persone. I risultati sono raccolti nella seguente tabella occhi/capelli Italia Spagna P ortogallo F rancia T ot macchina 8 119 2 7 220 aereo 20 84 17 94 215 treno 15 54 14 10 93 nave 5 29 14 1 4 T ot 108 28 71 127 592 () Statistica 9 / 2

Distribuzioni relative condizionate Frequenze condizionate della variabile destinazione rispetto alle modalità della variabile mezzo mezzo/destinazione Italia Spagna P ortogallo F rancia T ot macchina 0.309 0.541 0.118 0.032 1 aereo 0.093 0.391 0.079 0.437 1 treno 0.11 0.581 0.151 0.108 1 nave 0.078 0.453 0.219 0.250 1 Frequenze condizionate della variabile mezzo rispetto alle modalità della variabile destinazione mezzo/destinazione Italia Spagna P ortogallo F rancia macchina 0.30 0.41 0.3 0.055 aereo 0.185 0.294 0.239 0.740 treno 0.139 0.189 0.197 0.079 nave 0.04 0.101 0.197 0.12 T ot 1 1 1 1 () Statistica 10 / 2

e distribuzioni condizionate Le componenti di una variabile doppia (X, Y ) sono indipendenti se le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti. Formalmente dovrà risultare per Y X e per X Y n i1 n.1 = n i2 n.2 = n i3 n.3 =... = n ih n.h n 1j n 1. = n 2j n 2. = n 3j n 3. =... = n kj n k. () Statistica 11 / 2

Si supponga che nel precedente esempio sia stata osservata la seguente distribuzione doppia. mezzo/destinazione Italia Spagna P ortogallo F rancia T ot macchina 40 10 2 47 220 aereo 39 104 2 4 215 treno 17 45 11 20 93 nave 12 31 8 14 4 T ot 108 28 71 127 592 () Statistica 12 / 2

In questo caso le frequenze condizionate della variabile destinazione rispetto alle modalità della variabile mezzo mezzo/destinazione Italia Spagna P ortogallo F rancia T ot macchina 0.182 0.483 0.120 0.215 1 aereo 0.182 0.483 0.120 0.215 1 treno 0.182 0.483 0.120 0.215 1 nave 0.182 0.483 0.120 0.215 1 T ot 0.182 0.483 0.120 0.215 1 Mentre le frequenze condizionate della variabile mezzo rispetto alle modalità della variabile destinazione mezzo/destinazione Italia Spagna P ortogallo F rancia T ot. macchina 0.372 0.372 0.372 0.372 0.372 aereo 0.33 0.33 0.33 0.33 0.33 treno 0.157 0.157 0.157 0.157 0.157 nave 0.108 0.108 0.108 0.108 0.108 T ot 1 1 1 1 1 () Statistica 13 / 2

Se le componenti di una variabile doppia (X, Y ) sono indipendenti (le distribuzioni di frequenze relative condizionate Y X e X Y sono costanti), allora vale la seguente relazione ˆn ij = n i.n.j n.. con i = 1,..., k; j = 1,..., h Pertanto, data una distribuzione doppia di frequenze, il legame tra le due componenti (mutabile) varierà tra una situazione di indipendenza (assenza di legame) e un qualche grado di () Statistica 14 / 2

Indice quadratico di (X 2 ) Gli indici per la misura della connessioni sono basati sulle differenze tra le frequenze osservate sul collettivo n ij e le frequenze teoriche ˆn ij, che si osserverebbero sul collettivo se le mutabili considerate fossero indipendenti. Indice quadratico di (X 2 ) è dato dalla seguente relazione X 2 = i=1 j=1 h (n ij ˆn ij ) 2 ˆn ij in caso di indipendenza, essendo n ij = ˆn ij, risulta X 2 = 0 il massimo valore dell indice è dato dalla seguente espressione: n min(k 1, h 1) () Statistica 15 / 2

Indice quadratico di (X 2 ) Per calcolare l indice quadratico di che caratterizza le mezzo e destinazione, con distribuzione congiunta di frequenze n ij : mezzo/destinazione Italia Spagna P ortogallo F rancia T ot. macchina 8 119 2 7 220 aereo 20 84 17 94 215 treno 15 54 14 10 93 nave 5 29 14 1 4 T ot 108 28 71 127 592 si deve calcolare la distribuzione di frequenze che si osserverebbero in caso di indipendenza ˆn ij : mezzo/destinazione Italia Spagna P ortogallo F rancia T ot. macchina 40.135 10.284 2.385 47.19 220 aereo 39.223 103.88 25.785 4.123 215 treno 1.9 44.929 11.154 19.951 93 nave 11.7 30.919 7.7 13.730 4 T ot 108 28 71 127 592 () Statistica 1 / 2

Indice quadratico di (X 2 ) ( n ij ˆn ij ) 2 ˆn ij : mezzo/destinazione Italia Spagna P ortogallo F rancia macchina 19.34 1.521 0.00 34.234 aereo 9.421 3.800 2.993 49.97 treno 0.228 1.831 0.72 4.93 nave 3.817 0.119 5.211 0.375 L indice X 2 è dato dunque dalla somma degli elementi in tabella h X 2 (n ij ˆn ij ) 2 = = 19.34 + 1.521 + 0.00 + 34.234 + 9.421 + 3.800 + 2.993+ i=1 j=1 ˆn ij + 49.97 + 0.228 + 1.831 + 0.72 + 4.93 + 3.817 + 0.119 + 5.211 + 0.375 = 138.29 () Statistica 17 / 2

Indice ν di Cramer avendo definito n min(k 1, h 1) come valore massimo che X 2 può assumere, è possibile ottenere una versione normalizzata dell indice di. Viene definito indice ν di Cramer. X ν = 2 n min(k 1, h 1) con k e h numero di modalità delle componenti della mutabile doppia. L indice è normalizzato, quindi 0 ν 1. () Statistica 18 / 2

Indice ν di Cramer Con riferimento ai dati dell esercizio, si ha che X 2 = 138.29, n = 592, h = 4 e k = 4 X ν = 2 n min(k 1, h 1) = 138.29 592 min(3, 3) = 0.28 () Statistica 19 / 2

Connessione in media Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l indipendenza in distribuzione). () Statistica 20 / 2

Connessione in media Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l indipendenza in distribuzione). µ y = y = 1 h y j n.j n j=1 Rappresenta la media di Y e si ottiene considerando la distribuzione marginale di Y. y i = y x i = 1 h y j n ij n i. j=1 Rappresenta la media di Y condizionata alla i ma modalità della variabile X. () Statistica 20 / 2

Decomposizione della devianza Ricordando che la devianza il numeratore della varianza... h Dev y = (y j y) 2 n ij = i=1 j=1 h = (y j y i + y i y) 2 n ij = i=1 j=1 h h = (y j y i ) 2 n ij + (y i y) 2 n ij + i=1 j=1 i=1 j=1 h + 2 (y j y i )(y i y)n ij i=1 j=1 () Statistica 21 / 2

Decomposizione della devianza h = (y j y i ) 2 n ij + (y i y) 2 n i. + i=1 j=1 i=1 h + 2 (y j y i ) (y i y)n ij = i=1 j=1 = [Dev(Y X = x i )] + (y i y) 2 n i. = i=1 i=1 = Dev(W ) + Dev(B) () Statistica 21 / 2

Decomposizione della devianza h = (y j y i ) 2 n ij + (y i y) 2 n i. + i=1 j=1 i=1 h + 2 (y j y i ) (y i y)n ij = i=1 j=1 = [Dev(Y X = x i )] + (y i y) 2 n i. = i=1 i=1 = Dev(W ) + Dev(B) () Statistica 21 / 2

Decomposizione della devianza h = (y j y i ) 2 n ij + (y i y) 2 n i. + i=1 j=1 i=1 h + 2 (y j y i ) (y i y)n ij = i=1 j=1 = [Dev(Y X = x i )] + (y i y) 2 n i. = i=1 i=1 = Dev(W ) + Dev(B) () Statistica 21 / 2

Decomposizione della devianza h = (y j y i ) 2 n ij + (y i y) 2 n i. + i=1 j=1 i=1 h + 2 (y j y i ) (y i y)n ij = i=1 j=1 = [Dev(Y X = x i )] + (y i y) 2 n i. = i=1 i=1 = Dev(W ) + Dev(B) () Statistica 21 / 2

Rapporto di correlazione di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la tà tra i gruppi: ovvero la tà delle medie condizionate rispetto alla media generale. () Statistica 22 / 2

Rapporto di correlazione di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la tà tra i gruppi: ovvero la tà delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la tà ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 () Statistica 22 / 2

Rapporto di correlazione di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la tà tra i gruppi: ovvero la tà delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la tà ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 Quindi, per quantificare la dipendenza in media di Y da X occorre un indice basato su Dev(B). η 2 = Dev(B) Dev(Y ) () Statistica 22 / 2

Calcolo del rapporto di correlazione: valori in classi Si consideri l esempio della variabile doppia reddito/grado di anzianità () Statistica 23 / 2

Calcolo del rapporto di correlazione Ai fini del calcolo del rapporto di correlazione necessario calcolare la devianza totale della variabile Dev(Y ) e la devianza tra le classi Dev(B) (ovvero la devianza tra le medie condizionate Y X = x i, i = 1, 2,..., k e la media globale). Dunque µ(y ) = 1 (12.5 32) + (17.5 2)+ 103 + (22.5 39) + (27.5 ) = 18.42 () Statistica 24 / 2

Calcolo del rapporto di correlazione µ(y x i = Nord) = 1 (12.5 0) + (17.5 7)+ 4 + (22.5 34) + (27.5 5) = 22.28 µ(y x i = Centro) = 1 (12.5 1) + (17.5 18)+ 25 + (22.5 5) + (27.5 1) = 18.7 µ(y x i = Sud) = 1 (12.5 31) + (17.5 1)+ 32 + (22.5 0) + (27.5 0) = 12. () Statistica 25 / 2

Calcolo del rapporto di correlazione dev(y ) = (12.5 14.9) 2 32 + (17.5 14.9) 2 2+ + (22.5 14.9) 2 39 + (27.5 14.9) 2 = 2287.39 dev(b) = (22.28 14.9) 2 4 + (18.7 14.9) 2 25+ + (12. 14.9) 2 32 = 1749.02 η 2 = dev(b) dev(y ) = 1749.02 2287.39 = 0.7 () Statistica 2 / 2