Statistica. Alfonso Iodice D Enza

Похожие документы
Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

La dipendenza. Antonello Maruotti

Esercitazioni di statistica

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Statistica. Alfonso Iodice D Enza

REGRESSIONE E CORRELAZIONE

Esercitazione di Statistica Indici di associazione

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Statistica. Alfonso Iodice D Enza

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Premessa: la dipendenza in media

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Esercitazione del

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica. Alfonso Iodice D Enza

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Corso di Psicometria Progredito

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Esercitazioni del corso: STATISTICA

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

Associazione tra caratteri quantitativi: gli indici di correlazione

STATISTICA 1 ESERCITAZIONE 6

STATISTICA DESCRITTIVA BIVARIATA

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Compiti tematici dai capitoli 2,3,4

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

Test delle Ipotesi Parte I

Modelli Log-lineari Bivariati

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

Statistica 1 A.A. 2015/2016

Esercizi di statistica

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

La regressione lineare. Rappresentazione analitica delle distribuzioni

Analisi delle componenti principali

Regressione Lineare Semplice e Correlazione

Esercitazioni del corso: RELAZIONI TRA VARIABILI

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Test per la correlazione lineare

Indice della lezione. Incertezza e rischio: sinonimi? Le Ipotesi della Capital Market Theory UNIVERSITA DEGLI STUDI DI PARMA FACOLTA DI ECONOMIA

Indici di variabilità ed eterogeneità

Esempio sulla media geometrica

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi

Statistica bivariata: il problema della dipendenza

La media da calcolare è rappresentata da (per distribuzioni di frequenza): k

Università di Cassino. Esercitazione di Statistica 1 del 28 novembre Dott.ssa Paola Costantini

Contenuti: Capitolo 14 del libro di testo

Distribuzioni di due variabili aleatorie

Esercitazione 9 del corso di Statistica (parte seconda)

Corso di Statistica (canale P-Z) A.A. 2009/10 Prof.ssa P. Vicard LA VARIABILITÀ

STATISTICA ESERCITAZIONE 13

Variabili casuali multidimensionali

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

INDICATORI DI TENDENZA CENTRALE

Esercitazioni di Statistica

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di tendenza centrale

Statistica. Relazioni tra variabili. Francesco Pauli A.A. 2015/2016

Транскрипт:

Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 24

Outline 1 () Statistica 2 / 24

Outline 1 2 () Statistica 2 / 24

Outline 1 2 3 () Statistica 2 / 24

Misura del legame Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce () Statistica 3 / 24

Misura del legame Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce connessione se X e Y sono mutabili correlazione se X e Y sono variabili () Statistica 3 / 24

Misura del legame Nel caso di variabili quantitative preferibile utilizzare una misura del legame che coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili. Le componenti della variabile doppia X e Y possono essere caratterizzate da diversa posizione e variabilità, risulta in genere che µ x µ y e σ x σ y () Statistica 4 / 24

Misura del legame Nel caso di variabili quantitative preferibile utilizzare una misura del legame che coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili. Le componenti della variabile doppia X e Y possono essere caratterizzate da diversa posizione e variabilità, risulta in genere che µ x µ y e σ x σ y Volendo misurare le variazioni congiunte delle modalità di X ed Y, si fa riferimento alla versione standardizzata delle variabili, data da Z x = X µ x σ x e Z y = Y µ y σ y questo per escludere dalla misura del legame gli effetti della differente media e varianza (essendo µ x µ y e σ x σ y ) () Statistica 4 / 24

lineare di Pearson ρ L indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate delle variabili si definisce coefficiente lineare di Pearson ρ ed dato da ρ xy = 1 n n (z x,i z y,i ) = 1 n n ( xi µ x σ x y ) i µ y σ y () Statistica / 24

lineare di Pearson ρ L indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate delle variabili si definisce coefficiente lineare di Pearson ρ ed dato da ρ xy = 1 n n (z x,i z y,i ) = 1 n n ( xi µ x σ x y ) i µ y σ y Con piccole trasformazioni si ottiene la presente formalizzazione ρ xy = 1 n n (x i µ x )(y i µ y ) = σ xy σ x σ y σ x σ y La quantità al numeratore si definisce covarianza: essa corrisponde alla media del prodotto degli scarti delle modalità di X e Y dalle rispettive medie. La covarianza misura la contenporanea variazione di X e Y con riferimento alle loro medie. () Statistica / 24

Calcolo del coefficiente Si consideri l esempio della variabile doppia reddito/grado di anzianità () Statistica 6 / 24

Calcolo del coefficiente () Statistica 6 / 24

Calcolo del coefficiente sia X = anni di anzianità e Y = reddito annuo σ x = 1 n (x i µ x ) n 2 = 10.13 σ y = 1 n σ xy = 1 n n (y i µ y ) 2 = 18.36 n (x i µ x )(y i µ y ) = 177.31 ρ xy = σ xy σ x σ y = 177.31 10.13 18.36 = 0.9 () Statistica 6 / 24

Proprietà del coefficiente se X e Y sono indipendenti, allora ρ xy = 0 (NON vale il contrario) se ρ xy = 1, allora Y = α + βx (ovvero Y una trasformazione lineare di X ) se ρ xy = 1, allora Y = α βx (ovvero Y una trasformazione lineare di X ) ρ xy = ρ yx ρ xx = 0 () Statistica 7 / 24

Metodo alternativo per il calcolo di ρ Da un punto di vista computazionale risulta conveniente l utilizzo della seguente formulazione alternativa del coefficiente lineare ρ basata sulle somme delle modalità delle componenti ( n x i, n y i), sulle somme dei quadrati delle modalità delle componenti ( n (x i) 2, n (y i) 2 ), sulla somma dei prodotti tra le modalità ( n x iy i ) ρ = n n x iy i n x n i y i (n n (x i) 2 [ n x i] 2 )(n n (y i) 2 [ n y i] 2 ) () Statistica 8 / 24

Metodo alternativo per il calcolo di ρ I totali di colonna sono rispettivamente n x i = 1076 n y i = 18 n x iy i = 6992 n (x i) 2 = 33046 n (y i) 2 = 9909 () Statistica 9 / 24

Metodo alternativo per il calcolo di ρ Si può dunque ricorrere alla seguente formula, sostituendo opportunamente le quantità trovate: ρ = = n n x iy i n x n i y i (n n (x i) 2 [ n x i] 2 )(n n (y i) 2 [ n y i] 2 ) 40 6992 (1076)(18) (40 33046 (1076) 2 )(40 9909 (18 2 )) = 283700 297470 = 0.9 () Statistica 10 / 24

Coefficiente : esempi di casi limite () Statistica 11 / 24

Coefficiente : esempi di casi limite () Statistica 11 / 24

Coefficiente : esempi di casi limite () Statistica 11 / 24

Coefficiente : esempi di casi limite () Statistica 11 / 24

Connessione in media Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l indipendenza in distribuzione). () Statistica 12 / 24

Connessione in media Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l indipendenza in distribuzione). µ y = y = 1 n h y j n.j j=1 Rappresenta la media di Y e si ottiene considerando la distribuzione marginale di Y. y i = y x i = 1 n i. h y j n ij j=1 Rappresenta la media di Y condizionata alla i ma modalità della variabile X. () Statistica 12 / 24

Decomposizione della devianza Ricordando che la devianza il numeratore della varianza... k h Dev y = (y j y) 2 n ij = j=1 k h = (y j y i + y i y) 2 n ij = j=1 k h k h = (y j y i ) 2 n ij + (y i y) 2 n ij + j=1 j=1 k h + 2 (y j y i )(y i y)n ij j=1 () Statistica 13 / 24

Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24

Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24

Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24

Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24

Rapporto di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. () Statistica 14 / 24

Rapporto di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 () Statistica 14 / 24

Rapporto di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 Quindi, per quantificare la dipendenza in media di Y da X occorre un indice basato su Dev(B). η 2 = Dev(B) Dev(Y ) () Statistica 14 / 24

Calcolo del rapporto Il nido del cuculo Il cuculo è un uccello caratterizzato da una particolare abitudine: depone le uova nei nidi di altri uccelli, e lascia dunque che siano altre specie a covarle. Ovviamente, il tutto funziona se la dimensione delle uova nel nido ospite sono compatibili con quelle del nido ospitante. In alcuni territori, il cuculo depone le uova in nidi di scricciolo, in altri sceglie nidi di pettirosso. Si consideri di aver osservato la lunghezza di n 1 = 1 uova di cuculo ritrovate in nidi di scricciolo e n 2 = 16 uova di cuculo ritrovate in nidi di pettirosso. Si vuole verificare se la lunghezza delle uova dipende in media dal tipo di nido in cui vengono deposte. () Statistica 1 / 24

Calcolo del rapporto Il nido del cuculo Il cuculo è un uccello caratterizzato da una particolare abitudine: depone le uova nei nidi di altri uccelli, e lascia dunque che siano altre specie a covarle. Ovviamente, il tutto funziona se la dimensione delle uova nel nido ospite sono compatibili con quelle del nido ospitante. In alcuni territori, il cuculo depone le uova in nidi di scricciolo, in altri sceglie nidi di pettirosso. Si consideri di aver osservato la lunghezza di n 1 = 1 uova di cuculo ritrovate in nidi di scricciolo e n 2 = 16 uova di cuculo ritrovate in nidi di pettirosso. Si vuole verificare se la lunghezza delle uova dipende in media dal tipo di nido in cui vengono deposte. () Statistica 16 / 24

Calcolo del rapporto Scricciolo Sia S la lunghezza delle uova di cuculo nei nidi di scricciolo Pettirosso Sia P la lunghezza delle uova di cuculo nei nidi di pettirosso () Statistica 17 / 24

Calcolo del rapporto Confronto tra le distribuzioni Un primo confronto grafico via box plot tra le due distribuzioni mostra che le uova deposte in nidi di pettirosso hanno una lunghezza maggiore di quelle deposte in nidi di scricciolo. () Statistica 18 / 24

Calcolo del rapporto Confronto tra le distribuzioni Un ulteriore confronto grafico tra le due distribuzioni consiste in un diagramma per punti: sono riportate graficamente le medie condizionate, mentre la media generale è rappresentata dalla linea orizzontale. () Statistica 19 / 24

Calcolo del rapporto Si indica con µ X = 21.87 la lunghezza media delle n = n 1 + n 2 uova complessivamente considerate. Le medie condizionate al nido in cui le uova sono state deposte sono rispettivamente µ X S = 21.13 e µ X P = 22.7. La devianza delle medie condizionate rispetto alla media generale è dunque dev b = (21.13 21.87) 2 1+(22.7 21.87) 2 16 = 16.16 mentre la devianza complessiva è data da dev tot = (19.8 21.87) 2 + (20.0 21.87) 2 + +... + (23.2 21.87) 2 + (23.8 21.87) 2 = 30.94 η 2 = dev b dev tot = 16.16 30.94 = 0.22 () Statistica 20 / 24

Calcolo del rapporto : valori in classi Si consideri l esempio della variabile doppia reddito/grado di anzianità () Statistica 21 / 24

Calcolo del rapporto Ai fini del calcolo del rapporto necessario calcolare la devianza totale della variabile Dev(Y ) e la devianza tra le classi Dev(B) (ovvero la devianza tra le medie condizionate Y X = x i, i = 1, 2,..., k e la media globale). Dunque µ(y ) = 1 (12. 32) + (17. 26)+ 103 + (22. 39) + (27. 6) = 14.9 () Statistica 22 / 24

Calcolo del rapporto µ(y x i = Nord) = 1 (12. 0) + (17. 7)+ 46 + (22. 34) + (27. ) = 22.28 µ(y x i = Centro) = 1 (12. 1) + (17. 18)+ 2 + (22. ) + (27. 1) = 18.7 µ(y x i = Sud) = 1 (12. 31) + (17. 1)+ 32 + (22. 0) + (27. 0) = 12.66 () Statistica 23 / 24

Calcolo del rapporto dev(y ) = (12. 14.9) 2 32 + (17. 14.9) 2 26+ + (22. 14.9) 2 39 + (27. 14.9) 2 6 = 36.3 dev(b) = (22.28 14.9) 2 46 + (18.7 14.9) 2 2+ + (12.66 14.9) 2 32 = 3026.9 η 2 = dev(b) dev(y ) = 3026.9 36.3 = 0.849 () Statistica 24 / 24