Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 24
Outline 1 () Statistica 2 / 24
Outline 1 2 () Statistica 2 / 24
Outline 1 2 3 () Statistica 2 / 24
Misura del legame Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce () Statistica 3 / 24
Misura del legame Data una variabile doppia (X, Y ), la misura del legame che caratterizza le componenti X ed Y si definisce connessione se X e Y sono mutabili correlazione se X e Y sono variabili () Statistica 3 / 24
Misura del legame Nel caso di variabili quantitative preferibile utilizzare una misura del legame che coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili. Le componenti della variabile doppia X e Y possono essere caratterizzate da diversa posizione e variabilità, risulta in genere che µ x µ y e σ x σ y () Statistica 4 / 24
Misura del legame Nel caso di variabili quantitative preferibile utilizzare una misura del legame che coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili. Le componenti della variabile doppia X e Y possono essere caratterizzate da diversa posizione e variabilità, risulta in genere che µ x µ y e σ x σ y Volendo misurare le variazioni congiunte delle modalità di X ed Y, si fa riferimento alla versione standardizzata delle variabili, data da Z x = X µ x σ x e Z y = Y µ y σ y questo per escludere dalla misura del legame gli effetti della differente media e varianza (essendo µ x µ y e σ x σ y ) () Statistica 4 / 24
lineare di Pearson ρ L indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate delle variabili si definisce coefficiente lineare di Pearson ρ ed dato da ρ xy = 1 n n (z x,i z y,i ) = 1 n n ( xi µ x σ x y ) i µ y σ y () Statistica / 24
lineare di Pearson ρ L indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate delle variabili si definisce coefficiente lineare di Pearson ρ ed dato da ρ xy = 1 n n (z x,i z y,i ) = 1 n n ( xi µ x σ x y ) i µ y σ y Con piccole trasformazioni si ottiene la presente formalizzazione ρ xy = 1 n n (x i µ x )(y i µ y ) = σ xy σ x σ y σ x σ y La quantità al numeratore si definisce covarianza: essa corrisponde alla media del prodotto degli scarti delle modalità di X e Y dalle rispettive medie. La covarianza misura la contenporanea variazione di X e Y con riferimento alle loro medie. () Statistica / 24
Calcolo del coefficiente Si consideri l esempio della variabile doppia reddito/grado di anzianità () Statistica 6 / 24
Calcolo del coefficiente () Statistica 6 / 24
Calcolo del coefficiente sia X = anni di anzianità e Y = reddito annuo σ x = 1 n (x i µ x ) n 2 = 10.13 σ y = 1 n σ xy = 1 n n (y i µ y ) 2 = 18.36 n (x i µ x )(y i µ y ) = 177.31 ρ xy = σ xy σ x σ y = 177.31 10.13 18.36 = 0.9 () Statistica 6 / 24
Proprietà del coefficiente se X e Y sono indipendenti, allora ρ xy = 0 (NON vale il contrario) se ρ xy = 1, allora Y = α + βx (ovvero Y una trasformazione lineare di X ) se ρ xy = 1, allora Y = α βx (ovvero Y una trasformazione lineare di X ) ρ xy = ρ yx ρ xx = 0 () Statistica 7 / 24
Metodo alternativo per il calcolo di ρ Da un punto di vista computazionale risulta conveniente l utilizzo della seguente formulazione alternativa del coefficiente lineare ρ basata sulle somme delle modalità delle componenti ( n x i, n y i), sulle somme dei quadrati delle modalità delle componenti ( n (x i) 2, n (y i) 2 ), sulla somma dei prodotti tra le modalità ( n x iy i ) ρ = n n x iy i n x n i y i (n n (x i) 2 [ n x i] 2 )(n n (y i) 2 [ n y i] 2 ) () Statistica 8 / 24
Metodo alternativo per il calcolo di ρ I totali di colonna sono rispettivamente n x i = 1076 n y i = 18 n x iy i = 6992 n (x i) 2 = 33046 n (y i) 2 = 9909 () Statistica 9 / 24
Metodo alternativo per il calcolo di ρ Si può dunque ricorrere alla seguente formula, sostituendo opportunamente le quantità trovate: ρ = = n n x iy i n x n i y i (n n (x i) 2 [ n x i] 2 )(n n (y i) 2 [ n y i] 2 ) 40 6992 (1076)(18) (40 33046 (1076) 2 )(40 9909 (18 2 )) = 283700 297470 = 0.9 () Statistica 10 / 24
Coefficiente : esempi di casi limite () Statistica 11 / 24
Coefficiente : esempi di casi limite () Statistica 11 / 24
Coefficiente : esempi di casi limite () Statistica 11 / 24
Coefficiente : esempi di casi limite () Statistica 11 / 24
Connessione in media Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l indipendenza in distribuzione). () Statistica 12 / 24
Connessione in media Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la componente Y indipendente in media da X se al variare delle modalità di X le medie condizionate di X rimangono costanti (vale il viceversa). Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario (come invece accade per l indipendenza in distribuzione). µ y = y = 1 n h y j n.j j=1 Rappresenta la media di Y e si ottiene considerando la distribuzione marginale di Y. y i = y x i = 1 n i. h y j n ij j=1 Rappresenta la media di Y condizionata alla i ma modalità della variabile X. () Statistica 12 / 24
Decomposizione della devianza Ricordando che la devianza il numeratore della varianza... k h Dev y = (y j y) 2 n ij = j=1 k h = (y j y i + y i y) 2 n ij = j=1 k h k h = (y j y i ) 2 n ij + (y i y) 2 n ij + j=1 j=1 k h + 2 (y j y i )(y i y)n ij j=1 () Statistica 13 / 24
Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24
Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24
Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24
Decomposizione della devianza k h k = (y j y i ) 2 n ij + (y i y) 2 n i. + j=1 k h + 2 (y j y i ) (y i y)n ij = j=1 k k = [Dev(Y X = x i )] + (y i y) 2 n i. = = Dev(W ) + Dev(B) () Statistica 13 / 24
Rapporto di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. () Statistica 14 / 24
Rapporto di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 () Statistica 14 / 24
Rapporto di Pearson (η 2 ) Dev(W ) rappresenta la varianza all interno dei gruppi definiti dalle modalità di X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità delle medie condizionate rispetto alla media generale. Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter Dev(B) = 0 quindi Dev(Y ) = Dev(W ) + 0 Quindi, per quantificare la dipendenza in media di Y da X occorre un indice basato su Dev(B). η 2 = Dev(B) Dev(Y ) () Statistica 14 / 24
Calcolo del rapporto Il nido del cuculo Il cuculo è un uccello caratterizzato da una particolare abitudine: depone le uova nei nidi di altri uccelli, e lascia dunque che siano altre specie a covarle. Ovviamente, il tutto funziona se la dimensione delle uova nel nido ospite sono compatibili con quelle del nido ospitante. In alcuni territori, il cuculo depone le uova in nidi di scricciolo, in altri sceglie nidi di pettirosso. Si consideri di aver osservato la lunghezza di n 1 = 1 uova di cuculo ritrovate in nidi di scricciolo e n 2 = 16 uova di cuculo ritrovate in nidi di pettirosso. Si vuole verificare se la lunghezza delle uova dipende in media dal tipo di nido in cui vengono deposte. () Statistica 1 / 24
Calcolo del rapporto Il nido del cuculo Il cuculo è un uccello caratterizzato da una particolare abitudine: depone le uova nei nidi di altri uccelli, e lascia dunque che siano altre specie a covarle. Ovviamente, il tutto funziona se la dimensione delle uova nel nido ospite sono compatibili con quelle del nido ospitante. In alcuni territori, il cuculo depone le uova in nidi di scricciolo, in altri sceglie nidi di pettirosso. Si consideri di aver osservato la lunghezza di n 1 = 1 uova di cuculo ritrovate in nidi di scricciolo e n 2 = 16 uova di cuculo ritrovate in nidi di pettirosso. Si vuole verificare se la lunghezza delle uova dipende in media dal tipo di nido in cui vengono deposte. () Statistica 16 / 24
Calcolo del rapporto Scricciolo Sia S la lunghezza delle uova di cuculo nei nidi di scricciolo Pettirosso Sia P la lunghezza delle uova di cuculo nei nidi di pettirosso () Statistica 17 / 24
Calcolo del rapporto Confronto tra le distribuzioni Un primo confronto grafico via box plot tra le due distribuzioni mostra che le uova deposte in nidi di pettirosso hanno una lunghezza maggiore di quelle deposte in nidi di scricciolo. () Statistica 18 / 24
Calcolo del rapporto Confronto tra le distribuzioni Un ulteriore confronto grafico tra le due distribuzioni consiste in un diagramma per punti: sono riportate graficamente le medie condizionate, mentre la media generale è rappresentata dalla linea orizzontale. () Statistica 19 / 24
Calcolo del rapporto Si indica con µ X = 21.87 la lunghezza media delle n = n 1 + n 2 uova complessivamente considerate. Le medie condizionate al nido in cui le uova sono state deposte sono rispettivamente µ X S = 21.13 e µ X P = 22.7. La devianza delle medie condizionate rispetto alla media generale è dunque dev b = (21.13 21.87) 2 1+(22.7 21.87) 2 16 = 16.16 mentre la devianza complessiva è data da dev tot = (19.8 21.87) 2 + (20.0 21.87) 2 + +... + (23.2 21.87) 2 + (23.8 21.87) 2 = 30.94 η 2 = dev b dev tot = 16.16 30.94 = 0.22 () Statistica 20 / 24
Calcolo del rapporto : valori in classi Si consideri l esempio della variabile doppia reddito/grado di anzianità () Statistica 21 / 24
Calcolo del rapporto Ai fini del calcolo del rapporto necessario calcolare la devianza totale della variabile Dev(Y ) e la devianza tra le classi Dev(B) (ovvero la devianza tra le medie condizionate Y X = x i, i = 1, 2,..., k e la media globale). Dunque µ(y ) = 1 (12. 32) + (17. 26)+ 103 + (22. 39) + (27. 6) = 14.9 () Statistica 22 / 24
Calcolo del rapporto µ(y x i = Nord) = 1 (12. 0) + (17. 7)+ 46 + (22. 34) + (27. ) = 22.28 µ(y x i = Centro) = 1 (12. 1) + (17. 18)+ 2 + (22. ) + (27. 1) = 18.7 µ(y x i = Sud) = 1 (12. 31) + (17. 1)+ 32 + (22. 0) + (27. 0) = 12.66 () Statistica 23 / 24
Calcolo del rapporto dev(y ) = (12. 14.9) 2 32 + (17. 14.9) 2 26+ + (22. 14.9) 2 39 + (27. 14.9) 2 6 = 36.3 dev(b) = (22.28 14.9) 2 46 + (18.7 14.9) 2 2+ + (12.66 14.9) 2 32 = 3026.9 η 2 = dev(b) dev(y ) = 3026.9 36.3 = 0.849 () Statistica 24 / 24