Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33
Outline 1 2 3 4 5 6 () Statistica 2 / 33
Misura del legame Nel caso di variabili quantitative preferibile utilizzare una misura del legame che coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili. Le componenti della variabile doppia X e Y possono essere caratterizzate da diversa posizione e variabilità, risulta in genere che µ x µ y e σ x σ y Volendo misurare le variazioni congiunte delle modalità di X ed Y, si fa riferimento alla versione standardizzata delle variabili, data da Z x = X µx σ x e Z y = Y µy σ y questo per escludere dalla misura del legame gli effetti della differente media e varianza (essendo µ x µ y e σ x σ y) () Statistica 3 / 33
di Pearson ρ L indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate delle variabili si definisce coefficiente di Pearson ρ ed dato da ρ xy = 1 (z x,i z y,i ) = 1 ( xi µ x n n σ x y ) i µ y σ y Con piccole trasformazioni si ottiene la presente formalizzazione ρ xy = 1 n n (x i µ x)(y i µ y) σ xσ y = σxy σ xσ y La quantità al numeratore si definisce covarianza: essa corrisponde alla media del prodotto degli scarti delle modalità di X e Y dalle rispettive medie. La covarianza misura la contenporanea variazione di X e Y con riferimento alle loro medie. () Statistica 4 / 33
Proprietà del coefficiente se X e Y sono indipendenti, allora ρ xy = 0 (NON vale il contrario) se ρ xy = 1, allora Y = α + βx (ovvero Y una trasformazione di X ) se ρ xy = 1, allora Y = α βx (ovvero Y una trasformazione di X ) ρ xy = ρ yx ρ xx = 0 () Statistica 5 / 33
di Pearson ρ Esercizio Si considerino i voti riportati da n = studenti negli esami di matematica e statistica. matematica(x i ) statistica(y i ) 1 24 23 2 27 2 3 30 30 4 26 27 5 29 30 6 1 20 7 21 20 22 25 Si misuri il legame che caratterizza le due variabili () Statistica 6 / 33
di Pearson ρ Svolgimento É necessario calcolare le medie aritmetiche µ e gli scarti quadratici medi σ Il voto medio ottenuto dagli studenti all esame di matematica è x µ m = i = n 197 = 24.625 Il voto medio ottenuto dagli studenti all esame di statistica è µ s = y i n x i y i x i µ x y i µ y (x i µ x) 2 (y i µ y) 2 1 24 23-0.62-2.3 0.39 5.64 2 27 2 2.3 2.62 5.64 6.9 3 30 30 5.3 4.62 2.9 21.39 4 26 27 1.3 1.62 1.9 2.64 5 29 30 4.3 4.62 19.14 21.39 6 1 20-6.62-5.3 43.9 2.9 7 21 20-3.62-5.3 13.14 2.9 22 25-2.62-0.3 6.9 0.14 T ot 197 203 119.75 115.75 = 203 = 25.375 (x i µ m) 2 119.75 scarti quadratici medi: σ m = = = 3.7 n (y i µ s) 2 115.75 σ s = = = 3.05 n () Statistica 7 / 33
di Pearson ρ Svolgimento Per calcolare il coefficiente resta da calcolare la covarianza, ovvero la media aritmetica del prodotto degli scarti dalla media. La covarianza è x i y i x i µ x y i µ y (x i µ x) (y i µ y) 1 24.00 23.00-0.62-2.3 1.4 2 27.00 2.00 2.3 2.62 6.23 3 30.00 30.00 5.3 4.62 24.6 4 26.00 27.00 1.3 1.62 2.23 5 29.00 30.00 4.3 4.62 20.23 6 1.00 20.00-6.62-5.3 35.61 7 21.00 20.00-3.62-5.3 19.4 22.00 25.00-2.62-0.3 0.9 T ot 197 203 111.125 σ ms = (x i µ m)(y i µ s) É ora possibile calcolare il coefficiente dato da n = 111.125 = 13.9 ρ ms = σms 13.9 = σ mσ s 3.7 3.05 = 0.943 () Statistica / 33
Metodo alternativo per il calcolo di ρ Da un punto di vista computazionale risulta conveniente l utilizzo della seguente formulazione alternativa del coefficiente ρ basata sulle somme delle modalità delle componenti ( n x i, n y i), sulle somme dei quadrati delle modalità delle componenti ( n (x i) 2, n (y i) 2 ), sulla somma dei prodotti tra le modalità ( n x iy i ) n n ρ = x iy i n x n i y i (n n (x i) 2 [ n x ] 2)(n n i (y i) 2 [ n 2) y i] () Statistica 9 / 33
Metodo alternativo per il calcolo di ρ x i y i x 2 i yi 2 x i y i 1 24 23 576 529 552 2 27 2 729 74 756 3 30 30 900 900 900 4 26 27 676 729 702 5 29 30 41 900 70 6 1 20 324 400 360 7 21 20 441 400 420 22 25 44 625 550 x = 197 y = 203 x 2 = 4971 y 2 = 5267 xy = 5110 n n ρ = x iy i n x n i y i (n n (x i) 2 [ n x ] 2)(n n i (y i) 2 [ n y ] = 2) i = 5110 (197 203) ( 4971 (197) 2 ) ( 5267 (203) 2 ) = 0.943 () Statistica 10 / 33
Coefficiente : esempi di casi limite () Statistica 11 / 33
Coefficiente : esempi di casi limite () Statistica 11 / 33
Coefficiente : esempi di casi limite () Statistica 11 / 33
Coefficiente : esempi di casi limite () Statistica 11 / 33
Dipendenza Lo studio della relazione tra caratteri statistici è, nel caso della inter, di tipo simmetrico: due caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A questo scopo sono stati introdotti gli indici di covarianza σ xy e ρ. Si consideri di aver osservato due caratteri quantitativi X ed Y. Si riportano i valori e il grafico di dispersione: Y X 1 2 11 2 21 3 63 2 4 42 17 5 2 9 6 2 4 7 0 2 19 5 9 33 12 10 60 23 376 145 Il diagramma di dispersione (scatter plot) () Statistica 12 / 33
Dipendenza covarianza e coefficiente 10 µ x = x i = 14.5 10 10 µ y = y i = 37.6 10 10 σ x = (x i µx)2 =.57 10 10 σ y = (y i µy )2 = 22.49 10 10 σ xy = (x i µx)(y i µy ) = 17.3 10 ρ xy = σxy σxσy = 0.97 Dipendenza funzionale Essendo il valore del coefficiente prossimo ad 1 esiste una forte relazione tra X ed Y. Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo Y = f(x) = b 0 + b 1 X che rappresenta l equazione di una retta passante attraverso la nube di punti di coordinate (x i, y i ). () Statistica 13 / 33
rette passanti per la nube di punti fornisce una approssimazione della dei valori di Y dai valori di X. La relazione di non è esattamente riprodotta dalla retta; i valori yi = b 0 + b 1 x i sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = b 0 + b 1 X, in corrispondenza dei valori x i osservati. Determinazione della retta di L identificazione della retta avviene attraverso la determinazione dei valori di b 0, l intercetta, e b 1, il coefficiente angolare o pendenza. La retta migliore è quella che passa più vicina ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi e i valori osservati y i siano minime. () Statistica 14 / 33
I residui le differenze tra i valori teorici yi e i valori osservati y i vengono definite residui. è tale che la somma dei residui al quadrato sia minima. Formalmente Ricerca dei parametri della retta di :(b 0 ) e 2 n i = (y i y i )2 = (y i b 0 b 1 x i ) 2 2 (y i b 0 b 1 x i ) = Il problema consiste dunque nel ricercare b 0 e b 1 che minimizzano la precedente espressione. Da un punto di vista n operativo bisogna risolvere il seguente sistema di equazioni y i n b 0 b 1 x i = 0 (y i b 0 b 1 x i ) 2 = 0 b 0 = µ y b 1 µ x b 0 (y i b 0 b 1 x i ) 2 = 0 b 1 () Statistica 15 / 33
I residui le differenze tra i valori teorici yi e i valori osservati y i vengono definite residui. La retta di è tale che la somma dei residui al quadrato sia minima. Ricerca dei parametri della retta di :(b 1 ) Formalmente e 2 i = n (y i y i )2 = = (y i b 0 b 1 x i ) 2 Il problema consiste dunque nel ricercare b 0 e b 1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni 2 x i (y i b 0 b 1 x i ) = 0 n n x i y i b 0 x i b 1 x 2 i = 0 n b 1 x 2 n ( i = n y n ) i x i x i y i x i b 1 n n b 1 (n x 2 n ) i ( x i ) 2 n = n x i y i x i y i b 1 = n n x i y i n x n i y i (y i b 0 b 1 x i ) 2 n n x 2 i ( n x i ) 2 = σxy σx 2 = 0 b 0 (y i b 0 b 1 x i ) 2 = 0 b 1 () Statistica 16 / 33
Determinazione della retta di Calcolo dei coefficienti Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha b 1 = σxy σ x 2 = 2.55 b 0 = µ y b 1 µ x = 37.6 (2.55 14.5) = 0.62 La retta migliore () Statistica 17 / 33
Interpretazione dei valori dei coefficienti di b 0 rappresenta l intercetta della retta di ed indica il valore della variabile di risposta Y quando il predittore X assume valore 0. b 1 rappresenta l inclinazione della retta di, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore X. () Statistica 1 / 33
Bontà di adattamento Esistono diversi strumenti grafici ed analitici per valutare la bontà dell adattamento della retta di ai dati Strumenti grafici: plot dei residui Strumenti analitici:coefficiente di determinazione R 2 () Statistica 19 / 33
Plot dei residui Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio, all aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non : la retta di ne sarebbe dunque una cattiva approssimazione. Plot dei residui Per verificare che l andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un diagramma di dispesione tra i valori x i ed i corrispondenti residui e i (i = 1,..., n) () Statistica 20 / 33
coefficiente di determinazione R 2 Ricordando che la devianza il numeratore della varianza... Dev y = (y i µ y) 2 = (y i ŷ i + ŷ i µ y) 2 = = (y i ŷ i ) 2 + (ŷ i µ y) 2 + 2 (y i ŷ i )(ŷ i µ y) = (y i ŷ i ) 2 + (ŷ i µ y) 2 + 2( y i ŷ i )( ŷ i nµ y) Il metodo dei minimi quadrati assicura che n ŷ i = n y i, quindi Dev(y) = (y i ŷ i ) 2 + (ŷ i µ y) 2 + 2 0 ( ŷ i nµ y) = (ŷ i µ y) 2 + (y i ŷ i ) 2 = Dev r + Dev e () Statistica 21 / 33
Decomposizione della devianza La devianza può essere decomposta dunque nelle seguenti quantità Dev y = Dev r + Dev e Dev y = n (y i µ y) 2 devianza totale Dev r = n (ŷ i µ y) 2 devianza di Dev e = n (y i ŷ i ) 2 devianza dei residui Interpretazione grafica () Statistica 22 / 33
Bontà dell adattamento Intituitivamente, l adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la retta di riesce a spiegare; ovvero, l adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di determinazione R 2, dato da ovvero esempio di calcolo R 2 Dev y = n (y i µ y) 2 = 505.4 n R 2 = Devr (ŷ i µ y) 2 = Dev n y (y i µ y) 2 n R 2 = 1 Deve (y i ŷ i ) 2 = 1 Dev n y (y i µ y) 2 Dev r = n (ŷ i µ y) 2 = 4776.214 Dev e = n (y i ŷ i ) 2 = 22.162 R 2 = Devr Dev y = 4776.214 505.4 = 0.94 ovvero R 2 = 1 Deve = 1 22.162 = 1 10.53 = 0.94 Dev y 505.4 () Statistica 23 / 33
Influenza di un outlier sulla Un piccolo esempio Si considerino le seguenti osservazioni Retta di La induce a concludere che vi sia una relazione di proporzionalità inversa: poichè la retta è decrescente si deduce che all aumentare di X, la variabile dipendente Y diminuisce. () Statistica 24 / 33
Influenza di un outlier sulla Retta di Un (altro) piccolo esempio Si considerino le osservazioni precedenti a cui è aggiunta un unica coppia di valori (, ). I dati sono In questo caso, la sola presenza della nuova osservazione conduce all identificazione di una retta di diversa dalla prima: l inclinazione positiva della retta indica una relazione di diretta proporzionalità. Tuttavia tale è unicamente dovuta dalla presenza dell osservazione (, ) che pertanto induce a valutare la relazione di tra Y ed X in maniera errata. L osservazione (, ) si definisce pertanto un outlier. L identificazione e la conseguente eliminazione degli eventuali outlier è un elemento molto importante nello studio della tra fenomeni. () Statistica 25 / 33
Esercizio : distribuzione doppia di frequenze Si consideri di aver osservato su 10 rivenditori di componenti informatiche le variabili numero di punti vendita e Fatturato settimanale complessivo. Si studi la del fatturato dal numero di punti vendita. fino a 2 tra 2 e 4 tra 4 e 6 fino a 5000 3 2 0 tra 5000 e 1000 1 2 2 Si stimino i coefficienti della retta di. Si valuti la bontà di adattamento della retta ai dati. () Statistica 26 / 33
Esercizio : distribuzione doppia di frequenze Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai centri di ciascun intervallo. La tabella è dunque data da Y /X 1 3 5 Tot 2500 3 2 0 5 7500 1 2 2 5 Tot 4 4 2 10 Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze: µ x = 1 k x j n.j = 1 4 + 12 + 10 (1 4) + (3 4) + (5 2) = = 2.6 n j=1 10 10 µ y = 1 h y i n i. = 1 12500 + 37500 (2500 5) + (7500 5) = = 5000 n 10 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 27 / 33
Esercizio : distribuzione doppia di frequenze Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato Y /X (1 2.6) 2 (3 2.6) 2 (5 2.6) 2 Tot (2500 5000) 2 3 2 0 5 (7500 5000) 2 1 2 2 5 Tot 4 4 2 10 Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze: σ 2 x = 1 k (x j µ x) 2 n.j = 1 n j=1 10 ((1 2.6)2 4) + ((3 2.6) 2 4)+ + ((5 2.6) 2 10.24 + 0.64 + 11.52 2) = = 2.24 10 σ 2 y = 1 h (y i µ y) 2 n i. = 1 n 10 (2500 5)2 + (7500 5) 2 31250000 + 31250000 = = 6250000 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 2 / 33
Esercizio : distribuzione doppia di frequenze Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza. Y /X (1 2.6) (3 2.6) (5 2.6) Tot (2500 5000) 3 2 0 5 (7500 5000) 1 2 2 5 Tot 4 4 2 10 y i x i y i µ y x i µ x 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 3 (2500-5000) (3-2.6) 2500 3 (2500-5000) (3-2.6) 7500 1 (7500-5000) (1-2.6) 7500 3 (7500-5000) (3-2.6) 7500 3 (7500-5000) (3-2.6) 7500 5 (7500-5000) (5-2.6) 7500 5 (7500-5000) (5-2.6) σ xy = 1 h k (y i µ y) (x j µ x) n ij = n j=1 = 1 ((2500 5000)(1 2.6) 3 + (2500 5000)(3 2.6) 2+ 10 + (7500 5000)(1 2.6) 1 + (7500 5000)(3 2.6) 2+ 12000 2000 4000 + 2000 + 12000 + (7500 5000)(5 2.6) 2) = = 2000 10 () Statistica 29 / 33
Esercizio : distribuzione doppia di frequenze Avendo calcolato le quantità µ x = 2.6, µ y = 5000, σ 2 x = 2.24 e σ xy = 2000, è possibile calcolare i coefficienti della retta di Calcolo dei coefficienti b 1 = σxy = 2000 σx 2 2.24 = 92.571 b 0 = µ y b 1 µ x = 5000 (92.571 2.6) = 2679.315 quindi l equazione della retta di è y = b 0 + b 1 x = 2679.315 + 92.571x Dunque, il valore stimato ŷ i corrispondente ad un valore x i assegnato è ŷ i = b 0 + b 1 x. () Statistica 30 / 33
Valutazione della bontà di adattamento Ricordando che ovvero con Dev y = Dev r + Dev e n R 2 = Devr (ŷ i µ y) 2 = Dev n y (y i µ y) 2 n R 2 = 1 Deve (y i ŷ i ) 2 = 1 Dev n y (y i µ y) 2 Dev y = n (y i µ y) 2 devianza totale Dev r = n (ŷ i µ y) 2 devianza di Dev e = n (y i ŷ i ) 2 devianza dei residui Per ottenere R 2, misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo già calcolato σ 2 y. () Statistica 31 / 33
Calcolo della devianza dei residui Dev e = n (y i ŷ i ) 2 devianza dei residui in base alla retta di stimata, i valori ŷ i stimati in funzione dei valori x i sono ŷ 1 = b 0 + b 1 x 1 = 2679.315 + 92.571 1 = 3571.6 ŷ 2 = b 0 + b 1 x 2 = 2679.315 + 92.571 3 = 5357.02 ŷ 3 = b 0 + b 1 x 3 = 2679.315 + 92.571 5 = 7142.17 () Statistica 32 / 33
Calcolo della devianza dei residui Per calcolare i residui y i ŷ i nel caso di si procede come segue y i /ŷ j ŷ 1 = 3571.6 ŷ 2 = 5357.02 ŷ 3 = 7142.17 Tot y 1 = 2500 3 2 0 5 y 2 = 7500 1 2 2 5 Tot 4 4 2 10 Dev e = h k ((y i ŷ j ) 2 ) n ij devianza dei residui per tabella doppia calcolo della devianza dei residui h k Dev e = ((y i ŷ j ) 2 ) n ij = ((2500 3571.6) 2 ) 3 + ((2500 5357.02) 2 ) 2+ j=1 + ((7500 3571.6) 2 ) 1 + ((7500 5357.02) 2 ) 2 + ((7500 7142.17) 2 ) 2 = = 4464259 dev y = (y i µ y) 2 = σ 2 y n = 6250000 10 = 62500000 R 2 = 1 deve dev y = 1 0.71 = 0.29 () Statistica 33 / 33