Statistica. Alfonso Iodice D Enza

Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24

Outline 1 2 3 4 5 () Statistica 2 / 24

Dipendenza lineare Lo studio della relazione tra caratteri statistici è, nel caso della inter, di tipo simmetrico: due caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A questo scopo sono stati introdotti gli indici di covarianza σ xy e di correlazione lineare ρ. Si consideri di aver osservato due caratteri quantitativi X ed Y. Si riportano i valori e il grafico di dispersione: Y X 1 2 11 2 21 3 63 2 4 42 17 5 2 9 6 2 4 7 0 2 19 5 9 33 12 10 60 23 376 145 Il diagramma di dispersione (scatter plot) () Statistica 3 / 24

Dipendenza lineare covarianza e coefficiente di correlazione P 10 µ x = x i = 14.5 10 P 10 µ y = y i = 37.6 10 r P10 σ x = (x i µx)2 =.57 10 r P10 σ y = (y i µy )2 = 22.49 10 P 10 σ xy = (x i µx)(y i µy ) = 17.3 10 ρ xy = σxy σxσy = 0.97 Dipendenza funzionale lineare Essendo il valore del coefficiente di correlazione lineare prossimo ad 1 esiste una forte relazione lineare tra X ed Y. Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo Y = f(x) = b 0 + b 1 X che rappresenta l equazione di una retta passante attraverso la nube di punti di coordinate (x i, y i ). () Statistica 4 / 24

rette passanti per la nube di punti fornisce una approssimazione della dei valori di Y dai valori di X. La relazione di non è esattamente riprodotta dalla retta; i valori yi = b 0 + b 1 x i sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = b 0 + b 1 X, in corrispondenza dei valori x i osservati. Determinazione della retta di L identificazione della retta avviene attraverso la determinazione dei valori di b 0, l intercetta, e b 1, il coefficiente angolare o pendenza. La retta migliore è quella che passa più vicina ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi e i valori osservati y i siano minime. () Statistica 5 / 24

I residui le differenze tra i valori teorici yi e i valori osservati y i vengono definite residui. è tale che la somma dei residui al quadrato sia minima. Formalmente Ricerca dei parametri della retta di :(b 0 ) e 2 n i = X (y i y i )2 = (y i b 0 b 1 x i ) 2 2 (y i b 0 b 1 x i ) = Il problema consiste dunque nel ricercare b 0 e b 1 che minimizzano la precedente espressione. Da un punto di vista X n operativo bisogna risolvere il seguente sistema di equazioni y i n b 0 b 1 x i = 0 (y i b 0 b 1 x i ) 2 = 0 b 0 = µ y b 1 µ x b 0 (y i b 0 b 1 x i ) 2 = 0 b 1 () Statistica 6 / 24

I residui le differenze tra i valori teorici yi e i valori osservati y i vengono definite residui. La retta di è tale che la somma dei residui al quadrato sia minima. Ricerca dei parametri della retta di :(b 1 ) Formalmente e 2 i = X n (y i y i )2 = = (y i b 0 b 1 x i ) 2 Il problema consiste dunque nel ricercare b 0 e b 1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni 2 x i (y i b 0 b 1 x i ) = 0 X n X n x i y i b 0 x i b 1 x 2 i = 0 X n b 1 x 2 n P i = X n P y n! i x i x i y i x i b 1 n n b 1 n x 2 n! i ( X x i ) 2 X n = n x i y i x i y i b 1 = n P n x i y i P n P x n i y i (y i b 0 b 1 x i ) 2 n P n x 2 i (P n x i ) 2 = σxy σx 2 = 0 b 0 (y i b 0 b 1 x i ) 2 = 0 b 1 () Statistica 7 / 24

Determinazione della retta di Calcolo dei coefficienti Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha b 1 = σxy σ x 2 = 2.55 b 0 = µ y b 1 µ x = 37.6 (2.55 14.5) = 0.62 La retta migliore () Statistica / 24

Interpretazione dei valori dei coefficienti di b 0 rappresenta l intercetta della retta di ed indica il valore della variabile di risposta Y quando il predittore X assume valore 0. b 1 rappresenta l inclinazione della retta di, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore X. () Statistica 9 / 24

Bontà di adattamento Esistono diversi strumenti grafici ed analitici per valutare la bontà dell adattamento della retta di ai dati Strumenti grafici: plot dei residui Strumenti analitici:coefficiente di determinazione lineare R 2 () Statistica 10 / 24

Plot dei residui Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio, all aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non lineare: la retta di ne sarebbe dunque una cattiva approssimazione. Plot dei residui Per verificare che l andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un diagramma di dispesione tra i valori x i ed i corrispondenti residui e i (i = 1,..., n) () Statistica 11 / 24

coefficiente di determinazione lineare R 2 Ricordando che la devianza il numeratore della varianza... Dev y = (y i µ y) 2 = (y i ŷ i + ŷ i µ y) 2 = = (y i ŷ i ) 2 + (ŷ i µ y) 2 + 2 (y i ŷ i )(ŷ i µ y) = (y i ŷ i ) 2 + (ŷ i µ y) 2 + 2( y i ŷ i )( ŷ i nµ y) Il metodo dei minimi quadrati assicura che P n ŷ i = P n y i, quindi Dev(y) = (y i ŷ i ) 2 + (ŷ i µ y) 2 + 2 0 ( ŷ i nµ y) = (ŷ i µ y) 2 + (y i ŷ i ) 2 = Dev r + Dev e () Statistica 12 / 24

Decomposizione della devianza La devianza può essere decomposta dunque nelle seguenti quantità Dev y = Dev r + Dev e Dev y = P n (y i µ y) 2 devianza totale Dev r = P n (ŷ i µ y) 2 devianza di Dev e = P n (y i ŷ i ) 2 devianza dei residui Interpretazione grafica () Statistica 13 / 24

Bontà dell adattamento Intituitivamente, l adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la retta di riesce a spiegare; ovvero, l adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di determinazione lineare R 2, dato da ovvero esempio di calcolo R 2 Dev y = P n (y i µ y) 2 = 505.4 P n R 2 = Devr (ŷ i µ y) 2 = P Dev n y (y i µ y) 2 P n R 2 = 1 Deve (y i ŷ i ) 2 = 1 P Dev n y (y i µ y) 2 Dev r = P n (ŷ i µ y) 2 = 4776.214 Dev e = P n (y i ŷ i ) 2 = 22.162 R 2 = Devr Dev y = 4776.214 505.4 = 0.94 ovvero R 2 = 1 Deve = 1 22.162 = 1 10.53 = 0.94 Dev y 505.4 () Statistica 14 / 24

Influenza di un outlier sulla Un piccolo esempio Si considerino le seguenti osservazioni Retta di La induce a concludere che vi sia una relazione di proporzionalità inversa: poichè la retta è decrescente si deduce che all aumentare di X, la variabile dipendente Y diminuisce. () Statistica 15 / 24

Influenza di un outlier sulla Retta di Un (altro) piccolo esempio Si considerino le osservazioni precedenti a cui è aggiunta un unica coppia di valori (, ). I dati sono In questo caso, la sola presenza della nuova osservazione conduce all identificazione di una retta di diversa dalla prima: l inclinazione positiva della retta indica una relazione di diretta proporzionalità. Tuttavia tale è unicamente dovuta dalla presenza dell osservazione (, ) che pertanto induce a valutare la relazione di tra Y ed X in maniera errata. L osservazione (, ) si definisce pertanto un outlier. L identificazione e la conseguente eliminazione degli eventuali outlier è un elemento molto importante nello studio della tra fenomeni. () Statistica 16 / 24

Esercizio : distribuzione doppia di frequenze Si consideri di aver osservato su 10 rivenditori di componenti informatiche le variabili numero di punti vendita e Fatturato settimanale complessivo. Si studi la del fatturato dal numero di punti vendita. fino a 2 tra 2 e 4 tra 4 e 6 fino a 5000 3 2 0 tra 5000 e 1000 1 2 2 Si stimino i coefficienti della retta di. Si valuti la bontà di adattamento della retta ai dati. () Statistica 17 / 24

Esercizio : distribuzione doppia di frequenze Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai centri di ciascun intervallo. La tabella è dunque data da Y /X 1 3 5 Tot 2500 3 2 0 5 7500 1 2 2 5 Tot 4 4 2 10 Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze: µ x = 1 kx x j n.j = 1 4 + 12 + 10 (1 4) + (3 4) + (5 2) = = 2.6 n j=1 10 10 µ y = 1 hx y i n i. = 1 12500 + 37500 (2500 5) + (7500 5) = = 5000 n 10 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 1 / 24

Esercizio : distribuzione doppia di frequenze Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato Y /X (1 2.6) 2 (3 2.6) 2 (5 2.6) 2 Tot (2500 5000) 2 3 2 0 5 (7500 5000) 2 1 2 2 5 Tot 4 4 2 10 Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze: σ 2 x = 1 kx (x j µ x) 2 n.j = 1 n j=1 10 ((1 2.6)2 4) + ((3 2.6) 2 4)+ + ((5 2.6) 2 10.24 + 0.64 + 11.52 2) = = 2.24 10 σ 2 y = 1 hx (y i µ y) 2 n i. = 1 n 10 (2500 5)2 + (7500 5) 2 31250000 + 31250000 = = 6250000 10 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. () Statistica 19 / 24

Esercizio : distribuzione doppia di frequenze Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza. Y /X (1 2.6) (3 2.6) (5 2.6) Tot (2500 5000) 3 2 0 5 (7500 5000) 1 2 2 5 Tot 4 4 2 10 y i x i y i µ y x i µ x 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 1 (2500-5000) (1-2.6) 2500 3 (2500-5000) (3-2.6) 2500 3 (2500-5000) (3-2.6) 7500 1 (7500-5000) (1-2.6) 7500 3 (7500-5000) (3-2.6) 7500 3 (7500-5000) (3-2.6) 7500 5 (7500-5000) (5-2.6) 7500 5 (7500-5000) (5-2.6) σ xy = 1 hx kx (y i µ y) (x j µ x) n ij = n j=1 = 1 ((2500 5000)(1 2.6) 3 + (2500 5000)(3 2.6) 2+ 10 + (7500 5000)(1 2.6) 1 + (7500 5000)(3 2.6) 2+ 12000 2000 4000 + 2000 + 12000 + (7500 5000)(5 2.6) 2) = = 2000 10 () Statistica 20 / 24

Esercizio : distribuzione doppia di frequenze Avendo calcolato le quantità µ x = 2.6, µ y = 5000, σ 2 x = 2.24 e σ xy = 2000, è possibile calcolare i coefficienti della retta di Calcolo dei coefficienti b 1 = σxy = 2000 σx 2 2.24 = 92.571 b 0 = µ y b 1 µ x = 5000 (92.571 2.6) = 2679.315 quindi l equazione della retta di è y = b 0 + b 1 x = 2679.315 + 92.571x Dunque, il valore stimato ŷ i corrispondente ad un valore x i assegnato è ŷ i = b 0 + b 1 x. () Statistica 21 / 24

Valutazione della bontà di adattamento Ricordando che ovvero con Dev y = Dev r + Dev e P n R 2 = Devr (ŷ i µ y) 2 = P Dev n y (y i µ y) 2 P n R 2 = 1 Deve (y i ŷ i ) 2 = 1 P Dev n y (y i µ y) 2 Dev y = P n (y i µ y) 2 devianza totale Dev r = P n (ŷ i µ y) 2 devianza di Dev e = P n (y i ŷ i ) 2 devianza dei residui Per ottenere R 2, misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo già calcolato σ 2 y. () Statistica 22 / 24

Calcolo della devianza dei residui Dev e = n (y i ŷ i ) 2 devianza dei residui in base alla retta di stimata, i valori ŷ i stimati in funzione dei valori x i sono ŷ 1 = b 0 + b 1 x 1 = 2679.315 + 92.571 1 = 3571.6 ŷ 2 = b 0 + b 1 x 2 = 2679.315 + 92.571 3 = 5357.02 ŷ 3 = b 0 + b 1 x 3 = 2679.315 + 92.571 5 = 7142.17 () Statistica 23 / 24

Calcolo della devianza dei residui Per calcolare i residui y i ŷ i nel caso di si procede come segue y i /ŷ j ŷ 1 = 3571.6 ŷ 2 = 5357.02 ŷ 3 = 7142.17 Tot y 1 = 2500 3 2 0 5 y 2 = 7500 1 2 2 5 Tot 4 4 2 10 Dev e = P h P k ((y i ŷ j ) 2 ) n ij devianza dei residui per tabella doppia calcolo della devianza dei residui hx kx Dev e = ((y i ŷ j ) 2 ) n ij = ((2500 3571.6) 2 ) 3 + ((2500 5357.02) 2 ) 2+ j=1 + ((7500 3571.6) 2 ) 1 + ((7500 5357.02) 2 ) 2 + ((7500 7142.17) 2 ) 2 = = 4464259 dev y = (y i µ y) 2 = σ 2 y n = 6250000 10 = 62500000 R 2 = 1 deve dev y = 1 0.71 = 0.29 () Statistica 24 / 24