ESERCITAZIONI N. 2corso di statistica p. 1/23 ESERCITAZIONI N. 2 corso di statistica Marco Picone Università Roma Tre
ESERCITAZIONI N. 2corso di statistica p. 2/23 Introduzione Tabelle di contingenza Dipendenza e Chi Quadrato Media e Varianza
ESERCITAZIONI N. 2corso di statistica p. 3/23 Distribuzioni bivariate Caratteri qualitativi quantitativi sconnessi/ordinati discreti/continui Uguaglianza/disuguaglianza si si Ordinamento no/si si Addizione e sottrazione no si Unità statistica Modalità di X Modalità di Y u 1 x 1 y 1 u 2 x 2 y 2.................................... u N x N y N Distribuzione unitaria multipla
ESERCITAZIONI N. 2corso di statistica p. 4/23 Distribuzioni bivariate Data la distribuzione bivariata di frequenze assolute delle variabili X e Y distribuzioni congiunte distribuzioni marginali distribuzioni condizionate y 1... y k... y K x 1 n 11... n 1k... n 1K n 1..... x h n h1... n hk... n hk n h..... x H n H1... n Hk... n HK n H n 1... n k... n K n
ESERCITAZIONI N. 2corso di statistica p. 5/23 Dipendenza e Indipendenza Le due variabili sono indipendenti (non connesse) se per ogni h e k n hk = n h n k n hanno massima connessione se per ogni h e k n hk = 0 min{n h,n k }
ESERCITAZIONI N. 2corso di statistica p. 6/23 Esercizio 1 Completare la tabelle in termini di frequenze assolute di X e Y X, Y y 1 y 2 y 3 Totale x 1 1 5 x 2 1 2 11 x 3 2 4 Totale 5 23
ESERCITAZIONI N. 2corso di statistica p. 7/23 Esercizio 1 - Soluzione Completare la tabelle in termini di frequenze assolute di X e Y X, Y y 1 y 2 y 3 Totale x 1 1 2 5 8 x 2 8 1 2 11 x 3 2 2 0 4 Totale 11 5 7 23
ESERCITAZIONI N. 2corso di statistica p. 8/23 Esercizio 2 Completare la tabelle in termini di frequenze assolute di X e Y in caso di connessione nulla X, Y y 1 y 2 y 3 Totale x 1 1 6 x 2 x 3 4 Totale 16 48
ESERCITAZIONI N. 2corso di statistica p. 9/23 Esercizio 2 - Soluzione Completare la tabelle in termini di frequenze assolute di X e Y in caso di connessione nulla X, Y y 1 y 2 y 3 Totale x 1 3 1 2 6 x 2 9 3 6 18 x 3 12 4 8 24 Totale 24 8 16 48 NB: Sono indipendenti/non connesse/hanno connessione nulla se per ogni h e k n hk = n h n k n
ESERCITAZIONI N. 2corso di statistica p. 10/23 Esercizio 3 Completare la tabelle in termini di frequenze assolute di X e Y in caso di massima connessione X, Y y 1 y 2 y 3 Totale x 1 22 x 2 x 3 14 Totale 9 45
ESERCITAZIONI N. 2corso di statistica p. 11/23 Esercizio 3 - Soluzione Completare la tabelle in termini di frequenze assolute di X e Y in caso di connessione nulla X, Y y 1 y 2 y 3 Totale x 1 0 0 22 22 x 2 9 0 0 9 x 3 0 14 0 14 Totale 9 14 22 45 NB: Hanno massima connessione se per ogni h e k n hk = 0 min{n h,n k }
ESERCITAZIONI N. 2corso di statistica p. 12/23 Connessione e Chi-quadrato Ponendo ˆn hk = (n h n k )/n, l indice Chi quadrato χ 2 = H K h=1k=1 (n hk ˆn hk ) 2 ˆn hk (( H K = n h=1k=1 n 2 hk n h n k ) ) 1 vale 0 nel caso di indipendenza e nmin{(h 1),(K 1)} nel caso di massima connessione. L indice di contingenza quadratica media, utile per confrontare la connessione di due variabili rilevate in collettivi di numerosita diversa, Φ 2 = χ2 n = ( H K h=1k=1 n 2 hk n h n k ) 1 vale 0 nel caso di indipendenza e min{(h 1),(K 1)} nel caso di massima connessione.
ESERCITAZIONI N. 2corso di statistica p. 13/23 Connessione e Chi-quadrato L indice di contingenza quadratica media relativa, utile per confrontare la connessione di due variabili con supporti diversi, φ 2 = Φ 2 min{(h 1),(K 1)} = χ 2 nmin{(h 1),(K 1)} vale 0 nel caso di indipendenza e 1 nel caso di massima connessione.
ESERCITAZIONI N. 2corso di statistica p. 14/23 Esercizio 4 In un gruppo di degustatori si è indagato sulla relazione tra età e la valutazione tramite esame visivo di un vino Merlot. Calcolare la connessione tra le due variabili tramite l indice Chi quadrato e l indice di contingenza quadratica media. Valutazione [20,40) [40,60) [60,80) Totale Suff 1 2 5 8 Buono 8 1 2 11 Ottimo 2 2 0 4 Totale 11 5 7 23 Soluzione. χ 2 = 10.281, Φ 2 = 10.2811/23 = 0.447
ESERCITAZIONI N. 2corso di statistica p. 15/23 Media e Varianza Caratteri qualitativi quantitativi sconnessi/ordinati discreti/continui Uguaglianza/disuguaglianza si si Ordinamento no/si si Addizione e sottrazione no si Data la distribuzione unitaria di una variabile quantitativa X x 1...x i...x n,
ESERCITAZIONI N. 2corso di statistica p. 16/23 Media e Varianza La media aritmetica di X è data dal rapporto tra il totale n i=1 x i e il numero n delle unità rilevate: x = 1 n n x i, i=1 mentre la varianza di X è il rapporto tra la devianza e (n 1) s 2 = 1 n 1 n (x i x) 2, i=1 la deviazione standard di X è pari a s = s 2.
ESERCITAZIONI N. 2corso di statistica p. 17/23 Media e Varianza Altri risultati da ricordare sono: n i=1 (x i x) = 0 n i=1 (x i a) 2 = n i=1 (x i x) 2 +n( x a) 2 se Y = a+bx, allora ȳ = a+b x e σ 2 Y = b2 σ 2 X proprietà associativa: se A è la composizione di X (n elementi) e Y (m elementi) allora ā = n x+mȳ n+m
ESERCITAZIONI N. 2corso di statistica p. 18/23 Media e Varianza Nel caso i dati sono disponibili attraverso una distribuzione di frequenze assolute o relative, si ha s 2 = 1 n 1 x = 1 n K k=1 K x k n k = k=1 K x k f k k=1 (x k x) 2 n k = n n 1 K (x k x) 2 f k k=1
ESERCITAZIONI N. 2corso di statistica p. 19/23 Media e Varianza In alternativa, la varianza puo essere calcolata attraverso la formula ( ) s 2 = n 1 n x 2 i x 2 n 1 n nel caso di una distribuzione unitaria o, piu in generale, nel caso di una distribuzione di frequenze s 2 = n n 1 ( 1 n ) K x 2 k n k x 2 k=1 i=1 = n n 1 ( K ) x 2 k f k x 2. Nel caso in cui una variabile e stata suddivisa in classi, media e varianza verrano calcolate sostituendo ad ogni classe il suo valore centrale. La radice quadrata della varianza si chiama deviazione standard. k=1
ESERCITAZIONI N. 2corso di statistica p. 20/23 Esercizio 5 Si calcoli media e varianza della variabile X nelle tre seguenti situazioni con n = 24: x k n k x k f k classi -5 7-1 0.2 [ 3, 2) 0.1 0 12 0 0.4 [ 2, 0.5) 0.35 13 4 11 0.1 [0.5, 2) 0.4 21 1 15 0.3 [2, 5] 0.15 f k
ESERCITAZIONI N. 2corso di statistica p. 21/23 Esercizio 5 - Soluzione Caso 1 x = 1 K n k=1 x kn k = 1.58 ( s 2 = n 1 ) K n 1 n k=1 x2 k n k x 2 Caso 2 x = K k=1 x kf k = 5.40 ( K k=1 x2 k f k x 2 ) s 2 = n n 1 Caso 3 x = K k=1 x kf k = 0.51 s 2 = n n 1 ( K k=1 x2 k f k x 2 ) = 53.58 = 52.84 = 3.15
ESERCITAZIONI N. 2corso di statistica p. 22/23 Esercizio 6 Se la durata media delle telefonate che facciamo giornalmente e di 5 minuti, con una deviazione standard di 3 minuti, quanto sara il costo medio delle telefonate e la sua deviazione standard se paghiamo 5 cent al minuto con 10 cents di scatto alla risposta? Soluzione. Dato t = 5,s t = 3, i costi sono espressi dalla relazione lineare c = 10+5t. Quindi il costo medio sarà: c = 10+5 t = 35; e poichè s 2 c = 5 2 s 2 t = 225, la deviazione standard sarà: s c = 225 = 15
ESERCITAZIONI N. 2corso di statistica p. 23/23 Esercizio 7 La durata media di 100 telefonate ricevute ad un call center è pari a 2 minuti, la deviazione standard e pari a 0.5 minuti, mentre la durata mediana è pari ad 1.5 minuti. Si calcoli la somma degli scarti quadratici delle osservazioni dalla mediana M e