A. A. 0-0 Esercitazioni del corso: STATISTICA Sommario Esercitazione 4: Medie e varianze marginali Medie e varianze condizionate Scomposizione della varianza Indipendenza in media
ESERCIZIO UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA Statistica a. a. 0-0 Dopo aver intervistato 0 dipendenti della società XXX, i dati riguardanti il enomeno età ed il enomeno abitudine al umo sono stati sintetizzati nella successiva tabella. Y: età (in anni compiuti) 5 0 X: abitudine al umo Non umatore 4 7 Fumatore 0 4 0. calcolare media e varianza marginale della variabile Y;. calcolare medie e varianze condizionate di Y x i ;. veriicare la proprietà associativa delle medie condizionate; 4. scomporre la varianza marginale di Y; 5. dire se i due enomeni sono statisticamente indipendenti; 6. dire se Y è indipendente in media da X; 7. misurare l eventuale dipendenza in media di Y da X. Svolgimento. Utilizzando le requenze marginali e le modalità della variabile statistica Y (quantitativa discreta) è possibile calcolarne sia la media ce la varianza. =. Per quanto riguarda la media otteniamo: y = y. = y. = N = N = 86 = ( 5 4 + 0 + ) = ( 00 + 90 + 96) = = 8.6 0 0 0 Per quanto riguarda la varianza otteniamo: σy = y. y = y. y = N = N = = ( 5 4 + 0 + ) 8.6 = ( 65 4 + 900 + 04 ) 87.96 = 0 0 87 = ( 500 + 700 + 07) 87.96 = 87.96 = 87. 87.96 = 9. 0 0. La variabile X si maniesta con = modalità quindi dovremo costruire medie e varianze condizionate.
Statistica a. a. 0-0 Avremo la media e la varianza condizionata di Y dato X = x = non umatore, ce sono la media e la varianza della variabile statistica condizionata Y x ce si legge sulla prima riga della tabella. σ y x = y = y = + = 7 = 9 = ( 5 4 + 0 + ) = ( 00 + 60 + ) = = 7.4 7 7 7 = = = ( ) ( 7.4) Yx y y x y. = 7 = = ( 5 7.4) 4 + ( 0 7.4) + ( 7.4) = 7 = (.4) 4 + (.57) + ( 4.57) = [ 5.9 4 + 6.6 + 0.88 ] = 7 7 57.68 = [.6 +. + 0.88] = = 8.4 7 7 Avremo la media e la varianza condizionata di Y dato X = x = umatore, ce sono la media e la varianza della variabile statistica condizionata Y x ce si legge sulla seconda riga della tabella. σ y x = y = y = + = = 94 = ( 5 0 + 0 + ) = ( 0 + 0 + 64) = =. 7 = = = ( ) (.) Yx y y x y. = = = ( 5.) 0 + ( 0.) + (.) = = ( 6.) 0 + (.) + ( 0.67) = [ 40.07 0 +.77 + 0.45 ] =.67 = [ 0 +.77 + 0.90] = = 0.89 Dai risultati ottenuti possiamo aermare ce l età media è più alta tra i umatori, ma ricordiamo ce non possiamo aermare ce l età è più variabile tra i non umatori. Inatti, non essendo la varianza un indice assoluto non è conrontabile. Per stabilire qual è la sottopopolazione con l età più variabile è necessario utilizzare il coeiciente di variazione ce è una misura di variabilità relative:
Statistica a. a. 0-0 cv Yx σyx 8.4.87 = = = = 0. y x 7.4 7.4 cv Yx σyx 0.89 0.94 = = = = 0.0 y x.. Ora possiamo aermare ce l età è più variabile tra i non umatori.. La proprietà associativa delle medie condizionate aerma ce la media delle medie condizionate coincide con la media marginale. Veriicando otteniamo: y xi i. y xi i. N i= i= ( ) = = 7.4 7 +. = 0 0 86 = ( 9.0+ 9.99) = = 8.6 = y 0 0 4. Per la varianza marginale vale la proprietà della scomposizione: σ = σ + σ = Y NEI FRA σyx ( ) ( ) i i y xi y i σyx i i y xi y i N i= N i= 0 i= 0 i= = + = + = = ( 8.4 7 + 0.89 ) + ( 7.4 8.6) 7 + (. 8.6) = 0 0 = ( 57.68 +.67) + (.7) 7 + (.7) = 0 0 60.5 60.5 = + [.7 7 + 7.45 ] = + [ 9.59 +.5] = 0 0 0 0 60.5.94 9.9 = + = = 9. 0 0 0 Ce è quindi veriicata. 5. Senza eettuare i calcoli, ma osservando ce nella tabella è presente una requenza congiunta nulla, possiamo aermare ce i due enomeni non sono statisticamente indipendenti. 6. Sapendo ce i due enomeni non sono statisticamente indipendenti sappiamo ce presentano una qualce relazione statistica. Con la connessione avremmo potuto identiicare una generica relazione tra i due enomeni ed avremmo potuto misurarla con l indice di connessione χ. Ma volendo sapere se Y dipende in media da X dobbiamo proceder in un altro modo e capire se X condiziona Y. Si dice ce Y dipende in media da X se la relazione di connessione tra le due variabili statistice si rilette sulle medie condizionate ce risultano diverse tra loro al variare di X. 4
Statistica a. a. 0-0 Essendo y x = 7.4. = y x, possiamo aermare ce Y dipende in media da X. 7. La dipendenza in media si misura mediante l indice di dipendenza eta quadro: ( y xi y) i ( y xi y) i σ FRA N i= 0 i= Y σ Y y. y y. y N = 0 = η = = = = ( 7.4 8.6) 7 + (. 8.6) (.7) 7 + (.7) 0 0 = = = ( 5 4 + 0 + ) 8.6 ( 65 4 + 900 + 04 ) 87.96 0 0.94 [.7 7 + 7.45 ] = 0 0.9 = = = 0.5 87 9. ( 500 + 700 + 07) 87.96 87.96 0 0 Assume valori compresi tra 0 ed. Vale zero se la varianza FRA i gruppi è nulla cioè quando Y è indipendente in media da X (e la varianza NEI gruppi coincide con la varianza marginale di Y), mentre vale quando la varianza FRA i gruppi coincide con la varianza marginale di Y cioè quando Y è perettamente dipendente da X (e la varianza NEI gruppi è nulla). Nel nostro caso Y dipende da X al 5%. Ovvero l abitudine al umo spiega statisticamente il 5% della variabilità dell età. ESERCIZIO In una società sportiva anno rilevato l altezza degli atleti e il numero di gare vinte nei primi mesi di attività di ogni atleta. Alla società sono iscritti 40 atleti ed i loro dati sono riportati nella seguente matrice dati: ID 4 5 6 7 8 9 0 X 6 9 76 76 9 6 78 79 80 70 Y 0 0 0 0 ID 4 5 6 7 8 9 0 X 94 78 6 80 8 7 94 88 79 8 Y 0 0 0 0 0 0 ID 4 5 6 7 8 9 0 X 78 88 8 74 7 8 79 8 79 74 Y 0 0 0 0 0 ID 4 5 6 7 8 9 40 X 86 7 88 8 77 8 70 84 87 9 Y 0 0 0 0 0. Sintetizzare i dati in una tabella a doppia entrata raggruppando il enomeno altezza degli atleti in classi: 60-75; 75-85; 85-95. 5
Statistica a. a. 0-0. Y è indipendente in media da X?. X è indipendente in media da Y? 4. dire se i due enomeni sono statisticamente indipendenti; Svolgimento. Utilizzando i dati della matrice otteniamo la seguente tabella di contingenza con = rige ce corrispondono alle classi in cui dobbiamo classiicare la variabile statistica X = altezza degli atleti e = colonne ce corrispondono alle modalità con cui si esprime il enomeno Y = numero di gare vinte nei primi due mesi di attività X: altezza degli atleti Y: n di gare vinte nei primi mesi 0 60-75 5 5 0 75-85 0 0 0 85-95 5 5 0 0 0 40. Si dice ce Y dipende in media da X se le medie condizionate risultano diverse tra loro al variare di X. Calcolando le = medie condizionate otteniamo: 5 y x = y = y = ( 0 5+ 5) = = 0.5 0 0 0 + = = 0 ( ) + = 0 = 0 0 y x = y = y = 0 0+ 0 = = 0.5 5 ( ) + = = y x = y = y = 0 5+ 5 = = 0.5 0 0 0 Essendo tutte le medie condizionate uguali possiamo aermare ce Y non dipende in media da X.. Si dice ce X dipende in media da Y se le medie condizionate risultano diverse tra loro al variare di Y. Il atto ce al punto precedente abbiamo trovato ce Y non dipende in media da X non ci dice niente sulla dipendenza di X da Y. Dobbiamo quindi calcolare ance in questo caso le = medie condizionate, utilizzando il valore centrale della classe ed ottenendo: 587.5 x y = x = x = ( 67.5 5 + 80 0 + 90 5) = ( 87.5 + 800 + 950) = = 79.8 0 0 0 0 i i i i + i= i= 587.5 x y = x = x = ( 67.5 5 + 80 0 + 90 5) = ( 87.5 + 800 + 950) = = 79.8 0 0 0 0 i i i i + i= i= Essendo ance in questo caso uguali possiamo aermare ce X non dipende in media da Y. 6
Statistica a. a. 0-0 4. Il atto ce Y non dipende in media da X e X non dipende in media da Y non ci permette di aermare ce non esiste una relazione generica (connessione) tra le due variabili. Per veriicare se le due variabili sono statisticamente indipendenti è necessario valutare le distribuzioni condizionate: Y: n di gare vinte nei primi mesi 0 0.5 0.5 0.5 0.5 0.5 0.5 Essendo quest ultime uguali al variare della modalità di Y, possiamo aermare ce X ed Y sono statisticamente indipendenti. Ricordiamo ce l indipendenza statistica è simmetrica quindi potremmo indierentemente dire ce X è indipendente da Y o Y è indipendente da X. ESERCIZIO Le 00 aziende iscritte alla Camera di Commercio della provincia di QQQ anno ottenuto nell anno 007 gli utili netti e i atturati riassunti nella seguente tabella di contingenza: X: atturato in migliaia di Y: utile netto in migliaia di 0-00 00-400 400-600 00-00 9 8 0 00-600 5 0 5 50 600-000 6 0 0 60 0 00. dire se i due enomeni sono statisticamente indipendenti;. Y è indipendente in media da X?. X è indipendente in media da Y? Svolgimento. Il metodo per stabilire se due variabili sono statisticamente indipendenti consiste nel conrontare le requenze condizionate. Se al variare delle modalità del enomeno condizionante le distribuzioni condizionate non variano, allora i due enomeni sono statisticamente indipendenti. Nel nostro esercizio X: atturato in migliaia di 00-00 0. 0.6 0. 00-600 0. 0.6 0. 600-000 0. 0.6 0. 7
Statistica a. a. 0-0 Essendo tutte uguali possiamo aermare ce X ed Y sono statisticamente indipendenti.. Avendo ottenuto al punto precedente ce X ed Y sono statisticamente indipendenti, ciò signiica ce non esiste alcun legame tra le due variabili, quindi Y è ance indipendente in media da X. Calcolando l indice di dipendenza otterremmo. η = 0.. Per le stesse ragioni del punto precedente possiamo dire ce ance X è indipendente in media da Y, e η = 0. X Y ESERCIZIO 4 I 65 studenti di due corsi di laurea sono stati classiicati in base al numero di esami sostenuti nel primo semestre del secondo anno accademico. X: CDL Y: numero esami 0 A 5 5 00 5 45 A 0 5 0 5 0 5 0 0 0 65. Y è indipendente in media da X?. Calcolare l indice di dipendenza in media di Y da X?. Calcolare l indice di dipendenza in media di X da Y? 4. X e Y sono statisticamente indipendenti? Svolgimento. Si dice ce Y dipende in media da X se la relazione di connessione tra le due variabili statistice si rilette sulle medie condizionate ce risultano diverse tra loro al variare di X. È quindi necessario calcolare le medie condizionate: 4 y x = y = y = + = 45 = 90 = ( 0 5 + 5 + 00 + 5) = ( 0 + 5 + 00 + 75) = = 45 45 45 4 y x = y = y = + = 0 = 40 = ( 0 0+ 5+ 0+ 5) = ( 0+ 5+ 0+ 5) = = 0 0 0 Essendo y x = = = y x, possiamo aermare ce Y non dipende in media da X.. Avendo trovato al punto precedente ce le medie condizionate sono uguali è del tutto inutile misurare una dipendenza ce non c è. 8
Statistica a. a. 0-0 Tuttavia volendo testardamente procedere sapendo ce la dipendenza in media si misura mediante l indice di dipendenza eta quadro, otterremmo: La media marginale: 0 y = y = y = ( 0 5 + 0 + 0 + 0) = ( 0 + 0 + 0 + 90) = = N 65 65 65 4.. = N = avremmo potuto utilizzare la proprietà associativa delle medie condizionate ce aerma ce la media delle medie condizionate (le abbiamo già calcolate) coincide con la media marginale. E l indice di dipendenza: ( y xi y) i ( y xi y) i σ FRA N i= 65 i= Y = = = = 4 σ Y y. y y. y N = 65 = η ( ) ( ) ( ) ( ) 45 + 0 0 45 + 0 0 65 65 = = = ( 0 5 + 0 + 0 + 0) ( 0 5 + 0 + 4 0 + 9 0) 4 65 65 0 [ 0 + 0 ] 65 0 = = 65 = = 0 70 ( 0 + 0 + 440 + 70 0.4 ) 4 4 65 65 Assume valori compresi tra 0 ed. Vale zero se la varianza FRA i gruppi è nulla cioè quando Y è indipendente in media da X (e la varianza NEI gruppi coincide con la varianza marginale di Y), mentre vale quando la varianza FRA i gruppi coincide con la varianza marginale di Y cioè quando Y è perettamente dipendente da X (e la varianza NEI gruppi è nulla). Nel nostro caso Y non dipende da X!!!. Essendo il enomeno X una variabile statistica qualitativa non è possibile valutare se X dipende in media da Y, non si calcola la media di un enomeno qualitativo! 4. Senza eettuare i calcoli, ma osservando ce nella tabella è presente una requenza congiunta nulla, possiamo aermare ce i due enomeni non sono statisticamente indipendenti. Volendo comunque valutare le distribuzioni condizionate otterremmo: A A 5 0.04 45 = 5 0.0 45 = 00 0.69 45 = 5 0.7 45 = 0 0 0 = 5 0.5 0 = 0 0.50 0 = 5 0.5 0 = 0 Ce essendo diverse conermano ce i due enomeni sono connessi. 9
ESERCIZIO 5 UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA Statistica a. a. 0-0 Mediante l utilizzo delle carte edeltà gli acquisti del prodotto RR sono stati monitorati, il numero di acquisti in un mese e le quantità di prodotto sono state classiicate nella seguente tabella: X: n conezioni Y: n acquisti in un mese 5 0 40 0 0 40 0 0 5 5 0 5 0 5 40 5 5 70. Y è indipendente in media da X?. X è indipendente in media da Y?. dire se i due enomeni sono statisticamente indipendenti; Svolgimento. Si dice ce Y dipende in media da X quando le medie condizionate risultano diverse tra loro al variare di X. È quindi necessario calcolare le medie = condizionate: 40 ( ) ( ) + = 40 = 40 40 40 y x = y = y = 40 + 5 0 + 0 0 = 40 + 0 + 0 = = 50 ( ) ( ) + = 5 = 5 5 5 y x = y = y = 0 + 5 0 + 0 5 = 0 + 0 + 50 = = 0 5 ( ) ( ) + = 5 = 5 5 5 y x = y = y = 0+ 5 5+ 0 0 = 0+ 5+ 0 = = 5 Essendo le medie condizionate dierenti, possiamo aermare ce Y dipende in media da X. Volendo misurare tale la dipendenza in media dobbiamo calcolare l indice di dipendenza eta quadro: la media marginale: 5.. ( ) ( ) N = 70 = 70 70 70 y = y = y = 40 + 5 5 + 0 5 = 40 + 5 + 50 = = 4.5 Avremmo potuto utilizzare la proprietà associativa delle medie condizionate (calcolate nel punto precedente) ce aerma ce la media delle medie condizionate coincide con la media marginale. 0
E l indice di dipendenza: UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA Statistica a. a. 0-0 ( y xi y) i ( y xi y) i σ FRA N i= 70 i= Y = = = = σ Y y. y y. y N = 70 = η ( ) ( ) ( ) ( ) ( ) ( ) 4.5 40 + 0 4.5 5 + 5 4.5 5.5 40 + 5.5 5 + 0.5 5 70 70 = = = ( 40 + 5 5 + 0 5) 4.5 ( 40 + 5 5 + 00 5) 0.5 70 70 47.5 [.5 40 + 0.5 5 + 0.5 5] [ 490 + 756.5 +.5] 70 70 70 7.8 = = = = = 665 8.07 0.5 7.8 ( 40 + 5 + 500) 0.5 0.5 70 70 Assume valori compresi tra 0 ed. Vale zero se la varianza FRA i gruppi è nulla cioè quando Y è indipendente in media da X (e la varianza NEI gruppi coincide con la varianza marginale di Y), mentre vale quando la varianza FRA i gruppi coincide con la varianza marginale di Y cioè quando Y è perettamente dipendente da X (e la varianza NEI gruppi è nulla). Nel nostro caso Y dipende perettamente in media da X!!!. Si dice ce X dipende in media da Y quando le medie condizionate risultano diverse tra loro al variare di Y. È quindi necessario calcolare le medie = condizionate: 40 i i i i ( ) + i= 40 i= 40 40 x y = x = x = 40+ 0+ 0 = = 5 i i i i ( ) + i= 5 i= 5 5 x y = x = x = 0+ 0+ 5 = = 50 i i i i ( ) + i= 5 i= 5 5 x y = x = x = 0+ 5+ 0 = = Essendo le medie condizionate dierenti, possiamo aermare ce X dipende in media da Y. Volendo misurare tale la dipendenza in media dobbiamo calcolare l indice di dipendenza eta quadro: La media marginale: 05 i i. i i. ( ) ( ) N i = 70 i = 70 70 70 x = x = x = 40 + 5 + 5 = 40 + 50 + 5 = =.5
e l indice di dipendenza: FRA X UNIVERSITÀ DEGLI STUDI DI MILANO BICOCCA Statistica a. a. 0-0 ( ) ( ) σ N ηx = = = = σ x y x. x y x. = 70 = xi i. x xi i. x N i= 70 i= (.5) 40 + (.5) 5 + (.5) 5 ( 0.5) 40 + (.5) 5 + ( 0.5) 5 70 70 = = = ( 40+ 5+ 5).5 ( 40+ 4 5+ 9 5).5 70 70 7.5 [ 0.5 40 +.5 5 + 0.5 5] [ 0 +.5 + 6.5] = 70 70 70 0.9 = = = = 85.64.5 0.9 ( 40 + 00 + 45).5.5 70 70 Assume valori compresi tra 0 ed. Vale zero se la varianza FRA i gruppi è nulla cioè quando X è indipendente in media da Y (e la varianza NEI gruppi coincide con la varianza marginale di X), mentre vale quando la varianza FRA i gruppi coincide con la varianza marginale di X cioè quando X è perettamente dipendente da Y (e la varianza NEI gruppi è nulla). Nel nostro caso X dipende perettamente in media da Y!!!. Senza eettuare i calcoli, ma osservando ce nella tabella è presente più di una requenza congiunta nulla, possiamo aermare ce i due enomeni non sono statisticamente indipendenti. Per misurare la connessione tra i due enomeni possiamo utilizzare la ormula alternativa ce non riciede il calcolo delle requenze teorice: i χ = N = i i. = =. 40 0 0 0 0 5 0 5 0 = 70 + + + + + + + + = 40 40 40 5 40 5 5 40 5 5 5 5 5 40 5 5 5 5 40 5 5 = 70 + + = 70( ) = 40 40 40 5 5 5 5 Per normalizzare tale indice è necessario dividerlo per il suo massimo, ovvero per: N min ( );( ) = 70 min[ ;] = 40 χ 40 χ NOR = = = 40 40 χ NOR In generale 0 : l indice vale 0 in presenza di indipendenza ra i caratteri e vale quando c è massima dipendenza; quindi in questo caso i due enomeni sono massimamente dipendenti.