DISTRIBUZIONI DOPPIE Fio ad ora abbiamo visto teciche di aalisi dei dati per il solo caso i cui ci si occupi di u solo carattere rilevato su u collettivo (distribuzioi semplici). I termii formali fio ad ora abbiamo illustrato le metodologie e le teciche per l aalisi statistica uivariata (cioè ua sola variabile rilevata). Occupiamoci, ora, del caso i cui per ciascua uità di u collettivo si siao rilevati due caratteri. Allora si ha ua distribuzioe bivariata (o doppia). I caratteri rilevati possoo essere di qualuque tipo: - qualitativi (scoessi e ordiati) - quatitativi (discreti e cotiui) Nell esempio dei fodi di ivestimeto (fotocopia del data set esempio.xls distribuito) vegoo rilevate molte caratteristiche (sei i tutto). Fio ad ora abbiamo visto come aalizzare la distribuzioe secodo ua sola di queste caratteristiche; adesso vediamo come aalizzare ua coppia di caratteristiche (quali ad es. Tipo di azioi e rischio oppure Tipo di azioi e umero di titoli compoeti ). Cosideriamo la distribuzioe secodo Tipo di azioi e rischio : Uità Tipo Nome del di azioi Rischio Fodo di ivestimeto (Obiettivo) ABN It Equity IL A AR Equity Idex GI A 3 ACORN It IL A 4 AMER AADVANT It Eq IL A 5 AMER AADVANT Lg Cp Val GI B 6 ALLIANCE Tech T B 7 ALLIANCE It IL A 8 AMER CENT It Discovery IL A 9 AMER CENT Giftrust SC B 0 AMER CENT Vista MC A ARTISIAN Mid Cp MC A ARTISIAN Sm Cp SC A 3 BABSON Stewart Ivory IL A 4 FLAG Commuicatios T B 5 BERGER Sm Co Gr SC A 6 BLACROC Sel Eq GI A 7 BLACROC Lg Cp Val Eq GI A 8 BOSTON 784 Gr & Ic GI B 9 BRINSON Global ex-us IL A 0 CENTURA SouthEast Eq SC B CASE VISTA Gr & Ic GI B
Osserviamo che i dati soo presetati i forma di distribuzioe doppia uitaria. Formalmete, per essere coereti co la otazioe fiora usata, ua distribuzioe doppia uitaria geerica dovrebbe essere scritta così: Uità Carattere Carattere a x a x a y a y a x a y Dove: a x i idica la modalità del carattere presetata dalla geerica uità i, i,...,. a y i idica la modalità del carattere presetata dalla geerica uità i, i,...,. Questa otazioe co il doppio idice è molto pesate; allora d ora i poi idichiamo la distribuzioe doppia uitaria come segue: Poiamo a x i, i,..., x i a y i, i,..., y i Quidi scriviamo la distribuzioe doppia uitaria così: Uità Carattere Carattere x i y x y x i modalità del carattere presetata dall i-esima uità. y i modalità del carattere presetata dall i-esima uità. x y Quado il collettivo è composto da molte uità si scrive la distribuzioe doppia i modo più sitetico e cioè i forma di distribuzioe doppia di frequeze. Scriviamo sotto forma di distribuzioe di frequeze la distribuzioe per uità dei fodi di ivestimeto per tipo di azioi e rischio. Idichiamo: il carattere tipo di azioi co, il carattere rischio co.
La distribuzioe doppia di frequeze è: Totale 4 7 Vediamo come leggere la tabella. A B Totale IL 7 0 7 MC 0 SC 4 T 0 GI 3 3 6 Il umero evideziato è la cella dell icrocio tra la modalità SC del carattere e la modalità B del carattere. Il valore presete i questa cella idica che ci soo fodi che soo di tipo SC e hao rischio B. La distribuzioe di frequeza ha il pregio che ache se il umero dei fodi fosse altissimo, la dimesioe della tabella sarebbe la stessa. La rappresetazioe mediate tabella a doppia etrata ci cosete ache di vedere: le distribuzioi di frequeze semplici (dette distribuzioi margiali) Le distribuzioi margiali soo due e soo: - la distribuzioe margiale del carattere (data dalla coloa del totale) Totale IL 7 MC SC 4 T GI 6 Totale - la distribuzioe margiale del carattere (data dalla riga del totale) A B Totale Totale 4 7 3
le distribuzioi codizioate (o parziali) Abbiamo i due tipi segueti di distribuzioi codizioate: - le distribuzioi codizioate di data ua certa modalità di (date dalle coloe itere della tabella). Per esempio la distribuzioe codizioata di (tipo di fodo) relativa alle sole uità che presetao la modalità A del carattere rischio, è A IL 7 MC SC T 0 GI 3 Totale 4 Questa è detta distribuzioe codizioata di dato A. E la distribuzioe dei fodi ad alto rischio per tipologia di fodo. - le distribuzioi codizioate di data ua certa modalità di (date dalle righe itere della tabella). Per esempio la distribuzioe codizioata di (livello del rischio) relativa alle sole uità che presetao la modalità SC del carattere tipo di fodo, è A B Totale SC 4 Questa è detta distribuzioe codizioata di dato SC. E la distribuzioe dei fodi di tipo SC per livello di rischio. Vediamo la otazioe più i geerale. Idichiamo co x,..., x le modalità del carattere. Idichiamo co y,..., y le modalità del carattere. Idichiamo co i la frequeza assoluta delle uità che presetao cogiutamete la modalità i del carattere e la modalità del carattere. 4
La distribuzioe di frequeze si preseta sotto forma della seguete tabella a doppia etrata. y y y y Totale x k. x k. x i i i... i i i. i x. Totale.......... i i i i i i i i i si trova ella cella all icrocio tra la riga relativa alla modalità x i di e la coloa relativa alla modalità y di. Quidi: i umero di uità che presetao la coppia di modalità (x i, y ). Osserviamo che i. i frequeza assoluta delle uità che presetao la modalità i di (e qualuque altra modalità di ). i frequeza assoluta delle uità che presetao la modalità di (e i qualuque altra modalità di ) i i i i. i. frequeza assoluta totale (cioè umerosità del i collettivo) 5
La distribuzioe margiale di è data da: Frequeze assolute x. x. x i i. x. Totale La distribuzioe margiale di è data da: Frequeze assolute y. y. y. y Totale. Le distribuzioi codizioate di data ua modalità di soo date dalle righe itere della tabella. Come abbiamo visto le modalità di soo. Quidi soo ache le possibili distribuzioi codizioate di data ua modalità di. I altre parole, le distribuzioi codizioate di questo tipo soo tate quate soo le modalità di (cioè ). Cosideriamo ad esempio la distribuzioe secodo il carattere delle. uità che presetao la modalità x di. Questa è data da: 6
x y y Distribuzioe codizioata di dato x y y Totale. Le distribuzioi codizioate di data ua modalità di soo date dalle coloe itere della tabella. Come abbiamo visto le modalità di soo. Quidi soo ache le possibili distribuzioi codizioate di data ua modalità di. I altre parole, le distribuzioi codizioate di questo tipo soo tate quate soo le modalità di (cioè ). Cosideriamo ad esempio la distribuzioe secodo il carattere delle. uità che presetao la modalità y di. Questa è data da: y x x Distribuzioe codizioata di dato y x i i x Totale. Osservazioe: le distribuzioi di frequeza (cioè le tabelle doppie) el caso bivariato presetao, rispetto alle distribuzioi uitarie, il vataggio di mostrare meglio le caratteristiche complessive del feomeo. Ifatti esse costituiscoo la distribuzioe cogiuta delle due caratteristiche i 7
quato per ogi coppia di modalità (x i, y ), i,..., e,...,, si vede quate soo le uità caratterizzate da questa coppia di valori. La distribuzioe di frequeze o è ua lista di uità e quidi, data ua coppia di modalità (x i, y ), i,..., e,...,, o sappiamo l idetità delle uità che la presetao ma sappiamo solamete quate soo. Ache el caso delle distribuzioi doppie possiamo calcolare le frequeze relative. La distribuzioe doppia di frequeze relative è data da: y y y y Totale x f f f f k f. x f f f f k f. x i f i f i... f i f i f i. x f f f f f. Totale f. f.... f..... f. Dove il geerico: i fi i,..., e,..., () f i. i. i,..., (). f.,..., (3) La distribuzioe margiale relativa di si ottiee dalla distribuzioe margiale di dividedo le frequeze assolute per. (cioè usado la ()) La distribuzioe margiale relativa di si ottiee dalla distribuzioe margiale di dividedo le frequeze assolute per. (cioè usado la (3)) 8
Per quato riguarda le distribuzioi codizioate relative della e della, esse si ottegoo rapportado le frequeze delle distribuzioi codizioate al rispettivo totale. Ad esempio, se cosideriamo la distribuzioe di x, si ha x Frequeze assolute Frequeze relative y. y. y. y. Totale..... Se cosideriamo la distribuzioe di y, si ha y Frequeze assolute Frequeze relative x. x. x i i i. x. i Totale... i i i.. 9
Esempio: si cosideri la distribuzioe doppia del data set esempio.xls. Calcoliamo la distribuzioe codizioata relativa di dato GI. GI A 3 3/6 0.5 B 3 3/6 0.5 Totale 6 Nota: Ovviamete oltre alle distribuzioi di frequeze relative si possoo calcolare le distribuzioi di frequeze percetuali (basta moltiplicare per 00 le frequeze relative) Valori caratteristici della distribuzioe doppia Come el caso delle distribuzioi semplici, ache per le distribuzioi doppie possiamo idividuare dei valori di sitesi. La scelta del valore di sitesi da calcolare sarà dettata dalla tipologia dei caratteri rilevati. Se sia che soo etrambi qualitativi ordiati, come valore di sitesi si calcola il puto mediao, cioè la coppia (Me(), Me()) dove Me() è la mediaa della distribuzioe margiale di e Me() è la mediaa della distribuzioe margiale di. Nota: il puto mediao o coicide co la mediaa della distribuzioe cogiuta. Se e soo etrambi quatitativi, il valore di sitesi è dato dal baricetro (o puto medio) della distribuzioe, cioè dalla coppia dove (, ) x. media aritmetica della distribuzioe margiale di i i i y. media aritmetica della distribuzioe margiale di Nota: se uo o etrambi i caratteri hao le modalità espresse i classi, la rispettiva media aritmetica viee calcolata sostituedo la classe co il 0
suo valore cetrale (cioè procededo ello stesso modo illustrato el caso delle distribuzioi semplici i classi) Esempio: distribuzioe di persoe secodo il tempo i miuti per adare a lavoro (che idichiamo co e misuriamo i miuti) e il umero di mezzi pubblici presi (che idichiamo co ). Il baricetro è dato da 0 3 Totale 0 0 5 8 0 4 0 40 0 7 6 5 40 60 0 7 30 Totale 5 7 38 9 3 0 4 + 30 5 + 50 30 c xii. 34. 6 i 4 0 5 + 7 + 38 + 3 9 y.. 7 Quidi il baricetro di questa distribuzioe è dato da: (, ) ( 34. 6,. 7) Se è qualitativo ordiato e è quatitativo allora il valore di sitesi è dato dal puto di coordiate (Me(), ) * * * * * * * Se etrambi i caratteri soo quatitativi allora si può calcolare ua misura della variabilità della distribuzioe doppia. I tal seso si calcola la coppia dove σ i i i i i ( x ) x. i ( σ, ) σ. variaza della distribuzioe margiale di
σ ( y ) y.. variaza della distribuzioe margiale di Esempio (cotiuazioe) σ σ 3 c i 0 4 + 30 5 + 50 30 x i i. 34. 6 36. 4 0 5 + 7 + 38 + 3 9 y.. 7 0. 73 Osservazioe: abbiamo visto che i valori di sitesi, sia i valori cetrali della distribuzioe che le misure di variabilità, soo calcolati come coppie di valori relativi alle due distribuzioi margiali. Pertato el calcolo di questi idici usiamo e valgoo le regole studiate per le distribuzioi semplici. Medie e variaze codizioate Cotiuiamo a cosiderare ua tabella a doppia etrata per i caratteri e. I corrispodeza di ogi distribuzioe codizioata di u carattere quatitativo data ua modalità dell altro carattere possiamo calcolare: - la media aritmetica codizioata - la variaza codizioata Media aritmetica codizioata La media aritmetica della distribuzioe codizioata di rispetto ad ua modalità di (diciamo y ), è data da y. x i e viee detta media codizioata di dato y i i La media aritmetica della distribuzioe codizioata di rispetto ad ua modalità di (diciamo x i ), è data da xi y. i e viee detta media codizioata di dato x i i
Esempio (cotiuazioe). Calcoliamo la media codizioata di, cioè calcoliamo il tempo medio impiegato per recarsi a lavoro relativo a coloro che predoo u solo mezzo. Come prima cosa idividuiamo la distribuzioe codizioata che ci iteressa ( ). x c x i c i i c i x 0 0 8 0 80 800 0 40 7 30 0 6300 40 60 50 00 5000 Totale 7 390 00 Tabella i 390 7 3 Possiamo calcolare le medie codizioate ache rispetto alle altre modalità di. Troviamo: 0 5 5 0 390 7 0 3 0 + 30 6 + 50 540 38 38 40 5. 30 + 50 7 40 9 9 45 6 3. Osserviamo che le medie codizioate di variao molto al variare della modalità di. I particolare il tempo medio impiegato per recarsi al lavoro è più alto quado si cosiderao persoe che predoo u umero maggiore di mezzi. Questo è idice del fatto che dipede da. Cioè se coosciamo la modalità di assuta da ua uità possiamo già avere u idea dell itesità media co cui l altro carattere si maifesta. I sostaza abbiamo trovato u idizio di dipedeza i media di rispetto ad. Variaza codizioata Se o o etrambi i caratteri soo quatitativi, possiamo ache calcolare la variaza delle distribuzioi codizioate. 3
I particolare, la variaza della distribuzioe codizioata di data ua modalità di, diciamo y, è data da σ per l esempio si veda la tabella. ( x ) x y i y i i i. i. i σ 00 3 7. 8 8 y 4
Media e variaza delle distribuzioi margiali espresse i termii di medie e variaze codizioate. Data ua distribuzioe doppia relativa ai caratteri e, abbiamo visto che, se i caratteri rilevati soo quatitativi, possiamo calcolare tra gli altri : per il carattere, e σ ; per il carattere, e σ. Cocetriamo, ora, l attezioe sul carattere e suppoiamo che esso sia quatitativo., ivece, può essere di qualuque tipo. Si può dimostrare che, grazie alla proprietà associativa della media aritmetica, la media aritmetica di può essere scritta come media delle medie delle distribuzioi codizioate di. I formule: (4) y. I termii cocettuali, le distribuzioi codizioate vegoo trattate come distribuzioi relative a gruppi diversi di uità. Per ciascuo di questi gruppi si calcola la media aritmetica e poi, mediate applicazioe diretta della proprietà associativa della media aritmetica, è possibile calcolare la media geerale pesado ogi media di gruppo co la umerosità del gruppo. U risultato aalogo vale co riferimeto alla variaza. Si suppoga di disporre delle variaze delle distribuzioi codizioate di date le modalità di, σ,,, (ovverosia, le variaze relative ai gruppi). Si può dimostrare che y la variaza della distribuzioe margiale di può essere espressa come somma: della media delle variaze delle distribuzioi codizioate di date le diverse modalità di ( σ ) e della variaza delle medie codizioate (si ricordi che la media y delle medie codizioate di è la ). I formule y σ y. +. ( y ) σ (5) I altri termii la variaza di è data dalla somma:. della media delle variaze calcolate all itero dei gruppi σ y. Questa compoete è ache detta variaza withi (itera ai gruppi) perché tiee coto solo della variabilità misurata all itero dei diversi gruppi.. dalla variaza delle medie codizioate ( ) y.. Questa compoete è ache detta variaza betwee (estera ai gruppi) perché misura la dispersioe delle medie dei gruppi itoro alla media y geerale. Si oti che el caso i cui le medie codizioate siao tutte uguali fra loro (ovvero o vario al variare del gruppo), la variaza estera è ulla. 5
ESEMPIO: cosideriamo l esempio (a pag.) della distribuzioe di persoe secodo il tempo i miuti per adare a lavoro () e il umero di mezzi pubblici presi (). I questo esempio, quidi, i gruppi soo 4 e si distiguoo per il umero diverso di mezzi pubblici presi dalle persoe che li compogoo. Le medie codizioate di date le modalità di soo: GRUPPO 0: 0 0 co 5 GRUPPO : 3 co 7 GRUPPO : 40 5 co 38. GRUPPO 3: 45 6 co 9 3. applicado la formula (4) si trovo la media geerale: 5 0 + 7 3 + 38 40. 5 + 9 45. 6 34. 6 Cofrotado il risultato co la media calcolata a pagia, vediamo che, come ci aspettavamo, esso è coicidete. Le variaze codizioate di date le modalità di soo: GRUPPO 0: σ 0 0 GRUPPO : σ 85 47. GRUPPO : σ 0 78. GRUPPO 3: σ 4 3. 5 0 + 7 85. 47 + 38 0. 78 + 9. 4 La variaza itera è.. 3 La variaza estera è: 5( 0 34. 6) + 7( 3 34. 6). 0... 3 + 38( 40. 5 34. 6) pertato σ. 3 +. 96 33. 9. + 9( 45. 6 34. 6). 96 Si oti che questo risultato è quasi coicidete co quello riportato a pag.. La o perfetta coicideza è dovuta agli arrotodameti. ***** Fiora abbiamo visto come calcolare la media e la variaza di a partire dalle distribuzioi codizioate. Le formule (4) e (5) possoo essere scritte ache co riferimeto alla media e alla variaza di el caso i cui sia u carattere quatitativo e sia di qualuque tipo. I particolare si ha: 6
σ x i. i i σ x i. + i. i i i ( x ) i 7