Corso di Laurea i Ecoomia e Fiaza Statistica 1 A.A. 2015/2016 (8 CFU, corrispodeti a 48 ore di lezioe frotale e 24 ore di esercitazioe) Prof. Luigi Augugliaro 1 / 21
Misura della dipedeza di u carattere quatitativo L idipedeza i media Esempio. U gruppo di studiosi è iteressato a valutare l ipotesi che la variabile reddito auo delle famiglie italiae sia ifluezata dal umero di compoeti della famiglia. Di seguito viee riportata la distribuzioe doppia di frequeza otteuta mediate u campioe di 500 famiglie italiae Numero Reddito compoeti 10 15 15 20 20 25 25 30 Tot. 1 62 39 25 4 130 2 60 66 43 6 175 3 28 51 66 5 150 4 2 10 17 16 45 Tot. 152 166 151 31 500 Note. Sebbee l idice X 2 possa essere utilizzato per valutare l evetuale allotaameto dall ipotesi di idipedeza i distribuzioe, esso o tiee coto della atura asimmetrica dello studio. 2 / 21
Nel caso i esame i due caratteri o soo sullo stesso piao logico poiché siamo iteressati allo studio della dipedeza del carattere Y (reddito auo) dal carattere X (ripartizioe geografica). Come defiito i precedeza, il carattere Y è idipedete i distribuzioe dal carattere X quado le distribuzioi di frequeza relative codizioate di Y soo uguali tra loro e uguali alla distribuzioe di frequeza relativa margiale di Y. Sebbee la defiizioe precedete mostra che lo studio dovrebbe essere fodato sulla variazioe che subiscoo le distribuzioi di frequeze relative codizioate di Y per effetto di X, i questa parte del corso studieremo ua forma più debole di dipedeza basata sulla variazioe che subiscoo le medie codizioate di Y per effetto del carattere X. 3 / 21
Defiizioe Diremo che Y è idipedete i media da X quado tutte le medie codizioate M a(y X = x i ) soo uguali tra loro e uguali alla media margiale M a(y ), formalmete M a(y X = x 1 ) = M a(y X = x 2 ) =... = M a(y X = x i ) =... = M a(y X = x r ) = M a(y ). Nel caso i cui ache X è ua variabile quatitativa cotiua possiamo defiire l idipedeza i media di X da Y i maiera aaloga a quato fatto i precedeza. Defiizioe Diremo che X è idipedete i media da Y quado tutte le medie codizioate M a(x y = y j ) soo uguali tra loro e uguali alla media margiale M a(x ), formalmete M a(x Y = y 1 ) = M a(x Y = y 2 ) =... = M a(x Y = y j ) =... = M a(x Y = y c) = M a(x ). Note: dalla atura asimmetrica dell idipedeza i media discede che o esiste alcua relazioe tra l idipedeza i media di Y da X e l idipedeza i media di X da Y. I altri termii se Y è idipedete i media da X o è detto che X sia idipedete i media da Y. 4 / 21
Come detto i precedeza l idipedeza i media è u cocetto più debole dell idipedeza i distribuzioe dato che si foda sullo studio della variazioe delle sole misure di tedeza cetrale (l idipedeza i distribuzioe si foda sullo studio della variazioe delle distribuzioi di frequeza relative codizioate). Teorema Data ua distribuzioe doppia di frequeze dove Y è ua variabile quatitativa cotiua ed X è u geerico carattere statistico, si dimostra che: se X e Y soo idipedeti i distribuzioe allora Y è idipedete i media da X. Note: Il teorema precedete, oltre a cofermare quato detto i precedeza (ovvero che l idipedeza i distribuzioe è u cocetto più forte dell idipedeza i media), afferma che l idipedeza i distribuzioe implica l idipedeza i media di Y da X. 5 / 21
Dimostrazioe Per dimostrare il teorema precedete è sufficiete dimostrare che, se è vera l ipotesi di idipedeza i distribuzioe di X ed Y allora tutte le medie codizioate di Y soo uguali tra loro e uguali alla media margiale di Y, ovvero: M a (Y X = x i ) = M a (Y ) per ogi i = 1,..., r. Cosideriamo la formula di M a (Y X = x i ), ovvero c j=1 M a (Y X = x i ) = y j ij, i. ed osserviamo che se è vera l ipotesi di idipedeza i distribuzioe allora ij = i..j /; quidi l espressioe precedete può essere scritta come c j=1 M a (Y X = x i ) = y c j ij j=1 = y j( i..j /) = i. i. = c i. j=1 y c j.j j=1 = y j.j = M a (Y ), i. la quale dimostra che l idipedeza i distribuzioe implica l idipedeza i media. 6 / 21
Esempio. U gruppo di studiosi è iteressato a valutare l ipotesi che la variabile reddito auo delle famiglie italiae sia ifluezata dal umero di compoeti della famiglia. Di seguito viee riportata la distribuzioe doppia di frequeza otteuta mediate u campioe di 500 famiglie italiae Reddito 10 15 15 20 20 25 25 30 Tot. 1 62 39 25 4 130 2 60 66 43 6 175 3 28 51 66 5 150 4 2 10 17 16 45 Tot. 152 166 151 31 500 Da quato detto i precedeza discede che siamo iteressati a studiare quato le medie codizioate di Y dato X soo diverse dalla media margiale di Y. Per questo motivo procediamo al calcolo delle quatità di iteresse. 7 / 21
Calcoliamo le quattro medie codizioate di Y dato X mediate le segueti tabelle. Media codizioata di Y dato X = x 1 Classi 1j yj c yj c 1j 10 15 62 12.5 775.0 15 20 39 17.5 682.5 20 25 25 22.5 562.5 25 30 4 27.5 110.0 Tot. 130 2130.0 M a(y X = x 1 ) = cj=1 y c j 1j 1. = 16.385 Media codizioata di Y dato X = x 2 Classi 2j yj c yj c 2j 10 15 60 12.5 750.0 15 20 66 17.5 1155.0 20 25 43 22.5 967.5 25 30 6 27.5 165.0 Tot. 175 3037.5 M a(y X = x 2 ) = cj=1 y c j 2j 2. = 17.357 8 / 21
Media codizioata di Y dato X = x 3 Classi 3j yj c yj c 3j 10 15 28 12.5 350.0 15 20 51 17.5 892.5 20 25 66 22.5 1485.0 25 30 5 27.5 137.5 Tot. 150 2865 M a(y X = x 3 ) = cj=1 y c j 3j 3. = 19.1 Media codizioata di Y dato X = x 4 Classi 4j yj c yj c 4j 10 15 2 12.5 25.0 15 20 10 17.5 175.0 20 25 17 22.5 382.5 25 30 16 27.5 440.0 Tot. 45 1022.5 Madia margiale di Y Classi.j yj c y c j.j 10 15 152 12.5 1900.0 15 20 166 17.5 2905.0 20 25 151 22.5 3397.5 25 30 31 27.5 852.5 Tot. 9055 M a(y X = x 4 ) = M a(y ) = cj=1 y c j 4j 4. = 22.72 cj=1 y c j.j = 18.11 9 / 21
Quado il carattere codizioate (el ostro caso il carattere X ) è ua variabile quatitativa discreta, è possibile studiare l adameto delle medie codizioate tramite u opportua rappresetazioe grafica chiamata spezzata di regressioe. L aalisi di questo grafico può forire iformazioe sulla dipedeza i media di Y da X. Defiizioe Si cosideri u diagramma cartesiao dove si riportao i ascissa i valori della variabile X e i ordiata le corrispodeti medie codizioate di Y dato X. La spezzata otteuta cogiugedo i puti di coordiate (x i, M a (Y X = x i )) prede il ome di spezzata di regressioe. 10 / 21
Spezzata di Regressioe Spezzata di Regressioe M a(y) M a(y X=xi) 17 18 19 20 21 22 1 2 3 4 Dalla spezzata di regressioe sembra evicersi che il livello medio di reddito delle famiglie italiae è ifluezato positivamete dal umero di compoeti della famiglia. X 11 / 21
Quado è vera l ipotesi di idipedeza i distribuzioe, le medie codizioate soo tutte uguali alla media margiale, quidi la spezzata di regressioe è parallela alla retta di equazioe y = 0. Al crescere della dipedeza i media di Y da X cresce la variabilità delle medie codizioate di Y dato X. Da quato detto si ricava che u idice per valutare il grado di dipedeza i media di Y da X può essere basato sulla variaza delle medie codizioate di Y dato X. Prima di defiire la variaza delle medie codizioate osserviamo che esse soddisfao la seguete proprietà. Proprietà La media aritmetica poderata delle medie codizioate di Y dato X è uguale alla media margiale di Y, ovvero r i=1 Ma(Y X = x c i ) i. j=1 = M a(y ) = y j.j. Dimostrazioe r i=1 Ma(Y X = x i ) i. = = ( cj=1 ) r y j ij i=1 i. r c i. i=1 j=1 = y j ij = c j=1 y j ( r i=1 ij ) c j=1 = y j.j = M a(y ). 12 / 21
Utilizzado la precedete proprietà delle medie codizioate, possiamo defiire la variaza delle medie codizioate di Y dato X el seguete modo σ 2 M a(y X ) = r i=1 [Ma(Y X = x i ) M a(y )] 2 i. Dalle proprietà degli idici di variabilità assoluta discede che: i. σm 2 = 0 se è solo se tutte le medie codizioate di Y dato X soo uguali alla media a(y X ) margiale di Y. I altri termii σm 2 = 0 se e solo se è vera l ipotesi di idipedeza i a(y X ) media di Y da X ; ii. σm 2 cresce al crescere della diversità delle medie codizioate di Y dalla media margiale a(y X ) di Y. I altri termii, σm 2 cresce al crescere dell effetto di X sulle medie codizioate a(y X ) di Y. Sebbee le precedeti osservazioi mostrao che σm 2 può essere utilizzato per quatificare a(y X ) l effetto di X sulle medie codizioate di Y, la sua applicazioe è ridotta a causa delle segueti limitazioi: i. σm 2 o è u idice adimesioale poiché ha u uità di misura che è uguale al quadrato a(y X ) dell uità di misura di Y ; ii. il valore massimo che può assumere l idice σm 2 è diverso da uo. a(y X ) difficoltà iterpretativa del valore umerico forito dall idice σm 2 a(y X ). Ne cosegue la 13 / 21
La costruzioe di u idice per valutare la dipedeza i media di Y da X che soddisfa le segueti codizioi: i. è compreso tra 0 e 1; assume valore 0 quado Y è idipedete i media da X e assume valore 1 i caso di perfetta dipedeza i media, ii. o dipede dall uità di misura dei dati, è fodata sulla seguete formula di decomposizioe della variaza margiale di Y σ 2 Y = σ2 M a(y X ) + Ma(σ2 Y X ) ovvero la variaza margiale di Y è uguale alla somma della variaza delle medie codizioate e alla media delle variaze codizioate. Sulla base della precedete espressioe si ricava il seguete idice η 2 Y X = σ2 M a(y X ) σ 2 Y costituisce lo strumeto foda- oto i letteratura come rapporto di correlazioe. L idice ηy 2 X metale per l aalisi della dipedeza i media di Y da X. 14 / 21
Dalla defiizioe di rapporto di correlazioe si ricava che: η 2 Y X = σ2 M a(y X ) σ 2 Y i. il rapporto di correlazioe è ua quatità compresa tra zero ed uo, ovvero ηy 2 X [0, 1]; ii. Y è idipedete i media da X se e solo se σ 2 M a(y X ) = 0 quidi η2 Y X = 0; iii. al crescere della dipedeza i media di Y da X cresce la variabilità delle medie codizioate e quidi il rapporto di correlazioe tede a 1; iv. quado Y è perfettamete dipedete i distribuzioe da X il rapporto di cocetrazioe è uguale ad uo; Osservazioe. Se X ed Y soo due variabili quatitative cotiue allora possiamo calcolare ηy 2 X e η2 X Y. La atura asimmetrica su cui si foda l aalisi della dipedeza i media implica che, i geerale, ηy 2 X η2 X Y. 15 / 21
Co riferimeto all esempio precedete, dalla seguete tabella Classi.j y c j y c j.j (y c j )2 (y c j )2.j 10 15 152 12.5 1900 156.25 23750.00 15 20 166 17.5 2905 306.25 50837.50 20 25 151 22.5 3397.5 506.25 76443.75 25 30 31 27.5 852.5 756.25 23443.75 Tot. 9055 174475 si ricava M a(y ) = c j=1 y c j.j = 18.11 σ 2 Y = c j=1 (y c ) 2 j.j M a(y ) 2 = 20.9779 16 / 21
Dalla seguete tabella M a(y X = x i ) i. M a(y X = x i ) i. M a(y X = x i ) 2 M a(y X = x i ) 2 i. 16.385 130 2130.0 268.456 34899.231 17.357 175 3037.5 301.270 52722.321 19.100 150 2865.0 364.810 54721.500 22.722 45 1022.5 516.299 23233.472 Tot. 500 9055 165576.524 si ricava r i=1 Ma(Y X = x i ) i. ed ioltre = 9055 500 = 18.11 = Ma(Y ) r σm 2 a(y X ) = i=1 Ma(Y X = x i ) 2 i. M a(y ) 2 = 3.181 Utilizzado i risultati precedeti si ricava η 2 Y X = σ2 M a(y X ) σ 2 Y = 3.181 20.9779 = 0.152 Dal risultato precedete si ricava che il livello medio di reddito delle famiglie italiae dipede debolmete dal umero di compoete dalla famiglia. 17 / 21
Esempio. Su u campioe di 69 dipedeti di u ete di ricerca è stato rilevato il carattere posizioe professioale e il umero di ore di lavoro effettuate. Posizioe Ore lavorative lavorativa 160 180 180 200 200 220 220 240 Tot. Ricercatore 6 15 14 8 43 1 Ricercatore 2 5 4 7 18 Dirigete 0 3 2 3 8 Tot. 8 23 20 18 69 Valutare se il livello medio di ore lavorative effettuate dipede i media dalla posizioe professioale. 18 / 21
Media codizioata di Y dato X = x 1 Classi 1j yj c yj c 1j 160 180 6 170 1020 180 200 15 190 2850 200 220 14 210 2940 220 240 8 230 1840 Tot. 43 8650 M a(y X = x 1 ) = 8650 43 = 201.16 Media codizioata di Y dato X = x 2 Classi 2j yj c yj c 2j 160 180 2 170 340 180 200 5 190 950 200 220 4 210 840 220 240 7 230 1610 Tot. 18 3740 M a(y X = x 2 ) = 3740 18 = 207.78 19 / 21
Media codizioata di Y dato X = x 3 Classi 3j yj c yj c 3j 160 180 0 170 0 180 200 3 190 570 200 220 2 210 420 220 240 3 230 690 Tot. 8 1680 M a(y X = x 3 ) = 1680 8 = 210 da cui si ricava M a(y ) = 14070 69 Media e variaza margiale di Y Classi.j yj c y c j.j (y c j )2 (y c j )2.j 160 180 8 170 1360 28900 231200 180 200 23 190 4370 36100 830300 200 220 20 210 4200 44100 882000 220 240 18 230 4140 52900 952200 Tot. 69 14070 2895700 r = 203.91 σy 2 = i=1 (y j c)2.j M a(y ) 2 = 386.14 20 / 21
Variaza delle medie codizioate di Y M a(y X = x i ) i. M a(y X = x i ) 2 M a(y X = x i ) 2 i. 201.16 43 40466.47 1740058.14 207.78 18 43171.60 777088.89 210.00 8 44100.00 352800.00 Tot. 69 2869947.03 da cui si ricava la variaza delle medie codizioate Il rapporto di correlazioe σ 2 M a(y X ) = r i=1 Ma(Y X = x i ) 2 i. η 2 Y X = σ2 M a(y X ) σ 2 Y M a(y ) 2 = 12.91. = 12.91 386.14 = 0.03 mostra che il umero di ore di lavoro effettuate o dipede i media dalla posizioe professioale. 21 / 21