Matematca e statstca: da dat a modell alle scelte www.dma.uge/pls_statstca Resposabl scetfc M.P. Rogat e E. Sasso (Dpartmeto d Matematca Uverstà d Geova) STATISTICA DESCRITTIVA - SCHEDA N. 4 VARIABILI QUANTITATIVE Trasformazo lear Idc d covaraza e correlazoe ) Trasformazo lear d varabl statstche I vare stuazo s operao trasformazo de dat. Alcu esemp c soo famlar: operamo ua trasformazoe d ua varable quado cambamo utà d msura, ad esempo passado da dat espress cetmetr a dat espress metr, oppure quado trasformamo le temperature espresse grad Celsus quelle grad Fahrehet. Se dchamo co msure espresse cetmetr e co le stesse espresse metr, avremo: = 0.0 Se dchamo co le temperature espresse grad Fahrehet e co quelle grad Celsus, avremo: = (-3) 00/80 Operamo ua trasformazoe d ua varable ache quado sottraamo a msure della massa d oggett la massa del cotetore utlzzato; avremo, ad esempo: = - I quest cas le trasformazo soo lear, coè del tpo: = a + b co a e b valor real. Cascu dato vee trasformato el seguete modo: y = ax + b Il coeffcete b opera ua traslazoe metre l coeffcete a è u fattore d scala che cde sulla varable medate ua dlatazoe o ua cotrazoe (dlatazoe se a > e cotrazoe se a < ). Se a è egatvo s ha u rbaltameto rspetto all asse delle ordate. Vedamo ora come s comportao meda e varaza della varable trasformata learmete rspetto agl stess dc della varable orgale. Idchamo co x e y le mede e co e le varaze delle due varabl. A) Traslazoe = + b La meda camba: vee traslata d b, così come sgol dat. y = ( x + b) = x +b La varaza resta uguale; fatt è basata sugl scart dalla meda, che restao ugual dopo la traslazoe: y y = x + b x + b = x x ( ) =-0 3 36 44 48 5 56 Nell esempo rportato a faco s ha = -0 e: x = 49. e = 9.0 y = 39. e = 9.0
B) Dlatazoe/cotrazoe = a La meda camba: vee dlatata o cotratta del fattore a, così come sgol dat. a y = ax = x = ax La varaza camba; gl scart dalla meda dvetao: y y = a x a x = a( x x ) e qud ( ) ( ) = y y = a x x = ( ) Il sego del coeffcete a o cde sulla varaza. = a x x a. A faco soo rappresetate, oltre alla varable dell esempo precedete, ua varable dlatata 3 volte e ua W cotratta 3 volte, coè: = 3 e W = /3 =3 S ha: x = 49. e = 9.0 e qud: y = 4.3 e = 8.63 w = 6.3 e W =.0 W=/3 5 5 00 5 5 Bsoga fare attezoe a pall: per problem d scala e tre grafc u pallo corrspode a u dverso umero d osservazo. Each symbol represets up to 3 observatos. I preseza sa d traslazoe che d dlatazoe/cotrazoe s ha: la meda s trasforma secodo la stessa trasformazoe della varable, ovvero y = ax + b. la varaza, vece, ha u comportameto dfferete = a. e la devazoe stadard s trasforma el seguete modo: = a fatt la devazoe stadard è u dce postvo. C) Cetratura e stadardzzazoe La trasformazoe = x è detta cetratura. La varable vee traformata ua varable co meda zero. x La trasformazoe Z = è detta stadardzzazoe. La varable vee traformata ua varable Z co meda zero e varaza uo. NB: Le formule precedet valgoo solo per trasformazo lear. Ad esempo se = / o è vero che y = / x
) Dstrbuzoe coguta d due varabl quattatve e loro rappresetazoe grafca I rsultat d due varabl quattatve e rlevate sulla stessa popolazoe possoo essere rappresetat attraverso put d u pao: a cascua osservazoe è assocato u puto le cu coordate soo valor d e per quella osservazoe, dcat co (x,y ). Il grafco s chama dagramma d dspersoe bdmesoale o scatterplot. L seme delle K dfferet coppe d valor (x k,y k ) e delle corrspodet frequeze relatve è detta dstrbuzoe coguta d e. ESEMPIO. Cosderamo l grafco della dstrbuzoe coguta de pes e delle altezze de soggett dell espermeto sulle pulsazo (gà vsto elle schede. e 3). 00 90 Scatterplot of Peso vs Altezza Notamo che el ttolo de dagramm relatv a due varabl software statstc scrvoo: varable rappresetata sulle ordate rspetto (versus glese) varable rappresetata sulle ascsse Peso 80 0 0 Altezza 80 90 La rappresetazoe grafca a faco evdeza, oltre alla dstrbuzoe coguta delle due varabl, ache le due dstrbuzo margal d e. La stuazoe è del tutto aaloga a quato abbamo vsto el caso d varabl qualtatve. Margal Plot of Peso vs Altezza Il barcetro de dat relatv a due varabl è l puto (x, y ) coè l puto che ha coordate due barcetr della varable e della varable. Ache questo caso l barcetro è l puto d equlbro della dstrbuzoe. Peso 00 80 0 80 Altezza 90 Nel grafco della dstrbuzoe coguta s può ache evdezare l apparteeza de soggett a lvell d ua varable qualtatva, così come è fatto a faco per l geere: masch () e femme (). 00 90 80 Scatterplot of Peso vs Altezza Sex Peso 0 0 Altezza 80 90 3
3) Idc per due varabl quattatve: la covaraza e la correlazoe. Quado s hao due varabl quattatve e, defte sulla stessa popolazoe d utà, c possamo chedere se esste u legame leare tra le due varabl e, caso affermatvo, d che tpo sa. Esameremo come s costruscoo e che propretà hao due uov dc: la covaraza e la correlazoe. A) Gl dc d covaraza e correlazoe hao la propretà d essere: postv per dat che hao u comportameto come quello a faco vc a zero per dat che hao u comportameto come quello a faco egatv per dat che hao u comportameto come quello a faco B) Gl dc d covaraza e correlazoe soo costrut azttutto cetrado dat el barcetro. Idchamo co e co le varabl cetrate. Osservamo che, ua volta cetrat dat el barcetro, prodott x y soo postv per dat che soo rappresetat el prmo e el terzo quadrate e egatv per dat che soo rappresetat el secodo e el quarto quadrate de uov ass. Nell esempo rportato a faco la maggor parte de prodott è postva e oltre prodott egatv soo pccol. La covaraza fra e è data da m Cov(,)= x y = ( x x)( y y ) oppure fk( xk x)( yk y ) k = avedo dcato co (x k,y k ) gl m dfferet valor assut dalle varabl e co f k le corrspodet frequeze relatve. Talvolta come el caso della varaza, l dce d covaraza può avere (-) al deomatore. Come la varaza, la covaraza può essere scrtta modo pù semplce per calcol m Cov(,)= x y x y oppure k k k = f x y x y k = ovvero come la dffereza fra la meda del prodotto de dat e l prodotto delle mede. Ua covaraza postva dca che per la maggor parte de dat: - a valor alt della varable corrspodoo valor alt della varable - a valor bass della varable corrspodoo valor bass della varable Ua covaraza egatva dca che per la maggor parte de dat: 4
- a valor alt della varable corrspodoo valor bass della varable - a valor bass della varable corrspodoo valor alt della varable Ua covaraza crca ulla dca che o esste essu legame d questo geere. ESEMPIO: Per le varabl Altezza e Peso la covaraza vale 8,55. Covaraza e trasformazo lear. Abbamo vsto che la covaraza è otteuta cetrado le varabl e qud o rsete d evetual traslazo delle varabl. Qud: Cov( + b, + d) = Cov(,). Ivece rsete, come la varaza, delle dlatazo/cotrazo. Ifatt Cov( a, c) = ax cy ax cy ac x y xy accov(, ) = = I geerale: Cov( a + b, c + d) = accov(, ) L utà d msura della covaraza fra e (ad esempo espresse ua cm e l altra kg) è data dal prodotto delle utà d msura d e d (qud, cm x kg): qud rsete della scelta dell utà d msura. Come s potrebbe defre u dce, che da le formazo della covaraza ma o dpeda dalla scelta delle utà d msura d e? Bsoga trasformare le varabl e operado, oltre che ua cetratura, ache ua stadardzzazoe, cosderado qud varabl co varaza. Idchamo ora co e co x le varabl stadardzzate: y = e =. Il coeffcete d correlazoe ρ(,) è defto come Cov(, ) : Qud ρ(,) = ρ(,) = x y x y Cov (, ) = ( x)( y) = Il sego della correlazoe cocde co quello della covaraza. L dce d correlazoe è u umero compreso fra e. Se è vco a valor estrem le due varabl hao u forte legame leare. Se è vco a 0 o esstoo legam lear apprezzabl fra le due varabl. ATTENZIONE: la covaraza e la correlazoe msurao solo l legame leare fra le varabl; altr tp d legam o soo dvduat. Ua covaraza o correlazoe crca ulla o sgfca che o essta essua relazoe fra le varabl stesse. Il grafco a faco mostra u caso d correlazoe pressoché ulla, pur preseza d ua relazoe quas quadratca fra le varabl. 5
Osservamo fe come el caso delle varabl qualtatve che aver dvduato u legame leare o vuol dre aver dvduato ua relazoe d causa/effetto. Ad esempo se da u dage statstca s trova che l umero d fgl per famgla e l cosumo d alcool pro capte per famgla hao ua correlazoe postva abbastaza alta, questo o vuol dre che l avere ua famgla umerosa duce ecessaramete u maggor cosumo d alcolc, oppure che u alto cosumo d alcolc abba come cosegueza dretta ua famgla umerosa. I questo caso s può potzzare che le cause dell alto cosumo d alcolc e della umerostà de fgl sao le codzo cultural e ecoomche delle famgle, ovvero che esstoo altre varabl, magar o rlevate dall dage, che fluscoo sulle varabl studate. Correlazoe e trasformazo lear. Abbamo vsto che la correlazoe è otteuta stadardzzado le varabl e qud o rsete d evetual traslazo e dlatazo/cotrazo delle varabl, a parte l sego. Cov ( a + b, c + d ) a c Cov(, ) ρ (a + b, c + d) = = = sego( ac) ρ(, ) a c a + b c + d Alcue osservazo:. S ha: Cov(,) =, Cov(,) = Cov(,) e ρ(,) =, ρ(,-) = -.. Date due (o pù) varabl quattatve e la matrce d varaza-covaraza è quella matrce smmetrca coteete sulla dagoale prcpale Var( )e el posto (,j) Cov(, j ). Nel caso delle varabl Altezza e Peso s ha altezza peso altezza 86,3896 8,558 peso 8,558 5,9 Aalogamete la matrce d correlazoe è quella matrce smmetrca coteete sulla dagoale prcpale e el posto (,j) ρ (, j ). Nel caso delle varabl Altezza e Peso s ha altezza peso altezza 0.85 peso 0.85 UN ESEMPIO REALE. Cosderamo alcu dat relatv a tre varetà d Irs; soo msurate la lughezza e la larghezza de petal e lughezza e la larghezza de sepal. 0 vareta 3 Nella rappresetazoe grafca a faco soo rportate le dstrbuzo cogute della lughezza e della larghezza de petal d tre varetà d Irs. S vede che la correlazoe complessva fra la lughezza e la larghezza è postva e questo dovuto a u fattore d scala : le tre spece soo d dmeso dverse: la è pccola, la è meda e la 3 è grade. Le correlazo fra la lughezza e la larghezza de petal per cascua varetà soo molto pù basse. Qu d seguto vedamo altre due aomale. lughezza petal 30 0 0 0 5 0 5 0 larghezza petal ρ tot =0.964 ρ =0.36 ρ =0.8 ρ 3=0.3 5 6
Lughezza e larghezza sepal: ρ totale egatvo quas ullo; ρ elle sottopopolazo postvo e u caso puttosto alto Lughezza petal e larghezza sepal: ρ totale egatvo basso; ρ elle sottopopolazo postvo 45 vareta 3 0 vareta 3 larghezza sepal 35 30 lughezza petal 30 5 0 0 0 0 lughezza sepal ρ tot = -0.8 ρ =0.48 ρ =0.56 ρ 3 =0.45 80 0 5 30 35 larghezza sepal ρ tot = -0.44 ρ =0.86 ρ =0.56 ρ 3=0. 45 UN ALTRO ESEMPIO REALE (tratto dalla rvsta Nature del ottobre 005). Ne tre grafc soo rportate le dstrbuzoe cogute del peso () e delle ore d soo goralere () d alcu amal; soo dcat: - carvor co romb - gl erbvor co tragol - gl ovor co quadrat Nelle tre sottopopolazo s ottee: - carvor: ρ c (, ) = - 0.3 - erbvor: ρ ( e, ) = - 0.8 - ovor: ρ ( o, ) = - 0.3
Qud tutte le sottopopolazo la correlazoe è egatva, ma per gl erbvor tale correlazoe è puttosto alta, metre per gl altr due grupp la correlazoe è o sgfcatva. Il grafco a faco rguarda l tera popolazoe degl amal. Nella popolazoe complessva s ottee: ρ (, ) = - 0.5 Come abbamo gà detto ua correlazoe alta o forsce formazo su evetual cause/effetto fra le varabl. Talvolta però queste formazo soo ote a ch sta studado ua stuazoe reale: c è ua varable (che dcheremo co ) che produce degl effett su u altra varable (che dcheremo co ). 8
ESERCIZI ) A faco soo rportat rsultat d due caratterstche quattatve effettuate sulla stessa popolazoe. a. Costrure u dagramma d dspersoe che vsualzz la dstrbuzoe della varable b. Calcolare la meda d. c. Calcolare la varaza d. d. Costrure u grafco della fuzoe d dstrbuzoe cumulata della varable. e. Costrure u box-plot per la varable. 5.6 3.6.6-0.3.4.8 4. 3. 6.9 6.4 3. 3...0 6.4.4.5-0. 6.9 6.0.5.4-0.3-0.6 f. Sapedo che per la varable s ottee: y = 35.9 e y = 85.55, calcolare meda e varaza d. g. Costrure u dagramma d dspersoe bdmesoale che vsualzz la dstrbuzoe coguta delle varabl e h. Calcolare l coeffcete d correlazoe delle varabl e ) I dat rportat ella tabella seguete soo msure d u partcolare parametro d fuzoaltà epatca (SGOT) co l lvello d colesterolo HDL el sague. SGOT [x] 9.5 3.5 5.5.5 9.5 0.5 HDL (mg/dl) [y] 4. 4.3 4.8 43.8 43.6 46.5 x = 0 x =.5 y = 300. y = 900. x y = 463.6 a) Calcolare meda e varaza delle varabl SGOT e HDL. b) Costrure u dagramma d dspersoe bdmesoale che vsualzz la dstrbuzoe coguta delle varabl e c) Calcolare la covaraza fra le varabl SGOT e HDL. d) Calcolare la correlazoe fra le varabl SGOT e HDL. 3) A faco soo rportat 3 rsultat d ua rlevazoe quattatva,.53.86.9.083 dcata co. Calcolare la meda e la varaza d..53.86.9.080.53.86.9.08.53.86.9.08.53.86.9.08.53.86.9.5.53.86.9.4.53.86.9.08.53.86.9.090.53.86.9.090.53.86.9.08.53.86.9.080.53.86.9.090 4) Per alcu, l zo d questo mlleo è l geao 000, per altr è l geao 00. S effettuao msure d tempo rferte all'zo del terzo mlleo. Dre quale de seguet dc statstc rfert alle sue msure è varate rspetto alle due scelte per l orge: meda varaza medaa IQR 9