Varabl statstche - Sommaro Defnzon prelmnar Statstca descrttva Msure della tendenza centrale e della dspersone d un campone Introduzone La varable statstca rappresenta rsultat d un anals effettuata su un campone estratto da una popolazone statstca. Il settore della statstca che s preoccupa dello studo d queste varabl prende l nome d statstca descrttva. 2 Varabl Statstche
Defnzon prelmnar Interpretazone grafca Popolazone Statstca Campone Campagna spermentale 3 Statstca descrttva Introduzone La varable statstca rappresenta rsultat d un anals effettuata su un campone estratto da una popolazone statstca. Il settore della statstca che s preoccupa dello studo d queste varabl prende l nome d statstca descrttva. Campone Scopo: Caratterzzazone del campone 4 Varabl Statstche 2
Statstca descrttva Introduzone La Statstca Descrttva è la branca della Statstca che studa crter d rlevazone, d classfcazone e d sntes delle nformazon relatve a una popolazone oggetto d studo. Ha come obettvo l sntetzzare dat d un campone n una scrttura d facle lettura. Defnzone Dmensone del campone: numero d osservazon d cu è costtuto l campone 5 Statstca descrttva Esempo dscreto Una azenda ntende montorare gorn d assenza dal lavoro de propr p mpegat. X : numero d gorn d assenza per ogn mpegato L ndagne vene eseguta su 20 dpendent scelt a caso, osservando seguent rsultat X : {5, 6, 4, 4, 0, 4, 8, 7, 5, 7, 3, 2,, 6, 6, 5, 6, 6, 8, 3} Ogn dpendente d preso n consderazone è un evento ovvero un esto dell esperenza che non è noto a pror La dmensone del campone a dsposzone e = 20. 6 Varabl Statstche 3
Statstca descrttva Esempo dscreto I dat sono rportat nella seguente tabella rassuntva umero d gorn d'assenza Rpartzone de 20 Frequenza Frequenza relatva X mpegat f f/n 0.05 2 0.05 3 2 0.0 4 3 0.5 5 3 0.5 6 4 0.25 7 2 0.0 8 2 0.0 9 0 0.00 0 0.05 n = 20.00 Defnzon La frequenza assoluta rappresenta l numero d volte che un dato rsultato s osserva nel campone consderato La frequenza relatva s ottene dvdendo la frequenza per l numero totale d prove 7 Statstca descrttva Esempo dscreto Rappresentando rsultat n un grafco (ISTOGRAMMA) è possble ottenere nformazon qualtatve sul comportamento m de dpendent frequenza 4 0.2 2 0. Frequenza relatva 2 3 4 5 6 7 8 9 0 Per esempo, esstono de rsultat pù rcorrent? 8 Varabl Statstche 4
Statstca descrttva Frequenza relatva. La frequenza relatva può assumere valor almeno ugual a zero e al pù ugual a 2. La somma delle frequenze relatve è sempre par a I valor che possono assumere rsultat del campone vanno da a 0. È possble osservare m = 0 dstnt valor nter. Per defnzone: f = m Essendo l numero d volte che s è osservato l valore -esmo Da notare che m = f =.0 Statstca descrttva Frequenza relatva e cumulatva Da notare che la frequenza relatva, dal punto d vsta matematco, può essere vsta come una funzone: f ( y) f j se y = y j = 0 altrove Varabl Statstche 5
Statstca descrttva Frequenza cumulatva C s può porre l problema d determnare quale è la frazone delle osservazon che assume valor nferor ad un certo valore Ad ogn y s assoca la somma d tutte le frequenze relatve corrspondent a valor del campone pù pccol o ugual ad y. F( y ) = f ( t ) t y Statstca descrttva Frequenza cumulatva 0.30.2 025 0.25 0.0 frequenza relatva 0.20 0.5 0.0 frequenza cumulatva 0.8 0.6 0.4 0.05 0.2 0.00 0 2 4 6 8 0 2 0.0 0 2 4 6 8 0 numero d gorn d assenza numero gorn d assenza Frequenza relatva Frequenza cumulatva La frequenza cumulatva è una funzone a gradn, crescente, che parte da 0 e arrva a Varabl Statstche 6
Statstca descrttva Frequenza cumulatva La dstrbuzone cumulatva è molto mportante: S consder per esempo d voler sapere la frazone del campone d dpendent che ha maturato tra le 5 e le 8 gornate d malatta % mpegat con X 8 = 0.95 % mpegat con X < 5 = % mpegat con X 5 = 0.35 La percentuale d mpegat con 5 X 8 = 0.95-0.35 = 0.60 Statstca descrttva Esempo contnuo S consder una sere d 50 msure d concentrazone d compost azotat su un acqua d scarco d un mpanto ndustrale. Le msure sono state effettuate sempre nelle stesse condzon (eserczo dell mpanto costante etc.) Le fluttuazon present nella msura possono essere dovute a: Error d msura Fluttuazon nella corrente d scarco co dovute a varazon delle condzon esterne (meteo, temperatura, etc.) altro 4 Varabl Statstche 7
Statstca descrttva Esempo contnuo Esempo d msure: X = {.434,.40,.464,,.478,.490,.405,.394} In questo caso non abbamo pù un numero fnto (o numerable) d possbl rsultat ma cascun elemento del campone può assumere un qualunque numero reale.b. nonostante la concentrazone sa stata rportata con una precsone alla terza cfra decmale, l numero d cfre sgnfcatve può essere nfnto 5 Statstca descrttva Esempo contnuo on s può parlare d frequenza d un valore specfco d X (non s avrà ma lo stesso valore per due dfferent msure). Su un stogramma costruto con la flosofa del caso dscreto avremmo tant pcch d altezza untara n corrspondenza d cascuna msura spermentale, l che non avrebbe senso dal punto d vsta applcatvo. Al contraro s può determnare l numero d volte che s osserva un valore n un certo ntervallo fnto (classe) Δx Tale numero prende l nome d frequenza assoluta corrspondente alla classe 6 Varabl Statstche 8
Statstca descrttva Esempo contnuo Consdero, per esempo, 9 dstnte class che partono da.5 sno a.60 cascuna delle qual è costtuta da un ntervallo par a 0.05: 05: 3 6 4 7 7 5 5 2 0 n = 50.5.20.25.30.35.40.45.50.55.60.65 Msura della concentrazone 7 Statstca descrttva Esempo contnuo I rsultat possono ancora essere rappresentat n un stogramma fr requenza 5 0.30 30% 0 0.20 5 2% 4% 4% 0% 8% 6% 4% 2% 00 0.0 frequenza rel latva.5.20.25.30.35.40.45.50.55.60.65 Msura della concentrazone 8 Varabl Statstche 9
Statstca descrttva Percentl Gl stogramm delle frequenze (sa assolute che relatve) sono molto utl e permettono con una semplce spezone grafca d trarre concluson Per esempo s consder una msura d concentrazone par a.24. Tale msura s trova nell estremtà superore della seconda classe e s possono per esempo valutare quante sono le osservazon spermental con valore nferore. In questo caso: (.5.20 ) % secondac ( 25 ) % prma cl asse + lasse.20 20.25 = 2 % + 6% = 8% Il valore d concentrazone.24 cade nell 8mo percentle 9 Statstca descrttva Percentl Percentl mportant: Prmo quartle: è l percentle 25, ovvero l 25% del campone assume valore nferore Medana: è l percentle 50, corrsponde al valore centrale che dvde n dat n due part ugual Terzo quartle: è l percentle 75, solo l 25% delle osservazon assume un valore superore 20 Varabl Statstche 0
Statstca descrttva Percentl Per l esempo corrente: x=.33 Prmo quartle x=.47 Terzo quartle.5.20.25.30.35.40.45.50.55.60.65 Mnmo valore del campone x=.43 Medana Massmo valore del campone 2 Statstca descrttva Percentl Rappresentazone del campone tramte dagramm a scatola (n nglese: box-plots ).5.20.25.30.35.40.45.50.55.60.65 Valore mnmo Valore massmo quartle medana 3 quartle 22 Varabl Statstche
Statstca descrttva Eserczo replogatvo In un unverstà amercana un campone scelto a caso d 5 professor d sesso femmnle ha fornto la seguente dstrbuzone de salar annual (Katz, 973) Y = {9, 2, 8, 0, 6} I dat sono fornt n Kdollar Traccare dagramm a scatola del campone n esame Suggermento : ordnare dat n senso crescente ed ndvduare l osservazone centrale per la medana. Per percentl s ha che l 25% d 5 è crca e qund sono le osservazon alle estremtà 23 Statstca descrttva Eserczo replogatvo ella stessa unverstà, un campone d 25 professor masch ha fornto la seguente dstrbuzone d salar annual (stessa fonte. untà d msura sempre n Kdollar) X = {3,, 9,, 22, 27, 4, 6, 3, 24, 2, 8,, 9, 3, 22, 3,, 7, 3, 3, 9, 2, 5, 5} Traccare dagramm a scatola del campone n esame Suggermento : ordnare dat n senso crescente la medana sarà l valore per cu 2 punt sano nferor e 2 superor. Per quartl s ha che l 25% d 25 è crca 6 e dobbamo qund prendere l 6 e l 9 punto della successone. Da una anals qualtatva, è possble concludere se c sono dfferenze tra due campon? Classfcare noltre dat n class d centro 0, 5,20,25,30 24 Varabl Statstche 2
Msure centro d una dstrbuzone d dat Con la rappresentazone grafca delle frequenze è possble ottenere delle nformazon qualtatve sul nostro campone C sono dfferent mod per rappresentare l centro d una dstrbuzone d dat 25 Msure centro d una dstrbuzone d dat Moda l valore pù frequente nel campone d dat ovvero quello cu corrsponde l maggor numero d osservazon Esemp: Esempo dscreto col numero de gorn d malatta: moda = 6 gorn Esempo contnuo con le msure d concentrazone: moda corrsponde alla classe [.45 -.50] ~.475 26 Varabl Statstche 3
Msure centro d una dstrbuzone d dat Medana l 50 percentle Esemp: Esempo dscreto col numero de gorn d malatta: medana = 5.5 gorn Esempo contnuo con le msure d concentrazone: medana =.4276 27 Msure centro d una dstrbuzone d dat Meda artmetca Corrsponde alla somma d tutte le osservazon dvso per l numero d osservazon x w x + x +... = 2 x = = Esempo dscreto numero gorn d malatta + 5+6+4+6++0+...+0+3+3+3+8 x = = 4.9375 50 Esempo contnuo con le msure d concentrazone x.43+.27+.47...+.40+.46 x = =.4059 50 28 Varabl Statstche 4
Msure centro d una dstrbuzone d dat el caso d campon d grand dmenson l applcazone della formula per la meda può rsultare oneroso, se eseguto manualmente senza l auslo d strument d calcolo. Ma calcol possono essere sgnfcatvamente rdott rcorrendo a dat raggruppat n classe Consderamo una generca collezone d dat da sommare e ordnamol n ordne crescente All nterno d cascun nseme d dat appartenent alla stessa classe approssmamo ogn osservazone con l centro della rspettva classe 29 Msure centro d una dstrbuzone d dat S può scrvere x x cade nella prma classe Ø x x cade nella seconda classe Ø x2 (( x + x + K ) + ( x + x + K) + K) = [ x f + x f + K] 2 2 2 2 La x cade f volte nella classe rappresentata da x La x cade f 2 volte nella classe rappresentata da x 2 f, f 2, frequenze assolute relatve alle class x, x 2, x ~ x x ~ x 2 30 Varabl Statstche 5
Msure centro d una dstrbuzone d dat In conclusone per una sere d dat raggruppat possamo scrvere x = xf A f A : frequenza assoluta Essendo f la frequenza assoluta delle osservazon nelle class el caso s us la frequenza relatva f: p x = xj f j= j Essendo p l numero d class n cu è stato suddvso l campone x j è l valore assocato ad ogn classe, f j è la frequenza relatva osservata per la classe j-esma 3 Msure centro d una dstrbuzone d dat Eserczo : S stm la meda degl stpend unverstar sa per la dstrbuzone maschle che per quella femmnle el caso del campone maschle s sfrutt l approssmazone per dat raggruppat ota: la meda del campone maschle è par a 6.00 se non s rcorresse alle approssmazon 32 Varabl Statstche 6
Msure centro d una dstrbuzone d dat Eserczo 2: S consderno due campon d dat A e B d seguto rportat e s valutno per ess meda e medana A = {.0,.49, 0.99, 2.0, 2.50} B = {.594,.604,.589,.604, 609} 33 Statstca descrttva Osservazon sull eserczo La valutazone del centro della dstrbuzone de dat è un nformazone utle ma non esaustva. el secondo eserczo s era vsto come due campon che presentano lo stesso valore d meda, sono comunque ben dfferent (perché?) Il secondo campone d dat regstra nfatt delle fluttuazon ntorno al valore medo che sono molto pù pccole. Potrebbe per esempo essere assocato ad una msura pù precsa 34 Varabl Statstche 7
Statstca descrttva Msure dspersone d una dstrbuzone È qund nteressante anche msurare quanto le msure sano dsperse ntorno al valore medo. V sono dverse msure della dspersone de dat: Intervallo (n nglese; range) valore massmo valore mnmo È una msura un po sensble dato che dpende completamente da due sole osservazon Esempo: calcolare l ntervallo per due campon A e B ntrodott precedentemente 35 Statstca descrttva Msure dspersone d una dstrbuzone Intervallo (o Estensone) Interquartle EIQ EIQ = (terzo quartle) (prmo quartle) È pù stable del semplce ntervallo (perché?) Esstono altre msure della dspersone che sono usate. Per la loro mplementazone è necessaro prma defnre la seguente grandezza: d = x x che rappresenta la dstanza della sngola prova rspetto al trend centrale. 36 Varabl Statstche 8
Statstca descrttva Msure dspersone d una dstrbuzone È facle dmostrare che: d Infatt: = = = ( x x) = 0 ( ) x x = x x = x x = x x = 0 = = = = Devazon postve e negatve dal valore centrale s annullano. È qund necessaro prendere tale devazone n valore assoluto 37 Statstca descrttva Msure dspersone d una dstrbuzone Scarto assoluto medo SAM = d = x x = = Varabl Statstche 9
Statstca descrttva Dspersone d una dstrbuzone d dat Scarto quadratco medo: SQM = x x = ( ) 2 In genere la formula utlzzata è una pccola modfca dello scarto quadratco medo: Varanza 2 s = ( x ) 2 La somma de x quadrat è dvsa per (-) anzché = 39 Statstca descrttva Dspersone d una dstrbuzone d dat Varanza: perché dvdere per (n-)? La dmostrazone matematca rgorosa è molto artcolata e complessa. È possble dare comunque un nterpretazone ntutva d tale necesstà, rcorrendo a de cas estremamente semplc. S consder, per esempo, un campone d dat costtuto da = osservazone.la meda fornsce un dea d quale sa l trend centrale della popolazone da cu provene. Ma n tale campone, la dspersone è nulla e non s può concludere nente sulla dspersone della popolazone. one. In manera emprca, s può affermare che, per un generco campone d dmensone, s hanno (-) element d nformazone che possono essere sfruttat per la varanza (dett anche grad d lbertà): Un grado d lbertà è stato gà sfruttato per l calcolo della meda 40 Varabl Statstche 20
Statstca descrttva Msure dspersone d una dstrbuzone Devazone standard È la radce quadrata della varanza s = x x = ( ) 2 Utle perché ha le stesse dmenson della varable x presa n consderazone È compresa tra l mnmo ed l massmo de valor assolut degl scart d = x x 4 Statstca descrttva Msure dspersone d una dstrbuzone Da notare che: 2 ( ) 2 2 2 s = x x = x x = = Dmostrazone: 2 2 2 2 s = ( x x) = ( x 2xx + x ) = = = 2 2 2 2 x 2 xx x x 2x x x + = + = = = = = = 2 2 2 2 2 x 2x x x x + = = CVD = Varabl Statstche 2
Statstca descrttva Msure dspersone d una dstrbuzone Per una dstrbuzone classfcata, s può stmare la varanza: p p 2 2 2 s = ( xj x) f j = ( xj x) f j j= j= Per grand dmenson del campone (» ) p ( ) 2 j 2 s = x x f j j= Analogamente la devazone standard p s = ( x ) 2 j x f j= j 43 Statstca descrttva Msure dspersone d una dstrbuzone Eserczo: S calcol la varanza per dat degl stpend unverstar sa per l campone femmnle sa per l campone maschle el secondo caso, rcorrere a dat raggruppat per class 44 Varabl Statstche 22
Altr ndc d poszone e dspersone camponar Il momento camponaro d ordne k è defnto come: m~ n = = k x k Il momento centrale camponaro d ordne k è defnto come: ~ M k = n ( x x) = k 45 Altr ndc d poszone e dspersone camponar Indce camponaro d asmmetra β = ~ M s 3 3 Indce camponaro d curtos γ = ~ M 4 2 ( s ) 2 46 Varabl Statstche 23
Statstca descrttva Sommaro Con la statstca descrttva è possble rcavare nformazon sulla popolazone da un campone fnto d dat: Dstrbuzon frequenze del campone Sono stat ntrodott gl scalar fondamental per una caratterzzazone prelmnare d un campone Meda, varanza per una varable d un campone Varabl Statstche 24