STATISTICA DESCRITTIVA CON EXCEL Corso d CPS - II parte: Statstca Laurea n Informatca Sstem e Ret 2004-2005 1
Obettv della lezone Introduzone all uso d EXCEL Statstca descrttva Utlzzo dello strumento: Anals de dat Utlzzo dello strumento: Statstca descrttva Frequenze e Istogramm Utlzzo dello strumento: Istogramm Meda e varanza d dat raggruppat. 2
Introduzone a EXCEL Excel è un applcazone d foglo elettronco che permette d raccoglere ed elaborare dat nsert dall utente I dat vengono raccolt n tabelle. Tabella: nseme d celle dsposte secondo rghe (dentfcate da numer) e colonne (dentfcate da lettere). Costtusce un foglo d lavoro. Cartella d lavoro: nseme d fogl d lavoro 3
EXCEL: Insermento dat Per nserre un dato n una cella: clccare sulla cella e nserre l dato. Dare conferma con INVIO. Se dat mmess sono numer, vengono nterpretat come dat numerc, altrment sono nterpretat come testo. EXCEL: Ordnamento dat Per ordnare dat selezonare dat che s voglono ordnare e dal menu DATI clccare ORDINA 4
EXCEL: Insermento funzon Clccare su una cella ed nserre un =. o scrvere drettamente la formula o utlzzare formule predefnte clccando e sceglendo la funzone desderata. Rferment d cella relatvo: vene modfcato se la formula vene copata n una poszone dversa da quella d creazone (es. A1) assoluto: NON vene modfcato se la formula vene copata n una poszone dversa da quella d creazone (es. $A$1) msto: ndca un rfermento assoluto solo per la rga o la colonna scelta (es. A$1 $A1) f x 5
EXCEL: Prncpal funzon statstche accessbl tramte l menu funzon MEDIA (num1, num2, ) MEDIANA (num1, num2, ) MODA (num1, num2, ) DEV.ST (num1, num2, ) VAR (num1, num2, ) MAX (num1, num2, ) MIN (num1, num2, ) QUARTILE(dat;quarto) PERCENTILE(dat,k) 6
d poszone d dspersone d d forma EXCEL: Indc statstc - RICHIAMI meda: moda: punto d max della dstrbuzone medana: valore sotto al quale cadono la metà de valor camponar. S dspongono dat n ordne crescente e s prende quello che occupa la poszone centrale (N dspar) o la meda de 2 valor n poszone centrale (N par) varanza devazone standard range quartl / percentl skewness (coeff. d asmmetra) ( x x) curtos: msura quanto la dstrbuzone è appuntta σ R 2 = N 1 = x max x mn 2 x x σ N >0 poco appuntta <0 molto appuntta 3 x x σ N >0 coda a ds <0 coda a sn =0 smmetrca 4 7
EXCEL: Esemp d semplc anals descrttve de dat Es1Descr.xls: Lvell d rumore msurat n 36 dverse occason presso la stazone d una grande cttà Es2Descr.xls: Scurezza de vol negl USA, vecol commercal, ann 1980-1995 Es3Descr.xls : Temp d vta (n ore) d un campone d 40 transstors. 8
EXCEL: TOOLBOX DI ANALISI DATI (STRUMENTI DI) ANALISI DATI è un nseme d strument d anals de dat che consente d rdurre passagg necessar allo svluppo d complesse anals statstche. Fornt dat e parametr per cascuna anals, lo strumento utlzzerà le funzon macro statstche approprate, vsualzzando rsultat n una tabella d output. Per vsualzzare un elenco degl strument d anals: sceglere Anals dat dal menu Strument. Se tale comando non è vsualzzato, dal menu Strument selezonare Aggunte e sceglere Anals dat. 9
EXCEL: Strumento d anals Statstca descrttva Fa un anals statstca de dat selezonat fornendo nformazon sulla tendenza e dspersone de dat. Opzon della fnestra d dalogo Statstca descrttva: ntervallo d nput: mmettere l rfermento d cella per l ntervallo d dat da analzzare ntervallo d output: mmettere l rfermento della cella superore snstra della tabella d output Replogo statstche: genera una tabella d output con le seguent statstche:meda, Errore standard (della meda), Medana, Moda, Dev. Standard, Varanza, Curtos, Asmmetra, Intervallo, Mn, Max, Somma, Conteggo. 10
EXCEL: Esemp d anals descrttve de dat con l toolbox Anals Dat S possono rempegare dat contenut ne fles Es1Descr.xl Es2Descr.xls Es3Descr.xls 11
RICHIAMI EXCEL: Frequenze ed stogramm S consderno N dat da analzzare. Frequenza assoluta: numero d oggett del tpo -esmo 0 ν N Frequenza relatva: ν = f = ν N N ν f 1 N = = 12
Frequenza cumulatva assoluta: è la somma della freq. assoluta + la freq. cumulatva assoluta del dato precedente. N = N 1 + ν = k = 0 1 ν N F 0 N N Frequenza cumulatva relatva: è la somma della freq. relatva + la freq. cumulatva relatva del dato precedente. k F = F 1 + f = k = 0 1 f k 0 F 1 13
Caso dscreto: EXCEL: Istogramm - RICHIAMI S fssano sull asse delle ascsse valor delle class e, n corrspondenza, s dsegna una barra la cu altezza è par alla frequenza (relatva o assoluta) L altezza ha la stessa untà d msura della probabltà teorca Caso contnuo: S dsegnano rettangol adacent, le cu bas sono gl ntervall che defnscono le class e le altezze sono date dalle frequenze (relatve o assolute) L altezza NON ha la stessa untà d msura della probabltà teorca L AREA ha la stessa untà d msura della probabltà!! l altezza del rettangolo deve essere proporzonale al quozente tra la frequenza della classe e l ampezza dell ntervallo che la defnsce 14
EXCEL: Istogramm - RICHIAMI Per costrure un dagramma delle frequenze bsogna dscretzzare n modo opportuno l range de valor assunt dalla varable. Qual è la scelta ottmale? Regola emprca: Numero d ntervall = N 15
EXCEL: Strumento d anals Istogramma Consente d calcolare le frequenze ndvdual e cumulatve per un ntervallo d celle e d class d dat. Opzon della fnestra d dalogo Istogramma: ntervallo d nput: mmettere l rfermento d cella per l ntervallo d dat da analzzare ntervallo d classe (facoltatvo): mmettere un ntervallo d celle contenente un nseme d valor lmte che defnscano gl ntervall delle class (se non s usa lo strumento d Anals Dat è utle per determnare valor delle class da porre sull asse delle ascsse) ntervallo d output: mmettere l rfermento della cella superore snstra della tabella d output 16
EXCEL: Esemp d costruzone d stogramm Dat contenut ne fles Es1Descr.xl Es2Descr.xls Es3Descr.xls Es4Descr.xls: mede de vot alla laurea d 30 student ammess a frequentare un corso d specalzzazone postlaurea 17
Esempo d rappresentazone grafca de dat: Grafc Box and whskers Grafco n cu vengono rappresentat: -2.13406 1.6253751 Colonna1 Colonna2-0.19699 2.227323-1.56044 4.1674771 Meda -0.02438 Meda 2.524512-0.17496 5.9947852 Errore stan 0.10222 Errore stan 0.36554-0.17395 2.5625837 Medana -0.09054 Medana 2.935484 0.509197-5.7866143 Moda #NUM! Moda #NUM! 0.799249 0.4605471 Devazone 1.022198 Devazone 3.6554-0.47535 8.2939823 Varanza c 1.044888 Varanza c 13.36195-0.21559 3.7529506 Curtos 0.04829 Curtos -0.53267-0.74635 6.7398715 Asmmetra -0.0312 Asmmetra -0.34683-0.03003 6.1499506 Intervallo 5.246894 Intervallo 15.83804-1.52818-0.5532495 Mnmo -2.55096 Mnmo -5.78661-0.23922-1.7223922 Massmo 2.695929 Massmo 10.05142-0.62338-1.4325247 Somma -2.43781 Somma 252.4512-0.68662 4.3811424 Conteggo 100 Conteggo 100-0.14915-0.6504182-0.02184-1.5430621 Quartle1-0.62438 Quartle1 0.207913 0.966221 4.1540228 Quartle 3 0.614667 Quartle 3 5.45173 0.357001-5.4370425-0.55592 1.1147765 1.565891 4.1713763 Medana; quartl; range con EXCEL 18
Colonna1 Colonna2 12 Box Plot (new4.sta 10v*100c) Medana -0.09054 Medana 2.935484 Mnmo -2.55096 Mnmo -5.78661 Massmo 2.695929 Massmo 10.05142 Quartle1-0.62438 Quartle1 0.207913 Quartle 3 0.614667 Quartle 3 5.45173 8 4 0 con STATISTICA -4 Max Mn -8 VAR1 VAR2 75% 25% Medan 19
EXCEL: Meda e varanza d dat raggruppat n class Supponamo d avere a dsposzone solo la tabella d dstrbuzone delle frequenze (dat raggruppat) d dat contnu. Il calcolo dretto d meda e varanza NON è pù possble!!! Sano t 1,...,t k punt med degl ntervall che defnscono le class e sano ν le frequenze assolute d ogn classe Meda Varanza x k = = 1 σ t N ν Class t v 0<x<=1 0,5 1 1<x<=2 1,5 0,,,,,,,,, ( ) 2 t x ν 2 k 2 = 1 1 k 2 = = t = 1 ν N N x 20
EXCEL: Esemp d anals d dat raggruppat n class Dat contenut nel fle Es5Descr.xls: Numero d pedon - classfcat per età e sesso - decedut per ncdent stradal n Inghlterra nel 1922. 21
Correlazone tra varabl S tratta d effettuare tanals d tpo comparatvo: Osservare una varable su pù grupp d ndvdu Osservare pù varabl su un gruppo d ndvdu Entrambe le stuazon a. e b. Esste correlazone tra le varabl? Scatterplot o dagramma a dspersone Umdta' Evaporazone del solvente 35.3 11 29.7 11.1 30.8 12.5 58.8 8.4 61.4 9.3 71.3 8.7 74.4 6.4 76.7 8.5 70.7 7.8 57.5 9.1 46.4 8.2 28.9 12.2 14 12 10 8 6 4 2 0 Evaporazone del solvente 0 50 100 Evaporazone del solvente 22
RICHIAMI Date n osservazon congunte d 2 varabl { } Covaranza camponara ( x, y ),( x, y ),...,( x, y ) 1 1 2 2 n n Se c x,y >0 a valor grand (pccol) d x corrspondono valor grand (pccol) d y x e y sono drettamente correlate Se c x,y <0 a valor grand (pccol) d x corrspondono valor pccol (grand) d y x e y sono nversamente correlate Se c x,y =0 le varabl non sono correlate 23
Indc d varazone bdmensonal - RICHIAMI Indce d correlazone Date n osservazon congunte d 2 varabl{ ( x, y ),( x, y ),...,( x, y )} In partcolare, r 1, coè 1 r 1 1 1 2 2 r =± 1 a, b costant tal che y = ax + b dove l segno d r = segno d a r = c xy, σσ x y n n 24
Indce d correlazone con EXCEL Sntass con le funzon: CORRELAZIONE(matrce1; matrce2) tale struzone resttusce l coeffcente d correlazone tra due nsem d dat. Se s vuole calcolare tale ndce tra pù nsem d dat (pres a coppe) s utlzza: Strumento d anals: Correlazone 25
Strumento d anals: Correlazone Opzon della fnestra d dalogo Correlazone: ntervallo d nput: mmettere l rfermento delle celle de dat da analzzare raggruppat per rghe o colonne ntervallo d output: mmettere l rfermento della cella superore snstra della tabella d output s ottene una matrce d correlazone cu valor sono le correlazon tra le vare varabl analzzate a coppe Esempo Morgex Etroubles St. Dens Verres Donnas Aosta-aeroporto Morgex 1 Etroubles 0.847092 1 St. Dens 0.350611 0.504904 1 Verres 0.280437 0.546459 0.970382 1 Donnas 0.290461 0.429081 0.980004 0.951417 1 Aosta-aero 0.461912 0.536435 0.982091 0.919612 0.960682 1 26
EXCEL: Esemp d studo d correlazon Dat contenut nel fle Es6Descr.xls: Stpend annual d vare categore d lavorator n ann dvers (n dollar) 27