Dispensa di STATISTICA DESCRITTIVA

Размер: px
Начинать показ со страницы:

Download "Dispensa di STATISTICA DESCRITTIVA"

Транскрипт

1 UNIVERSITÀ DEGLI STUDI DI BARI FACOLTÀ DI SCIENZE MM.FF.NN Dispesa di STATISTICA DESCRITTIVA Modulo di Probabilità e Statistica (corsi A-B) Laurea Trieale i SCIENZE BIOLOGICHE Ao Accademico 2010/2011 docete: Prof.ssa Rosa Maria Miii 1

2 La statistica descrittiva cosiste di ua serie di teciche e metodi per riorgaizzare e maipolare dati al fie di estrapolare delle iformazioi. 1 Tipi di dati e scale di misurazioe Vale la pea fare qualche precisazioe circa la atura dell isieme di osservazioi, di dati, che si ottegoo i seguito ad u campioameto, u cesimeto o come risultato di u esperimeto. Per popolazioe si itede u collettivo di elemeti di qualsiasi tipo (idividui, aimali, piate, ecc...) che presetio almeo ua caratteristica comue e a cui siamo iteressati ella discussioe di u determiato problema. I biologia ua popolazioe può essere costituita da ua specie, u geere; i ecoomia da ua classe sociale; i medicia da u gruppo di sitomi che costituiscoo ua sidrome o dai pazieti ricoverati i u reparto ospedaliero. Geeralmete ua popolazioe è di dimesioe fiita. Per variabile si itede ua caratteristica della popolazioe i studio che può assumere diversi valori. Schematicamete, esistoo due tipi di variabili alle quali soo associati i dati qualitativi o i dati quatitativi: - si parla di variabile qualitativa o categoriale quado le osservazioi possoo essere classificate i base a come essa si preseta. Ad esempio, il colore del matello di u aimale, la forma della foglia di ua piata, la preseza o asseza di ua certa proprietà. I questi casi la variabile o viee misurata quatitativamete, ma suddivisa i categorie o modalità come, ad esempio, il gruppo saguigo, lo stato sociale; - si parla di variabile quatitativa quado le osservazioi soo valori umerici. Se la variabile assume solo valori isolati, si defiisce variabile discreta come, ad esempio, il umero di coloie batteriche su ua piastra, il umero di piate germogliate i u terreo coltivato. Ache i questo caso la variabile viee suddivisa i categorie o modalità. Se ivece puó assumere tutti i possibili valori reali etro u certo itervallo, è detta variabile cotiua come, ad esempio, il peso, l altezza. La suddivisioe di ua variabile cotiua avviee per classi. Per covezioe ua variabile viee idicata co le lettere X, Y,..., metre i valori assuti da ua sigola variabile X vegoo idicati co x 1, x 2,... La distribuzioe di ua variabile idica quali valori questa assume e quato spesso li assume. U campioe è ua -pla ( 1), (x 1, x 2,..., x ), di valori assuti da ua data variabile e misurati su u campioe di elemeti estratti casualmete dalla popolazioe i studio. Quado si raccolgoo dati su ua popolazioe, i valori otteuti si presetao come u isieme di dati disordiati; perciò soo chiamati dati grezzi. Se o vegoo ordiati i qualche modo, è difficile che possao forire qualche iformazioe sulla distribuzioe della variabile di iteresse. 2

3 Esempio 1.1 Si soo rilevate le variabili altezza (X,i cm), peso (Y, i kg), sesso (U, codificato f=femmia e m=maschio) ed età (Z) per u gruppo di 18 studeti di u college americao, otteedo i segueti dati: X : Y : U : f f f f m m f f f m f m m f f f m m Z : Per effettuare ua sitesi dei dati, suppoiamo di osservare ua variabile (qualitativa o quatitativa discreta) X co u umero fiito M di modalità su ua popolazioe: covezioalmete idicheremo le M modalità co i umeri iteri v 1, v 2,..., v M. Se (x 1, x 2,..., x ) è u campioe associato alla variabile X, i dati sarao umeri iteri co valori v 1, v 2,..., v M. Per ogi k = 1,..., M, idichiamo co {j : x j = v k } l isieme dei dati osservati che assumoo il valore v k, e co k = #{j : x j = v k } (1) il umero di dati che appartegoo all isieme {j : x j = v k } (il simbolo # idica la cardialità di u isieme), cioè il umero di volte che il valore v k si ripete el campioe (x 1, x 2,..., x ). Il umero k è detto frequeza assoluta della k-esima modalità. Si oti che k = 0, 1,..., e che vale la seguete relazioe: M k =. (2) k=1 Può essere utile a volte cooscere ache la proporzioe di osservazioi x j che assumoo il valore k. I tal caso si defiisce il umero p k = k, k = 1,..., M, (3) che è detto frequeza relativa della k-esima modalità. Si oti che 0 p k 1 e che vale la seguete relazioe: M p k = 1. (4) k=1 Se moltiplichiamo p k per 100 otteiamo la percetuale di dati osservati che assumoo il valore v k. 3

4 Sia per le frequeze assolute che per quelle relative si itroduce il cocetto di frequeze cumulate: F k = k i = #{j : x j v k }, f k = k p i = #{j : x j v k }, k = 1,..., M. (5) La quatità F k è detta frequeza assoluta cumulata e idica il umero delle osservazioi x j co valore miore o uguale a v k, metre f k è detta frequeza relativa cumulata e idica la proporzioe del umero delle osservazioi x j co valore miore o uguale a v k. È evidete che per le frequeze cumulate le relazioi (2) e (4) divetao: F M =, f m = 1. (6) Se ivece X è ua variabile quatitativa discreta co u umero molto grade di modalità oppure X è cotiua, possiamo sitetizzare i dati osservati (x 1, x 2,..., x ) raggruppadoli i classi. Tali classi soo itervalli adiaceti, o sovrappoetesi, tali che ciascu x j possa essere collocato i uo solo degli itervalli. Per suddividere i dati i classi bisoga iazitutto ordiare i dati stessi dal più piccolo al più grade. Si chiama statistica ordiale il campioe (x (1), x (2),..., x () ) tale che x (1) x (2) x (). Co il termie statistica si itede ua gradezza calcolata a partire dai dati. Si chiamao miimo e massimo e si idicao, rispettivamete, co x mi e x max, il valore più piccolo e il valore più grade el campioe (x 1, x 2,..., x ). Evidetemete: x mi = x (1), x max = x (). Suppoiamo che [x mi, x max ] [a, b]. Si suddivide l itervallo [a, b] i M sottoitervalli (o ecessariamete tutti della stessa ampiezza) J k = [d k, d k+1 ), k = 1,..., M, dove a = d 1 < d 2 < < d M+1 = b. Ciascu sottoitervallo J k è detto classe. Domada 1: Quate classi J k si devoo cosiderare? il umero delle classi o deve essere troppo piccolo perchè i dati risulterebbero troppo sitetizzati e le iformazioi coteute i essi verrebbero i parte perse; il umero delle classi o deve essere troppo grade perchè i dati o verrebbero sufficietemete sitetizzati. Abitualmete il umero di classi varia da u miimo di 4-5 (co = 10 15) ad u massimo di (co 100). Comuque, la migliore guida per la scelta di u opportuo umero di classi è la ostra coosceza delle osservazioi effettuate sulla popolazioe. Può essere che le classi siao state già fissate i rilevazioi precedeti. Domada 2: Quale deve essere l ampiezza J k delle classi? 4

5 La determiazioe delle ampiezze J k delle classi può rivelarsi cruciale per mettere i evideza alcue caratteristiche dei dati. I geere si cerca di determiare classi aveti la stessa ampiezza. Tale ampiezza può essere determiata dalla seguete formula: J k = b a M. (7) Ovviamete si può scegliere u ampiezza diversa secodo il proprio giudizio. Ache i questo caso possiamo defiire la frequeza assoluta e relativa del campioe (x 1, x 2,..., x ) elle classi J k : k = #{j : x (j) J k }, p k = k, k = 1,..., M, che soddisfao ovviamete le relazioi (2) e (4). Ioltre, è possibile parlare di frequeze cumulate adottado le defiizioi (5): F k = f k = k i = #{j : x (j) k k J i } = #{j : x (j) < d k+1 } p i = #{j : x (j) < d k+1 }, k = 1,..., M, che soddisfao le relazioi (6). Ua certa importaza riveste ache il cocetto di valore cetrale della classe J k = [d k, d k+1 ): c k = d k+1 d k, k = 1,..., M. (8) 2 I valori delle variabili vegoo espressi i termii di misure; le misure possoo essere raggruppate i 4 tipi di scale di misurazioe i relazioe alla atura delle osservazioi: omiale o classificatoria; ordiale; per itervalli; per rapporti. La scala omiale: è il livello più basso di misurazioe e si utilizza quado i dati possoo essere raggruppati i categorie qualitative, evetualmete idetificate co simboli. Queste categorie soo mutuamete esclusive, cioè essu dato si può collocare i più di ua categoria. I ua popolazioe aimale si possoo distiguere gli idividui i maschi e femmie, per valutare gli effetti di u tossico si distigue tra cavie morte e cavie sopravvissute, per testare l efficacia di u farmaco si distigue tra pazieti guariti e quelli che restao ammalati. Spesso ci soo più di due categorie qualitative, ad esempio i gruppi saguigi: A, B, AB, 0. L operazioe ammessa è il coteggio dei preseti i ogi categoria. La descrizioe dei dati avviee tramite le frequeze assolute e le frequeze relative. 5

6 Esempio 1.2 Gruppi sagugi del sistema AB0 i u campioe ( = 149) di ua popolazioe caucasica. Gruppi saguigi k p k A B AB NOTA BENE: ella scala omiale esiste la relazioe di equivaleza, cioè gli elemeti del campioe apparteeti a classi diverse soo differeti, metre tutti quelli della stessa classe soo tra loro equivaleti. La scala ordiale: si riferisce acora a variabili qualitative e coserva la proprietà della scala omiale di classificare ciascu dato all itero di ua sola categoria, ma è possibile assegare ad ogi osservazioe u valore umerico, u puteggio arbitrario; esso, pur o rappresetado la vera gradezza della caratteristica studiata, rispetta u ordie ella classificazioe. Quidi la scala ordiale rappreseta ua misurazioe che cotiee ua quatità di iformazioe immediatamete superiore a quella omiale: alla relazioe di equivaleza tra elemeti di ua stessa classe si aggiuge la relazioe di ordiameto tra le varie classi. Esempio 1.3 Valutazioe della risposta all applicazioe di u farmaco a = 100 pazieti. Criterio di classificazioe puteggio freq. assoluta ( k ) freq. relativa (p k ) peggiorameto essua variazioe lieve migliorameto migliorameto guarigioe La scala ad itervalli: iclude le proprietà di quella omiale e di quella ordiale e i più ha u uità di misura. È quidi ua scala graduata co itervalli costati ed uguali, dove la posizioe dell origie dell uità di misura, cioè il puto zero, è covezioale, cioè scelta arbitrariamete. Il puto zero scelto o è uo zero vero el seso che o idica u asseza totale della quatità che si sta misurado. Esempio classico di scala ad itervalli è la temperatura misurata i gradi Celsius (o cetigradi) o Fahreheit, dove l uità di misura è il grado e il puto di cofroto è il grado zero che o idica ua macaza di calore. Sulla scala Celsius la temperatura zero (0 o C) è stata defiita per covezioe come il puto di cogelameto dell acqua e si è quidi defiita l uità ( o C) come 1/100 della distaza sulla scala dal puto di ebollizioe (100 o C). Sulla scala Fahreheit il puto di cogelameto dell acqua è stato fissato a 32 o F e lo zero (0 o F ) è fissato a 32 o F sotto il puto di cogelameto, metre il puto di ebollizioe è stato fissato a 212 o F, cioè a ua distaza di 180 o F dal puto di cogelameto. 6

7 Altri esempi di scale a itervalli soo le varie scale per misurare il tempo, come il caledario auale co la suddivisioe del gioro i 24 ore che per covezioe ha il suo puto zero a mezzaotte. Esempio 1.4 Temperatura corporea di u campioe di = 10 soggetti espressa i gradi Celsius e Fahreheit. Soggetto o C o F NOTA BENE: la scala a itervalli è ua scala più sofisticata di quelle precedeti perchè o solo è possibile ordiare le misure, ma è ache ota la distaza tra due misure qualsiasi. Ha seso fare la differeza di temperature e cofrotarle tra loro. Ad esempio, la differeza di temperatura tra i soggetti 3 e 4 è il doppio di quella tra i soggetti 9 e 3 per etrambe le scale. La scala di rapporti: è ivece adatta a descrivere feomei che presetao u origie aturale, cioè i cui lo zero sigifica quatità ulla. Soo tipiche scale di rapporti l altezza, il peso, la velocità, l età, il reddito, la temperatura i gradi Kelvi, ecc... Essa è caratterizzata dal fatto che per questa scala è possibile determiare o solo le differeze ma ache i rapporti tra coppie di valori. Esempio 1.5 Valori di glicemia i u campioe di = 10 soggetti sai espressi i mg di glucosio per 100ml di sague. Soggetto mg/ml

8 2 Tabelle e grafici L iformazioe coteuta elle frequeze assolute e relative può essere messa meglio i evideza orgaizzado i dati i tabelle o ache rappresetadoli i grafici. La tabella di frequeza è ua tabella umerica i cui i dati soo orgaizzati i opportue classi o modalità e soo riportati i valori umerici della varie frequeze, otteedo così la distribuzioe di frequeza delle osservazioi. Esempio 2.1 Suppoiamo di aver raccolto le segueti = 50 misure di ua variabile X, per esempio, di aver esamiato 50 famiglie co 5 figli e di aver registrato per ciascua il umero dei figli maschi: I questo caso, quidi, la variabile X cota il umero di figli maschi preseti i famiglie co 5 figli. Il umero di modalità di X è M = 6, tate quati soo i valori che essa può assumere, v k = 0, 1,..., 5. Le iformazioi otteute dal campioe osservato possoo essere sitetizzate ella seguete tabella di frequeza: Tabella 2.1 Modalità Freq. ass. Freq. ass. Freq. rel. Freq. rel. cumulata cumulata v k k F k p k f k Esempio 2.2 Le segueti osservazioi rappresetao i tempi (i miuti) dei primi = 30 corridori maschi i ua maratoa: La variabile di iteresse è il tempo misurato i miuti. La coicideza di alcui valori dipede dagli arrotodameti fatti. Suppoiamo iizialmete che il umero di modalità sia M = 12, tate quati soo i valori che essa assume. Le iformazioi otteute dal campioe osservato possoo essere sitetizzate ella seguete tabella di frequeza: 8

9 Tabella 2.2 Modalità Freq. ass. Freq. ass. Freq. rel. Freq. rel. cumulata cumulata v k k F k p k f k La tabella di frequeza otteuta o sitetizza i modo ottimale i dati raccolti poichè ci soo più modalità a cui corrispode u solo dato. È più opportuo raggruppare i dati i classi. Osserviamo che x mi = 129 e x max = 145. Allora possiamo cosiderare l itervallo [127.5, 145.5] e suddividerlo i M = 6 classi di ampiezza J k = = 18 = 3, otteedo la seguete tabella di frequeza: 6 6 Tabella 2.3 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [127.5, 130.5) [130.5, 133.5) [133.5, 136.5) [136.5, 139.5) [139.5, 142.5) [142.5, 145.5) Esempio 2.3: Suppoiamo di aver raccolto le segueti = 100 misure di ua variabile cotiua X:

10 Si può pesare, ad esempio, a misure (i ua opportua uità di misura) relative ad ua dimesioe fisica di u gruppo di isetti oppure a misure della massa delle particelle elemetari preseti i u determiato esperimeto. Per comodità, i dati soo stati ordiati i seso crescete e la preseza di misure ripetute è dovuta agli arrotodameti effettuati. I questo caso x mi = 0.30 e x max = Per poter effettuare ua migliore suddivisioe i classi, cosideriamo l itervallo [0, 10]. Abbiamo scelto due differeti raggruppameti dei dati i classi: il primo i M = 5 classi di ampiezza J k = 2 e il secodo i M = 20 classi di ampiezza J k = 0.5. I risultati soo riportati elle Tabelle 2.4 e 2.5, rispettivamete. Tabella 2.4 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [0.0, 2.0) [2.0, 4.0) [4.0, 6.0) [6.0, 8.0) [8.0, 10.0) Per rappresetare graficamete la distribuzioe delle frequeze di u campioe di dati si usao, tra gli altri, due tipi di grafici. I tutti i casi, sull asse delle ascisse soo idicati i valori della variabile i studio, metre sull asse delle ordiate vi è ivece la frequeza di ciascu valore. U diagramma a barre è u grafico a barre usato per osservazioi di variabili qualitative o quatitative discrete, che mostra le frequeze assolute o relative mediate l altezza dei rettagoli. I Figura 2.1 soo riportati i diagrammi a barre per la Tabella 2.1. Come si può otare i due diagrammi soo idetici poichè le frequeze assolute e quelle relative soo tra loro proporzioali. 10

11 Tabella 2.5 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [0.0, 0.5) [0.5, 1.0) [1.0, 1.5) [1.5, 2.0) [2.0, 2.5) [2.5, 3.0) [3.0, 3.5) [3.5, 4.0) [4.0, 4.5) [4.5, 5.0) [5.0, 5.5) [5.5, 6.0) [6.0, 6.5) [6.5, 7.0) [7.0, 7.5) [7.5, 8.0) [8.0, 8.5) [8.5, 9.0) [9.0, 9.5) [9.5, 10.0) Freq. assolute 8 4 Freq. relative Figura 2.1: Diagramma a barre dei dati i Tabella

12 U istogramma delle frequeze relative è u grafico utilizzato per dati di variabli quatitative raggruppati i classi. È costruito disegado u rettagolo per ciascua classe, la cui base corrispode all itervallo che defiisce la classe (ha quidi ampiezza pari all ampiezza della classe), co area uguale alla frequeza relativa della classe. I rettagoli soo adiaceti perchè le classi soo adiaceti. Ioltre l altezza di ciascu rettagolo è data da h k (x) = p k J k, per ogix J k, k = 1,..., M. (9) Si oti che se le classi soo tutte della stessa ampiezza, l istogramma delle frequeze relative è proporzioale all istogramma delle frequeze assolute. I questo caso, è del tutto equivalete disegare l uo o l altro istogramma. Quidi, u istogramma è diverso da u diagramma a barre perchè l istogramma mostra le frequeze relative o assolute mediate l area dei rettagoli e o sempre tramite la loro altezza (questo è vero solo quado la base dei rettagoli è di ampiezza pari a 1). Gli istogrammi delle frequeze relative otteute i Tabella 2.4 ed i Tabella 2.5 soo rappresetati i Figura Figura 2.2: Istogramma delle frequeze relative dei dati i Tabella 2.4 (grafico a siistra) e Tabella 2.5 (grafico a destra) Si oterà che l aspetto dei due istogrammi è diverso: quello relativo alla Tabella 2.4 è piuttosto grossolao. Su di esso è stata disegata la curva desità, che è ua regolarizzazioe dell istogramma e dà u idicazioe sulla distribuzioe teorica del campioe di dati. Tale curva preseta due massimi i corrispodeza degli itervalli [3.0, 4.0] e [5.5, 6.5], e mette i evideza ua caratteristica importate della popolazioe: idica che la popolazioe è i realtà composta della sovrapposizioe di due 12

13 popolazioi, l ua co valori della variabile prevaletemete compresi tra 3 e 4, e l altra co valori vicio a 6. I tal caso si dice che la distribuzioe della popolazioe è bimodale. L istogramma delle frequeze relative otteuto co classi di ampiezza 0.5 ha u aspetto più equilibrato e mostra chiaramete la distribuzioe bimodale della popolazioe. Si vede quidi come la scelta delle classi modifichi l aspetto dell istogramma. I alcui casi è preferibile raggruppare i dati i classi di ampiezze diverse. Questo è particolarmete vero quado le misure relative ad ua caratteristica presetao ua forte asimmetria a destra o a siistra cioè, ua coda di valori che si allotaao di molto dagli altri, come el seguete esempio. Esempio 2.4 Si cosiderio le segueti = 40 misure di ua variabile quatitativa X: Ache i questo caso i dati soo già stati ordiati i seso crescete e alcue misure ripetute el campioe soo cosegueza degli arrotodameti effettuati. Dal campioe si deduce immediatamete che x mi = 2 e x max = 43. La scelta degli itervalli che defiiscoo le classi è i questo caso piuttosto soggettiva. Per comodità abbiamo scelto l itervallo [1.5, 43.5]. La Tabella 2.6 riporta i risultati otteuti da ua possibile suddivisioe i classi: Tabella 2.6 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [1.5, 6.5) [6.5, 19.5) [19.5, 27.5) [27.5, 43.5) L istogramma delle frequeze relative è rappresetato i Figura 2.3. Si oti che le altezze dei rettagoli soo state calcolate utilizzado la formula (9). È importate otare che el caso di classi co ampiezze diverse le aree, e o le altezze, dei rettagoli soo proporzioali alle frequeze relative. 13

14 Figura 2.3: Istogramma delle frequeze relative dei dati i Tabella Misure di tedeza cetrale e misure di variabilità Tabelle di frequeza ed istogrammi o diagrammi a barre soo descrittori grafici del campioe di dati e o esauriscoo l aalisi statistica. Per ricavare ulteriori iformazioi dal campioe si utilizzao dei descrittori umerici o statistiche che permettoo di sitetizzare i pochi umeri le caratteristiche più rilevati dei dati. Tali descrittori soo le misure di tedeza cetrale o idici di cetralità e le misure di variabilià o idici di dispersioe. 3.1 Misure di tedeza cetrale Le misure di tedeza cetrale foriscoo u idea dei valori attoro ai quali soo prevaletemete cocetrati i dati di u campioe. Tali misure soo: moda, media e mediaa campioarie. Defiizioe Sia ota la distribuzioe di frequeze di ua caratteristica X. Se X è ua variabile qualitatitiva o quatitativa discreta, si defiisce moda campioaria la modalità corrispodete alla frequeza massima. Se X è ua variabile quatitativa cotiua, la moda è la classe (o il suo valore cetrale) corrispodete al rettagolo più alto dell istogramma. Ad esempio, el diagramma a barre di Figura 2.1 la moda è 2 e ell istogramma di Figura 2.3 la moda è la classe [1.5, 6.5]. Nel caso dei dati dell Esempio 2.3 l idetificazioe della moda è u pò più delicata. I grafici i Figura 2.2 evideziao che può capitare di avere istogrammi (o ache diagrammi a barre) co più di u massimo locale. I realtà il cocetto di moda coicide piuttosto co quello di massimo locale che co quello di massimo assoluto. Ne cosegue che la distribuzioe di frequeze di u campioe di dati può avere più di ua moda e che, comuque, la moda dipede dalla scelta delle classi. Suppoiamo sia oto u campioe (x 1, x 2,..., x ) di dati relativi ad ua variabile X. 14

15 Defiizioe Si dice media campioaria di (x 1, x 2,..., x ) il umero reale x defiito da x = x 1 + x x = 1 x i OSSERVAZIONE: La media campioaria è la media aritmetica degli dati. A differeza della moda, essa è uica per u dato campioe di dati ed è la misura più usata per calcolare il cetro di ua distribuzioe. Purtroppo la media è molto sesibile ai valori estremi (per redersee coto si calcoli la media di (2,2,2,8)) e ciò spesso rappreseta u limite per il suo uso. Naturalmete valori estremi i u campioe potrebbero o essere misure corrette della variabile i studio (outlier), ma ua distribuzioe asimmetrica (co ua luga coda a siistra o a destra) della variabile spigerà il valore della media i direzioe della coda più luga. Di cosegueza, la media o è ua misura robusta del valore cetrale di ua distribuzioe. Esempio i riferimeto ai dati dell Esempio 2.2 si ricava x = , metre per i dati dell Esempio 2.4 si ottiee x = Se il campioe di dati è oto solo tramite ua tabella di frequeza, vale il seguete Teorema Sia X ua variabile quatitativa discreta co modalità v 1, v 2,..., v M e siao p 1, p 2,..., p M le corrispodeti frequeze relative. Allora x = M p k v k. (10) k=1 Dimostrazioe: Basta osservare che da (3) k = p k è il umero dei dati che assume il valore v k, e che quidi x = 1 x i = 1v M v M = p 1v p M v M = M p k v k k=1 come volevasi dimostrare. Dal suddetto Teorema si può otare come la media campioaria o sia altro che ua media pesata dei valori assuti dai dati. Ogi valore usa come peso la sua frequeza relativa. Se i dati hao tutti valori distiti allora la media campioaria è proprio la media aritmetica. Per questo motivo la media campioaria è ua misura del baricetro di ua distribuzioe. Esempio Applicado il Teorema alla Tabella 2.1 si ricava x = Nel caso di variabili quatitative cotiue, quado i dati soo raggruppati i classi, il Teorema o è applicabile. I questi casi o si potrebbe calcolare la media campioaria. Però si può calcolare u valore approssimato idetificado tutti valori x i del campioe che cadoo ella classe J k co il valore cetrale della classe, c k. Si ottiee così ua media per dati raggruppati: x f = M p k c k, (11) k=1 15

16 dove p k è la frequeza relativa di J k. Si osservi che i geerale x x f ; solitamete però si idetificao poichè la loro differeza è poco sigificativa. Esempio Applicado la formula della media per dati raggruppati all Esempio 2.2, tramite la Tabella 2.3, si ottiee approssimativamete x f = , metre per i dati dell Esempio 2.4, utilizzado la Tabella 2.6, si ottiee approssimativamete x f = I etrambi i casi, le medie per dati raggruppati differiscoo di molto poco dalle corrispodeti medie campioarie calcolate ell Esempio Calcolare la media campioaria per i dati dell Esempio 2.3 e cofrotarla co la media per dati raggruppati calcolata utilizzado la Tabella 2.5. La media campioaria gode delle segueti due proprietà. Teorema Assegati due umeri reali a, b e costruito il uovo campioe di dati (y 1, y 2,..., y ), dove y i = ax i + b, i = 1,...,, si ha Dimostrazioe: Si ha ifatti ( ȳ = 1 y i = 1 1 (ax i + b) = a come volevasi dimostrare. ȳ = a x + b. (12) ) x i + 1 b = a x + b, Il Teorema appea euciato mostra la proprietà di liearità della media campioaria, i quato ci dice che la media campioaria del uovo isieme di dati otteuto come combiazioe lieare del campioe assegato, è legata alla media x dalla stessa relazioe lieare. La suddetta proprietà è utile quado si voglioo modificare i dati iiziali tramite trasformazioi lieari per rederli più maeggevoli per il calcolo. I dati così trasformati soo detti dati codificati. Esempio Cosideriamo il campioe (x 1, x 2,..., x 10 ) di misure della temperatura corporea i gradi Fahreheit riportato ella tabella dell Esempio 1.4. La media campioaria è x = o F. Se volessimo cooscere la media campioaria delle misure della temperatura corporea i o C, dovremmo prima trasformare queste misure da gradi Fahreheit a gradi Cetigradi tramite la seguete relazioe: y i = (x i 32), i = 1,..., 10, otteedo le temperature i o C riportate i tabella. La media campioaria è quidi ȳ = o C. Questo procedimeto è piuttosto lugo. Se ivece usiamo la formula (12), si ottiee velocemete ȳ = ( ) = 36.54o C. Teorema Sia assegato u altro campioe (y 1, y 2,..., y m ) di dati relativi alla variabile X e si cosideri il campioe (z 1, z 2,..., z k ) = (x 1,..., x, y 1,..., y m ), di dimesioe k = + m, otteuto uificado i primi due. Allora z = x + mȳ k 16 = k x + m k ȳ.

17 Dimostrazioe: Applicado la defiizioe di media campioaria ( z = 1 k ) z i = 1 m x + mȳ x i + y i =, k k k come volevasi dimostrare. Il suddetto Teorema esprime la proprietà che la media di campioi combiati è la media pesata delle medie dei sigoli campioi : i questo caso i pesi rispettivi soo k e m k. Defiizioe Si dice mediaa campioaria quel umero reale, che deoteremo co x M, che divide il campioe di dati i due parti uguali, cioè tale che il umero di osservazioi el campioe soo per metà più piccole e per metà più gradi di esso. Per calcolare la mediaa si procede el seguete modo: 1. si determia la statistica ordiale (x (1), x (2),..., x () ); 2. se la dimesioe del campioe è dispari, la mediaa è : x M = x (k), dove k = + 1 è u itero, cioè x M è il valore itermedio el campioe; 2 3. se è pari, + 1 = r , dove r = è u itero. I tal caso la mediaa è : 2 x M = x (r) + x (r+1), cioè x M è la media aritmetica dei due valori itermedi el 2 campioe. Esempio Per i dati dell Esempio 2.2 si ricava x M = 142 che differisce di poco da x = , calcolato ell Esempio 3.1.1, metre per i dati dell Esempio 2.4 si ha x M = 5 che differisce di molto da x = 9, 225. Dall Esempio si deduce che la mediaa è più robusta della media poichè, a differeza della media, essa o è calcolata utilizzado i valori delle osservazioi e, quidi, o è ifluezata da valori estremi preseti el campioe di dati. 3.2 Misure di variabilità Le misure di variabilità foriscoo iformazioi su come i dati siao cocetrati o, viceversa, dispersi attoro ai valori cetrali calcolati el paragrafo precedete. Tali misure soo: variaza campioaria, deviazioe stadard campioaria, coefficiete di variazioe. Si osservi che, assegato u campioe di dati (x 1, x 2,..., x ) relativo ad ua variabile X, ua prima misura di dispersioe è otteuta calcolado il campo di variazioe (o rage) del campioe, così defiito R = x max x mi, 17

18 dove x mi e x max soo rispettivamete la prima e l ultima osservazioe ella statistica ordiale. Questo umero però idetifica solo i limiti esteri della distribuzioe dei dati, ma o dà iformazioi su che cosa succeda etro questi limti. Il campo di variazioe è ioltre iattedibile poichè è molto sesibile ai valori estremi che tedoo a variare da campioe a campioe. Poichè delle tre misure di tedeza cetrale presetate el paragrafo precedete la più importate è la media campioaria, è ecessario avere ua misura di dispersioe rispetto alla media. La misura di dispersioe più aturale per u campioe sarebbe la media aritmetica delle deviazioi, cioè delle distaze (x i x) dei dati da x: 1 (x i x). Purtroppo questa misura è sempre uguale a zero poichè (x i x) = x x = 0, essedo x il baricetro di ua distribuzioe. U modo per risolvere questo problema è quello di cosiderare ella formula precedete il quadrato delle deviazioi, (x i x) 2. Si arriva così alla seguete defiizioe: Defiizioe Si chiama variaza campioaria e si deota co s 2 X la quatità s 2 X = 1 (x i x) 2. La deviazioe stadard (o scarto quadratico medio) è la radice quadrata della variaza campioaria: s X = 1 (x i x) 2. OSSERVAZIONE: Si oti che el calcolare la media aritmetica delle deviazioi al quadrato abbiamo diviso la loro somma per aziché per. La ragioe è che la somma (x i x) = 0, cosicché le prime deviazioi determiao quella restate. Soltato delle deviazioi al quadrato variao liberamete e si calcola la media dividedo il totale per. La variaza campioaria è sempre u umero s 2 X 0. I particolare, gradi valori di s 2 X idicao che ci soo delle osservazioi x i ache molto lotae da x, metre piccoli valori di s 2 X idicao che le osservazioi soo cocetrate attoro a x. Il caso s2 X = 0 si verifica se e solo se tutte le osservazioi hao valore uguale a x. Come la media x, ache s 2 X o è ua misura di dispersioe robusta; ua forte asimmetria della distribuzioe della variabile X o pochi outlier el campioe possoo far aumetare s 2 X di molto. La deviazioe stadard s X è espressa i termii della stessa uità di misura delle osservazioi iiziali. Questo é u motivo per preferire s X rispetto a s 2 X, che ivece è espressa i termii di uità al quadrato. La seguete formula è usata spesso per velocizzare il calcolo mauale della variaza campioaria. 18

19 Teorema Sia assegato u campioe di dati (x 1, x 2,..., x ) associato ad ua variabile X co media x, allora ( ) s 2 X = 1 x 2 i x 2 (13) Dimostrazioe: Ifatti si ha s 2 X = 1 = 1 = 1 (x i x) 2 = 1 (x 2 i 2x i x + x 2 ) ( ) x 2 i 2 x x i + x 2 ( ) x 2 i x 2 come volevasi dimostrare. ( ) = 1 x 2 i 2 x 2 + x 2 Esempio Riprededo i dati dell Esempio 2.2 si ricava s 2 X = mi2 e s X = 4.8 mi. Dai dati dell Esempio 2.4 si ottiee s 2 X = e s X = Se il campioe di dati è oto solo tramite ua tabella di frequeza, vale il seguete Teorema Sia X ua variabile quatitativa discreta co modalità v 1, v 2,..., v M e siao p 1, p 2,..., p M le corrispodeti frequeze relative. Allora ( s 2 X = M p k (v k x) 2 = M ) p k vk 2 x 2, (14) k=1 dove x é calcolata tramite la formula (10). Dimostrazioe: Si procede i modo aalogo alla dimostrazioe del Teorema Ifatti applicado la (3) e la (4) si ottiee ( s 2 X = 1 ) (x i x) 2 = 1 x 2 i 2 x x i + x 2 = 1 = = k=1 k=1 ( M ) M k vk 2 2 x k v k + x 2 k=1 k=1 ( M M p k vk 2 2 x p k v k + x 2 k=1 M p k (vk 2 2 xv k + x 2 ) = k=1 M k=1 p k ) M p k (v k x) 2. La secoda uguagliaza cosegue immediatamete da (13), applicado la (3). Esempio Applicado il Teorema alla Tabella 2.1 si ricava s 2 X = 1.51 e s X = k=1

20 Nel caso di variabili quatitative cotiue, quado i dati soo raggruppati i classi, il Teorema o è applicabile. Ache per la variaza, così come per la media, si può calcolare u valore approssimato, otteedo così ua variaza per dati raggruppati: ( M M ) s 2 f = k=1 p k (c k x f ) 2 = k=1 p k c 2 k x 2 f, (15) dove c k é il valore cetrale della classe J k e x f é la media per dati raggruppati calcolata tramite la formula (11). Esempio Applicado la formula (15) alla Tabella 2.3 si ottiee approssimativamete s 2 f = mi2 e s f = 5.12 mi, metre utilizzado la Tabella 2.6, si ottiee approssimativamete s 2 f = e s f = Calcolare la variaza campioaria per i dati dell Esempio 2.3 e cofrotarla co la variaza per dati raggruppati calcolata utilizzado la Tabella 2.5. La variaza campioaria gode della seguete proprietà. Teorema Assegati due umeri reali a, b e costruito il uovo campioe di dati (y 1, y 2,..., y ) relativo ad ua variabile Y, dove y i = ax i + b, i = 1,...,, si ha s 2 Y = a 2 s 2 X. Dimostrazioe: Dalle defiizioi e dal Teorema si ha s 2 Y = 1 (y i ȳ) 2 = 1 (ax i + b a x b) 2 = a2 come volevasi dimostrare. (x i x) 2 = a 2 s 2 X, Il Teorema appea euciato mostra che, a differeza della media campioaria, la variaza campioaria o gode della proprietà di liearità. I ogi caso, la suddetta proprietà è utile el caso di dati codificati perchè permette di calcolare la variaza del campioe dei dati trasformati direttamete dalla variaza del campioe iiziale. Defiizioe Si dice che (x 1, x 2,..., x ) è u campioe stadardizzato se x = 0 e s 2 X = 1. Teorema Assegato il campioe (x 1, x 2,..., x ) co media x e variaza s 2 X, il campioe (y 1, y 2,..., y ) così defiito é stadardizzato. y i = x i x s X, i = 1,...,, Dimostrazioe: Ifatti dai Teoremi e co a = 1 s X ȳ = x s X x s X = 0, s 2 Y = s2 X s 2 X = 1, e b = x s X si ha 20

21 come volevasi dimostrare. Le misure di dispersioe trattate fio ad ora si chiamao misure di dispersioe assoluta poichè soo calcolate direttamete dai dati e hao le uità di misura origiali o quelle uità elevate al quadrato. Quado si vuole cofrotare la variabilità di due campioi di dati tramite le corrispettive deviazioi stadard, si possoo avere risultati igaevoli, o perchè cambia l uità di misura, o perchè, pur essedo l uità di misura la stessa, ua deviazioe stadard può essere più grade dell altra seza che effettivamete il campioe corrispodete preseti ua maggiore variabilità. È allora più opportuo usare ua misura di dispersioe relativa, azichè ua assoluta come la deviazioe stadard. Defiizioe Sia (x 1, x 2,..., x ) u campioe di dati relativo ad ua variabile X, co media campioaria x e deviazioe stadard s X. Si chiama coefficiete di variazioe la quatità defiita da etrambe le equazioi e CV = s X x, (16) CV = s X 100. (17) x OSSERVAZIONE: L equazioe (16) esprime la misura di dispersioe assoluta s X come ua proporzioe della sua media e l equazioe (17), che è più comue, come ua percetuale della sua media. Per questa ragioe il coefficiete di variazioe è detto misura di dispersioe relativa. Poichè il umeratore e il deomiatore di questo rapporto hao la stessa uità di misura, il coefficiete di variazioe è u umero puro, cioè è svicolato da ogi uità di misura, ed è quidi u idice diretto della variabilità. Esso cosete di dare u giudizio sulla gradezza della deviazioe stadard di u campioe idipedetemete dalla scala di misura co cui essa è stata misurata. Questo idice ha sigificato solo se calcolato per variabili espresse i scale di misura per rapporti. Esempio si sta studiado la variazioe di peso i ragazzi di età 11 ai e i ragazzi di età 25 ai. Per u campioe di ragazzi di età 11 si è otteuto x = 36kg e s X = 4.5kg, metre per u campioe di ragazzi di età 25 si è otteuto ȳ = 66kg e s Y = 4.5kg. Apparetemete, cofrotado le deviazioi stadard, sembra che la variabilità ei due gruppi sia la stessa, ma i due coefficieti di variazioe CV X = = 12.5 CV Y = = 6.8, 66 idicao che c è ua maggiore variabilità el peso dei ragazzi di età 11. Esempio sia A = (0.5, 0.8, 1.1, 1.5, 1.2, 0.9) u campioe relativo ad ua variabile X e B = (500, 520, 515, 520, 523, 508) u campioe relativo ad ua variabile Y. Per il campioe A si ottiee x = 1.00 e s X = e per il campioe B si ottiee ȳ = e s Y = Le osservazioi ei due campioi soo espresse i scale di misura molto diverse. Cofrotado le due deviazioi stadard, sembra che la variabiltà i B sia molto maggiore della variabilità i A, ma il cofroto dei coefficieti di variazioe CV X = = CV Y = = 1.56, dimostra che i realtà la variabilità è molto maggiore el campioe A. 21

22 3.3 Quatili di u campioe e box plot Come già osservato i precedeza, quado la distribuzioe della variabile i studio preseta ua forte asimmetria a destra o a siistra, la media campioaria e, quidi, la variaza campioaria o la deviazioe stadard possoo o essere i migliori descrittori rispettivamete del valore cetrale della distribuzioe e della dispersioe rispetto ad esso. Si preferisce, i questo caso, utilizzare misure alterative. Defiizioe Sia 0 < α < 1. Si chiama quatile di ordie α di u campioe (x 1, x 2,..., x ), quel umero reale, che deoteremo co q α, che è a destra di ua frazioe α di dati ella statistica ordiale (x (1), x (2),..., x () ). Per esempio, se α = 1 3 allora 1 3 dei dati el campioe ordiato è a siistra di q 1/3, se α = 1 4 allora 1 4 dei dati è a siistra di q 1/4. Dalla defiizioe di q α cosegue che #{x (j) q α } α (o deve superare ( + 1)α), #{x (j) > q α } (1 α). Geeralmete si cosiderao tre tipi di quatili: quartili, decili e percetili. Ci soo tre quartili: Q 1 = q 1/4, Q 2 = q 1/2, Q 3 = q 3/4. Q 1 è detto primo quartile, Q 2 è detto secodo quartile e Q 3 è detto terzo quartile. Si oti che Q 2 = x M, cioè il secodo quartile è la mediaa campioaria. I tre quartili dividoo il campioe di dati i quattro parti uguali. Ci soo ove decili: D 1 = q 1/10, D 2 = q 2/10,... D 9 = q 9/10. D 1 è detto primo decile, D 2 è detto secodo decile e così via fio al oo decile D 9. I ove decili dividoo il campioe di dati i dieci parti uguali. Ifie ci soo 99 percetili: P 1 = q 1/100, P 2 = q 2/100,... P 99 = q 99/100. P 1 è detto primo percetile, P 2 è detto secodo percetile e così via fio al ovataovesimo percetile P 99. I ovataove percetili dividoo il campioe di dati i 100 parti uguali. OSSERVAZIONE: Q 1 corrispode al 25 o percetile, Q 2 corrispode al 50 o percetile e Q 3 corrispode al 75 o percetile, metre D 1 corrispode al 10 o percetile, D 2 corrispode al 20 o percetile e così via D 9 corrispode al 90 o percetile. Per calcolare i quatili di u campioe si segue lo stesso procedimeto usato per calcolare la mediaa: assegato u campioe di dati (x 1, x 2,..., x ) e fissato 0 < α < 1, 1. si determia la statistica ordiale (x (1), x (2),..., x () ); 2. se ( + 1)α è u itero, il quatile di ordie α è : q α = x (k), dove k = ( + 1)α; 22

23 3. se ( + 1)α o è u itero, si avrà ( + 1)α = r + a b, dove r è u itero e a b è ua frazioe. I tal caso il quatile di ordie α è : q α = x (r) + x (r+1). 2 Esempio Cosideriamo il seguete campioe di = 15 dati già ordiati i seso crescete: Vogliamo determiare il primo, secodo e terzo quartile. Posto α = 1 4, si ottiee ( + 1)α = 16 4 = 4 e quidi Q 1 = x (4) = 14. Posto, ivece, α = 1 2, si ottiee ( + 1)α = 16 2 = 8 e quidi Q 2 = x M = x (8) = 25. Se si poe α = 3 4, si ottiee ( + 1)α = 48 4 = 12 e quidi Q 3 = x (12) = 39. Esempio Cosideriamo il seguete campioe di = 16 dati già ordiati i seso crescete: Vogliamo determiare il primo, secodo e terzo quartile. Posto α = 1, si ottiee ( + 1)α = 17 = e quidi Se α = 1 2, si ottiee ( + 1)α = 17 2 Q 1 = x (4) + x (5) 2 = = e quidi = 8.5. Q 2 = x M = x (8) + x (9) 2 Ifie, se α = 3 4, si ottiee ( + 1)α = 51 4 Q 3 = x (12) + x (13) 2 = = e quidi = = 22. = 30. OSSERVAZIONE: Da etrambi gli esempi si deduce che Q 1 è la mediaa delle osservazioi a siistra di x M, metre Q 3 è la mediaa delle osservazioi a destra di x M. Per otteere u rapido ma completo sommario del cetro e della dispersioe della distribuzioe di ua variabile X sulla base di u campioe di osservazioi (x 1, x 2,..., x ), possiamo combiare isieme i segueti cique umeri: x mi Q 1 x M Q 3 x max I sommari a cique umeri degli Esempi e soo: e Questi cique umeri possoo essere rappresetati su u grafico detto boxplot (grafico a scatola). Esso è composto da 23

24 u rettagolo cetrale o scatola (box), i cui lati iferiore e superiore soo rispettivamete Q 1 e Q 3 ; ua liea orizzotale ella scatola i corrispodeza della mediaa x M ; due liee verticali (baffi o whiskers) che partoo dai lati iferiore e superiore della scatola e termiao co due segmeti orizzotali. OSSERVAZIONE: L altezza della scatola è l ampiezza dell itervallo [Q 1, Q 3 ], cioè è il umero Q 3 Q 1 detto differeza iterquartile (I.Q. rage). Nella scatola cade il 50% delle osservazioi del campioe. I baffi mostrao come i rimaeti dati si distribuiscoo rispetto alla scatola. Il baffo iferiore si alluga fio al più piccolo valore el campioe la cui distaza da Q 1 deve essere miore o uguale di ua distaza pari a 1.5 volte la differeza iterquartile, metre il baffo superiore si alluga fio al più grade valore el campioe la cui distaza da Q 3 deve essere miore o uguale di ua distaza pari a 1.5 volte la differeza iterquartile. Si dice outlier ogi valore el campioe la cui distaza dalla scatola è maggiore di 1.5 volte la differeza iterquartile. Gli outlier, quidi, soo i valori estremi el campioe e, i geerale, soo dovuti a errori di misurazioe. Questi vegoo idicati el box plot co u simbolo, tipo, o co ua liea orizzotale. Se o ci soo outlier, il baffo iferiore si alluga fio a x mi e il baffo superiore fio a x max. I questo caso, la distaza tra i due baffi corrispode al rage del campioe. La Figura riporta i grafici a scatola per i dati degli Esempi e Cofrotado i due boxplot si può otare che il primo quartile per il primo campioe (X1) è più alto del primo quartile relativo al secodo campioe (X2). Ioltre si ota la preseza di u outlier el primo campioe, che è il valore 109. La lughezza della scatola (la differeza iterquartile) è all icirca la stessa per etrambi i gruppi X1 X2 Figura 3.3.1: Boxplot relativi all Esempio (X1) e all Esempio (X2) U grafico a scatola forisce ioltre idicazioi ache sulla simmetria o asimmetria di ua distribuzioe. I ua distribuzioe simmetrica, la mediaa taglia la scatola i due parti uguali, cioè il primo e il terzo quartile si trovao alla stessa distaza dalla mediaa. Geeralmete, i ua distibuzioe asimmetrica a destra il terzo quartile sarà più lotao dalla mediaa di quato o lo sia il primo (vedi campioe X1), 24

25 metre i ua distibuzioe asimmetrica a siistra sarà il primo quartile a essere più lotao dalla mediaa rispetto al terzo (vedi campioe X2). 3.4 Campioi ormali Osservado gli istogrammi dei campioi umerici foriti da esperimeti reali, si può otare come vi sia ua forma caratteristica che compare molto spesso. Questi grafici hao u solo massimo, i corrispodeza della media campioaria (che coicide co la moda e la mediaa campioaria), e decrescoo da etrambi i lati simmetricamete, secodo ua curva a campaa. U campioe di dati che rispetta questi requisiti si dice ormale. I realtà pur mateedo u aspetto simile a quello descritto, o capita mai che u istogramma reale rispetti perfettamete la simmetria e la mootoia. Si può parlare allora di campioe approssimativamete ormale, e l istogramma i Figura e costituisce u esempio. Se u isieme di dati preseta u istogramma che è sesibilmete asimmetrico rispetto alla media si parla di campioe sbilaciato (o skewed) a siistra, come i Figura 3.4.2, o a destra come i Figura 3.4.3, a secoda del lato i cui ha la coda più luga Figura 3.4.1: Istogramma di u campioe approssimativamete ormale Figura 3.4.2: Istogramma di u campioe sbilaciato a siistra 25

26 Figura 3.4.3: Istogramma di u campioe sbilaciato a destra Dalla simmetria degli istogrammi ormali segue che u campioe approssimativamete ormale avrà media e mediaa circa uguali. Suppoiamo che x e s X siao media e deviazioe stadard di u campioe approssimativamete ormale. La seguete regola empirica specifica che percetuale dei dati ci si aspetta di trovare etro ua distaza pari a s X, 2s X, 3s X dalla media campioaria. Regola Empirica. Se u campioe di dati (x 1, x 2,..., x ) è approssimativamete ormale, ha media campioaria x e deviazioe stadard campioaria s X > 0, allora 1. circa il 68% dei dati cade ell itervallo [ x s X, x + s X ]; 2. circa il 95% dei dati cade ell itervallo [ x 2s X, x + 2s X ]; 3. circa il 99.7% dei dati cade ell itervallo [ x 3s X, x + 3s X ]; La regola empirica è illustrata ella Figura % dei dati % dei dati 99.7% dei dati Figura 3.4.4: Distribuzioe ormale co media 0 e deviazioe stadard 1 U isieme di dati otteuto campioado da ua popolazioe o omogeea, costituita da sottogruppi eterogeei, di solito o risulta ormale. Piuttosto, l istogramma 26

27 di u tale campioe preseta spesso l aspetto di ua sovrapposizioe di istogrammi ormali, e i particolare può avere due o più massimi locali. Siccome questi picchi soo aaloghi alla moda, l istogramma di u campioe di questo tipo si dice bimodale se e possiede due e multimodale i geerale. L istogramma relativo ai dati dell Esempio 2.3 rappresetato i Figura 2.2 è apputo bimodale. Per stabilire la percetuale di dati che cadoo i ciascuo degli itervalli x±ks X (k = 1, 2, 3) si usa la seguete disuguagliaza: Proposizioe (Disuguagliaza di Chebyshev) Sia assegato u campioe di dati (x 1, x 2,..., x ) co media campioaria x e deviazioe stadard campioaria s X > 0. Deotiamo co D k l isieme degli idici i = 1,..., corrispodeti ai dati x i che cadoo ell itervallo [ x ks X, x + ks X ]: D k = {i = 1,..., x i x < ks X }. Allora, per ogi k 1 #D k > 1 1 k, (18) 2 dove #D k idica la cardialità dell isieme D k. OSSERVAZIONE: Poichè la disuguagliaza (18) vale per ogi valore dell itero k, i realtà la percetuale di dati che cadoo ell itervallo x ± ks X è di gra luga superiore del cofie iferiore stabilito dalla disuguagliaza di Chebyshev. Esempio Cosideriamo il seguete campioe di = 28 dati già ordiati i seso crescete: Si trova che x = 70.6 e s X = Applicado la regola empirica, per k = 1 il campioe è approssimativamete ormale se il 68% dai dati cade ell itervallo [ x s X, x+s X ] = [56.2, 85.0]. Dai dati si deduce che: #D 1 28 = = , cioè il 60,71% cade ell itervallo cosiderato. Per k = 2 il campioe è approssimativamete ormale se il 95% dai dati cade ell itervallo [ x 2s X, x + 2s X ] = [41.8, 99.4]. Dai dati si deduce che: #D 2 28 = = 1, cioè il 100% cade ell itervallo richiesto. Ne cosegue che il campioe è approssimativamete ormale. 27

28 3.5 Mometi e idici di forma L uso degli idici di forma è limitato alla semplice descrizioe della forma della distribuzioe e riguarda due caratteristiche: la simmetria e la curtosi. Nelle distibuzioi uimodali si ha simmetria quado media, moda e mediaa coicidoo; se la distribuzioe è bimodale possoo essere coicideti solamete la media e la mediaa. Di orma, le distribuzioi dei dati soo uimodali; pertato, cocetreremo l aalisi della simmetria su di esse. Si oti che quado media, mediaa e moda coicidoo o sempre la distribuzioe è simmetrica. Ne cosegue che la perfetta coicideza delle tre misure di tedeza cetrale è codizioe solo ecessaria, ma o sufficiete per la simmetria. Quado media, mediaa e moda o coicidoo, la distribuzioe è asimmetrica. I ua distribuzioe uimodale: a) l asimmetria destra si ha quado i valori che si allotaao maggiormete dalla media soo quelli più elevati, collocati a detra dei valori cetrali (vedi Figura 3.4.3); i questo caso la successioe delle 3 misure di tedeza cetrale da siistra a destra è: moda, mediaa, media; b) l asimmetria siistra si ha quado i valori più distati dalla media soo quelli miori, collocati a siistra dei valori cetrali (vedi Figura 3.4.2); i questo caso la successioe delle 3 misure di tedeza cetrale da siistra a destra è ivertita rispetto alla precedete: media, mediaa, moda. Gli idici di forma di ua distribuzioe attualmete più diffusi soo derivati dei mometi. Defiizioe Si chiamao rispettivamete mometo di ordie h e mometo cetrato di ordie h le quatità m h = 1 x h j, µ h = 1 (x j x) h, per u campioe (x 1,..., x ), e m h = j=1 k p j x h j, µ h = j=1 j=1 k p j (x j x) h, per ua distribuzioe di frequeza suddivisa i k classi co frequeze relative p 1,..., p k. Per h = 1 risulta m 1 = x, µ 1 = 0 e per h = 2 si ha µ 2 = s 2 X. I mometi cetrali di ordie dispari (µ 3, µ 5, µ 7,... ) soo ulli per distribuzioi simmetriche. Ioltre, i distribuzioi co asimmetria destra hao valore positivo ed i quelle co asimmetria siistra hao valore egativo. Per queste caratteristiche, il mometo cetrale µ 3 è adeguato per valutare la simmetria o asimmetria di ua distribuzioe, ma esiste il limite che il suo valore dipede dalla scala di misura utilizzata. Per otteere ua misura relativa, adimesioale che permetta i cofroti tra più distribuzioi si defiisce il seguete idice di forma. 28 j=1

29 Defiizioe Si chiama idice di asimmetria la quatità γ 1 = µ 3. s 3 X L idice di asimmetria γ 1 coserva le proprietà precedetemete descritte per µ 3. Quidi γ 1 assumerà valore prossimo a zero se i dati si distribuiscoo i maiera simmetrica attoro alla media, assumerà valore positivo i preseza di code a destra e valore egativo i preseza di code a siistra. Per valutare il grado di asimmetria è covezioe che si abbia ua distribuzioe ad asimmetria forte, quado γ 1 > 1; moderata quado 1 2 < γ 1 < 1; trascurabile quado 0 < γ 1 < 1 2. Quado si descrive la forma di istogrammi che presetao ua forma simmetrica, co il termie curtosi si itede il grado di appiattimeto rispetto all istogramma di campioi ormali. Si defiisce quidi il seguete idice di misura relativa, adimesioale. Defiizioe Si chiama idice di curtosi la quatità γ 2 = µ 4. s 4 X Si osservi che l idice γ 2 può assumere solo valori positivi perchè è defiito i fuzioe di u mometo cetrale di ordie pari. I particolare se: γ 2 = 3, l istogramma coicide co quello di u campioe ormale; γ 2 > 3, l istogramma risulta più alto al cetro e agli estremi (code lughe), rispetto a quello di u campioe ormale. Ciò idica u eccesso di frequeza elle classi cetrali, ua frequeza miore elle classi itermedie ed ua preseza maggiore delle classi estreme; 0 < γ 2 < 3, l istogramma risulta più basso al cetro e agli estremi (code corte) rispetto a quello di u campioe ormale. Ciò idica ua frequeza miore delle classi cetrali e di quelle estreme e ua frequeza maggiore elle classi itermedie. Esempio Si cosideri la tabella di frequeza relativa all altezza (misurata i cm) di = 50 idividui: Dalla tabella di frequeza si ottiee m 1 = x = , µ 2 = s 2 X = , s X = , 5 5 µ 3 = p j (c j x) 3 = 25.13, µ 4 = p j (c j x) 4 = , j=1 j=1 29

30 Tabella Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [155, 161) [161, 167) [167, 173) [173, 179) [179, 185] e quidi γ 1 = = = γ 1 = < 1 2 γ 2 = = < 3. Si può quidi cocludere che la distribuzioe del campioe preseta ua trascurabile asimmetria siistra e l istogramma delle frequeze relative risulta più appiattito rispetto a quello di u campioe ormale (vedi Figura 3.5.1) Figura 3.5.1: Istogramma delle frequeze relative dei dati i Tabella Medie geeralizzate A volte può risultare iteressate calcolare la media di variabili trasformate, del tipo g(x) = x h, h R (x 2, x 3, x 1 2,...). 30

31 Dato u campioe (x 1,..., x ), tali medie soo defiite da o, i geerale, da M h = [ 1 ] 1/h x h i, [ k ] 1/h M h = x h i p i. per dati raggruppati i k classi co frequeze relative p 1... p k. Cosideriamo alcui casi particolari. Per h = 2, si ha la media quadratica: M 2 = 1 x 2 i, cioè la radice quadrata della media campioaria delle osservazioi al quadrato. OSSERVAZIONE: Di solito si fa ricorso alla media quadratica quado alcui dati el campioe soo positivi e altri egativi e quidi si vuole elimiare l iflueza del sego. Esempio 4.1 Due piastre quadrate hao lato x 1 = 3 ed x 2 = 5. Si desidera sostituirle co due piastre uguali che mategao ivariata la superficie totale. Soluzioe: dobbiamo quidi imporre che x x 2 2 = 2l 2 Il lato della piastra cercata è quidi dato da: l = x x = 34 2 = Si oti che la media quadratica è maggiore della media campioaria: x 1 + x 2 2 Per h = 1 si ottiee la media armoica: [ 1 M 1 = x 1 i ] 1 =. 1 x i = 4. La media armoica è quidi il reciproco della media campioaria del reciproco delle osservazioi. Esempio 4.2 Ua certa proteia viee studiata mediate elettroforesi: si vuol cooscere la velocità di migrazioe media. La proteia viee fatta correre su gel i u campo elettrico per 20 mm e viee misurato il tempo ecessario a percorrere questa distaza i 5 prove diverse. I dati soo riportati ella seguete tabella: 31

32 Prova tempo (s) velocità (mm/s) /40 = /60 = /30 = /50 = /70 = Soluzioe: si oti che il tempo totale (su tutte le 5 prove) ecessario a percorrere la distaza totale di 100 mm (20mm per 5 prove)è 250 s. La media aritmetica della velocità è: = mm/s, 5 che però o è la velocità media; ifatti risulta mm/s 250 s = mm, metre il totale del cammio percorso elle 5 prove è 20 mm 5 = 100 mm. La velocità media è ivece calcolata utilizzado la media armoica: M 1 = 5 1/ / / / /0.29 = e ifatti 0.4 mm 250 s = 100 mm. La cosa è evidete i quato la velocità media geerale è: v = spazio tempo = , = 0.4 mm da cui dividedo umeratore e deomiatore per 20 si ottiee v = M 1. U altra media utilizzata i alcui campi particolari, come ad esempio i microbiologia o sierologia, è la media geometrica così defiita: Si può facilmete otare che M 0 = (x 1 x 2... x ) 1. log M 0 = 1 log x i, cioè il logaritmo della media geometrica è la media aritmetica del logaritmo delle osservazioi. OSSERVAZIONE: Di solito si fa ricorso alla media geometrica ei problemi i cui si voglioo calcolare idici statistici come tassi o redimeti. Esempio 4.3 Il umero di mosche preseti i ua popolazioe di laboratorio costituita origiariamete da 100 elemeti, viee rilevato i tre periodi successivi. Al primo coteggio risultao 112 mosche, al secodo 196 e al terzo 369. Qual è il tasso di icremeto medio della popolazioe? 32

33 Soluzioe: gli icremeti osservati ei tre periodi soo: = 1.12, = 1.75, = 1.88 Allora: M 0 = ( ) 1 3 = 1.54, da cui = 154, quidi la popolazioe ha subito u icremeto medio del 54%. OSSERVAZIONE: Tra la media campioaria (M), la media armoica, la media geometrica e la media quadratica vale la seguete relazioe: M 2 > M > M 0 > M 1 Le medie itrodotte i precedeza godoo di alcue proprietà che e determiao ache l utilizzazioe. Si suppoga che le osservazioi del campioe (x 1,..., x ) soo geerate da u modello additivo del tipo: x i = a + ɛ i, i = 1,...,, dove la costate icogita a rappreseta la parte sistematica ed ɛ i l errore di misurazioe. Allora a può essere determiata impoedo che l errore che si commette sia miimo, cioè tale che la fuzioe Q(a) = (x i a) 2 assuma valore miimo. Si dimostra che il valore che miimizza Q(a) è la media campioaria M. Si può allora cocludere che se si ricorre alla media campioaria, si iterpretao implicitamete le osservazioi co u modello additivo e, viceversa, se si iterpretao le osservazioi co u modello additivo, allora la media dei dati deve essere quella campioaria. I modo aalogo si ottiee la stessa dualità tra: 1. il modello additivo dei quadrati delle osservazioi: e la media quadratica; x 2 i = a 2 + ɛ i 2. il modello additivo dei reciproci delle osservazioi: 1 x i = 1 a + ɛ i e la media armoica; 3. il modello moltiplicativo: x i = a ɛ i e la media geometrica. I quest ultimo caso si osservi che log x i = log a + log ɛ i, cioè il logaritmo delle osservazioi soddisfa il modello additivo e quidi, per quato detto prima, la media del logaritmo delle osservazioi è la media campioaria. 33

34 5 Statistica multivariata 5.1 Dati multidimesioali Sugli idividui di ua popolazioe possoo essere eseguite osservazioi e misure di due o più variabili co lo scopo di mettere ache i evideza gli evetuali legami statistici. Ad esempio possiamo misurare altezza e peso dei cittadii di ua determiata comuità per mettere i evideza ua relazioe tra le due misure. I questa sezioe ci limiteremo ad esamiare il caso di due variabili (X, Y ), sicchè il ostro campioe sarà del tipo (x 1, y 1 ),..., (x, y ). Se le variabili soo qualitative o quatitative discrete co modalità A 1,..., A M della variabile X e B 1,..., B R della variabile Y, ua prima maiera di rappresetare il campioe sarà quella di costruire ua tabella di cotigeza di frequeze assolute come quella riportata i Tabella 5.1. I essa si riportao: le frequeze assolute cogiute j,k, cioè il umero delle volte i cui si preseta la coppia di modalità (A j, B k ); le frequeze assolute margiali j, e,k, cioè il umero di volte i cui si presetao separatamete le modalità A j e B k ; la umerosità totale del campioe. Tabella 5.1 B 1... B R A 1 1,1... 1,R 1,.... A M M,1... M,R M,,1...,R Si oti che j, =,k = = R j,k, k=1 M j,k, j=1 R k=1,k = j = 1,..., M k = 1,..., R I maiera del tutto aaloga si costruisce ache la tabella di cotigeza delle frequeze relative cogiute e margiali M j=1 j, p j,k = j,k, p j, = j,, 34 p,k =,k

35 Si oti che i questo caso, a causa della ormalizzazioe (4) delle frequeze relative, ell agolo destro i basso della corrispodete tabella di cotigeza comparirà 1 ivece di. B 1... B R A 1 p 1,1... p 1,R p 1,.... A M p M,1... p M,R p M, p,1... p,r 1 Esempio 5.1. Nella Tabella 5.2 soo riportati i forma di tabella di cotigeza i dati relativi alla scelta della facoltà uiversitaria di = studeti secodo l attività lavorativa del padre. I margiali verticali i tabella idicao la composizioe sociale degli studeti uiversitari, i margiali orizzotali idicao il gradimeto delle diverse facoltà uiversitarie e ifie le frequeze cogiute idicao l evetuale relazioe che itercorre tra l estrazioe socio-professioale della famiglia degli studeti e la scelta della facoltà uiversitaria. Tabella 5.2 GIU ECO LET SCI MED FAR ALTRO Proprietario Cotadio Impreditore Professioista Dirigete Impiegato Operaio Altro Covariaza, correlazioe Nel caso i cui le variabili osservate (X, Y ) siao quatitative cotiue è utile rappresetare graficamete el piao cartesiao x, y i puti di coordiate (x 1, y 1 ),..., (x, y ). Il grafico che descrive come i puti si distribuiscoo el piao cartesiao è detto diagramma di dispersioe. La coformazioe della uvola di puti disegata forisce ua prima idicazioe sulla evetuale relazioe itercorrete tra le due variabili. Per misurare quatitativamete la tedeza delle due variabili X ed Y a covariare, cioè a variare isieme, u parametro molto importate e utile i biologia è il coefficiete di correlazioe lieare. Per itrodurre la formula che permette di calcolare tale parametro, sulla base di u campioe di puti delle variabili (X, Y ), dobbiamo premettere la seguete defiizioe. 35

36 Defiizioe Dato u campioe (x 1, y 1 ),..., (x, y ) di due variabili quatitative cotiue X e Y, si chiama covariaza campioaria di X e Y la quatità s XY = 1 (x i x)(y i ȳ), (19) dove x e ȳ soo le medie campioarie di (x 1,..., x ) e di (y 1,..., y ), rispettivamete. OSSERVAZIONE: La covariaza campioaria è detta ache somma dei prodotti delle deviazioi (x i x) e (y i ȳ). Se la maggior parte dei prodotti è positiva allora s XY > 0, metre se è egativa si avrà s XY < 0. Se ivece vi è u umero quasi uguale di prodotti positivi e di prodotti egativi allora la covariaza sarà molto vicia allo zero. Si prova il seguete risultato che permette di calcolare la covariaza s XY co ua formula semplificata. Teorema Sia assegato u campioe (x 1, y 1 ),..., (x, y ) co medie x e ȳ,allora [ ] s XY = 1 x i y i x ȳ. (20) Dimostrazioe: Ifatti da (19), sviluppado i prodotti si ha s XY = 1 = 1 = 1 (x i y i x i ȳ x y i + x ȳ) [ ] x i y i x ȳ x ȳ + x ȳ [ ] x i y i x ȳ. Defiizioe Dato u campioe (x 1, y 1 ),..., (x, y ) di due variabili quatitative cotiue X e Y, si chiama coeffciete di correlazioe campioario di X e Y la quatità r XY = s XY s X s Y, (21) soo le deviazioi stadard di (x 1,..., x ) e di (y 1,..., y ), rispettiva- dove s X e s Y mete. OSSERVAZIONE: Il coefficiete di correlazioe è u parametro adimesioale (cioè privo di uità di misura). Può essere quidi iterpretato facilmete qualuque siao le variabili prese i esame. Si prova che 1 r XY 1. Ua correlazioe egativa sigifica che quado ua delle due variabili decresce, l altra cresce, metre ua correlazioe positiva sigifica che le due variabili crescoo o decrescoo isieme (vedi Figura 5.2.1). La correlazioe massima (r XY = 1) o miima (r XY = 1) si ha quado tutti i puti giaccioo su ua retta (vedi Figura 5.2.1): è questo il motivo per cui il coefficiete 36

37 r=-0.8 r=0.5 Y Y X r= X r=1 Y Y X X Figura 5.2.1: Esempi di diagramma di dispersioe di correlazioe è detto lieare. Quidi il coefficiete di correlazioe lieare misura l itesità e la direzioe dell associazioe lieare tra due variabili quatitative umeriche. Se r XY = 0 allora si dice che le variabili X e Y soo o correlate liearmete, il che accade o quado le due variabili soo idipedeti (vedi Figura a)) oppure quado la relazioe che le lega è di tipo o lieare (vedi Figura b)). 5.3 Regressioe lieare La regressioe lieare è il metodo più usato per prevedere il valore di ua variabile quatitativa cotiua Y sulla base del valore assuto da u altra variabile umerica X, suppoedo che la relazioe tra le due variabili esista e sia realmete lieare. La variabile Y è detta variabile risposta ed è rappresetata sull asse delle ordiate, metre la varibile X è detta variabile esplicativa ed è rappresetata sull asse delle ascisse. Defiizioe Dato u campioe (x 1, y 1 ),..., (x, y ), si chiama retta di regressioe la retta Y = a X + b che passa attraverso i puti del diagramma di dispersioe. OSSERVAZIONE: Il coefficiete b rappreseta l itersezioe della retta di regressioe co l asse delle ordiate ed è detto itercetta, metre a è la pedeza o coeffi- 37

38 a) b) Figura 5.2.2: a) caso di variabili idipedeti, b) caso di variabili dipedeti ma o liearmete correlate. ciete agolare della retta ed è ua misura della variazioe della variabile Y per uità di variazioe di X. OSSERVAZIONE: I u diagramma di dispersioe possiamo tracciare molte rette: come facciamo a scegliere la migliore? I geerale sarà impossibile trovare ua retta che passi per tutti i puti della uvola, cioè trovare due umeri a e b tale che y i = a x i + b per ogi i = 1,...,. Ua buoa idea è trovare ua retta che approssimi el modo migliore l adameto della uvola di puti. Matematicamete questo si traduce el determiare quella retta che reda più piccole possibili le distaze (gli scarti verticali) tra i puti dei dati e i puti sulla retta stessa. Più specificatamete, vogliamo detemiare i coefficieti a e b della retta di regressioe che redoo miimo l errore quadratico, cioè la quatità ε(a, b) = [y i (a x i + b)] 2 (22) Il metodo sopra descritto, utilizzato per determiare la retta di regressioe lieare, è detto metodo ai miimi quadrati. Vale il seguete teorema 38

39 Teorema Dato u campioe (x 1, y 1 ),..., (x, y ), le stime campioarie dei coefficieti a e b soo â = s X Y, ˆb = ȳ â x (23) s 2 X Dimostrazioe: Per determiare i coefficieti a e b che redoo miimo l errore quadratico calcoliamo le derivate di ε(a, b) ε a = 2 x i [y i (a x i + b)], ε b = 2 [y i (a x i + b)] e poiamole uguali a 0 otteedo il sistema di due equazioi elle icogite a e b x i [y i (a x i + b)] = 0 [y i (a x i + b)] = 0. La secoda equazioe del sistema si scrive ache come (y i a x i ) b = 0, da cui si ricava subito ˆb = 1 y i a x i = ȳ â x. (24) Sostituedo ella prima equazioe si ottiee x i [y i (a x i + b)] = = x i y i a x i y i a x 2 i (ȳ â x) x i x 2 i x ȳ + a x 2 = 0. Dividedo per e applicado i risultati dei Teoremi e si ha 1 [ x i y i a = 1 ] x 2 i x ȳ + a x 2 [ ] x i y i x ȳ a = s XY a s 2 X = 0, 1 [ ] x 2 i x 2 da cui si ricava immediatamete â = s XY s 2 X. (25) 39

40 OSSERVAZIONE: La retta di regressioe stimata ha equazioe: Ŷ = âx + ˆb = âx + ȳ â x = â(x x) + ȳ, e passa per il puto ( x, ȳ). Ioltre, utilizzado la (21) si può scrivere la covariaza ella forma s XY = r XY s X s Y, che sostituita i (25) permette di esprimere il coefficiete agolare della retta di regressioe stimata i fuzioe del coefficiete di correlazioe lieare â = r XY s Y s X. Da qui si deduce che quado 0 < r XY < 1, allora â > 0, metre quado 1 < r XY < 0, allora â < 0. Esempio Nella seguete tabella si riporta la frequeza cardiaca a riposo (misurata i battiti al miuto) e gli ai complessivi di istruzioe di 10 idividui: Ai di istruzioe(x) : Frequeza cardiaca(y ) : Soluzioe: Calcoliamo le medie campioarie x = = 15.3, ȳ = = 70.3, e le variaze campioarie usado la formula (13) s 2 X = ( ) = 9 9 da cui si ricavao le deviazioi stadard campoarie = 9.122, s 2 Y = ( ) = 9 9 s X = 3.020, s Y = Calcoliamo ioltre la covariaza campioaria applicado la formula (20) S XY = 1 ( ) = e quidi il coefficiete di correlazioe lieare r XY = (3.020) (7.364) = , = 16.99, = , da cui si deduce che esiste ua correlazioe lieare egativa tra le variabili X e Y, cioè ad ua scolarizazioe luga corrispode ua bassa frequeza cardiaca, il che equivale a dire ua maggiore attezioe alla propria salute (più attività fisica, migliore alimetazioe, ecc...). Siamo ora i grado di calcolare le stime campioarie â e ˆb dei coefficieti di regressioe e la retta di regressioe stimata (vedi Figura 5.3.1): â = , ˆb = Ŷ = X

41 85 80 Frequeza cardiaca Ai di istruzioe Figura 5.3.1: Diagramma di dispersioe e retta di regressioe per l Esempio La retta di regressioe può essere utilizzata per effettuare delle previsioi su possibili valori della Y i corrispodeza di fissati valori della X. Per esempio, relativamete all Esempio 5.3.1, si vuole prevedere la frequeza cardiaca di u idiviudo sapedo che il umero di ai di istruzioe è x 0 = 15. Sostituedo il valore di x 0 ell equazioe della retta di regressioe sopra determiata, si ottiee: ŷ 0 = (15) = battiti al miuto. L errore di previsioe è l errore che si commette approssimado i valori osservati, y i, della Y co i corrispodeti valori ŷ i sulla retta di regressioe. I altre parole, vi è ua quota di variabilità della Y che o viee spiegata dalla relazioe lieare co la X. Tale errore è detto residuo e si idica co e i = y i ŷ i. Si oti che 1 e i = 1 (y i ŷ i ) = 1 y i 1 (â x i + ˆb) = ȳ â 1 x i ˆb = (ȳ â x) ˆb = ˆb ˆb = 0. Questo risultato, valido ella teoria, ella pratica o si realizza mai a causa degli errori di arrotodameto. È chiaro comuque che quato più i residui soo piccoli tato migliore è l adattameto della retta di regressioe ai dati sperimetali, cioè la maggior parte della variabilità della Y è spiegata tramite la relazioe lieare co la X. Ritorado all Esempio 5.3.1, vogliamo calcolare quato vale il residuo e 4 = y 4 ŷ 4. Dai dati risulta che (x 4, y 4 ) = (18, 63), metre dalla retta di regressioe risulta che da cui si deduce che e 4 = = 2. ŷ 4 = (18) = , 41

42 Esempio Nella seguete tabella si riporta la dose di fertilizzate usato (misurato i g) e il peso della graella (misurato i Kg) di 10 parcelle di mais: Dose di fertilizzate (X) : Peso della graella (Y ) : Soluzioe: Il coefficiete di correlazioe lieare è r XY = Esiste quidi ua correlazioe lieare positiva tra Y e X, cioè all aumetare della dose di fertilizzate aumeta il peso della graella di mais. La retta di regressioe stimata è (vedi Figura 5.3.2): Ŷ = X Peso graella Fertilizzate Figura 5.3.2: Diagramma di dispersioe e retta di regressioe per l Esempio

Campionamento casuale da popolazione finita (caso senza reinserimento )

Campionamento casuale da popolazione finita (caso senza reinserimento ) Campioameto casuale da popolazioe fiita (caso seza reiserimeto ) Suppoiamo di avere ua popolazioe di idividui e di estrarre u campioe di uità (co < ) Suppoiamo di studiare il carattere X che assume i valori

Подробнее

Quartili. Esempio Q 3. Me Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

Quartili. Esempio Q 3. Me Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C Quartili Primo quartile Q 1 : modalità che ella graduatoria (crescete o decrescete) bipartisce il 50% delle osservazioi co modalità più piccole o al più uguali alla Me Terzo quartile Q 3 : modalità che

Подробнее

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno Uiversità degli Studi di Cassio, Ao accademico 004-005 Corso di Statistica, Prof.. uro Esercitazioe del 01/03/005 dott. Claudio Coversao Esercizio 1 Si cosideri il seguete campioe casuale semplice estratto

Подробнее

Statistica 1 A.A. 2015/2016

Statistica 1 A.A. 2015/2016 Corso di Laurea i Ecoomia e Fiaza Statistica 1 A.A. 2015/2016 (8 CFU, corrispodeti a 48 ore di lezioe frotale e 24 ore di esercitazioe) Prof. Luigi Augugliaro 1 / 21 Misura della dipedeza di u carattere

Подробнее

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni A Alcui cocetti di statistica: medie, variaze, covariaze e regressioi Esistoo svariati modi per presetare gradi quatità di dati. Ua possibilità è presetare la cosiddetta distribuzioe, raggruppare cioè

Подробнее

Esercitazione parte 1 Medie e medie per dati raggruppati. Esercitazione parte 2 - Medie per dati raggruppati

Esercitazione parte 1 Medie e medie per dati raggruppati. Esercitazione parte 2 - Medie per dati raggruppati Esercitazioe parte Medie e medie per dati raggruppati el file dati0.xls soo coteute alcue distribuzioi di dati. Calcolare di ogua. Media aritmetica o Mostrare, co u calcolo automatico, che la somma degli

Подробнее

STUDIO DEL LANCIO DI 3 DADI

STUDIO DEL LANCIO DI 3 DADI Leoardo Latella STUDIO DEL LANCIO DI 3 DADI Il calcolo delle probabilità studia gli eveti casuali probabili, cioè quegli eveti che possoo o o possoo verificarsi e che dipedoo uicamete dal caso. Tale studio

Подробнее

Approfondimento 2.1 Scaling degli stimoli mediante il metodo del confronto a coppie

Approfondimento 2.1 Scaling degli stimoli mediante il metodo del confronto a coppie Approfodimeto 2.1 Scalig degli stimoli mediate il metodo del cofroto a coppie Il metodo del cofroto a coppie di Thurstoe (Thurstoe, 1927) si basa sull assuzioe che la valutazioe di u oggetto o di uo stimolo

Подробнее

Approfondimento 3.3. Calcolare gli indici di posizione con dati metrici singoli e raggruppati in classi

Approfondimento 3.3. Calcolare gli indici di posizione con dati metrici singoli e raggruppati in classi Chiorri, C. (201). Fodameti di psicometria - Approfodimeto. 1 Approfodimeto. Calcolare gli idici di posizioe co dati metrici sigoli e raggruppati i classi 1. Dati metrici sigoli Quado l iformazioe è a

Подробнее

Precorso di Matematica, aa , (IV)

Precorso di Matematica, aa , (IV) Precorso di Matematica, aa 01-01, (IV) Poteze, Espoeziali e Logaritmi 1. Nel campo R dei umeri reali, il umero 1 e caratterizzato dalla proprieta che 1a = a, per ogi a R; per ogi umero a 0, l equazioe

Подробнее

IL CALCOLO COMBINATORIO

IL CALCOLO COMBINATORIO IL CALCOLO COMBINATORIO 0. Itroduzioe Oggetto del calcolo combiatorio è quello di determiare il umero dei modi mediate i quali possoo essere associati, secodo prefissate regole, gli elemeti di uo stesso

Подробнее

STATISTICA DESCRITTIVA

STATISTICA DESCRITTIVA STATISTICA DESCRITTIVA La statistica descrittiva serve per elaborare e sitetizzare dati. Tipicamete i dati si rappresetao i tabelle. Esempio. Suppoiamo di codurre u idagie per cooscere gli iscritti al

Подробнее

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Statistica Computazioale Questa ota cosiste per la maggior parte ella traduzioe (co alcue modifiche e itegrazioi) da Descriptive statistics di J. Shalliker e C. Ricketts, 000, Uiversity of Plymouth Questa

Подробнее

ELEMENTI DI STATISTICA. Giancarlo Zancanella 2015

ELEMENTI DI STATISTICA. Giancarlo Zancanella 2015 ELEMENTI DI STATISTICA Giacarlo Zacaella 2015 2 Itroduzioe I termii statistici soo molto utilizzati el liguaggio correte 3 Cos è la STATISTICA STATISTICA = scieza che studia i feomei collettivi o di massa

Подробнее

1.6 Serie di potenze - Esercizi risolti

1.6 Serie di potenze - Esercizi risolti 6 Serie di poteze - Esercizi risolti Esercizio 6 Determiare il raggio di covergeza e l isieme di covergeza della serie Soluzioe calcolado x ( + ) () Per la determiazioe del raggio di covergeza utilizziamo

Подробнее

Stima della media di una variabile X definita su una popolazione finita

Stima della media di una variabile X definita su una popolazione finita Stima della media di ua variabile X defiita su ua popolazioe fiita otazioi: popolazioe, campioe e strati Popolazioe. umerosità popolazioe; Ω {ω,..., ω } popolazioe X variabile aleatoria defiita sulla popolazioe

Подробнее

SERIE DI POTENZE Esercizi risolti. Esercizio 1 Determinare il raggio di convergenza e l insieme di convergenza della serie di potenze. x n.

SERIE DI POTENZE Esercizi risolti. Esercizio 1 Determinare il raggio di convergenza e l insieme di convergenza della serie di potenze. x n. SERIE DI POTENZE Esercizi risolti Esercizio x 2 + 2)2. Esercizio 2 + x 3 + 2 3. Esercizio 3 dove a è u umero reale positivo. Esercizio 4 x a, 2x ) 3 +. Esercizio 5 x! = x + x 2 + x 6 + x 24 + x 20 +....

Подробнее

Algoritmi e Strutture Dati (Elementi)

Algoritmi e Strutture Dati (Elementi) Algoritmi e Strutture Dati (Elemeti Esercizi sulle ricorreze Proff. Paola Boizzoi / Giacarlo Mauri / Claudio Zadro Ao Accademico 00/003 Apputi scritti da Alberto Leporati e Rosalba Zizza Esercizio 1 Posti

Подробнее

TEST STATISTICI. indica l ipotesi che il parametro della distribuzione di una variabile assume il valore 0

TEST STATISTICI. indica l ipotesi che il parametro della distribuzione di una variabile assume il valore 0 TEST STATISTICI I dati campioari possoo essere utilizzati per verificare se ua certa ipotesi su ua caratteristica della popolazioe può essere riteuta verosimile o meo. Co il termie ipotesi statistica si

Подробнее

MEDIE STATISTICHE. Media aritmetica, Media quadratica, Media Geometrica, Media Armonica

MEDIE STATISTICHE. Media aritmetica, Media quadratica, Media Geometrica, Media Armonica MEDIE STATISTICHE La raccolta dei dati e la successiva loro elaborazioe permettoo di trarre alcue coclusioi su u dato feomeo oggetto di studio. A questo fie si assume che u valore calcolato a partire dai

Подробнее

INFERENZA o STATISTICA INFERENTE

INFERENZA o STATISTICA INFERENTE INFERENZA o STATISTICA INFERENTE Le iformazioi sui parametri della popolazioe si possoo otteere sia mediate ua rilevazioe totale (o rilevazioe cesuaria) sia mediate ua rilevazioe parziale (o rilevazioe

Подробнее

Intervalli di confidenza

Intervalli di confidenza Itervalli di cofideza Fracesco Lagoa Itroduzioe Questa dispesa riassume schematicamete i pricipali risultati discussi a lezioe sulla costruzioe di itervalli di cofideza. Itervalli di cofideza per la media

Подробнее

SERIE NUMERICHE Esercizi risolti. (log α) n, α > 0 c)

SERIE NUMERICHE Esercizi risolti. (log α) n, α > 0 c) SERIE NUMERICHE Esercizi risolti. Calcolare la somma delle segueti serie telescopiche: a) b). Verificare utilizzado la codizioe ecessaria per la covergeza) che le segueti serie o covergoo: a) c) ) log

Подробнее

Esercitazioni di Statistica Dott. Danilo Alunni Fegatelli

Esercitazioni di Statistica Dott. Danilo Alunni Fegatelli Esercitazioi di Statistica Dott. Dailo Alui Fegatelli [email protected] Esercizio. Su 0 idividui soo stati rilevati la variabile X (geere) e (umero di auto possedute) X F F M F M F F M F M

Подробнее

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI Apputi di Statistica Sociale Uiversità ore di Ea LE MISURE DI VARIABILITÀ DI CARATTERI QUATITATIVI La variabilità di u isieme di osservazioi attiee all attitudie delle variabili studiate ad assumere modalità

Подробнее

Diagramma polare e logaritmico

Diagramma polare e logaritmico Diagramma polare e aritmico ariatori discotiui del moto di taglio Dalla relazioe π D c si ota che la velocità di taglio dipede, oltre che dal umero di giri del madrio, ache dal diametro dell elemeto rotate

Подробнее

Esercizi di Calcolo delle Probabilità e Statistica Matematica

Esercizi di Calcolo delle Probabilità e Statistica Matematica Esercizi di Calcolo delle Probabilità e Statistica Matematica Lucio Demeio Dipartimeto di Igegeria Idustriale e Scieze Matematiche Uiversità Politecica delle Marche 1. Esercizio (31 marzo 2012. 1). Al

Подробнее

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE CAPITOLO SETTIMO GLI INDICI DI FORMA SOMMARIO: 1. Itroduzioe. - 2. Asimmetria. - 3. Grafico a scatola (box plot). - 4. Curtosi. - Questioario. 1. INTRODUZIONE Dopo aver aalizzato gli idici di posizioe

Подробнее

ALGEBRA I MODULO PROF. VERARDI - ESERCIZI. Sezione 1 NUMERI NATURALI E INTERI

ALGEBRA I MODULO PROF. VERARDI - ESERCIZI. Sezione 1 NUMERI NATURALI E INTERI ALGEBRA I MODULO PROF. VERARDI - ESERCIZI Sezioe 1 NUMERI NATURALI E INTERI 2 1.1. Si dimostri per iduzioe la formula: N, k 2 "1( * " 3 ) " 3k +1(. 3 1.2. A) Si dimostri che per ogi a,b N +, N +, se a

Подробнее

PRINCIPIO D INDUZIONE E DIMOSTRAZIONE MATEMATICA. A. Induzione matematica: Introduzione

PRINCIPIO D INDUZIONE E DIMOSTRAZIONE MATEMATICA. A. Induzione matematica: Introduzione PRINCIPIO D INDUZIONE E DIMOSTRAZIONE MATEMATICA CHU WENCHANG A Iduzioe matematica: Itroduzioe La gra parte delle proposizioi della teoria dei umeri dà euciati che coivolgoo i umeri aturali; per esempio

Подробнее

RISOLUZIONE MODERNA DI PROBLEMI ANTICHI

RISOLUZIONE MODERNA DI PROBLEMI ANTICHI RISOLUZIONE MODERNA DI PROBLEMI ANTICHI L itelletto, duque, che o è la verità, o comprede mai la verità i modo così preciso da o poterla compredere (poi acora) più precisamete, all ifiito, perché sta alla

Подробнее

Esame di Statistica A-Di Prof. M. Romanazzi

Esame di Statistica A-Di Prof. M. Romanazzi 1 Uiversità di Veezia Esame di Statistica A-Di Prof. M. Romaazzi 12 Maggio 2014 Cogome e Nome..................................... N. Matricola.......... Valutazioe Il puteggio massimo teorico di questa

Подробнее

Cosa vogliamo imparare?

Cosa vogliamo imparare? Cosa vogliamo imparare? risolvere i modo approssimato equazioi del tipo f()=0 che o solo risolubili i maiera esatta ed elemetare tramite formule risolutive. Esempio: log( ) 1= 0 Iterpretazioe grafica Come

Подробнее

Esercitazioni del corso: ANALISI MULTIVARIATA

Esercitazioni del corso: ANALISI MULTIVARIATA A. A. 9 1 Esercitazioi del corso: ANALISI MULTIVARIATA Isabella Romeo: [email protected] Sommario Esercitazioe 4: Verifica d Ipotesi Test Z e test T Test d Idipedeza Aalisi Multivariata a. a. 9-1

Подробнее

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioi di Statistica Itervalli di cofideza Prof. Livia De Giovai [email protected] Esercizio 1 La fabbrica A produce matite colorate. Ua prova su 100 matite scelte a caso ha idicato u peso

Подробнее

Richiami sulle potenze

Richiami sulle potenze Richiami sulle poteze Dopo le rette, le fuzioi più semplici soo le poteze: Distiguiamo tra: - poteze co espoete itero - poteze co espoete frazioario (razioale) - poteze co espoete reale = Domiio delle

Подробнее

Statistica di base. Luca Mari, versione 31.12.13

Statistica di base. Luca Mari, versione 31.12.13 Statistica di base Luca Mari, versioe 31.12.13 Coteuti Moda...1 Distribuzioi cumulate...2 Mediaa, quartili, percetili...3 Sigificatività empirica degli idici ordiali...3 Media...4 Acora sulla media...4

Подробнее

(1 2 3) (1 2) Lezione 10. I gruppi diedrali.

(1 2 3) (1 2) Lezione 10. I gruppi diedrali. Lezioe 0 Prerequisiti: Simmetrie di poligoi regolari. Gruppi di permutazioi. Cetro di u gruppo. Cetralizzate di u elemeto di u gruppo. Riferimeto al testo: [PC] Sezioe 5.4 I gruppi diedrali. Ogi simmetria

Подробнее

Corso di Informatica

Corso di Informatica Corso di Iformatica Codifica dell Iformazioe Sistemi Numerici Per rappresetare ua certo quatità di oggetti è ecessaria ua covezioe o sistema umerico che faccia corrispodere ad ua sequeza di ua o più cifre,

Подробнее

La dinamica dei sistemi - intro

La dinamica dei sistemi - intro La diamica dei sistemi - itro Il puto materiale rappreseta ua schematizzazioe utile o solo per descrivere situazioi di iteresse diretto ma è ache il ecessario presupposto alla meccaica dei sistemi materiali

Подробнее

= Pertanto. Per la formula di Navier ( σ = ), gli sforzi normali σ più elevati nella sezione varranno: di compressione);

= Pertanto. Per la formula di Navier ( σ = ), gli sforzi normali σ più elevati nella sezione varranno: di compressione); La sezioe di trave di figura è soggetta ad u mometo flettete pari a 000 knmm e ed u azioe di taglio pari a 5 kn, etrambe ageti su u piao verticale passate per l asse s-s. Calcolare gli sforzi σ e τ massimi

Подробнее

Il centro di pressione C risulta esterno al nocciolo (e > GX ) (grande eccentricità)

Il centro di pressione C risulta esterno al nocciolo (e > GX ) (grande eccentricità) Il cemeto armato: metodo alle tesioi ammissibili Uità 5 Flessioe semplice retta e sforzo ormale Il cetro di pressioe risulta estero al occiolo (e > X ) (grade eccetricità) 0L asse eutro taglia la sezioe,

Подробнее

Inferenza statistica. Popolazione. Camp. Statistiche campionarie basate sulle osservazioni del campione. Estrazione casuale. Parametro e statistica

Inferenza statistica. Popolazione. Camp. Statistiche campionarie basate sulle osservazioni del campione. Estrazione casuale. Parametro e statistica 6/0/0 Corso di Statistica per l impresa Prof. A. D Agostio Ifereza statistica Per fare ifereza statistica si utilizzao le iformazioi raccolte su u campioe per cooscere parametri icogiti della popolazioe

Подробнее

Lezione 4. Gruppi di permutazioni

Lezione 4. Gruppi di permutazioni Lezioe 4 Prerequisiti: Applicazioi tra isiemi Lezioi e Gruppi di permutazioi I questa lezioe itroduciamo ua classe ifiita di gruppi o abeliai Defiizioe 41 ia X u isieme o vuoto i dice permutazioe su X

Подробнее

Cerchi di Mohr - approfondimenti

Cerchi di Mohr - approfondimenti Comportameto meccaico dei materiali Cerchi di Mohr - approfodimeti Stato di tesioe e di deformazioe Cerchi di Mohr - approfodimeti L algebra dei cerchi di Mohr Proprietà di estremo dei cerchi di Mohr Costruzioe

Подробнее

Elementi di Calcolo Combinatorio

Elementi di Calcolo Combinatorio Elemeti di Calcolo Combiatorio Alessadro De Gregorio Sapieza Uiversità di Roma [email protected] Idice 1 Premessa 1 2 Permutazioi 2 3 Disposizioi 3 4 Combiazioi 4 5 Il coefficiete multiomiale

Подробнее

Probabilità 1, laurea triennale in Matematica II prova scritta sessione estiva a.a. 2008/09

Probabilità 1, laurea triennale in Matematica II prova scritta sessione estiva a.a. 2008/09 Probabilità, laurea trieale i Matematica II prova scritta sessioe estiva a.a. 8/9. U ura cotiee dadi di cui la metà soo equilibrati, metre gli altri soo stati maipolati i modo che, per ciascuo di essi,

Подробнее

CORSO DI STATISTICA I (Prof.ssa S. Terzi)

CORSO DI STATISTICA I (Prof.ssa S. Terzi) CORSO DI STATISTICA I (Prof.ssa S. Terzi) STUDIO DELLE DISTRIBUZIONI SEMPLICI Esercitazioe. Data la segete distribzioe di freqeza: X 0- -2 2-3 3-5 5-0 0-5 5-25 N 44 35 22 58 60 06 02 a) calcolare le freqeze

Подробнее

Serie numeriche. Paola Rubbioni. 1 Denizione, serie notevoli e primi risultati. i=0 a i, e si indica con il simbolo +1X.

Serie numeriche. Paola Rubbioni. 1 Denizione, serie notevoli e primi risultati. i=0 a i, e si indica con il simbolo +1X. Serie umeriche Paola Rubbioi Deizioe, serie otevoli e primi risultati Deizioe.. Data ua successioe di umeri reali (a ) 2N, si dice serie umerica la successioe delle somme parziali (S ) 2N, ove S = a +

Подробнее

Esercitazioni di Statistica Dott.ssa Cristina Mollica [email protected]

Esercitazioni di Statistica Dott.ssa Cristina Mollica cristina.mollica@uniroma1.it Esercitazioi di Statistica Dott.ssa Cristia Mollica [email protected] Cocetrazioe Esercizio 1. Nell'ultima settimaa ua baca ha erogato i segueti importi (i migliaia di euro) per prestiti a imprese:

Подробнее

Esame di Statistica A-Di Prof. M. Romanazzi

Esame di Statistica A-Di Prof. M. Romanazzi 1 Uiversità di Veezia Esame di tatistica A-Di Prof. M. Romaazzi 27 Geaio 2015 ogome e Nome..................................... N. Matricola.......... Valutazioe l puteggio massimo teorico di questa prova

Подробнее

L'ALGORITMO DI STURM Michele Impedovo, Simone Pavanelli

L'ALGORITMO DI STURM Michele Impedovo, Simone Pavanelli L'ALGORITMO DI STURM Michele Impedovo, Simoe Pavaelli Lettera P.RI.ST.EM, 10, dicembre 1993 Questo lavoro asce dalla collaborazioe tra u isegate e uo studete; lo studete ha curato iteramete la costruzioe

Подробнее

Problema di Natale 1 Corso di Geometria per la Laurea in Fisica Andrea Sambusetti 19 Dicembre 2008

Problema di Natale 1 Corso di Geometria per la Laurea in Fisica Andrea Sambusetti 19 Dicembre 2008 Problema di Natale 1 Corso di Geometria per la Laurea i Fisica Adrea Sambusetti 19 Dicembre 28 La particella Mxyzptlk. 2 La particella Mxyzptlk vive i u uiverso euclideo -dimesioale. È costituita da u

Подробнее

Regressione e correlazione

Regressione e correlazione Regressioe e correlazioe Regressioe e correlazioe I molti casi si osservao gradezze che tedoo a covariare, ma () Se c è ua relazioe di dipedeza fra due variabili, ovvero se il valore di ua variabile (dipedete)

Подробнее