Dispensa di STATISTICA DESCRITTIVA

Похожие документы
Campionamento casuale da popolazione finita (caso senza reinserimento )

Quartili. Esempio Q 3. Me Q 1. Distribuzione unitaria degli affitti settimanali in euro pagati da 19 studenti U.S. A G I F B D L H E M C

Università degli Studi di Cassino, Anno accademico Corso di Statistica 2, Prof. M. Furno

Statistica 1 A.A. 2015/2016

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

Esercitazione parte 1 Medie e medie per dati raggruppati. Esercitazione parte 2 - Medie per dati raggruppati

STUDIO DEL LANCIO DI 3 DADI

Approfondimento 2.1 Scaling degli stimoli mediante il metodo del confronto a coppie

Approfondimento 3.3. Calcolare gli indici di posizione con dati metrici singoli e raggruppati in classi

Precorso di Matematica, aa , (IV)

IL CALCOLO COMBINATORIO

STATISTICA DESCRITTIVA

Prof.ssa Paola Vicard

ELEMENTI DI STATISTICA. Giancarlo Zancanella 2015

1.6 Serie di potenze - Esercizi risolti

Stima della media di una variabile X definita su una popolazione finita

SERIE DI POTENZE Esercizi risolti. Esercizio 1 Determinare il raggio di convergenza e l insieme di convergenza della serie di potenze. x n.

Algoritmi e Strutture Dati (Elementi)

TEST STATISTICI. indica l ipotesi che il parametro della distribuzione di una variabile assume il valore 0

MEDIE STATISTICHE. Media aritmetica, Media quadratica, Media Geometrica, Media Armonica

INFERENZA o STATISTICA INFERENTE

Intervalli di confidenza

SERIE NUMERICHE Esercizi risolti. (log α) n, α > 0 c)

Esercitazioni di Statistica Dott. Danilo Alunni Fegatelli

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

Diagramma polare e logaritmico

Esercizi di Calcolo delle Probabilità e Statistica Matematica

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE

ALGEBRA I MODULO PROF. VERARDI - ESERCIZI. Sezione 1 NUMERI NATURALI E INTERI

PRINCIPIO D INDUZIONE E DIMOSTRAZIONE MATEMATICA. A. Induzione matematica: Introduzione

RISOLUZIONE MODERNA DI PROBLEMI ANTICHI

Esame di Statistica A-Di Prof. M. Romanazzi

Cosa vogliamo imparare?

Esercitazioni del corso: ANALISI MULTIVARIATA

Esercitazioni di Statistica

Richiami sulle potenze

Statistica di base. Luca Mari, versione

(1 2 3) (1 2) Lezione 10. I gruppi diedrali.

Corso di Informatica

La dinamica dei sistemi - intro

= Pertanto. Per la formula di Navier ( σ = ), gli sforzi normali σ più elevati nella sezione varranno: di compressione);

Il centro di pressione C risulta esterno al nocciolo (e > GX ) (grande eccentricità)

Inferenza statistica. Popolazione. Camp. Statistiche campionarie basate sulle osservazioni del campione. Estrazione casuale. Parametro e statistica

Lezione 4. Gruppi di permutazioni

Cerchi di Mohr - approfondimenti

Elementi di Calcolo Combinatorio

Probabilità 1, laurea triennale in Matematica II prova scritta sessione estiva a.a. 2008/09

CORSO DI STATISTICA I (Prof.ssa S. Terzi)

Serie numeriche. Paola Rubbioni. 1 Denizione, serie notevoli e primi risultati. i=0 a i, e si indica con il simbolo +1X.

Esercitazioni di Statistica Dott.ssa Cristina Mollica

Esame di Statistica A-Di Prof. M. Romanazzi

L'ALGORITMO DI STURM Michele Impedovo, Simone Pavanelli

Problema di Natale 1 Corso di Geometria per la Laurea in Fisica Andrea Sambusetti 19 Dicembre 2008

Regressione e correlazione

Транскрипт:

UNIVERSITÀ DEGLI STUDI DI BARI FACOLTÀ DI SCIENZE MM.FF.NN Dispesa di STATISTICA DESCRITTIVA Modulo di Probabilità e Statistica (corsi A-B) Laurea Trieale i SCIENZE BIOLOGICHE Ao Accademico 2010/2011 docete: Prof.ssa Rosa Maria Miii 1

La statistica descrittiva cosiste di ua serie di teciche e metodi per riorgaizzare e maipolare dati al fie di estrapolare delle iformazioi. 1 Tipi di dati e scale di misurazioe Vale la pea fare qualche precisazioe circa la atura dell isieme di osservazioi, di dati, che si ottegoo i seguito ad u campioameto, u cesimeto o come risultato di u esperimeto. Per popolazioe si itede u collettivo di elemeti di qualsiasi tipo (idividui, aimali, piate, ecc...) che presetio almeo ua caratteristica comue e a cui siamo iteressati ella discussioe di u determiato problema. I biologia ua popolazioe può essere costituita da ua specie, u geere; i ecoomia da ua classe sociale; i medicia da u gruppo di sitomi che costituiscoo ua sidrome o dai pazieti ricoverati i u reparto ospedaliero. Geeralmete ua popolazioe è di dimesioe fiita. Per variabile si itede ua caratteristica della popolazioe i studio che può assumere diversi valori. Schematicamete, esistoo due tipi di variabili alle quali soo associati i dati qualitativi o i dati quatitativi: - si parla di variabile qualitativa o categoriale quado le osservazioi possoo essere classificate i base a come essa si preseta. Ad esempio, il colore del matello di u aimale, la forma della foglia di ua piata, la preseza o asseza di ua certa proprietà. I questi casi la variabile o viee misurata quatitativamete, ma suddivisa i categorie o modalità come, ad esempio, il gruppo saguigo, lo stato sociale; - si parla di variabile quatitativa quado le osservazioi soo valori umerici. Se la variabile assume solo valori isolati, si defiisce variabile discreta come, ad esempio, il umero di coloie batteriche su ua piastra, il umero di piate germogliate i u terreo coltivato. Ache i questo caso la variabile viee suddivisa i categorie o modalità. Se ivece puó assumere tutti i possibili valori reali etro u certo itervallo, è detta variabile cotiua come, ad esempio, il peso, l altezza. La suddivisioe di ua variabile cotiua avviee per classi. Per covezioe ua variabile viee idicata co le lettere X, Y,..., metre i valori assuti da ua sigola variabile X vegoo idicati co x 1, x 2,... La distribuzioe di ua variabile idica quali valori questa assume e quato spesso li assume. U campioe è ua -pla ( 1), (x 1, x 2,..., x ), di valori assuti da ua data variabile e misurati su u campioe di elemeti estratti casualmete dalla popolazioe i studio. Quado si raccolgoo dati su ua popolazioe, i valori otteuti si presetao come u isieme di dati disordiati; perciò soo chiamati dati grezzi. Se o vegoo ordiati i qualche modo, è difficile che possao forire qualche iformazioe sulla distribuzioe della variabile di iteresse. 2

Esempio 1.1 Si soo rilevate le variabili altezza (X,i cm), peso (Y, i kg), sesso (U, codificato f=femmia e m=maschio) ed età (Z) per u gruppo di 18 studeti di u college americao, otteedo i segueti dati: X : 167 158 160 171 176 171 171 173 165 179 170 183 170 171 160 165 189 169 Y : 64 62 49 58 85 65 78 62 56 94 64 95 56 53 63 61 73 65 U : f f f f m m f f f m f m m f f f m m Z : 19 27 27 22 22 28 22 22 22 24 27 20 22 19 20 19 23 23 Per effettuare ua sitesi dei dati, suppoiamo di osservare ua variabile (qualitativa o quatitativa discreta) X co u umero fiito M di modalità su ua popolazioe: covezioalmete idicheremo le M modalità co i umeri iteri v 1, v 2,..., v M. Se (x 1, x 2,..., x ) è u campioe associato alla variabile X, i dati sarao umeri iteri co valori v 1, v 2,..., v M. Per ogi k = 1,..., M, idichiamo co {j : x j = v k } l isieme dei dati osservati che assumoo il valore v k, e co k = #{j : x j = v k } (1) il umero di dati che appartegoo all isieme {j : x j = v k } (il simbolo # idica la cardialità di u isieme), cioè il umero di volte che il valore v k si ripete el campioe (x 1, x 2,..., x ). Il umero k è detto frequeza assoluta della k-esima modalità. Si oti che k = 0, 1,..., e che vale la seguete relazioe: M k =. (2) k=1 Può essere utile a volte cooscere ache la proporzioe di osservazioi x j che assumoo il valore k. I tal caso si defiisce il umero p k = k, k = 1,..., M, (3) che è detto frequeza relativa della k-esima modalità. Si oti che 0 p k 1 e che vale la seguete relazioe: M p k = 1. (4) k=1 Se moltiplichiamo p k per 100 otteiamo la percetuale di dati osservati che assumoo il valore v k. 3

Sia per le frequeze assolute che per quelle relative si itroduce il cocetto di frequeze cumulate: F k = k i = #{j : x j v k }, f k = k p i = #{j : x j v k }, k = 1,..., M. (5) La quatità F k è detta frequeza assoluta cumulata e idica il umero delle osservazioi x j co valore miore o uguale a v k, metre f k è detta frequeza relativa cumulata e idica la proporzioe del umero delle osservazioi x j co valore miore o uguale a v k. È evidete che per le frequeze cumulate le relazioi (2) e (4) divetao: F M =, f m = 1. (6) Se ivece X è ua variabile quatitativa discreta co u umero molto grade di modalità oppure X è cotiua, possiamo sitetizzare i dati osservati (x 1, x 2,..., x ) raggruppadoli i classi. Tali classi soo itervalli adiaceti, o sovrappoetesi, tali che ciascu x j possa essere collocato i uo solo degli itervalli. Per suddividere i dati i classi bisoga iazitutto ordiare i dati stessi dal più piccolo al più grade. Si chiama statistica ordiale il campioe (x (1), x (2),..., x () ) tale che x (1) x (2) x (). Co il termie statistica si itede ua gradezza calcolata a partire dai dati. Si chiamao miimo e massimo e si idicao, rispettivamete, co x mi e x max, il valore più piccolo e il valore più grade el campioe (x 1, x 2,..., x ). Evidetemete: x mi = x (1), x max = x (). Suppoiamo che [x mi, x max ] [a, b]. Si suddivide l itervallo [a, b] i M sottoitervalli (o ecessariamete tutti della stessa ampiezza) J k = [d k, d k+1 ), k = 1,..., M, dove a = d 1 < d 2 < < d M+1 = b. Ciascu sottoitervallo J k è detto classe. Domada 1: Quate classi J k si devoo cosiderare? il umero delle classi o deve essere troppo piccolo perchè i dati risulterebbero troppo sitetizzati e le iformazioi coteute i essi verrebbero i parte perse; il umero delle classi o deve essere troppo grade perchè i dati o verrebbero sufficietemete sitetizzati. Abitualmete il umero di classi varia da u miimo di 4-5 (co = 10 15) ad u massimo di 15-20 (co 100). Comuque, la migliore guida per la scelta di u opportuo umero di classi è la ostra coosceza delle osservazioi effettuate sulla popolazioe. Può essere che le classi siao state già fissate i rilevazioi precedeti. Domada 2: Quale deve essere l ampiezza J k delle classi? 4

La determiazioe delle ampiezze J k delle classi può rivelarsi cruciale per mettere i evideza alcue caratteristiche dei dati. I geere si cerca di determiare classi aveti la stessa ampiezza. Tale ampiezza può essere determiata dalla seguete formula: J k = b a M. (7) Ovviamete si può scegliere u ampiezza diversa secodo il proprio giudizio. Ache i questo caso possiamo defiire la frequeza assoluta e relativa del campioe (x 1, x 2,..., x ) elle classi J k : k = #{j : x (j) J k }, p k = k, k = 1,..., M, che soddisfao ovviamete le relazioi (2) e (4). Ioltre, è possibile parlare di frequeze cumulate adottado le defiizioi (5): F k = f k = k i = #{j : x (j) k k J i } = #{j : x (j) < d k+1 } p i = #{j : x (j) < d k+1 }, k = 1,..., M, che soddisfao le relazioi (6). Ua certa importaza riveste ache il cocetto di valore cetrale della classe J k = [d k, d k+1 ): c k = d k+1 d k, k = 1,..., M. (8) 2 I valori delle variabili vegoo espressi i termii di misure; le misure possoo essere raggruppate i 4 tipi di scale di misurazioe i relazioe alla atura delle osservazioi: omiale o classificatoria; ordiale; per itervalli; per rapporti. La scala omiale: è il livello più basso di misurazioe e si utilizza quado i dati possoo essere raggruppati i categorie qualitative, evetualmete idetificate co simboli. Queste categorie soo mutuamete esclusive, cioè essu dato si può collocare i più di ua categoria. I ua popolazioe aimale si possoo distiguere gli idividui i maschi e femmie, per valutare gli effetti di u tossico si distigue tra cavie morte e cavie sopravvissute, per testare l efficacia di u farmaco si distigue tra pazieti guariti e quelli che restao ammalati. Spesso ci soo più di due categorie qualitative, ad esempio i gruppi saguigi: A, B, AB, 0. L operazioe ammessa è il coteggio dei preseti i ogi categoria. La descrizioe dei dati avviee tramite le frequeze assolute e le frequeze relative. 5

Esempio 1.2 Gruppi sagugi del sistema AB0 i u campioe ( = 149) di ua popolazioe caucasica. Gruppi saguigi k p k A 60 40.3 B 16 10.7 AB 7 4.7 0 66 44.3 NOTA BENE: ella scala omiale esiste la relazioe di equivaleza, cioè gli elemeti del campioe apparteeti a classi diverse soo differeti, metre tutti quelli della stessa classe soo tra loro equivaleti. La scala ordiale: si riferisce acora a variabili qualitative e coserva la proprietà della scala omiale di classificare ciascu dato all itero di ua sola categoria, ma è possibile assegare ad ogi osservazioe u valore umerico, u puteggio arbitrario; esso, pur o rappresetado la vera gradezza della caratteristica studiata, rispetta u ordie ella classificazioe. Quidi la scala ordiale rappreseta ua misurazioe che cotiee ua quatità di iformazioe immediatamete superiore a quella omiale: alla relazioe di equivaleza tra elemeti di ua stessa classe si aggiuge la relazioe di ordiameto tra le varie classi. Esempio 1.3 Valutazioe della risposta all applicazioe di u farmaco a = 100 pazieti. Criterio di classificazioe puteggio freq. assoluta ( k ) freq. relativa (p k ) peggiorameto -1 3 0.03 essua variazioe 0 4 0.04 lieve migliorameto 1 15 0.15 migliorameto 2 52 0.52 guarigioe 3 26 0.26 La scala ad itervalli: iclude le proprietà di quella omiale e di quella ordiale e i più ha u uità di misura. È quidi ua scala graduata co itervalli costati ed uguali, dove la posizioe dell origie dell uità di misura, cioè il puto zero, è covezioale, cioè scelta arbitrariamete. Il puto zero scelto o è uo zero vero el seso che o idica u asseza totale della quatità che si sta misurado. Esempio classico di scala ad itervalli è la temperatura misurata i gradi Celsius (o cetigradi) o Fahreheit, dove l uità di misura è il grado e il puto di cofroto è il grado zero che o idica ua macaza di calore. Sulla scala Celsius la temperatura zero (0 o C) è stata defiita per covezioe come il puto di cogelameto dell acqua e si è quidi defiita l uità ( o C) come 1/100 della distaza sulla scala dal puto di ebollizioe (100 o C). Sulla scala Fahreheit il puto di cogelameto dell acqua è stato fissato a 32 o F e lo zero (0 o F ) è fissato a 32 o F sotto il puto di cogelameto, metre il puto di ebollizioe è stato fissato a 212 o F, cioè a ua distaza di 180 o F dal puto di cogelameto. 6

Altri esempi di scale a itervalli soo le varie scale per misurare il tempo, come il caledario auale co la suddivisioe del gioro i 24 ore che per covezioe ha il suo puto zero a mezzaotte. Esempio 1.4 Temperatura corporea di u campioe di = 10 soggetti espressa i gradi Celsius e Fahreheit. Soggetto o C o F 1 36.2 97.16 2 36.5 97.70 3 36.8 98.24 4 36.4 97.50 5 36.7 98.06 6 36.8 98.24 7 36.5 97.70 8 36.4 97.52 9 37.0 98.60 10 36.1 97.00 NOTA BENE: la scala a itervalli è ua scala più sofisticata di quelle precedeti perchè o solo è possibile ordiare le misure, ma è ache ota la distaza tra due misure qualsiasi. Ha seso fare la differeza di temperature e cofrotarle tra loro. Ad esempio, la differeza di temperatura tra i soggetti 3 e 4 è il doppio di quella tra i soggetti 9 e 3 per etrambe le scale. La scala di rapporti: è ivece adatta a descrivere feomei che presetao u origie aturale, cioè i cui lo zero sigifica quatità ulla. Soo tipiche scale di rapporti l altezza, il peso, la velocità, l età, il reddito, la temperatura i gradi Kelvi, ecc... Essa è caratterizzata dal fatto che per questa scala è possibile determiare o solo le differeze ma ache i rapporti tra coppie di valori. Esempio 1.5 Valori di glicemia i u campioe di = 10 soggetti sai espressi i mg di glucosio per 100ml di sague. Soggetto mg/ml 1 65.5 2 80.0 3 92.8 4 90.2 5 100.5 6 95.0 7 98.0 8 70.3 9 80.0 10 105.5 7

2 Tabelle e grafici L iformazioe coteuta elle frequeze assolute e relative può essere messa meglio i evideza orgaizzado i dati i tabelle o ache rappresetadoli i grafici. La tabella di frequeza è ua tabella umerica i cui i dati soo orgaizzati i opportue classi o modalità e soo riportati i valori umerici della varie frequeze, otteedo così la distribuzioe di frequeza delle osservazioi. Esempio 2.1 Suppoiamo di aver raccolto le segueti = 50 misure di ua variabile X, per esempio, di aver esamiato 50 famiglie co 5 figli e di aver registrato per ciascua il umero dei figli maschi: 3 0 3 1 1 1 2 4 1 3 2 1 0 2 1 3 3 0 2 1 3 4 3 1 3 4 1 5 0 2 0 4 1 4 2 2 2 1 2 3 2 3 2 2 3 3 2 1 2 1 I questo caso, quidi, la variabile X cota il umero di figli maschi preseti i famiglie co 5 figli. Il umero di modalità di X è M = 6, tate quati soo i valori che essa può assumere, v k = 0, 1,..., 5. Le iformazioi otteute dal campioe osservato possoo essere sitetizzate ella seguete tabella di frequeza: Tabella 2.1 Modalità Freq. ass. Freq. ass. Freq. rel. Freq. rel. cumulata cumulata v k k F k p k f k 0 5 5 0.10 0.10 1 13 18 0.26 0.36 2 14 32 0.28 0.64 3 12 44 0.24 0.88 4 5 49 0.10 0.98 5 1 50 0.02 1.00 Esempio 2.2 Le segueti osservazioi rappresetao i tempi (i miuti) dei primi = 30 corridori maschi i ua maratoa: 129 130 130 133 134 135 136 136 138 138 138 141 141 141 142 142 142 142 143 143 143 143 143 144 144 145 145 145 145 145 La variabile di iteresse è il tempo misurato i miuti. La coicideza di alcui valori dipede dagli arrotodameti fatti. Suppoiamo iizialmete che il umero di modalità sia M = 12, tate quati soo i valori che essa assume. Le iformazioi otteute dal campioe osservato possoo essere sitetizzate ella seguete tabella di frequeza: 8

Tabella 2.2 Modalità Freq. ass. Freq. ass. Freq. rel. Freq. rel. cumulata cumulata v k k F k p k f k 129 1 1 0.033 0.033 130 2 3 0.067 0.100 133 1 4 0.033 0.133 134 1 5 0.033 0.166 135 1 6 0.033 0.199 136 2 8 0.067 0.266 138 3 11 0.100 0.366 141 3 14 0.100 0.466 142 4 18 0.133 0.599 143 5 23 0.167 0.766 144 2 25 0.067 0.833 145 5 30 0.167 1.00 La tabella di frequeza otteuta o sitetizza i modo ottimale i dati raccolti poichè ci soo più modalità a cui corrispode u solo dato. È più opportuo raggruppare i dati i classi. Osserviamo che x mi = 129 e x max = 145. Allora possiamo cosiderare l itervallo [127.5, 145.5] e suddividerlo i M = 6 classi di ampiezza 145.5 127.5 J k = = 18 = 3, otteedo la seguete tabella di frequeza: 6 6 Tabella 2.3 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [127.5, 130.5) 129 3 3 0.1000 0.100 [130.5, 133.5) 132 1 4 0.0333 0.133 [133.5, 136.5) 135 4 8 0.1333 0.266 [136.5, 139.5) 138 3 11 0.1000 0.366 [139.5, 142.5) 141 7 18 0.2333 0.600 [142.5, 145.5) 144 12 30 0.4000 1.000 Esempio 2.3: Suppoiamo di aver raccolto le segueti = 100 misure di ua variabile cotiua X: 0.30 1.03 1.08 1.22 1.46 1.62 2.01 2.17 2.27 2.31 2.33 2.41 2.49 2.49 2.57 2.58 2.59 2.63 2.75 2.75 2.84 2.93 2.95 3.08 3.09 3.23 3.27 3.27 3.28 3.37 9

3.39 3.42 3.47 3.49 3.56 3.60 3.78 3.78 3.79 3.87 3.91 3.91 3.95 3.95 3.96 4.02 4.11 4.12 4.12 4.22 4.31 4.35 4.58 4.69 4.76 4.89 5.12 5.18 5.20 5.34 5.34 5.37 5.40 5.46 5.54 5.62 5.64 5.64 5.68 5.71 5.73 5.94 6.10 6.19 6.24 6.28 6.31 6.33 6.35 6.40 6.44 6.44 6.55 6.56 6.63 6.68 6.73 6.75 6.89 6.99 7.01 7.08 7.11 7.15 7.26 7.44 7.47 7.93 8.21 8.44 Si può pesare, ad esempio, a misure (i ua opportua uità di misura) relative ad ua dimesioe fisica di u gruppo di isetti oppure a misure della massa delle particelle elemetari preseti i u determiato esperimeto. Per comodità, i dati soo stati ordiati i seso crescete e la preseza di misure ripetute è dovuta agli arrotodameti effettuati. I questo caso x mi = 0.30 e x max = 8.44. Per poter effettuare ua migliore suddivisioe i classi, cosideriamo l itervallo [0, 10]. Abbiamo scelto due differeti raggruppameti dei dati i classi: il primo i M = 5 classi di ampiezza J k = 2 e il secodo i M = 20 classi di ampiezza J k = 0.5. I risultati soo riportati elle Tabelle 2.4 e 2.5, rispettivamete. Tabella 2.4 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [0.0, 2.0) 1.0 6 6 0.06 0.06 [2.0, 4.0) 3.0 39 45 0.39 0.45 [4.0, 6.0) 5.0 27 72 0.27 0.72 [6.0, 8.0) 7.0 26 98 0.26 0.98 [8.0, 10.0) 9.0 2 100 0.02 1.00 Per rappresetare graficamete la distribuzioe delle frequeze di u campioe di dati si usao, tra gli altri, due tipi di grafici. I tutti i casi, sull asse delle ascisse soo idicati i valori della variabile i studio, metre sull asse delle ordiate vi è ivece la frequeza di ciascu valore. U diagramma a barre è u grafico a barre usato per osservazioi di variabili qualitative o quatitative discrete, che mostra le frequeze assolute o relative mediate l altezza dei rettagoli. I Figura 2.1 soo riportati i diagrammi a barre per la Tabella 2.1. Come si può otare i due diagrammi soo idetici poichè le frequeze assolute e quelle relative soo tra loro proporzioali. 10

Tabella 2.5 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [0.0, 0.5) 0.25 1 1 0.01 0.01 [0.5, 1.0) 0.75 0 1 0.00 0.01 [1.0, 1.5) 1.25 4 5 0.04 0.05 [1.5, 2.0) 1.75 1 6 0.01 0.06 [2.0, 2.5) 2.25 8 14 0.08 0.14 [2.5, 3.0) 2.75 9 23 0.09 0.23 [3.0, 3.5) 3.25 11 34 0.11 0.34 [3.5, 4.0) 3.75 11 45 0.11 0.45 [4.0, 4.5) 4.25 7 52 0.07 0.52 [4.5, 5.0) 4.75 4 56 0.04 0.56 [5.0, 5.5) 5.25 8 64 0.08 0.64 [5.5, 6.0) 5.75 8 72 0.08 0.72 [6.0, 6.5) 6.25 10 82 0.10 0.82 [6.5, 7.0) 6.75 8 90 0.08 0.90 [7.0, 7.5) 7.25 7 97 0.07 0.97 [7.5, 8.0) 7.75 1 98 0.01 0.98 [8.0, 8.5) 8.25 2 100 0.02 1.00 [8.5, 9.0) 8.75 0 100 0.00 1.00 [9.0, 9.5) 9.25 0 100 0.00 1.00 [9.5, 10.0) 9.75 0 100 0.00 1.00 12 0.25 Freq. assolute 8 4 Freq. relative 0.20 0.15 0.10 0.05 0 0 1 2 3 4 5 0.00 0 1 2 3 4 5 Figura 2.1: Diagramma a barre dei dati i Tabella 2.1 11

U istogramma delle frequeze relative è u grafico utilizzato per dati di variabli quatitative raggruppati i classi. È costruito disegado u rettagolo per ciascua classe, la cui base corrispode all itervallo che defiisce la classe (ha quidi ampiezza pari all ampiezza della classe), co area uguale alla frequeza relativa della classe. I rettagoli soo adiaceti perchè le classi soo adiaceti. Ioltre l altezza di ciascu rettagolo è data da h k (x) = p k J k, per ogix J k, k = 1,..., M. (9) Si oti che se le classi soo tutte della stessa ampiezza, l istogramma delle frequeze relative è proporzioale all istogramma delle frequeze assolute. I questo caso, è del tutto equivalete disegare l uo o l altro istogramma. Quidi, u istogramma è diverso da u diagramma a barre perchè l istogramma mostra le frequeze relative o assolute mediate l area dei rettagoli e o sempre tramite la loro altezza (questo è vero solo quado la base dei rettagoli è di ampiezza pari a 1). Gli istogrammi delle frequeze relative otteute i Tabella 2.4 ed i Tabella 2.5 soo rappresetati i Figura 2.2. 0.20 0.20 0.15 0.15 0.10 0.10 0.05 0.05 0.00 0 2 4 6 8 10 12 0.00 0 1 2 3 4 5 6 7 8 9 10 Figura 2.2: Istogramma delle frequeze relative dei dati i Tabella 2.4 (grafico a siistra) e Tabella 2.5 (grafico a destra) Si oterà che l aspetto dei due istogrammi è diverso: quello relativo alla Tabella 2.4 è piuttosto grossolao. Su di esso è stata disegata la curva desità, che è ua regolarizzazioe dell istogramma e dà u idicazioe sulla distribuzioe teorica del campioe di dati. Tale curva preseta due massimi i corrispodeza degli itervalli [3.0, 4.0] e [5.5, 6.5], e mette i evideza ua caratteristica importate della popolazioe: idica che la popolazioe è i realtà composta della sovrapposizioe di due 12

popolazioi, l ua co valori della variabile prevaletemete compresi tra 3 e 4, e l altra co valori vicio a 6. I tal caso si dice che la distribuzioe della popolazioe è bimodale. L istogramma delle frequeze relative otteuto co classi di ampiezza 0.5 ha u aspetto più equilibrato e mostra chiaramete la distribuzioe bimodale della popolazioe. Si vede quidi come la scelta delle classi modifichi l aspetto dell istogramma. I alcui casi è preferibile raggruppare i dati i classi di ampiezze diverse. Questo è particolarmete vero quado le misure relative ad ua caratteristica presetao ua forte asimmetria a destra o a siistra cioè, ua coda di valori che si allotaao di molto dagli altri, come el seguete esempio. Esempio 2.4 Si cosiderio le segueti = 40 misure di ua variabile quatitativa X: 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 4 4 4 5 5 5 5 6 6 6 6 8 8 9 15 17 22 23 24 24 25 27 32 43 Ache i questo caso i dati soo già stati ordiati i seso crescete e alcue misure ripetute el campioe soo cosegueza degli arrotodameti effettuati. Dal campioe si deduce immediatamete che x mi = 2 e x max = 43. La scelta degli itervalli che defiiscoo le classi è i questo caso piuttosto soggettiva. Per comodità abbiamo scelto l itervallo [1.5, 43.5]. La Tabella 2.6 riporta i risultati otteuti da ua possibile suddivisioe i classi: Tabella 2.6 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [1.5, 6.5) 4 27 27 0.675 0.675 [6.5, 19.5) 13 5 32 0.125 0.800 [19.5, 27.5) 23.5 6 38 0.15 0.950 [27.5, 43.5) 35.5 2 40 0.05 1.000 L istogramma delle frequeze relative è rappresetato i Figura 2.3. Si oti che le altezze dei rettagoli soo state calcolate utilizzado la formula (9). È importate otare che el caso di classi co ampiezze diverse le aree, e o le altezze, dei rettagoli soo proporzioali alle frequeze relative. 13

0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1.5 6.5 19.5 27.5 43.5 50 Figura 2.3: Istogramma delle frequeze relative dei dati i Tabella 2.6 3 Misure di tedeza cetrale e misure di variabilità Tabelle di frequeza ed istogrammi o diagrammi a barre soo descrittori grafici del campioe di dati e o esauriscoo l aalisi statistica. Per ricavare ulteriori iformazioi dal campioe si utilizzao dei descrittori umerici o statistiche che permettoo di sitetizzare i pochi umeri le caratteristiche più rilevati dei dati. Tali descrittori soo le misure di tedeza cetrale o idici di cetralità e le misure di variabilià o idici di dispersioe. 3.1 Misure di tedeza cetrale Le misure di tedeza cetrale foriscoo u idea dei valori attoro ai quali soo prevaletemete cocetrati i dati di u campioe. Tali misure soo: moda, media e mediaa campioarie. Defiizioe 3.1.1 Sia ota la distribuzioe di frequeze di ua caratteristica X. Se X è ua variabile qualitatitiva o quatitativa discreta, si defiisce moda campioaria la modalità corrispodete alla frequeza massima. Se X è ua variabile quatitativa cotiua, la moda è la classe (o il suo valore cetrale) corrispodete al rettagolo più alto dell istogramma. Ad esempio, el diagramma a barre di Figura 2.1 la moda è 2 e ell istogramma di Figura 2.3 la moda è la classe [1.5, 6.5]. Nel caso dei dati dell Esempio 2.3 l idetificazioe della moda è u pò più delicata. I grafici i Figura 2.2 evideziao che può capitare di avere istogrammi (o ache diagrammi a barre) co più di u massimo locale. I realtà il cocetto di moda coicide piuttosto co quello di massimo locale che co quello di massimo assoluto. Ne cosegue che la distribuzioe di frequeze di u campioe di dati può avere più di ua moda e che, comuque, la moda dipede dalla scelta delle classi. Suppoiamo sia oto u campioe (x 1, x 2,..., x ) di dati relativi ad ua variabile X. 14

Defiizioe 3.1.2 Si dice media campioaria di (x 1, x 2,..., x ) il umero reale x defiito da x = x 1 + x 2 + + x = 1 x i OSSERVAZIONE: La media campioaria è la media aritmetica degli dati. A differeza della moda, essa è uica per u dato campioe di dati ed è la misura più usata per calcolare il cetro di ua distribuzioe. Purtroppo la media è molto sesibile ai valori estremi (per redersee coto si calcoli la media di (2,2,2,8)) e ciò spesso rappreseta u limite per il suo uso. Naturalmete valori estremi i u campioe potrebbero o essere misure corrette della variabile i studio (outlier), ma ua distribuzioe asimmetrica (co ua luga coda a siistra o a destra) della variabile spigerà il valore della media i direzioe della coda più luga. Di cosegueza, la media o è ua misura robusta del valore cetrale di ua distribuzioe. Esempio 3.1.1 i riferimeto ai dati dell Esempio 2.2 si ricava x = 139.87, metre per i dati dell Esempio 2.4 si ottiee x = 9.225. Se il campioe di dati è oto solo tramite ua tabella di frequeza, vale il seguete Teorema 3.1.1 Sia X ua variabile quatitativa discreta co modalità v 1, v 2,..., v M e siao p 1, p 2,..., p M le corrispodeti frequeze relative. Allora x = M p k v k. (10) k=1 Dimostrazioe: Basta osservare che da (3) k = p k è il umero dei dati che assume il valore v k, e che quidi x = 1 x i = 1v 1 + + M v M = p 1v 1 + + p M v M = M p k v k k=1 come volevasi dimostrare. Dal suddetto Teorema si può otare come la media campioaria o sia altro che ua media pesata dei valori assuti dai dati. Ogi valore usa come peso la sua frequeza relativa. Se i dati hao tutti valori distiti allora la media campioaria è proprio la media aritmetica. Per questo motivo la media campioaria è ua misura del baricetro di ua distribuzioe. Esempio 3.1.2 Applicado il Teorema 3.1.1 alla Tabella 2.1 si ricava x = 2.04. Nel caso di variabili quatitative cotiue, quado i dati soo raggruppati i classi, il Teorema 3.1.1 o è applicabile. I questi casi o si potrebbe calcolare la media campioaria. Però si può calcolare u valore approssimato idetificado tutti valori x i del campioe che cadoo ella classe J k co il valore cetrale della classe, c k. Si ottiee così ua media per dati raggruppati: x f = M p k c k, (11) k=1 15

dove p k è la frequeza relativa di J k. Si osservi che i geerale x x f ; solitamete però si idetificao poichè la loro differeza è poco sigificativa. Esempio 3.1.3 Applicado la formula della media per dati raggruppati all Esempio 2.2, tramite la Tabella 2.3, si ottiee approssimativamete x f = 139.59, metre per i dati dell Esempio 2.4, utilizzado la Tabella 2.6, si ottiee approssimativamete x f = 9.625. I etrambi i casi, le medie per dati raggruppati differiscoo di molto poco dalle corrispodeti medie campioarie calcolate ell Esempio 3.1.1. Calcolare la media campioaria per i dati dell Esempio 2.3 e cofrotarla co la media per dati raggruppati calcolata utilizzado la Tabella 2.5. La media campioaria gode delle segueti due proprietà. Teorema 3.1.2 Assegati due umeri reali a, b e costruito il uovo campioe di dati (y 1, y 2,..., y ), dove y i = ax i + b, i = 1,...,, si ha Dimostrazioe: Si ha ifatti ( ȳ = 1 y i = 1 1 (ax i + b) = a come volevasi dimostrare. ȳ = a x + b. (12) ) x i + 1 b = a x + b, Il Teorema appea euciato mostra la proprietà di liearità della media campioaria, i quato ci dice che la media campioaria del uovo isieme di dati otteuto come combiazioe lieare del campioe assegato, è legata alla media x dalla stessa relazioe lieare. La suddetta proprietà è utile quado si voglioo modificare i dati iiziali tramite trasformazioi lieari per rederli più maeggevoli per il calcolo. I dati così trasformati soo detti dati codificati. Esempio 3.1.4 Cosideriamo il campioe (x 1, x 2,..., x 10 ) di misure della temperatura corporea i gradi Fahreheit riportato ella tabella dell Esempio 1.4. La media campioaria è x = 97.772 o F. Se volessimo cooscere la media campioaria delle misure della temperatura corporea i o C, dovremmo prima trasformare queste misure da gradi Fahreheit a gradi Cetigradi tramite la seguete relazioe: y i = 100 180 (x i 32), i = 1,..., 10, otteedo le temperature i o C riportate i tabella. La media campioaria è quidi ȳ = 36.54 o C. Questo procedimeto è piuttosto lugo. Se ivece usiamo la formula (12), si ottiee velocemete ȳ = 100 180 (97.772 32) = 36.54o C. Teorema 3.1.3 Sia assegato u altro campioe (y 1, y 2,..., y m ) di dati relativi alla variabile X e si cosideri il campioe (z 1, z 2,..., z k ) = (x 1,..., x, y 1,..., y m ), di dimesioe k = + m, otteuto uificado i primi due. Allora z = x + mȳ k 16 = k x + m k ȳ.

Dimostrazioe: Applicado la defiizioe di media campioaria ( z = 1 k ) z i = 1 m x + mȳ x i + y i =, k k k come volevasi dimostrare. Il suddetto Teorema esprime la proprietà che la media di campioi combiati è la media pesata delle medie dei sigoli campioi : i questo caso i pesi rispettivi soo k e m k. Defiizioe 3.1.3 Si dice mediaa campioaria quel umero reale, che deoteremo co x M, che divide il campioe di dati i due parti uguali, cioè tale che il umero di osservazioi el campioe soo per metà più piccole e per metà più gradi di esso. Per calcolare la mediaa si procede el seguete modo: 1. si determia la statistica ordiale (x (1), x (2),..., x () ); 2. se la dimesioe del campioe è dispari, la mediaa è : x M = x (k), dove k = + 1 è u itero, cioè x M è il valore itermedio el campioe; 2 3. se è pari, + 1 = r + 1 2 2, dove r = è u itero. I tal caso la mediaa è : 2 x M = x (r) + x (r+1), cioè x M è la media aritmetica dei due valori itermedi el 2 campioe. Esempio 3.1.5 Per i dati dell Esempio 2.2 si ricava x M = 142 che differisce di poco da x = 139.87, calcolato ell Esempio 3.1.1, metre per i dati dell Esempio 2.4 si ha x M = 5 che differisce di molto da x = 9, 225. Dall Esempio 3.1.5 si deduce che la mediaa è più robusta della media poichè, a differeza della media, essa o è calcolata utilizzado i valori delle osservazioi e, quidi, o è ifluezata da valori estremi preseti el campioe di dati. 3.2 Misure di variabilità Le misure di variabilità foriscoo iformazioi su come i dati siao cocetrati o, viceversa, dispersi attoro ai valori cetrali calcolati el paragrafo precedete. Tali misure soo: variaza campioaria, deviazioe stadard campioaria, coefficiete di variazioe. Si osservi che, assegato u campioe di dati (x 1, x 2,..., x ) relativo ad ua variabile X, ua prima misura di dispersioe è otteuta calcolado il campo di variazioe (o rage) del campioe, così defiito R = x max x mi, 17

dove x mi e x max soo rispettivamete la prima e l ultima osservazioe ella statistica ordiale. Questo umero però idetifica solo i limiti esteri della distribuzioe dei dati, ma o dà iformazioi su che cosa succeda etro questi limti. Il campo di variazioe è ioltre iattedibile poichè è molto sesibile ai valori estremi che tedoo a variare da campioe a campioe. Poichè delle tre misure di tedeza cetrale presetate el paragrafo precedete la più importate è la media campioaria, è ecessario avere ua misura di dispersioe rispetto alla media. La misura di dispersioe più aturale per u campioe sarebbe la media aritmetica delle deviazioi, cioè delle distaze (x i x) dei dati da x: 1 (x i x). Purtroppo questa misura è sempre uguale a zero poichè (x i x) = x x = 0, essedo x il baricetro di ua distribuzioe. U modo per risolvere questo problema è quello di cosiderare ella formula precedete il quadrato delle deviazioi, (x i x) 2. Si arriva così alla seguete defiizioe: Defiizioe 3.2.1 Si chiama variaza campioaria e si deota co s 2 X la quatità s 2 X = 1 (x i x) 2. La deviazioe stadard (o scarto quadratico medio) è la radice quadrata della variaza campioaria: s X = 1 (x i x) 2. OSSERVAZIONE: Si oti che el calcolare la media aritmetica delle deviazioi al quadrato abbiamo diviso la loro somma per aziché per. La ragioe è che la somma (x i x) = 0, cosicché le prime deviazioi determiao quella restate. Soltato delle deviazioi al quadrato variao liberamete e si calcola la media dividedo il totale per. La variaza campioaria è sempre u umero s 2 X 0. I particolare, gradi valori di s 2 X idicao che ci soo delle osservazioi x i ache molto lotae da x, metre piccoli valori di s 2 X idicao che le osservazioi soo cocetrate attoro a x. Il caso s2 X = 0 si verifica se e solo se tutte le osservazioi hao valore uguale a x. Come la media x, ache s 2 X o è ua misura di dispersioe robusta; ua forte asimmetria della distribuzioe della variabile X o pochi outlier el campioe possoo far aumetare s 2 X di molto. La deviazioe stadard s X è espressa i termii della stessa uità di misura delle osservazioi iiziali. Questo é u motivo per preferire s X rispetto a s 2 X, che ivece è espressa i termii di uità al quadrato. La seguete formula è usata spesso per velocizzare il calcolo mauale della variaza campioaria. 18

Teorema 3.2.1 Sia assegato u campioe di dati (x 1, x 2,..., x ) associato ad ua variabile X co media x, allora ( ) s 2 X = 1 x 2 i x 2 (13) Dimostrazioe: Ifatti si ha s 2 X = 1 = 1 = 1 (x i x) 2 = 1 (x 2 i 2x i x + x 2 ) ( ) x 2 i 2 x x i + x 2 ( ) x 2 i x 2 come volevasi dimostrare. ( ) = 1 x 2 i 2 x 2 + x 2 Esempio 3.2.1 Riprededo i dati dell Esempio 2.2 si ricava s 2 X = 23.02 mi2 e s X = 4.8 mi. Dai dati dell Esempio 2.4 si ottiee s 2 X = 104.79 e s X = 10.24. Se il campioe di dati è oto solo tramite ua tabella di frequeza, vale il seguete Teorema 3.2.2 Sia X ua variabile quatitativa discreta co modalità v 1, v 2,..., v M e siao p 1, p 2,..., p M le corrispodeti frequeze relative. Allora ( s 2 X = M p k (v k x) 2 = M ) p k vk 2 x 2, (14) k=1 dove x é calcolata tramite la formula (10). Dimostrazioe: Si procede i modo aalogo alla dimostrazioe del Teorema 3.1.1. Ifatti applicado la (3) e la (4) si ottiee ( s 2 X = 1 ) (x i x) 2 = 1 x 2 i 2 x x i + x 2 = 1 = = k=1 k=1 ( M ) M k vk 2 2 x k v k + x 2 k=1 k=1 ( M M p k vk 2 2 x p k v k + x 2 k=1 M p k (vk 2 2 xv k + x 2 ) = k=1 M k=1 p k ) M p k (v k x) 2. La secoda uguagliaza cosegue immediatamete da (13), applicado la (3). Esempio 3.2.2 Applicado il Teorema 3.2.2 alla Tabella 2.1 si ricava s 2 X = 1.51 e s X = 1.23. 19 k=1

Nel caso di variabili quatitative cotiue, quado i dati soo raggruppati i classi, il Teorema 3.2.2 o è applicabile. Ache per la variaza, così come per la media, si può calcolare u valore approssimato, otteedo così ua variaza per dati raggruppati: ( M M ) s 2 f = k=1 p k (c k x f ) 2 = k=1 p k c 2 k x 2 f, (15) dove c k é il valore cetrale della classe J k e x f é la media per dati raggruppati calcolata tramite la formula (11). Esempio 3.2.3 Applicado la formula (15) alla Tabella 2.3 si ottiee approssimativamete s 2 f = 26.25 mi2 e s f = 5.12 mi, metre utilizzado la Tabella 2.6, si ottiee approssimativamete s 2 f = 87.31 e s f = 9.34. Calcolare la variaza campioaria per i dati dell Esempio 2.3 e cofrotarla co la variaza per dati raggruppati calcolata utilizzado la Tabella 2.5. La variaza campioaria gode della seguete proprietà. Teorema 3.2.3 Assegati due umeri reali a, b e costruito il uovo campioe di dati (y 1, y 2,..., y ) relativo ad ua variabile Y, dove y i = ax i + b, i = 1,...,, si ha s 2 Y = a 2 s 2 X. Dimostrazioe: Dalle defiizioi e dal Teorema 3.1.2 si ha s 2 Y = 1 (y i ȳ) 2 = 1 (ax i + b a x b) 2 = a2 come volevasi dimostrare. (x i x) 2 = a 2 s 2 X, Il Teorema appea euciato mostra che, a differeza della media campioaria, la variaza campioaria o gode della proprietà di liearità. I ogi caso, la suddetta proprietà è utile el caso di dati codificati perchè permette di calcolare la variaza del campioe dei dati trasformati direttamete dalla variaza del campioe iiziale. Defiizioe 3.2.2 Si dice che (x 1, x 2,..., x ) è u campioe stadardizzato se x = 0 e s 2 X = 1. Teorema 3.2.4 Assegato il campioe (x 1, x 2,..., x ) co media x e variaza s 2 X, il campioe (y 1, y 2,..., y ) così defiito é stadardizzato. y i = x i x s X, i = 1,...,, Dimostrazioe: Ifatti dai Teoremi 3.1.2 e 3.2.3 co a = 1 s X ȳ = x s X x s X = 0, s 2 Y = s2 X s 2 X = 1, e b = x s X si ha 20

come volevasi dimostrare. Le misure di dispersioe trattate fio ad ora si chiamao misure di dispersioe assoluta poichè soo calcolate direttamete dai dati e hao le uità di misura origiali o quelle uità elevate al quadrato. Quado si vuole cofrotare la variabilità di due campioi di dati tramite le corrispettive deviazioi stadard, si possoo avere risultati igaevoli, o perchè cambia l uità di misura, o perchè, pur essedo l uità di misura la stessa, ua deviazioe stadard può essere più grade dell altra seza che effettivamete il campioe corrispodete preseti ua maggiore variabilità. È allora più opportuo usare ua misura di dispersioe relativa, azichè ua assoluta come la deviazioe stadard. Defiizioe 3.2.3 Sia (x 1, x 2,..., x ) u campioe di dati relativo ad ua variabile X, co media campioaria x e deviazioe stadard s X. Si chiama coefficiete di variazioe la quatità defiita da etrambe le equazioi e CV = s X x, (16) CV = s X 100. (17) x OSSERVAZIONE: L equazioe (16) esprime la misura di dispersioe assoluta s X come ua proporzioe della sua media e l equazioe (17), che è più comue, come ua percetuale della sua media. Per questa ragioe il coefficiete di variazioe è detto misura di dispersioe relativa. Poichè il umeratore e il deomiatore di questo rapporto hao la stessa uità di misura, il coefficiete di variazioe è u umero puro, cioè è svicolato da ogi uità di misura, ed è quidi u idice diretto della variabilità. Esso cosete di dare u giudizio sulla gradezza della deviazioe stadard di u campioe idipedetemete dalla scala di misura co cui essa è stata misurata. Questo idice ha sigificato solo se calcolato per variabili espresse i scale di misura per rapporti. Esempio 3.2.4 si sta studiado la variazioe di peso i ragazzi di età 11 ai e i ragazzi di età 25 ai. Per u campioe di ragazzi di età 11 si è otteuto x = 36kg e s X = 4.5kg, metre per u campioe di ragazzi di età 25 si è otteuto ȳ = 66kg e s Y = 4.5kg. Apparetemete, cofrotado le deviazioi stadard, sembra che la variabilità ei due gruppi sia la stessa, ma i due coefficieti di variazioe CV X = 4.5 36 100 = 12.5 CV Y = 4.5 100 = 6.8, 66 idicao che c è ua maggiore variabilità el peso dei ragazzi di età 11. Esempio 3.2.5 sia A = (0.5, 0.8, 1.1, 1.5, 1.2, 0.9) u campioe relativo ad ua variabile X e B = (500, 520, 515, 520, 523, 508) u campioe relativo ad ua variabile Y. Per il campioe A si ottiee x = 1.00 e s X = 0.3162 e per il campioe B si ottiee ȳ = 514.33 e s Y = 8.01. Le osservazioi ei due campioi soo espresse i scale di misura molto diverse. Cofrotado le due deviazioi stadard, sembra che la variabiltà i B sia molto maggiore della variabilità i A, ma il cofroto dei coefficieti di variazioe CV X = 0.3162 1.00 100 = 31.62 CV Y = 8.01 100 = 1.56, 514.33 dimostra che i realtà la variabilità è molto maggiore el campioe A. 21

3.3 Quatili di u campioe e box plot Come già osservato i precedeza, quado la distribuzioe della variabile i studio preseta ua forte asimmetria a destra o a siistra, la media campioaria e, quidi, la variaza campioaria o la deviazioe stadard possoo o essere i migliori descrittori rispettivamete del valore cetrale della distribuzioe e della dispersioe rispetto ad esso. Si preferisce, i questo caso, utilizzare misure alterative. Defiizioe 3.3.1 Sia 0 < α < 1. Si chiama quatile di ordie α di u campioe (x 1, x 2,..., x ), quel umero reale, che deoteremo co q α, che è a destra di ua frazioe α di dati ella statistica ordiale (x (1), x (2),..., x () ). Per esempio, se α = 1 3 allora 1 3 dei dati el campioe ordiato è a siistra di q 1/3, se α = 1 4 allora 1 4 dei dati è a siistra di q 1/4. Dalla defiizioe di q α cosegue che #{x (j) q α } α (o deve superare ( + 1)α), #{x (j) > q α } (1 α). Geeralmete si cosiderao tre tipi di quatili: quartili, decili e percetili. Ci soo tre quartili: Q 1 = q 1/4, Q 2 = q 1/2, Q 3 = q 3/4. Q 1 è detto primo quartile, Q 2 è detto secodo quartile e Q 3 è detto terzo quartile. Si oti che Q 2 = x M, cioè il secodo quartile è la mediaa campioaria. I tre quartili dividoo il campioe di dati i quattro parti uguali. Ci soo ove decili: D 1 = q 1/10, D 2 = q 2/10,... D 9 = q 9/10. D 1 è detto primo decile, D 2 è detto secodo decile e così via fio al oo decile D 9. I ove decili dividoo il campioe di dati i dieci parti uguali. Ifie ci soo 99 percetili: P 1 = q 1/100, P 2 = q 2/100,... P 99 = q 99/100. P 1 è detto primo percetile, P 2 è detto secodo percetile e così via fio al ovataovesimo percetile P 99. I ovataove percetili dividoo il campioe di dati i 100 parti uguali. OSSERVAZIONE: Q 1 corrispode al 25 o percetile, Q 2 corrispode al 50 o percetile e Q 3 corrispode al 75 o percetile, metre D 1 corrispode al 10 o percetile, D 2 corrispode al 20 o percetile e così via D 9 corrispode al 90 o percetile. Per calcolare i quatili di u campioe si segue lo stesso procedimeto usato per calcolare la mediaa: assegato u campioe di dati (x 1, x 2,..., x ) e fissato 0 < α < 1, 1. si determia la statistica ordiale (x (1), x (2),..., x () ); 2. se ( + 1)α è u itero, il quatile di ordie α è : q α = x (k), dove k = ( + 1)α; 22

3. se ( + 1)α o è u itero, si avrà ( + 1)α = r + a b, dove r è u itero e a b è ua frazioe. I tal caso il quatile di ordie α è : q α = x (r) + x (r+1). 2 Esempio 3.3.1 Cosideriamo il seguete campioe di = 15 dati già ordiati i seso crescete: 7 7 8 14 14 14 19 25 26 27 31 39 40 45 109 Vogliamo determiare il primo, secodo e terzo quartile. Posto α = 1 4, si ottiee ( + 1)α = 16 4 = 4 e quidi Q 1 = x (4) = 14. Posto, ivece, α = 1 2, si ottiee ( + 1)α = 16 2 = 8 e quidi Q 2 = x M = x (8) = 25. Se si poe α = 3 4, si ottiee ( + 1)α = 48 4 = 12 e quidi Q 3 = x (12) = 39. Esempio 3.3.2 Cosideriamo il seguete campioe di = 16 dati già ordiati i seso crescete: 4 5 5 7 10 12 20 20 24 26 27 28 32 34 41 43 Vogliamo determiare il primo, secodo e terzo quartile. Posto α = 1, si ottiee ( + 1)α = 17 = 4 + 1 e quidi 4 4 4 Se α = 1 2, si ottiee ( + 1)α = 17 2 Q 1 = x (4) + x (5) 2 = 7 + 10 2 = 8 + 1 2 e quidi = 8.5. Q 2 = x M = x (8) + x (9) 2 Ifie, se α = 3 4, si ottiee ( + 1)α = 51 4 Q 3 = x (12) + x (13) 2 = 20 + 24 2 = 12 + 3 4 e quidi = 28 + 32 2 = 22. = 30. OSSERVAZIONE: Da etrambi gli esempi si deduce che Q 1 è la mediaa delle osservazioi a siistra di x M, metre Q 3 è la mediaa delle osservazioi a destra di x M. Per otteere u rapido ma completo sommario del cetro e della dispersioe della distribuzioe di ua variabile X sulla base di u campioe di osservazioi (x 1, x 2,..., x ), possiamo combiare isieme i segueti cique umeri: x mi Q 1 x M Q 3 x max I sommari a cique umeri degli Esempi 3.3.1 e 3.3.2 soo: e 7 14 25 39 109 4 8.5 22 30 43 Questi cique umeri possoo essere rappresetati su u grafico detto boxplot (grafico a scatola). Esso è composto da 23

u rettagolo cetrale o scatola (box), i cui lati iferiore e superiore soo rispettivamete Q 1 e Q 3 ; ua liea orizzotale ella scatola i corrispodeza della mediaa x M ; due liee verticali (baffi o whiskers) che partoo dai lati iferiore e superiore della scatola e termiao co due segmeti orizzotali. OSSERVAZIONE: L altezza della scatola è l ampiezza dell itervallo [Q 1, Q 3 ], cioè è il umero Q 3 Q 1 detto differeza iterquartile (I.Q. rage). Nella scatola cade il 50% delle osservazioi del campioe. I baffi mostrao come i rimaeti dati si distribuiscoo rispetto alla scatola. Il baffo iferiore si alluga fio al più piccolo valore el campioe la cui distaza da Q 1 deve essere miore o uguale di ua distaza pari a 1.5 volte la differeza iterquartile, metre il baffo superiore si alluga fio al più grade valore el campioe la cui distaza da Q 3 deve essere miore o uguale di ua distaza pari a 1.5 volte la differeza iterquartile. Si dice outlier ogi valore el campioe la cui distaza dalla scatola è maggiore di 1.5 volte la differeza iterquartile. Gli outlier, quidi, soo i valori estremi el campioe e, i geerale, soo dovuti a errori di misurazioe. Questi vegoo idicati el box plot co u simbolo, tipo, o co ua liea orizzotale. Se o ci soo outlier, il baffo iferiore si alluga fio a x mi e il baffo superiore fio a x max. I questo caso, la distaza tra i due baffi corrispode al rage del campioe. La Figura 3.3.1 riporta i grafici a scatola per i dati degli Esempi 3.3.1 e 3.3.2. Cofrotado i due boxplot si può otare che il primo quartile per il primo campioe (X1) è più alto del primo quartile relativo al secodo campioe (X2). Ioltre si ota la preseza di u outlier el primo campioe, che è il valore 109. La lughezza della scatola (la differeza iterquartile) è all icirca la stessa per etrambi i gruppi. 100 80 60 40 20 0 X1 X2 Figura 3.3.1: Boxplot relativi all Esempio 3.3.1 (X1) e all Esempio 3.3.2 (X2) U grafico a scatola forisce ioltre idicazioi ache sulla simmetria o asimmetria di ua distribuzioe. I ua distribuzioe simmetrica, la mediaa taglia la scatola i due parti uguali, cioè il primo e il terzo quartile si trovao alla stessa distaza dalla mediaa. Geeralmete, i ua distibuzioe asimmetrica a destra il terzo quartile sarà più lotao dalla mediaa di quato o lo sia il primo (vedi campioe X1), 24

metre i ua distibuzioe asimmetrica a siistra sarà il primo quartile a essere più lotao dalla mediaa rispetto al terzo (vedi campioe X2). 3.4 Campioi ormali Osservado gli istogrammi dei campioi umerici foriti da esperimeti reali, si può otare come vi sia ua forma caratteristica che compare molto spesso. Questi grafici hao u solo massimo, i corrispodeza della media campioaria (che coicide co la moda e la mediaa campioaria), e decrescoo da etrambi i lati simmetricamete, secodo ua curva a campaa. U campioe di dati che rispetta questi requisiti si dice ormale. I realtà pur mateedo u aspetto simile a quello descritto, o capita mai che u istogramma reale rispetti perfettamete la simmetria e la mootoia. Si può parlare allora di campioe approssimativamete ormale, e l istogramma i Figura 3.4.1 e costituisce u esempio. Se u isieme di dati preseta u istogramma che è sesibilmete asimmetrico rispetto alla media si parla di campioe sbilaciato (o skewed) a siistra, come i Figura 3.4.2, o a destra come i Figura 3.4.3, a secoda del lato i cui ha la coda più luga. 250 200 150 100 50 0 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 Figura 3.4.1: Istogramma di u campioe approssimativamete ormale 200 180 160 140 120 100 80 60 40 20 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Figura 3.4.2: Istogramma di u campioe sbilaciato a siistra 25

300 250 200 150 100 50 0 0 1 2 3 4 5 6 7 8 9 Figura 3.4.3: Istogramma di u campioe sbilaciato a destra Dalla simmetria degli istogrammi ormali segue che u campioe approssimativamete ormale avrà media e mediaa circa uguali. Suppoiamo che x e s X siao media e deviazioe stadard di u campioe approssimativamete ormale. La seguete regola empirica specifica che percetuale dei dati ci si aspetta di trovare etro ua distaza pari a s X, 2s X, 3s X dalla media campioaria. Regola Empirica. Se u campioe di dati (x 1, x 2,..., x ) è approssimativamete ormale, ha media campioaria x e deviazioe stadard campioaria s X > 0, allora 1. circa il 68% dei dati cade ell itervallo [ x s X, x + s X ]; 2. circa il 95% dei dati cade ell itervallo [ x 2s X, x + 2s X ]; 3. circa il 99.7% dei dati cade ell itervallo [ x 3s X, x + 3s X ]; La regola empirica è illustrata ella Figura 3.4.4. 0.35 0.3 0.25 0.2 68% dei dati 0.15 0.1 0.05 95% dei dati 99.7% dei dati 3 2 1 0 1 2 3 Figura 3.4.4: Distribuzioe ormale co media 0 e deviazioe stadard 1 U isieme di dati otteuto campioado da ua popolazioe o omogeea, costituita da sottogruppi eterogeei, di solito o risulta ormale. Piuttosto, l istogramma 26

di u tale campioe preseta spesso l aspetto di ua sovrapposizioe di istogrammi ormali, e i particolare può avere due o più massimi locali. Siccome questi picchi soo aaloghi alla moda, l istogramma di u campioe di questo tipo si dice bimodale se e possiede due e multimodale i geerale. L istogramma relativo ai dati dell Esempio 2.3 rappresetato i Figura 2.2 è apputo bimodale. Per stabilire la percetuale di dati che cadoo i ciascuo degli itervalli x±ks X (k = 1, 2, 3) si usa la seguete disuguagliaza: Proposizioe 3.4.1 (Disuguagliaza di Chebyshev) Sia assegato u campioe di dati (x 1, x 2,..., x ) co media campioaria x e deviazioe stadard campioaria s X > 0. Deotiamo co D k l isieme degli idici i = 1,..., corrispodeti ai dati x i che cadoo ell itervallo [ x ks X, x + ks X ]: D k = {i = 1,..., x i x < ks X }. Allora, per ogi k 1 #D k > 1 1 k, (18) 2 dove #D k idica la cardialità dell isieme D k. OSSERVAZIONE: Poichè la disuguagliaza (18) vale per ogi valore dell itero k, i realtà la percetuale di dati che cadoo ell itervallo x ± ks X è di gra luga superiore del cofie iferiore stabilito dalla disuguagliaza di Chebyshev. Esempio 3.4.1 Cosideriamo il seguete campioe di = 28 dati già ordiati i seso crescete: 43 46 52 55 55 56 58 60 62 63 64 66 66 72 74 74 75 77 77 78 83 85 85 87 88 90 91 94 Si trova che x = 70.6 e s X = 14.4. Applicado la regola empirica, per k = 1 il campioe è approssimativamete ormale se il 68% dai dati cade ell itervallo [ x s X, x+s X ] = [56.2, 85.0]. Dai dati si deduce che: #D 1 28 = 17 28 = 0.6071, cioè il 60,71% cade ell itervallo cosiderato. Per k = 2 il campioe è approssimativamete ormale se il 95% dai dati cade ell itervallo [ x 2s X, x + 2s X ] = [41.8, 99.4]. Dai dati si deduce che: #D 2 28 = 28 28 = 1, cioè il 100% cade ell itervallo richiesto. Ne cosegue che il campioe è approssimativamete ormale. 27

3.5 Mometi e idici di forma L uso degli idici di forma è limitato alla semplice descrizioe della forma della distribuzioe e riguarda due caratteristiche: la simmetria e la curtosi. Nelle distibuzioi uimodali si ha simmetria quado media, moda e mediaa coicidoo; se la distribuzioe è bimodale possoo essere coicideti solamete la media e la mediaa. Di orma, le distribuzioi dei dati soo uimodali; pertato, cocetreremo l aalisi della simmetria su di esse. Si oti che quado media, mediaa e moda coicidoo o sempre la distribuzioe è simmetrica. Ne cosegue che la perfetta coicideza delle tre misure di tedeza cetrale è codizioe solo ecessaria, ma o sufficiete per la simmetria. Quado media, mediaa e moda o coicidoo, la distribuzioe è asimmetrica. I ua distribuzioe uimodale: a) l asimmetria destra si ha quado i valori che si allotaao maggiormete dalla media soo quelli più elevati, collocati a detra dei valori cetrali (vedi Figura 3.4.3); i questo caso la successioe delle 3 misure di tedeza cetrale da siistra a destra è: moda, mediaa, media; b) l asimmetria siistra si ha quado i valori più distati dalla media soo quelli miori, collocati a siistra dei valori cetrali (vedi Figura 3.4.2); i questo caso la successioe delle 3 misure di tedeza cetrale da siistra a destra è ivertita rispetto alla precedete: media, mediaa, moda. Gli idici di forma di ua distribuzioe attualmete più diffusi soo derivati dei mometi. Defiizioe 3.5.1 Si chiamao rispettivamete mometo di ordie h e mometo cetrato di ordie h le quatità m h = 1 x h j, µ h = 1 (x j x) h, per u campioe (x 1,..., x ), e m h = j=1 k p j x h j, µ h = j=1 j=1 k p j (x j x) h, per ua distribuzioe di frequeza suddivisa i k classi co frequeze relative p 1,..., p k. Per h = 1 risulta m 1 = x, µ 1 = 0 e per h = 2 si ha µ 2 = s 2 X. I mometi cetrali di ordie dispari (µ 3, µ 5, µ 7,... ) soo ulli per distribuzioi simmetriche. Ioltre, i distribuzioi co asimmetria destra hao valore positivo ed i quelle co asimmetria siistra hao valore egativo. Per queste caratteristiche, il mometo cetrale µ 3 è adeguato per valutare la simmetria o asimmetria di ua distribuzioe, ma esiste il limite che il suo valore dipede dalla scala di misura utilizzata. Per otteere ua misura relativa, adimesioale che permetta i cofroti tra più distribuzioi si defiisce il seguete idice di forma. 28 j=1

Defiizioe 3.5.2 Si chiama idice di asimmetria la quatità γ 1 = µ 3. s 3 X L idice di asimmetria γ 1 coserva le proprietà precedetemete descritte per µ 3. Quidi γ 1 assumerà valore prossimo a zero se i dati si distribuiscoo i maiera simmetrica attoro alla media, assumerà valore positivo i preseza di code a destra e valore egativo i preseza di code a siistra. Per valutare il grado di asimmetria è covezioe che si abbia ua distribuzioe ad asimmetria forte, quado γ 1 > 1; moderata quado 1 2 < γ 1 < 1; trascurabile quado 0 < γ 1 < 1 2. Quado si descrive la forma di istogrammi che presetao ua forma simmetrica, co il termie curtosi si itede il grado di appiattimeto rispetto all istogramma di campioi ormali. Si defiisce quidi il seguete idice di misura relativa, adimesioale. Defiizioe 3.5.3 Si chiama idice di curtosi la quatità γ 2 = µ 4. s 4 X Si osservi che l idice γ 2 può assumere solo valori positivi perchè è defiito i fuzioe di u mometo cetrale di ordie pari. I particolare se: γ 2 = 3, l istogramma coicide co quello di u campioe ormale; γ 2 > 3, l istogramma risulta più alto al cetro e agli estremi (code lughe), rispetto a quello di u campioe ormale. Ciò idica u eccesso di frequeza elle classi cetrali, ua frequeza miore elle classi itermedie ed ua preseza maggiore delle classi estreme; 0 < γ 2 < 3, l istogramma risulta più basso al cetro e agli estremi (code corte) rispetto a quello di u campioe ormale. Ciò idica ua frequeza miore delle classi cetrali e di quelle estreme e ua frequeza maggiore elle classi itermedie. Esempio 3.5.1 Si cosideri la tabella di frequeza 3.5.1 relativa all altezza (misurata i cm) di = 50 idividui: Dalla tabella di frequeza si ottiee m 1 = x = 171.44, µ 2 = s 2 X = 41.1264, s X = 6.4130, 5 5 µ 3 = p j (c j x) 3 = 25.13, µ 4 = p j (c j x) 4 = 4294.3818, j=1 j=1 29

Tabella 3.5.1 Classi Valore cetrale Freq. ass. Freq. ass. Freq. rel. Freq. rel. delle classi cumulata cumulata J k c k k F k p k f k [155, 161) 158 3 3 0.06 0.06 [161, 167) 164 8 11 0.16 0.22 [167, 173) 170 20 31 0.40 0.62 [173, 179) 176 12 43 0.24 0.86 [179, 185] 182 7 50 0.14 1.00 e quidi γ 1 = 25.13 6.4130 3 = 0.0953 = γ 1 = 0.0953 < 1 2 γ 2 = 4294.3818 41.1264 2 = 2.5390 < 3. Si può quidi cocludere che la distribuzioe del campioe preseta ua trascurabile asimmetria siistra e l istogramma delle frequeze relative risulta più appiattito rispetto a quello di u campioe ormale (vedi Figura 3.5.1). 0.06 0.04 0.02 0.00 155 161 167 173 179 185 Figura 3.5.1: Istogramma delle frequeze relative dei dati i Tabella 3.5.1 4 Medie geeralizzate A volte può risultare iteressate calcolare la media di variabili trasformate, del tipo g(x) = x h, h R (x 2, x 3, x 1 2,...). 30

Dato u campioe (x 1,..., x ), tali medie soo defiite da o, i geerale, da M h = [ 1 ] 1/h x h i, [ k ] 1/h M h = x h i p i. per dati raggruppati i k classi co frequeze relative p 1... p k. Cosideriamo alcui casi particolari. Per h = 2, si ha la media quadratica: M 2 = 1 x 2 i, cioè la radice quadrata della media campioaria delle osservazioi al quadrato. OSSERVAZIONE: Di solito si fa ricorso alla media quadratica quado alcui dati el campioe soo positivi e altri egativi e quidi si vuole elimiare l iflueza del sego. Esempio 4.1 Due piastre quadrate hao lato x 1 = 3 ed x 2 = 5. Si desidera sostituirle co due piastre uguali che mategao ivariata la superficie totale. Soluzioe: dobbiamo quidi imporre che x 2 1 + x 2 2 = 2l 2 Il lato della piastra cercata è quidi dato da: l = x 2 1 + x 2 2 2 = 34 2 = 4.123 Si oti che la media quadratica è maggiore della media campioaria: x 1 + x 2 2 Per h = 1 si ottiee la media armoica: [ 1 M 1 = x 1 i ] 1 =. 1 x i = 4. La media armoica è quidi il reciproco della media campioaria del reciproco delle osservazioi. Esempio 4.2 Ua certa proteia viee studiata mediate elettroforesi: si vuol cooscere la velocità di migrazioe media. La proteia viee fatta correre su gel i u campo elettrico per 20 mm e viee misurato il tempo ecessario a percorrere questa distaza i 5 prove diverse. I dati soo riportati ella seguete tabella: 31

Prova tempo (s) velocità (mm/s) 1 40 20/40 = 0.500 2 60 20/60 = 0.333 3 30 20/30 = 0.667 4 50 20/50 = 0.400 5 70 20/70 = 0.286 Soluzioe: si oti che il tempo totale (su tutte le 5 prove) ecessario a percorrere la distaza totale di 100 mm (20mm per 5 prove)è 250 s. La media aritmetica della velocità è: 2.186 = 0.4372 mm/s, 5 che però o è la velocità media; ifatti risulta 0.4372 mm/s 250 s = 109.3 mm, metre il totale del cammio percorso elle 5 prove è 20 mm 5 = 100 mm. La velocità media è ivece calcolata utilizzado la media armoica: M 1 = 5 1/0.5 + 1/0.33 + 1/0.66 + 1/0.4 + 1/0.29 = 5 12.49 e ifatti 0.4 mm 250 s = 100 mm. La cosa è evidete i quato la velocità media geerale è: v = spazio tempo = 100 20 0.5 + 20 0.333 + 20 0.667 + 20 0.4 + 20, 0.286 = 0.4 mm da cui dividedo umeratore e deomiatore per 20 si ottiee v = M 1. U altra media utilizzata i alcui campi particolari, come ad esempio i microbiologia o sierologia, è la media geometrica così defiita: Si può facilmete otare che M 0 = (x 1 x 2... x ) 1. log M 0 = 1 log x i, cioè il logaritmo della media geometrica è la media aritmetica del logaritmo delle osservazioi. OSSERVAZIONE: Di solito si fa ricorso alla media geometrica ei problemi i cui si voglioo calcolare idici statistici come tassi o redimeti. Esempio 4.3 Il umero di mosche preseti i ua popolazioe di laboratorio costituita origiariamete da 100 elemeti, viee rilevato i tre periodi successivi. Al primo coteggio risultao 112 mosche, al secodo 196 e al terzo 369. Qual è il tasso di icremeto medio della popolazioe? 32

Soluzioe: gli icremeti osservati ei tre periodi soo: 112 100 = 1.12, 196 112 = 1.75, 369 196 = 1.88 Allora: M 0 = (1.12 1.75 1.88) 1 3 = 1.54, da cui 100 1.54 = 154, quidi la popolazioe ha subito u icremeto medio del 54%. OSSERVAZIONE: Tra la media campioaria (M), la media armoica, la media geometrica e la media quadratica vale la seguete relazioe: M 2 > M > M 0 > M 1 Le medie itrodotte i precedeza godoo di alcue proprietà che e determiao ache l utilizzazioe. Si suppoga che le osservazioi del campioe (x 1,..., x ) soo geerate da u modello additivo del tipo: x i = a + ɛ i, i = 1,...,, dove la costate icogita a rappreseta la parte sistematica ed ɛ i l errore di misurazioe. Allora a può essere determiata impoedo che l errore che si commette sia miimo, cioè tale che la fuzioe Q(a) = (x i a) 2 assuma valore miimo. Si dimostra che il valore che miimizza Q(a) è la media campioaria M. Si può allora cocludere che se si ricorre alla media campioaria, si iterpretao implicitamete le osservazioi co u modello additivo e, viceversa, se si iterpretao le osservazioi co u modello additivo, allora la media dei dati deve essere quella campioaria. I modo aalogo si ottiee la stessa dualità tra: 1. il modello additivo dei quadrati delle osservazioi: e la media quadratica; x 2 i = a 2 + ɛ i 2. il modello additivo dei reciproci delle osservazioi: 1 x i = 1 a + ɛ i e la media armoica; 3. il modello moltiplicativo: x i = a ɛ i e la media geometrica. I quest ultimo caso si osservi che log x i = log a + log ɛ i, cioè il logaritmo delle osservazioi soddisfa il modello additivo e quidi, per quato detto prima, la media del logaritmo delle osservazioi è la media campioaria. 33

5 Statistica multivariata 5.1 Dati multidimesioali Sugli idividui di ua popolazioe possoo essere eseguite osservazioi e misure di due o più variabili co lo scopo di mettere ache i evideza gli evetuali legami statistici. Ad esempio possiamo misurare altezza e peso dei cittadii di ua determiata comuità per mettere i evideza ua relazioe tra le due misure. I questa sezioe ci limiteremo ad esamiare il caso di due variabili (X, Y ), sicchè il ostro campioe sarà del tipo (x 1, y 1 ),..., (x, y ). Se le variabili soo qualitative o quatitative discrete co modalità A 1,..., A M della variabile X e B 1,..., B R della variabile Y, ua prima maiera di rappresetare il campioe sarà quella di costruire ua tabella di cotigeza di frequeze assolute come quella riportata i Tabella 5.1. I essa si riportao: le frequeze assolute cogiute j,k, cioè il umero delle volte i cui si preseta la coppia di modalità (A j, B k ); le frequeze assolute margiali j, e,k, cioè il umero di volte i cui si presetao separatamete le modalità A j e B k ; la umerosità totale del campioe. Tabella 5.1 B 1... B R A 1 1,1... 1,R 1,.... A M M,1... M,R M,,1...,R Si oti che j, =,k = = R j,k, k=1 M j,k, j=1 R k=1,k = j = 1,..., M k = 1,..., R I maiera del tutto aaloga si costruisce ache la tabella di cotigeza delle frequeze relative cogiute e margiali M j=1 j, p j,k = j,k, p j, = j,, 34 p,k =,k

Si oti che i questo caso, a causa della ormalizzazioe (4) delle frequeze relative, ell agolo destro i basso della corrispodete tabella di cotigeza comparirà 1 ivece di. B 1... B R A 1 p 1,1... p 1,R p 1,.... A M p M,1... p M,R p M, p,1... p,r 1 Esempio 5.1. Nella Tabella 5.2 soo riportati i forma di tabella di cotigeza i dati relativi alla scelta della facoltà uiversitaria di = 10000 studeti secodo l attività lavorativa del padre. I margiali verticali i tabella idicao la composizioe sociale degli studeti uiversitari, i margiali orizzotali idicao il gradimeto delle diverse facoltà uiversitarie e ifie le frequeze cogiute idicao l evetuale relazioe che itercorre tra l estrazioe socio-professioale della famiglia degli studeti e la scelta della facoltà uiversitaria. Tabella 5.2 GIU ECO LET SCI MED FAR ALTRO Proprietario 80 36 134 99 65 28 69 511 Cotadio 6 2 15 6 4 1 5 39 Impreditore 168 74 312 137 208 53 89 1035 Professioista 470 191 806 400 876 164 124 3031 Dirigete 236 99 493 264 281 56 123 1552 Impiegato 145 52 281 133 135 30 74 850 Operaio 166 64 401 193 127 23 157 1131 Altro 321 121 651 258 309 49 142 1851 1592 639 3093 1490 2005 404 777 10000 5.2 Covariaza, correlazioe Nel caso i cui le variabili osservate (X, Y ) siao quatitative cotiue è utile rappresetare graficamete el piao cartesiao x, y i puti di coordiate (x 1, y 1 ),..., (x, y ). Il grafico che descrive come i puti si distribuiscoo el piao cartesiao è detto diagramma di dispersioe. La coformazioe della uvola di puti disegata forisce ua prima idicazioe sulla evetuale relazioe itercorrete tra le due variabili. Per misurare quatitativamete la tedeza delle due variabili X ed Y a covariare, cioè a variare isieme, u parametro molto importate e utile i biologia è il coefficiete di correlazioe lieare. Per itrodurre la formula che permette di calcolare tale parametro, sulla base di u campioe di puti delle variabili (X, Y ), dobbiamo premettere la seguete defiizioe. 35

Defiizioe 5.2.1 Dato u campioe (x 1, y 1 ),..., (x, y ) di due variabili quatitative cotiue X e Y, si chiama covariaza campioaria di X e Y la quatità s XY = 1 (x i x)(y i ȳ), (19) dove x e ȳ soo le medie campioarie di (x 1,..., x ) e di (y 1,..., y ), rispettivamete. OSSERVAZIONE: La covariaza campioaria è detta ache somma dei prodotti delle deviazioi (x i x) e (y i ȳ). Se la maggior parte dei prodotti è positiva allora s XY > 0, metre se è egativa si avrà s XY < 0. Se ivece vi è u umero quasi uguale di prodotti positivi e di prodotti egativi allora la covariaza sarà molto vicia allo zero. Si prova il seguete risultato che permette di calcolare la covariaza s XY co ua formula semplificata. Teorema 5.2.1 Sia assegato u campioe (x 1, y 1 ),..., (x, y ) co medie x e ȳ,allora [ ] s XY = 1 x i y i x ȳ. (20) Dimostrazioe: Ifatti da (19), sviluppado i prodotti si ha s XY = 1 = 1 = 1 (x i y i x i ȳ x y i + x ȳ) [ ] x i y i x ȳ x ȳ + x ȳ [ ] x i y i x ȳ. Defiizioe 5.2.2 Dato u campioe (x 1, y 1 ),..., (x, y ) di due variabili quatitative cotiue X e Y, si chiama coeffciete di correlazioe campioario di X e Y la quatità r XY = s XY s X s Y, (21) soo le deviazioi stadard di (x 1,..., x ) e di (y 1,..., y ), rispettiva- dove s X e s Y mete. OSSERVAZIONE: Il coefficiete di correlazioe è u parametro adimesioale (cioè privo di uità di misura). Può essere quidi iterpretato facilmete qualuque siao le variabili prese i esame. Si prova che 1 r XY 1. Ua correlazioe egativa sigifica che quado ua delle due variabili decresce, l altra cresce, metre ua correlazioe positiva sigifica che le due variabili crescoo o decrescoo isieme (vedi Figura 5.2.1). La correlazioe massima (r XY = 1) o miima (r XY = 1) si ha quado tutti i puti giaccioo su ua retta (vedi Figura 5.2.1): è questo il motivo per cui il coefficiete 36

r=-0.8 r=0.5 Y 0 2 4 6 Y -4-2 0 2 4 6 8 10 12 X r=-0.2 1 2 3 4 5 6 X r=1 Y 4 5 6 7 8 Y -2-1 0 1 2-1 0 1 2 3 4 5 X -4-3 -2-1 0 X Figura 5.2.1: Esempi di diagramma di dispersioe di correlazioe è detto lieare. Quidi il coefficiete di correlazioe lieare misura l itesità e la direzioe dell associazioe lieare tra due variabili quatitative umeriche. Se r XY = 0 allora si dice che le variabili X e Y soo o correlate liearmete, il che accade o quado le due variabili soo idipedeti (vedi Figura 5.2.2 a)) oppure quado la relazioe che le lega è di tipo o lieare (vedi Figura 5.2.2 b)). 5.3 Regressioe lieare La regressioe lieare è il metodo più usato per prevedere il valore di ua variabile quatitativa cotiua Y sulla base del valore assuto da u altra variabile umerica X, suppoedo che la relazioe tra le due variabili esista e sia realmete lieare. La variabile Y è detta variabile risposta ed è rappresetata sull asse delle ordiate, metre la varibile X è detta variabile esplicativa ed è rappresetata sull asse delle ascisse. Defiizioe 5.3.1 Dato u campioe (x 1, y 1 ),..., (x, y ), si chiama retta di regressioe la retta Y = a X + b che passa attraverso i puti del diagramma di dispersioe. OSSERVAZIONE: Il coefficiete b rappreseta l itersezioe della retta di regressioe co l asse delle ordiate ed è detto itercetta, metre a è la pedeza o coeffi- 37

-2-1 0 1 2 3-2 -1 0 1 2 3 a) 10 15 20 2 4 6 8 b) Figura 5.2.2: a) caso di variabili idipedeti, b) caso di variabili dipedeti ma o liearmete correlate. ciete agolare della retta ed è ua misura della variazioe della variabile Y per uità di variazioe di X. OSSERVAZIONE: I u diagramma di dispersioe possiamo tracciare molte rette: come facciamo a scegliere la migliore? I geerale sarà impossibile trovare ua retta che passi per tutti i puti della uvola, cioè trovare due umeri a e b tale che y i = a x i + b per ogi i = 1,...,. Ua buoa idea è trovare ua retta che approssimi el modo migliore l adameto della uvola di puti. Matematicamete questo si traduce el determiare quella retta che reda più piccole possibili le distaze (gli scarti verticali) tra i puti dei dati e i puti sulla retta stessa. Più specificatamete, vogliamo detemiare i coefficieti a e b della retta di regressioe che redoo miimo l errore quadratico, cioè la quatità ε(a, b) = [y i (a x i + b)] 2 (22) Il metodo sopra descritto, utilizzato per determiare la retta di regressioe lieare, è detto metodo ai miimi quadrati. Vale il seguete teorema 38

Teorema 5.3.1 Dato u campioe (x 1, y 1 ),..., (x, y ), le stime campioarie dei coefficieti a e b soo â = s X Y, ˆb = ȳ â x (23) s 2 X Dimostrazioe: Per determiare i coefficieti a e b che redoo miimo l errore quadratico calcoliamo le derivate di ε(a, b) ε a = 2 x i [y i (a x i + b)], ε b = 2 [y i (a x i + b)] e poiamole uguali a 0 otteedo il sistema di due equazioi elle icogite a e b x i [y i (a x i + b)] = 0 [y i (a x i + b)] = 0. La secoda equazioe del sistema si scrive ache come (y i a x i ) b = 0, da cui si ricava subito ˆb = 1 y i a x i = ȳ â x. (24) Sostituedo ella prima equazioe si ottiee x i [y i (a x i + b)] = = x i y i a x i y i a x 2 i (ȳ â x) x i x 2 i x ȳ + a x 2 = 0. Dividedo per e applicado i risultati dei Teoremi 3.2.1 e 5.2.1 si ha 1 [ x i y i a = 1 ] x 2 i x ȳ + a x 2 [ ] x i y i x ȳ a = s XY a s 2 X = 0, 1 [ ] x 2 i x 2 da cui si ricava immediatamete â = s XY s 2 X. (25) 39

OSSERVAZIONE: La retta di regressioe stimata ha equazioe: Ŷ = âx + ˆb = âx + ȳ â x = â(x x) + ȳ, e passa per il puto ( x, ȳ). Ioltre, utilizzado la (21) si può scrivere la covariaza ella forma s XY = r XY s X s Y, che sostituita i (25) permette di esprimere il coefficiete agolare della retta di regressioe stimata i fuzioe del coefficiete di correlazioe lieare â = r XY s Y s X. Da qui si deduce che quado 0 < r XY < 1, allora â > 0, metre quado 1 < r XY < 0, allora â < 0. Esempio 5.3.1 Nella seguete tabella si riporta la frequeza cardiaca a riposo (misurata i battiti al miuto) e gli ai complessivi di istruzioe di 10 idividui: Ai di istruzioe(x) : 12 16 13 18 19 12 18 19 12 14 Frequeza cardiaca(y ) : 73 67 74 63 73 84 60 62 76 71 Soluzioe: Calcoliamo le medie campioarie x = 153 10 = 15.3, ȳ = 703 10 = 70.3, e le variaze campioarie usado la formula (13) s 2 X = 1 82.1 (2423 2340.9) = 9 9 da cui si ricavao le deviazioi stadard campoarie = 9.122, s 2 Y = 1 488.1 (49909 49420.9) = 9 9 s X = 3.020, s Y = 7.364. Calcoliamo ioltre la covariaza campioaria applicado la formula (20) S XY = 1 (10603 10755.9) = 152.9 9 9 e quidi il coefficiete di correlazioe lieare r XY = 16.99 (3.020) (7.364) = 0.76396, = 16.99, = 54.233, da cui si deduce che esiste ua correlazioe lieare egativa tra le variabili X e Y, cioè ad ua scolarizazioe luga corrispode ua bassa frequeza cardiaca, il che equivale a dire ua maggiore attezioe alla propria salute (più attività fisica, migliore alimetazioe, ecc...). Siamo ora i grado di calcolare le stime campioarie â e ˆb dei coefficieti di regressioe e la retta di regressioe stimata (vedi Figura 5.3.1): â = 1.8625, ˆb = 98.7962 Ŷ = 1.8625 X + 98.7962 40

85 80 Frequeza cardiaca 75 70 65 60 12 14 16 18 Ai di istruzioe Figura 5.3.1: Diagramma di dispersioe e retta di regressioe per l Esempio 5.3.1 La retta di regressioe può essere utilizzata per effettuare delle previsioi su possibili valori della Y i corrispodeza di fissati valori della X. Per esempio, relativamete all Esempio 5.3.1, si vuole prevedere la frequeza cardiaca di u idiviudo sapedo che il umero di ai di istruzioe è x 0 = 15. Sostituedo il valore di x 0 ell equazioe della retta di regressioe sopra determiata, si ottiee: ŷ 0 = 1.8625 (15) + 98.7962 = 70.86 71 battiti al miuto. L errore di previsioe è l errore che si commette approssimado i valori osservati, y i, della Y co i corrispodeti valori ŷ i sulla retta di regressioe. I altre parole, vi è ua quota di variabilità della Y che o viee spiegata dalla relazioe lieare co la X. Tale errore è detto residuo e si idica co e i = y i ŷ i. Si oti che 1 e i = 1 (y i ŷ i ) = 1 y i 1 (â x i + ˆb) = ȳ â 1 x i ˆb = (ȳ â x) ˆb = ˆb ˆb = 0. Questo risultato, valido ella teoria, ella pratica o si realizza mai a causa degli errori di arrotodameto. È chiaro comuque che quato più i residui soo piccoli tato migliore è l adattameto della retta di regressioe ai dati sperimetali, cioè la maggior parte della variabilità della Y è spiegata tramite la relazioe lieare co la X. Ritorado all Esempio 5.3.1, vogliamo calcolare quato vale il residuo e 4 = y 4 ŷ 4. Dai dati risulta che (x 4, y 4 ) = (18, 63), metre dalla retta di regressioe risulta che da cui si deduce che e 4 = 63 65 = 2. ŷ 4 = 1.8625 (18) + 98.7962 = 65.27 65, 41

Esempio 5.3.2 Nella seguete tabella si riporta la dose di fertilizzate usato (misurato i g) e il peso della graella (misurato i Kg) di 10 parcelle di mais: Dose di fertilizzate (X) : 171 169 181 173 178 180 185 183 170 174 Peso della graella (Y ) : 60 57 71 66 65 78 82 78 62 70 Soluzioe: Il coefficiete di correlazioe lieare è r XY = 0.91. Esiste quidi ua correlazioe lieare positiva tra Y e X, cioè all aumetare della dose di fertilizzate aumeta il peso della graella di mais. La retta di regressioe stimata è (vedi Figura 5.3.2): Ŷ = 1.3374 X 167.0136 80 75 Peso graella 70 65 60 55 169 174 179 184 Fertilizzate Figura 5.3.2: Diagramma di dispersioe e retta di regressioe per l Esempio 5.3.2 42