Statistica Descrittiva - Lezione 1 Gianluca Bande Università degli Studi di Cagliari December 13, 2007 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 1 / 23
Statistica descrittiva La statistica descrittiva è un insieme di tecniche per descrivere e riassumere dati ricorrendo a tecniche matematiche. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 2 / 23
Statistica descrittiva La statistica descrittiva è un insieme di tecniche per descrivere e riassumere dati ricorrendo a tecniche matematiche. Gli strumenti di sintesi sono essenzialmente di tre tipi: tabelle rappresentazioni grafiche indici sintetici G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 2 / 23
Statistica descrittiva La statistica descrittiva è un insieme di tecniche per descrivere e riassumere dati ricorrendo a tecniche matematiche. Gli strumenti di sintesi sono essenzialmente di tre tipi: tabelle rappresentazioni grafiche indici sintetici Attenzione Quando sintetizziamo l informazione contenuta nei dati, ne perdiamo una parte. Gli strumenti di sintesi devono essere scelti in modo tale da: preservare, per quanto possibile, l informazione rilevante per il problema analizzato eliminare l informazione non necessaria G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 2 / 23
Unità statistiche Uno studio statistico riguarda un gruppo di individui. Gli individui possono essere persone, cellule, molecole, foglie, pietre... G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 3 / 23
Unità statistiche Uno studio statistico riguarda un gruppo di individui. Gli individui possono essere persone, cellule, molecole, foglie, pietre... Definizione Gli individui costituiscono le nostre unità statistiche di osservazione L insieme delle unità statistiche forma la popolazione G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 3 / 23
Unità statistiche Uno studio statistico riguarda un gruppo di individui. Gli individui possono essere persone, cellule, molecole, foglie, pietre... Definizione Gli individui costituiscono le nostre unità statistiche di osservazione L insieme delle unità statistiche forma la popolazione Indicheremo con N il numero di unità statistiche che costituiscono una popolazione e denoteremo le unità statistiche con: U 1,U 2,...,U N G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 3 / 23
Variabile Sulle unità statistiche vengono effettuate delle osservazioni o misurazioni. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 4 / 23
Variabile Sulle unità statistiche vengono effettuate delle osservazioni o misurazioni. Definizione Chiamiamo variabile o carattere ciò che si misura o osserva sulle unità statistiche di una popolazione G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 4 / 23
Variabile Sulle unità statistiche vengono effettuate delle osservazioni o misurazioni. Definizione Chiamiamo variabile o carattere ciò che si misura o osserva sulle unità statistiche di una popolazione Generalmente, su una popolazione possiamo fare diverse misurazioni. Se le variabili misurate sono 2 o 3 le indicheremo con le lettere X,Y,Z G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 4 / 23
Esempio Gli studenti di Scienze Naturali costituiscono una popolazione. Se misuriamo a ciascun studente il peso e l altezza si ha: studenti = unità statistiche popolazione = studenti di Scienze Naturali peso = X altezza = Y G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 5 / 23
La tabella cronologica Variabili Unità X Y Z U 1 X 1 Y 1 Z 1 U 2 X 2 Y 2 Z 3 U 3 X 3 Y 3 Z 3 U N X N Y N Z N G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 6 / 23
La tabella cronologica Variabili Unità X Y Z U 1 X 1 Y 1 Z 1 U 2 X 2 Y 2 Z 3 U 3 X 3 Y 3 Z 3 U N X N Y N Z N Variabili Unità peso altezza sesso U 1 48 156 0 U 2 45 151 0 U 3 65 160 1 U N 68 162 1 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 6 / 23
Rappresentazione di una variabile Di solito i valori di una variabile misurati su una popolazione si rappresentano come un vettore X = {X 1,X 2,...,X N } dove si è indicato con X k il valore della variabile X relativo all unità statistica U k. Questa rappresentazione non fornisce alcuna informazione sui dati. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 7 / 23
Rappresentazione non strutturata Esempio Simulazione del lancio di due dadi a sei facce dadi = (6,6,5,6,3,4,8,7,7,6,9,5,10,6,6,7,10,10,3,3,8,5,7,6,10,7,6,7,9,4,7, 2,5,11,6,6,8,6,4,7,7,9,7,7,8,10,9,5,8,6,6,7,5,5,11,4,10,7,9,9,7,4,9,5,10, 8,5,6,9,7,6,4,7,7,6,3,2,8,9,4,8,11,2,8,9,7,11,6,9,4,8,7,6,3,6,7,4,2, 6,3,4,6,3,5,4,10,6,9,9,9,3,7,6,9,9,4,6,7,7,5,11,8,10,3,10,8,8,4,4,5, 9,7,5,11,8,9,11,3,9,6,7,8,5,2,8,4,6,7,9,5,6,6,5,5,8,10,12,7,8,6,6,8,6, 3,8,5,7,3,2,8,8,9,9,8,4,5,8,7,8,5,7,10,7,8,5,7,2,10,7,3,5,5,6,8,11,7,8,7, 6,11,12,8,7,5,9,4,10,4,10,4,5,7,6,12,6,9,4,6,7,3,11,12,6,5,7,6,2,4,11,5, 4,9,7,10,8,7,8,2,7,11,3,7,12,11,6,8,5,8,10,8) G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 8 / 23
Rappresentazione non strutturata Esempio Il vettore riporta il peso di 300 trote. peso trote = (217,250,297,212,380,344,259,269,303,327,285,341,326,233,217,379,284,307,377,369,382,253,256,295, 311,342,309,409,287,341,259,392,250,296,336,239,301,235,368,264,288,269,255,254,391,311,363,251,294,287, 287,328,227,158,303,371,312,306,341,347,314,342,283,345,347,250,328,213,284,269,240,193,260,282,344,316, 405,269,355,356,253,299,395,293,283,394,291,296,277,353,287,314,322,274,340,394,236,448,258,269,358,323, 268,327,338,332,334,344,292,337,373,244,334,276,296,297,227,259,244,193,301,274,286,378,288,267,369,215, 232,350,333,240,349,320,277,311,296,360,316,265,249,270,222,380,249,291,320,249,273,251,239,254,325,345, 244,334,315,245,345,323,241,307,314,363,256,339,304,320,409,265,301,271,333,287,367,220,268,239,276,282, 288,285,317,304,313,251,363,330,271,247,279,351,340,278,332,316,291,276,225,330,317,254,244,179,263,334, 285,359,343,275,269,256,244,302,364,290,303,320,247,348,290,318,257,221,418,218,395,325,332,348,283,339, 243,351,305,234,300,399,320,310,309,320,322,331,258,384,329,277,339,271,308,270,255,303,269,315,304,337, 334,267,355,356,242,239,319,323,305,323,346,357,316,250,293,228,270,374,278,375,299,364,258,357,238,300, 298,321,202,368,371,422,212,349,306,344,303,328,339,363,264,305) G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 9 / 23
Rappresentazione cartesiana La prima rappresentazione strutturata è quella data dalla visualizzazione cartesiana dei dati. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 10 / 23
Rappresentazione cartesiana La prima rappresentazione strutturata è quella data dalla visualizzazione cartesiana dei dati. Si riporta in ascissa il numero progressivo delle unità statistiche in ordinata il valori della variabile X G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 10 / 23
Rappresentazione cartesiana La prima rappresentazione strutturata è quella data dalla visualizzazione cartesiana dei dati. Si riporta in ascissa il numero progressivo delle unità statistiche in ordinata il valori della variabile X Si posiziona poi un pallino in corrispondenza dei punti di coordinate (k,x k ),k = 1,...,N. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 10 / 23
Lancio dei due dadi 12 10 8 6 4 2 50 100 150 200 250 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 11 / 23
Peso delle trote 450 400 350 300 250 200 50 100 150 200 250 300 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 12 / 23
Frequenze assolute Si consideri un vettore X = (8,15,18,2,19,5,1,10,5,17,15,5,3,6,13, 19,13,14,10,13,13, 15,13,17,11,0,7,6,0,6) G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 13 / 23
Frequenze assolute Si consideri un vettore X = (8,15,18,2,19,5,1,10,5,17,15,5,3,6,13, 19,13,14,10,13,13, 15,13,17,11,0,7,6,0,6) La rappresentazione di tutti i dati non è sempre molto chiara. Di fatto molte volte interessa sapere se un certo valore è all interno di un dato intervallo, più che il singolo valore. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 13 / 23
Frequenze assolute Si consideri un vettore X = (8,15,18,2,19,5,1,10,5,17,15,5,3,6,13, 19,13,14,10,13,13, 15,13,17,11,0,7,6,0,6) La rappresentazione di tutti i dati non è sempre molto chiara. Di fatto molte volte interessa sapere se un certo valore è all interno di un dato intervallo, più che il singolo valore. Procediamo nel modo seguente: Per primo riordiniamo i dati del vettore X: X = (0,0,1,2,3,5,5,5,6,6,6,7,8,10,10, 11,13,13,13,13,13,14, 15,15,15,17,17,18,19,19) G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 13 / 23
Ampiezza e sotto intervalli Definizione L ampiezza di un vettore X è il numero M m = X N X 1 dove M e m sono il massimo ed il minimo valore di X rispettivamente. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 14 / 23
Ampiezza e sotto intervalli Definizione L ampiezza di un vettore X è il numero M m = X N X 1 dove M e m sono il massimo ed il minimo valore di X rispettivamente. Nell esempio l ampiezza vale 19. Adesso suddividiamo l intervallo I = [0, 19] in sotto intervalli. Scegliendo, per esempio, sotto intervalli omogenei di ampiezza 5,si ottiene: I 1 = [0,5),I 2 = [5,10),I 3 = [10,15),I 4 = [15,20) Osservazione Si osservi che per convenzione il primo estremo dei sotto intervalli è incluso mentre il secondo no, cioè appartiene al sotto intervallo successivo. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 14 / 23
Frequenze assolute e relative Per ciascun sotto intervallo calcoliamo le frequenze assolute e quelle relative definite da Definizione Le frequenze assolute, indicate con n k misurano il numero di unità statistiche con un valore della variabile X all interno dell intervallo I k. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 15 / 23
Frequenze assolute e relative Per ciascun sotto intervallo calcoliamo le frequenze assolute e quelle relative definite da Definizione Le frequenze assolute, indicate con n k misurano il numero di unità statistiche con un valore della variabile X all interno dell intervallo I k. Le frequenze relative definite da f k = n k /N, indicano la frequenza assoluta rapportata al numero totale di unità statistiche. Di solito si esprimono in percentuale. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 15 / 23
Frequenze assolute e relative Per ciascun sotto intervallo calcoliamo le frequenze assolute e quelle relative definite da Definizione Le frequenze assolute, indicate con n k misurano il numero di unità statistiche con un valore della variabile X all interno dell intervallo I k. Le frequenze relative definite da f k = n k /N, indicano la frequenza assoluta rapportata al numero totale di unità statistiche. Di solito si esprimono in percentuale. Intervalli n k f k I 1 = [0,5) 5 5/30 = 16.6% I 2 = [5,10) 8 8/30 = 26.6% I 3 = [10,15) 9 9/30 = 30.0% I 4 = [15,20) 8 8/30 = 26.6% G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 15 / 23
Istogramma Se la suddivisione dell ampiezza è omogenea l istogramma si ottiene costruendo dei rettangoli affiancati di base l estensione dei sotto intervalli scelti per il calcolo delle frequenze assolute e di altezza le corrispondenti frequenze relative. G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 16 / 23
Istogramma 30 Esempio guida 25 20 15 10 5 1 2 3 4 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 17 / 23
Istogramma del lancio dei dadi 40 30 20 10 2 3 4 5 6 7 8 9 10 11 12 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 18 / 23
Istogramma del peso delle trote 100 80 60 40 20 175 225 275 325 375 425 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 19 / 23
Istogramma a torta del lancio dei due dadi 5 6 4 3 2 12 7 11 10 8 9 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 20 / 23
Istogramma non omogeneo In certi casi la suddivisione dell ampiezza di una variabile X non è omogenea. In questo caso l istogramma a barre va costruito nel modo seguente. Si costruiscono dei rettangoli la cui base è data dai sotto intervalli mentre l altezza si ottiene imponendo che l area dei rettangoli sia pari alla frequenza relativa. Dalla formula dell area di un rettangolo segue che le altezza dei rettangoli sono date dalla formula: f k h k = lunghezza di I k G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 21 / 23
Esempio Dato il vettore X = (31,14,22,30,5,18,18,2,31,1,10,20,0,10,31,0,19,6,16,22,3, 16,19,15,23,0,28,19,4,18,8,35,29,28,6,28,23,2,11,0) dividiamo l ampiezza, pari a 35, nei seguenti sotto intervalli [0, 10), [10, 30) [30, 35) G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 22 / 23
Esempio Dato il vettore X = (31,14,22,30,5,18,18,2,31,1,10,20,0,10,31,0,19,6,16,22,3, 16,19,15,23,0,28,19,4,18,8,35,29,28,6,28,23,2,11,0) dividiamo l ampiezza, pari a 35, nei seguenti sotto intervalli [0, 10), [10, 30) [30, 35) Le frequenze assolute, relative e le altezze dei rettangoli sono Intervalli n k f k h k I 1 = [0,10) 13 13/40 = 32.5% 3.25 I 2 = [10,30) 22 22/40 = 50% 2.75 I 3 = [30,35) 5 5/40 = 12.5% 2.5 G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 22 / 23
Istogramma non omogeneo con altezza dei rettangoli pari alle frequenze relative Istogramma non omogeneo con area dei rettangoli pari alle frequenze relative G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 23 / 23