Elementi di Statistica descrittiva Parte I
Che cos è la statistica Metodo di studio di caratteri variabili, rilevabili su collettività. La statistica si occupa di caratteri (ossia aspetti osservabili) variabili (possono assumere valori diversi). Essi devono poter essere rilevati su soggetti (unità statistiche). Scopi della statistica: Sintetizzare: predisporre i dati raccolti in una forma che consenta di comprendere meglio i fenomeni. (STATISTICA DESCRITTIVA) Generalizzare: estendere con metodi di induzione i risultati ottenuti da un gruppo limitato di unità statistiche (campione) all intera collettività (universo, popolazione). (STATISTICA INFERENZIALE) 2 I caratteri possono essere: Quantitativi, quando sono espressi da un numero (spesso una misura), esempio: l età di un individuo, il numero di componenti di una famiglia, l altezza di un albero; Qualitativi, quando sono espressi mediante un giudizio o una qualità, esempio: il colore degli occhi di un individuo, la serie in cui milita una squadra di calcio (A,B,C,..). La statistica inferenziale usa i metodi del calcolo delle probabilità, che qui non viene considerato. 2
Che cos è la statistica descrittiva Insieme di tecniche usate per sintetizzare una serie di dati. Raccolta dei dati: attraverso procedure di campionamento, oppure: registrando le risposte a date sollecitazioni in un ambiente sperimentale, oppure: osservando ripetutamente un processo nel tempo, (serie storiche). Tecniche di rappresentazione: Tabulari: Si usano tabelle per sintetizzare i dati; Grafiche: Si usano grafici per sintetizzare i dati; Numeriche: Si calcolano certi valori per sintetizzare i dati. 3 La statistica descrittiva ha per scopo la sintesi di dati raccolti secondo vari criteri e in vari contesti. Per campionamento si intende il rilevare caratteri da un campione, ossia un sottoinsieme della popolazione che ci interessa. I tre tipi di tecniche rappresentative elencati sono logicamente consecutivi (prima si genera una tabella, poi si ottiene un grafico, infine si determinano dei numeri significativi), in ogni caso verranno esposti in tale sequenza. 3
Variabili aleatorie, unità statistiche e campionamento L oggetto del nostro studio è una popolazione. Variabile aleatoria X: È una caratteristica della popolazione che a noi interessa; La popolazione è costituita da unità statistiche; Campione: un sottoinsieme della popolazione. Esempio : Popolazione: studenti universitari di Milano; Variabile X: numero di film visti in un certo periodo; Campione: 40 studenti. A un gruppo di 40 studenti universitari si chiede quante volte sono stati al cinema negli ultimi due mesi. 4 In statistica i termini "aleatorio", "casuale", "stocastico" sono sinonimi e sono aggettivi che si associano ai risultati di una prova. Quando il risultato di un esperimento:. Non è prevedibile con certezza (ossia è non deterministico); 2. È esprimibile tramite un numero (ossia ci troviamo in presenza di un carattere quantitativo), allora tale risultato costituisce una variabile casuale (o variabile aleatoria o variabile stocastica - random variable). Ad esempio, il risultato del lancio di un dado a sei facce è una variabile casuale avente come possibili valori gli interi da a 6. Un altro esempio di variabile casuale è il risultato dell operazione di scegliere a caso una persona e rilevare la sua altezza (o il peso, o l età). La terminologia variabile casuale è soggetta a critiche: una variabile casuale è da considerarsi piuttosto come una funzione che fa corrispondere a degli eventi dei numeri reali. I 40 studenti dell Esempio costituiscono un campione perché a noi interessa una caratteristica una popolazione (che è costituita da tutti gli studenti universitari di Milano e che è certamente molto più numerosa di 40) e da questa popolazione estraiamo un sottoinsieme su cui effettuiamo il rilevamento. I criteri secondo cui scegliere il campione in modo tale che i risultati ottenuti siano applicabili a tutta la popolazione fanno parte della statistica inferenziale. 4
Rilevazione di una variabile aleatoria Il campione è costituito da n unità: dimensione n; (nell esempio n = 40) u, u 2,..., u n : valori di X ottenuti dal campione; (nell esempio 40 risposte: u, u 2,..., u 40 ) Una stessa risposta può venir fornita da più di uno studente, si dice che tale risposta ha una maggiore di. Esempio: il rilevamento fornisce il risultato seguente: 5 Gli indici con cui distinguiamo le unità statistiche (nell esempio gli studenti intervistati) servono solo a distinguere un unità dall altra e non hanno in genere grande importanza: nel nostro esempio u sarà lo studente intervistato per primo, u 40 lo studente intervistato per ultimo. Tale informazione non ha interesse per noi. 5
Esempio dati grezzi rilevati u0 3 u02 u03 5 40 valori rilevati. Di essi solo 7 risultano distinti u0 3 u02 u03 5 u04 4 u05 2 u06 3 u07 4 u08 9 u09 3 u0 6 u 3 u2 2 u3 4 u4 4 u5 2 u6 4 u7 3 u8 6 u9 2 u20 3 u2 5 u22 5 u23 3 u24 4 u25 6 u26 6 u27 2 u28 2 u29 3 u30 5 u3 5 u32 3 u33 4 u34 4 u35 4 u36 4 u37 4 u38 3 u39 5 u40 4 In genere: su n valori solo k sono distinti. 6 Vicino a ogni unità statistica u i è riportato il corrispondente valore rilevato (ossia la risposta ottenuta). Notiamo che:. Le risposte sono comprese fra un minimo (=) e un massimo (=9), quindi possono assumere solo 9 valori distinti; 2. Di conseguenza alcune risposte saranno date da più di un intervistato (hanno >); 3. Di questi 9 valori due non figurano mai (hanno =0). In definitiva si sono rilevate solo 7 risposte distinte. 6
Valori distinti e loro I k valori distinti osservati vengono ordinati in senso crescente (, 2,..., k ) Invece di considerare gli n valori osservati (u, u 2,..., u n ) conviene considerare i k valori distinti osservati, a ognuno di essi si associa una campionaria; Frequenza (campionaria) n i : numero di unità statistiche del campione che hanno l i-esimo valore distinto. Risulta quindi: k n; < 2 <... < k n + n 2 +... + n k = n 7 N.B.: se il carattere rilevato è qualitativo (ossia non numerico) si hanno ancora k valori distinti, ognuno con la propria associata. Si possono avere due sottocasi:. Il carattere è ordinabile (ossia esiste un ordine secondo si possono disporre i valori distinti. Esempio: il giudizio ottenuto da uno studente in una prova scritta: insufficiente, sufficiente, buono, ottimo). In questo caso l ordine sarà quello (nell esempio = insufficiente, 4 = insufficiente); 2. Il carattere non è ordinabile (Esempio: bianco, rosso, verde, blu). In questo caso l ordine sarà arbitrario. La (campionaria) è anche il numero di volte che un dato valore è stato osservato. Il caso k=n corrisponde a frequenze tutte = (ognuno fornisce una risposta diversa da tutti gli altri). 7
Aggreghiamo i valori osservati in k classi di : Tabella delle frequenze Frequenza Assoluta Frequenza Relativa Frequenza Cumulativa p =n /n, p 2 =n 2 /n,..., p k =n k /n p +p 2 +p 3 + +p k = F =p, F 2 =F +p 2, F 3 =F 2 +p 3,, F k =F k- +p k = 8 Con la tabella delle frequenze si riduce la dimensione dell elenco (k righe invece di n) e si evidenziano i valori ottenuti in un ordine crescente. Informazione perduta: l ordine con cui si è ottenuto un certo valore (non importante, come già detto). k sono i valori distinti, ordinati. 8
Frequenze del valore i-esimoi Frequenza assoluta n i : numero di elementi della classe k i = n i = Frequenza relativa p i : rapporto fra la assoluta e n, numero totale dei dati osservati (dimensione del campione) Frequenza cumulativa F i : somma delle frequenze relative dei valori i n k ni pi = p i = n F i = p j i j = i = F = = p F k 9 Questa figura riassume, relativamente ai diversi tipi di, le definizioni e le proprietà viste prima, L indice i identifica la generica unità statistica u i. 9
Tabella delle frequenze dell Esempio valori rilevati min= ma= 9 classe assoluta relativa cumulativa 0,025 0,025 2 6 0,50 0,75 3 0 0,250 0,425 4 2 0,300 0,725 5 6 0,50 0,875 6 4 0,00 0,975 7 0 0,000 0,975 8 0 0,000 0,975 9 0,025,000 TOTALE 40 0 La colonna con intestazione classe riporta i valori distinti ordinati. Il motivo della dizione classe è dovuto a uniformità di terminologia con il caso di variabile continua, come risulta meglio più avanti. Dato che il tipo di carattere che stiamo considerando (ossia la variabile aleatoria numero di spettacoli visti in due mesi ) può assumere tutti i valori interi compresi fra il minimo rilevato (=) e il massimo rilevato (=9), nella colonna dei valori distinti si riportano tutti questi valori, compresi quindi il 7 e l 8 a cui corrisponde zero. In definitiva in questo caso abbiamo: k=9, =, 9 =9. Notiamo che queste scelte sono in parte arbitrarie e potrebbero non essere adeguate, ad esempio nel caso che si volesse ripetere il campionamento utilizzando un campione diverso che potrebbe fornire risposte diverse. Una prima modifica potrebbe consistere nel porre =0 (nel nostro campione la risposta non ho visto alcuno spettacolo nei due mesi non figura, ma è del tutto possibile), inoltre conviene prevedere valori massimi maggiori di 9 che a priori non possiamo escludere. In definitiva la tabella come organizzata in figura è adeguata solo per il campione utilizzato nell esempio. L ultima riga riporta i totali a scopo di controllo. La somma delle cumulative non ha senso. 0
Frequenze percentuali dell Esempio classe assoluta relativa percentuale cumulativa cumulativa percentuale 0,025 2,50 0,025 2,50 2 6 0,50 5,00 0,75 7,50 3 0 0,250 25,00 0,425 42,50 4 2 0,300 30,00 0,725 72,50 5 6 0,50 5,00 0,875 87,50 6 4 0,00 0,00 0,975 97,50 7 0 0,000 0,00 0,975 97,50 8 0 0,000 0,00 0,975 97,50 9 0,025 2,50,000 00,00 TOTALE 40 00 Tabella delle frequenze della figura precedente, a cui sono state aggiunte le due colonne percentuale, cumulativa percentuale. La percentuale è la relativa moltiplicata per 00 e corrisponde alla assoluta di un ipotetico campione di dimensione 00. La somma delle frequenze percentuali è 00. La cumulativa percentuale è la cumulativa moltiplicata per 00. L ultima cumulativa percentuale (quella dell ultima classe) è 00.
Esempio - istogramma In un sistema cartesiano poniamo: in ascissa i valori che definiscono la classe in ordinata la Costruiamo un grafico formato da rettangoli la cui base è centrata in corrispondenza dei valori che definiscono la classe e la cui altezza rappresenta la : assoluta 4 2 0 8 6 4 2 0 Frequentazione cinema 2 3 4 5 6 7 8 9 No spettacoli visti La base di tutti i rettangoli è fissa. L area di un rettangolo è proporzionale alla 2 Oltre al tipo di istogramma illustrato esistono molte varianti, tutte basate sull idea di rappresentare il valore di una (assoluta o relativa) tramite la lunghezza di una barra. Per una visualizzazione delle opzioni più diffuse si può ad esempio ricorrere alla voce di menu [Inserisci]->[Grafico] di Ecel. 2
Variabili discrete e variabili continue La variabile X dell esempio precedente è numerica, discreta e finita, perché assume un numero finito di valori numerici interi. Una variabile continua può assumere valori reali, in genere limitati entro un intervallo finito. In questo caso i valori possibili sono infiniti. Di conseguenza ogni valore rilevato avrà in genere = e i dati distinti tendono a coincidere coi dati grezzi. Per rappresentare i dati essi vengono allora aggregati in classi di frequenze, come nell esempio che segue. 3 Stiamo considerando il caso di un carattere quantitativo il cui valore è un numero reale (ad esempio una misura fisica). In tal caso abbiamo una variabile che può assumere infiniti valori in un dato intervallo. La probabilità di estrarre in maniera casuale più di una volta lo stesso valore è trascurabile. 3
Esempio 2 dati grezzi Si sono misurate le lunghezze di un campione di 20 pezzi prodotti da una macchina: u0 7,2 u02 7,9 u03 8,0 u04 8,0 u05 8,2 u06 8,4 u07 8,5 u08 8,6 u09 8,6 u0 9,0 u 9, u2 9,2 u3 20,3 u4 20,4 u5 20,4 u6 20,4 u7 20,7 u8 20,8 u9 20,8 u20 2, La variabile è in questo caso numerica e continua perché assume valori numerici reali, di cui si riportano delle approssimazioni. 4 4
Esempio 2: tabella delle frequenze valori rilevati min= 7,2 ma= 2, I dati rilevati sono organizzati in classi di, ponendo in ciascuna classe le u i i=,,20 che assumono valori appartenenti a sottointervalli dell intervallo (7.0,2.5) di ampiezza δ=0.5 (δ può essere scelto arbitrariamente) classe No classe assoluta relativa cumulativa 7,5 0,050 0,050 2 8,0 3 0,50 0,200 3 8,5 3 0,50 0,350 4 9,0 3 0,50 0,500 5 9,5 2 0,00 0,600 6 20,0 0 0,000 0,600 7 20,5 4 0,200 0,800 8 2,0 3 0,50 0,950 9 2,5 0,050,000 TOTALE 20 5 Si considera per l intervallo chiuso [7.0,2.5] e lo si suddivide in sottointervalli ( classi ) di ampiezza costante. Tali sottointervalli sono chiusi a destra, quindi: classe = [7.0,7.5] classe 2 = (8.0,8.5] classe 3 = (8.5,9.0]... classe 9 = (2.0,2.5] Quindi ad esempio il valore 8.5 appartiene, in modo non ambiguo, alla classe 2 e non alla classe 3. Si noti che con questa suddivisione escludiamo a priori la possibilità ottenere valori minori di 7 o maggiori di 2.5, considerati valori anomali. Dato che conviene tener conto anche dei valori anomali (sempre possibili ad esempio in seguito a un errore di misura) la suddivisione precedente viene di solito modificata come segue: La classe viene ridefinita come (0,7.5] e comprenderà tutti i valori minori o uguali a 7.5. (Nel caso in esame è fisicamente impossibile ottenere valori negativi, se così non fosse si assumerebbe come classe l intervallo (-,7.5] ); Si aggiunge un ulteriore classe: classe 0 = (2.5, ) comprendente tutti i valori >2.5. 5
Esempio 2: istogramma In un sistema cartesiano, in cui poniamo in ascissa i valori che definiscono la classe e in ordinata fa o fr, si costruisce un grafico (istogramma) formato da rettangoli la cui base è l intervallo che definisce la classe e la cui altezza rappresenta la (fa o fr) classe 7 7. 5 7. 5 8 8 8. 5 8. 5 9 9 9. 5 9. 5 20 20 20. 5 20. 5 2 2 2. 5 tot fa 3 3 4 0 4 3 20 6 Questo istogramma è del tutto simile a quello dell esempio, con la differenza che qui ogni classe corrisponde a un intervallo di valori possibili. 6
Esempio 2: torta La visualizzazione dei dati è molto varia. Ad esempio si possono utilizzare grafici a torta (pie-chart): classe 7 7. 5 7. 5 8 8 8. 5 8. 5 9 fa 3 3 4 fc 5 % 20 % 35 % 55 % 20-2 35% 2-22 5% 7-8 20% 9 9. 5 60 % 9. 5 20 0 60 % 20 20. 5 20. 5 2 4 3 80 % 95 % 9-20 5% 8-9 35% 2 2. 5 00 % tot 20 L area dello spicchio è proporzionale alla 7 Esempio di grafico, di tipo diverso dal precedente, ma che riporta informazioni della stessa natura. Rispetto al precedente notiamo: Le frequenze sono relative e non assolute; Le nove classi sono state aggregate in 5 classi si ampiezza doppia, allo scopo di rendere più immediata la comprensibilità del grafico (perdendo ovviamente alcune informazioni). 7
Ogiva Si chiama ogiva la linea che rappresenta la cumulativa di una variabile numerica. Graficamente si presenta come una spezzata che unisce i punti che hanno per ascisse i valori osservati (caso discreto) o gli estremi degli intervalli (caso continuo) e per ordinate i valori della cumulativa. Per costruire l ogiva relativa all Esempio 2 si congiungono i punti: P (7.5,5), P 2 (8,20), P 3 (8.5,35), P 4 (9,55), P 5 (9.5,60), P 6 (20,60), P 7 (20.5,80), P 8 (2,95), P 9 (2.5,00). 8 Le frequenze cumulative percentuali dell Esempio 2 sono riportate sul diagramma cartesiano ( pallini ), i punti vengono poi collegati con segmenti di retta. Il tutto riporta il grafico approssimato della cumulativa percentuale in funzione della classe. Il punto iniziale ha sempre ordinata uguale alla della classe, il punto finale ha ordinata 00. 8
Si sono rilevate le cause del guasto di un automobile in un dato periodo Esempio 3 La tipologia di causa del guasto è stato attribuita ad una variabile, ottenendo: = A 2 = B 3 = A 4 = C 5 = B 6 = D X 7 = D 8 = E 9 = F 0 = A = D 2 = A 3 = A 4 = C 5 = D 6 = A A : motore B : cambio C : elettronic a D : sospension i E : benzina F : incidente La variabile è in questo caso qualitativa perché non assume valori numerici. 9 Il carattere che stiamo considerando è qualitativo e non ordinabile: la sequenza A, B, C, è arbitraria nel senso che si sarebbe potuto indicare con A qualunque dei sei tipi di guasto considerati. 9
Esempio 3: tabelle di I dati rilevati possono essere organizzati in classi di. Le classi sono determinate dalle tipologie assunte dalla variabile. Si costruisce una tabella in cui si affianca a ciascuna classe il numero di volte in cui, nel periodo osservato, si realizza la tipologia di causa: classe A B C D E F tot fa 6 2 2 3 2 6 fr 6 / 6 = 0. 375 2 / 6 = 0. 25 2 / 6 = 0. 25 3 / 6 = 0. 875 / 6 = 0. 0625 2 / 6 = 0. 25 tot fp 37. 5% 2. 5% 2. 5% 8. 75 % 6. 25 % 2. 5% tot 00 % fa: assoluta fr: relativa fp: percentuale Non ha senso la fc 20 20
Esempio 3: istogramma In un sistema cartesiano, in cui poniamo in ascissa le tipologie di classi e in ordinata fa o fr, si costruisce un grafico (istogramma) formato da rettangoli la cui base di misura costante rappresenta la classe ovvero la categoria di causa guasto e la cui altezza rappresenta il numero di volte di realizzazione di tale causa 2 2