Statistica descrittiva univariata Elementi di statistica 2 1
Tavola di dati Una tavola (o tabella) di dati è l insieme dei caratteri osservati nel corso di un esperimento o di un rilievo. Solitamente si fa in modo che tutte le osservazioni rilevino gli stessi caratteri, secondo gli stessi criteri. Attenzione! I metodi e criteri di attribuzione di punteggi a determinati caratteri sono un argomento che esula da queste lezioni. Elementi di statistica 2 2
La tavola è organizzata in modo che a ogni osservazione corrisponda una riga; a ogni carattere (variabile) corrisponda una colonna. var 1 var 2 var j var p oss 1 oss 2 oss i oss n x ij x ij è la modalità assunta dal carattere j nell osservazione i. Elementi di statistica 2 3
Dicotomici Tipi di dati Il carattere j è presente o non è presente nell oss. i. Esempio In un questionario rivolto a clienti: Ha acquistato lo stesso tipo di prodotto da altre aziende? Questo tipo di dato è usato spesso nelle indagini attraverso questionari. Elementi di statistica 2 4
Qualitativi o nominali Il carattere presenta delle modalità differenti che però non hanno alcun tipo di relazione ordinale o quantitativa. Esempio Ai componenti a magazzino è attribuito il carattere Provenienza fornitura con modalità: interna allo stabilimento interna all azienda interna al gruppo esterna Italia esterna Estero Alle modalità possono essere associati numeri con significato distintivo. Elementi di statistica 2 5
Ordinali Le modalità possono essere ordinate (da migliore a peggiore) senza che però sia possibile concludere nulla sul grado di differenza tra valori diversi. Vale la proprietà transitiva. Esempio Esprima un giudizio sulla puntualità del servizio assistenza : pessimo appena sufficiente discreto buono ottimo Elementi di statistica 2 6
Quantitativi Le modalità sono espresse attraverso numeri che hanno un significato di intensità o di frequenza. Esempio 1 Valore monetario delle merci complessivamente acquistate da parte del cliente Alpha nel 2008. Esempio 2 Numero di consegne puntuali effettuate dal fornitore Rho nel corso del 2008. Si possono distinguere i dati quantitativi in base alla scala di riferimento: scala relativa scala assoluta Elementi di statistica 2 7
In una scala relativa (interval scale) differenze uguali tra valori hanno lo stesso significato; lo zero è arbitrario (convenzionale). Una scala assoluta (ratio scale) conserva la proprietà precedente ed inoltre rapporti uguali tra valori hanno lo stesso significato; lo zero è assoluto e significa assenza di un carattere. Esempio 1 Le scale Celsius e Fahreneit hanno zero arbitrario. Esempio 2 Il peso di un oggetto, lo spessore di un pannello, il fatturato relativo ad un anno di esercizio. Elementi di statistica 2 8
In una scala relativa uguali differenze tra valori hanno lo stesso significato. Il rapporto tra due valori non ha significato: 20 C no n rappresentano una temperatura doppia di 10 C. Nella scala assoluta il rapporto tra due valori ha significato: un oggetto del peso di 100N pesa il doppio di un oggetto di 50N. Ai valori delle variabili espresse su scala relativa si possono applicare l addizione e la sottrazione. Ai valori delle variabili espresse su scala assoluta si possono applicare l addizione, la sottrazione, la moltiplicazione e la divisione. Elementi di statistica 2 9
Dati quantitativi discreti Variano per quantità finite e sono rappresentati da numeri interi. Una variabile numerica si dice discreta se l insieme dei valori che essa può assumere è finito o numerabile. Dati quantitativi continui Rappresentano quantità variabili con continuità. Una variabile numerica si dice continua se l insieme dei valori che essa può assumere è l insieme R dei numeri reali o un intervallo in R. Elementi di statistica 2 10
Per decidere se una variabile è discreta o continua si deve ragionare su quali valori la variabile può assumere e non sui valori effettivamente assunti. Un problema che si può riscontrare nelle tavole di dati è quello dei dati mancanti: si deve analizzare la causa di un dato mancante. Può essere rischioso codificare un dato mancante con il codice 0. Elementi di statistica 2 11
Tabelle di frequenze Nella tabella dei dati ciascuna osservazione ha un profilo. Lo studio diretto della tavola è però difficoltoso: è opportuno strutturare le informazioni relative al campione in primo luogo attraverso una loro sintesi. Un primo modo di ridurre i dati è quello di costruire delle tabelle di frequenze. Elementi di statistica 2 12
Considerata una variabile X, alle diverse modalità della stessa si associa il numero di casi osservati. Tale valore è detto frequenza (assoluta). Più in generale i dati possono essere suddivisi in classi. Il numero di individui appartenenti a ciascuna classe è detto frequenza di classe. Elementi di statistica 2 13
Siano x k (k = 1, 2,, m) le modalità di X e n k il numero di casi che presentano la modalità x k : Esempio 1 x k n k con = m n k n La distribuzione degli studenti iscritti ad ingegneria a TS suddivisi per corsi di laurea. Esempio 2 k = 1 La distribuzione delle quantità di prodotti suddivise per articolo in un magazzino. Elementi di statistica 2 14
Nel caso di variabili continue si dovrà, in generale, assegnare una funzione descrittiva del carattere y = f(x). Si possono però raggruppare i dati del campione in classi di ampiezza uniforme. ( ne riparleremo ) Distribuzione (sperimentale) di una variabile è l insieme delle modalità che essa assume unitamente con la numerosità delle osservazioni (del campione) che presentano ciascuna modalità Elementi di statistica 2 15
Può essere utile passare dalle frequenze assolute alle frequenze relative. Si tratta di suddividere le frequenze osservate per il numero totale di osservazioni. Il valore può poi essere espresso in termini percentuali. Esempio giorni intercorsi tra il completamento e la spedizione di ordini in un periodo di osservazione. Elementi di statistica 2 16
giorni freq. assoluta freq. relativa freq. percentuale 0 4 0.053 5.3% 1 9 0.118 11.8% 2 11 0.145 14.5% 3 18 0.237 23.7% 4 15 0.197 19.7% 5 7 0.092 9.2% 6 5 0.066 6.6% 7 3 0.039 3.9% 8 3 0.039 3.9% 9 1 0.013 1.3% Totale 76 1 100.0% Elementi di statistica 2 17
La distribuzione cumulativa delle frequenze (funzione cumulata) è una distribuzione che indica quante osservazioni del campione hanno un valore minore o uguale ad un valore specifico. Ha significato solo per variabili quantitative. Elementi di statistica 2 18
Date m modalità discrete, il valore k-esimo delle frequenze cumulate è k = = F k n j j= 1 con n j frequenza osservata per la j-esima modalità. F k rappresenta il numero di osservazioni che presentano un valore minore o uguale a x k. Dividendo i valori F k per la numerosità n del campione si ottiene la distribuzione cumulativa delle frequenze relative. Elementi di statistica 2 19
giorni freq. assoluta freq. relativa freq. percentuale freq. cumulata 0 4 0.053 5.3% 5.3% 1 9 0.118 11.8% 17.1% 2 11 0.145 14.5% 31.6% 3 18 0.237 23.7% 55.3% 4 15 0.197 19.7% 75.0% 5 7 0.092 9.2% 84.2% 6 5 0.066 6.6% 90.8% 7 3 0.039 3.9% 94.7% 8 3 0.039 3.9% 98.7% 9 1 0.013 1.3% 100.0% Totale 76 1 100.0% 24 ordini hanno subito un tempo di attesa non superiore a due giorni. Il 31,6% degli ordini ha atteso meno di tre giorni. Elementi di statistica 2 20
Rappresentazioni grafiche Nel caso di caratteri qualitativi si utilizzano diagrammi a barre (barplot), ponendo in ascissa le modalità e in ordinata le frequenze (o viceversa). La posizione in ascissa non ha significati quantitativi. Una rappresentazione a volte efficace si può ottenere con i diagrammi a torta (pie chart). L ampiezza dei settori rappresenta l incidenza relativa delle frequenze di una modalità. Elementi di statistica 2 21
100 120 informazione civ. amb. studenti 20 40 60 80 ind. TS navale ind. PN 0 civ. amb. informazione ind. TS ind. PN navale Elementi di statistica 2 22
Alcuni software consentono di visualizzare altre informazioni, ad esempio i valori percentuali. 16% 23% civile amb. informazione ind. PN ind. TS 30% navale 25% 6% Elementi di statistica 2 23
Studenti di ingegneria 16% 23% civile amb. 30% 6% 25% informazione ind. PN ind. TS navale 63 92 civile amb. informazione ind. PN 118 101 ind. TS navale 25 Elementi di statistica 2 24
Un grafico che può essere utilizzato per visualizzare l incidenza assoluta di valori in categorie è il diagramma a punti (dot chart). navale ind. PN ind. TS informazione civ. amb. 40 60 80 100 120 studenti Elementi di statistica 2 25
Per caratteri quantitativi discreti si rappresentano in ascissa le modalità e in ordinata le frequenze. Si possono usare diagrammi a barre (o a segmenti - line chart). 20 18 16 frequenza assoluta 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 giorni Elementi di statistica 2 26
In alternativa si usano diagrammi a punti (dot plot). Analogamente per le distribuzioni cumulative. 80 70 freq. assoluta freq. cum. 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 giorni Elementi di statistica 2 27
Se ci si trova di fronte ad un elevata mole di valori discreti possibili o se si sta studiando un carattere continuo, si dovrà necessariamente ricorrere ad una sintetizzazione dei dati in classi (o intervalli). Esempio Si considerino le altezze di tutti gli studenti dell università di TS (~ 10000). Si potrebbe pensare a una tabella avente in ascissa i valori delle altezze ordinate in senso crescente. Elementi di statistica 2 28
Per la trasformazione si può seguire l approccio seguente. 1. Si cerca l altezza max e l altezza min tra tutti gli n individui del campione. L ampiezza (h max h min ) è la base di condizionamento del grafico. 2. Si ripartisce l intervallo di variabilità delle altezze in N c sottointervalli (classi). Ogni sotto-intervallo ha un ampiezza costante (facilita l interpretazione visiva dei dati): h h = h max N c h è la variazione necessaria per passare da una classe a quella precedente o successiva. h min Elementi di statistica 2 29
Si può pensare di fissare a priori l ampiezza dell intervallo (ad es. 1 cm). La generica classe può essere caratterizzata: dai valori estremi; dal valore centrale e dall ampiezza (h i ± h/2). I valori che definiscono la classe generica non devono creare ambiguità nel momento in cui si debba collocare un osservazione. Classe numero osservazioni 150 x 154 23 155 x 159 41 Elementi di statistica 2 30
3. Si può ora assegnare ogni osservazione del campione ad una e una sola classe. Si ottiene l informazione relativa agli individui la cui altezza è compresa tra (h i - h/2) e (h i + h/2). Si potrebbe elaborare un grafico che riporta in ascissa le classi contigue e in ordinata i valori delle frequenze di classe. Un istogramma ha proprietà che lo rendono sostanzialmente diverso da un diagramma a barre. Elementi di statistica 2 31
Istogramma (?) n h h min h max h Elementi di statistica 2 32
Esempio Sono state eseguite 62 misurazioni di emissione di particolato da parte di autoveicoli (g per gallone di carburante); si sono ottenute le seguenti informazioni di sintesi: interv. classe freq. assol. freq. rel. densità 1-<3 12 0.194 0.0968 3-<5 11 0.177 0.0887 5-<7 18 0.290 0.1452 7-<9 9 0.145 0.0726 9-<11 5 0.081 0.0403 11-<15 3 0.048 0.0121 15-<25 4 0.065 0.0065 Elementi di statistica 2 33
Frequenza assoluta è il numero di osservazioni che presentano un valore di emissione compreso nella classe. Frequenza relativa è il valore della frequenza relativa diviso il numero di osservazioni: quindi è la proporzione di osservazioni presenti nell intervallo. Densità è il valore della frequenza relativa diviso per l ampiezza dell intervallo: la frequenza relativa è così ridimensionata rispetto all ampiezza dell intervallo. In altri termini, la densità è la frequenza relativa per unità di intervallo. Elementi di statistica 2 34
Si può quindi elaborare un grafico con in ascissa gli intervalli e in ordinata le densità: l altezza dei rettangoli è pari alla densità Dove si ritrovano le frequenze relative? Quindi la somma delle aree è pari a 1. Elementi di statistica 2 35
Spesso si disegnano istogrammi con intervalli di uguale ampiezza (lo fanno la grande maggioranza dei software). In questo caso la forma dell istogramma rimane la stessa se alle densità si sostituiscono le frequenze: 0.00 0.02 0.04 0 2 4 Density 0.06 0.08 0.10 0.12 0.14 0.16 Frequency 6 8 10 12 14 16 18 20 1 3 5 7 9 11 13 15 17 19 21 23 25 PM (g gallone) 1 3 5 7 9 11 13 15 17 19 21 23 25 PM (g gallone) Si pongono in evidenza poche osservazioni con valori estremi (outlier). Elementi di statistica 2 36
Si perde un po la struttura dei dati che è più chiara raggruppando i pochi valori estremi in intervalli più ampi. Attenzione: un istogramma con intervalli di ampiezze differenti è corretto solo se costruito con le densità: Density 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 Frequency 8 10 12 14 16 18 20 0 2 4 6 La somma delle aree non è unitaria! 1 3 5 7 9 11 13 15 17 19 21 23 25 PM (g gallone) 1 3 5 7 9 11 13 15 17 19 21 23 25 PM (g gallone) Elementi di statistica 2 37
Gli infiniti valori compresi tra gli estremi di un intervallo sono compressi nel valore centrale della classe e divengono tra loro indistinguibili. Esempio Si hanno 100 misurazioni di emissioni (µg/m 3 ) effettuate in un anno in corrispondenza di una sorgente emissiva di un impianto: 21.0, 4.9, 9.1, 10.8, 12.6, 16.2, 10.7, 2.2, 11.0, 12.7, Elementi di statistica 2 38
variabile n. oss. min mediana media max dev. st. emiss 100 1.1 11.7 12.07 28.4 5.41 Frequency 0 4 8 12 16 20 Frequency 0 5 10 15 20 25 30 35 40 0 4 8 12 16 20 24 28 µg m 3 0 5 10 15 20 25 30 µg m 3 Elementi di statistica 2 39
N c dipende dalla numerosità del campione: un numero di classi troppo basso può addensare troppo i dati; un numero di classi troppo elevato (rispetto a n) può dar luogo a una rappresentazione troppo dispersa. Indicativamente, si può impiegare la tabella riportata alla pagina seguente. Elementi di statistica 2 40
Numerosità del campione Numero di classi < 30 5 30 50 5 7 51 100 6 10 101 250 7 12 > 250 > 10 Altre regole pratiche sono le seguenti: N N 2 c c n (2n) < n 1/3 2 N c 1 N c (regola delle potenze di due) Elementi di statistica 2 41
The decimal point is at the Un altro tipo di grafico spesso utilizzato è il grafico a rami e foglie (stem-and-leaf plot). 0 18 2 12292 4 9000122 6 2580235568 8 113125689 10 222377889901223377 12 1267772345667 14 34789001244458 16 2259225 18 12689014 20 3036 22 98 24 26 28 4 Elementi di statistica 2 42
Problema Effettuata la sintesi delle altezze di n studenti nel modo visto, scelto a caso uno degli n, qual è la probabilità che sia scelto un individuo compreso nell intervallo h i ± h/2? Risposta: avendo n i individui tra gli n con un altezza compresa in h i ± h/2, la probabilità che ne sia selezionato uno è P( h i ) = ni n (Sinteticamente, si segue il cosiddetto approccio frequentista: ripetizione di un esperimento in condizioni identiche per un numero molto elevato ( ) di volte.) Elementi di statistica 2 43
Si può definire una nuova variabile chiamata frequenza di ripetizione ν i = con la seguente proprietà: n i n N i= 1 = c N c ν i i= 1 ni n = 1 ν i varia quindi tra 0 e 1, come deve essere per una probabilità. L istogramma può essere trasformato in un istogramma di probabilità. Elementi di statistica 2 44
Questo nuovo grafico rappresenta l andamento della probabilità dell accadimento dell evento altezza di uno studente compresa nella classe h i ± h/2. La distribuzione ottenuta è rappresentativa dei soli dati appartenenti al campione. Non può essere considerata rappresentativa dell intera popolazione da cui il campione è stato estratto. Effettuando un altro esperimento (estrazione di un altro campione) è ragionevole ipotizzare che il nuovo istogramma risulterà diverso dal precedente. Definizione (non rigorosa): una variabile aleatoria è una variabile che assume valori a cui sono associate le probabilità di accadimento. Elementi di statistica 2 45
Problema Si considerino le altezze di un campione di n individui. Classificate le altezze in N c classi disposte nel senso crescente delle h i, qual è la probabilità che un individuo scelto a caso tra gli n abbia un altezza minore o uguale a un valore assegnato h i? Se n k individui su n hanno un altezza minore o uguale a h i ± h/2, allora la probabilità di selezionarne uno sarà: P( h h i ± i h n n k ) = = 2 n n j= 1 j Elementi di statistica 2 46
1 n i /n n i /n n 2 /n n 1 /n n Nc /n h h h min h max h min h max h Elementi di statistica 2 47
Considerata la curva cumulata delle frequenze (relative) essa è compresa tra 0 e 1. Si osservi che dato un istogramma di una grandezza Si osservi che dato un istogramma di una grandezza cumulata è possibile ottenere la distribuzione delle frequenze degli eventi grazie alla relazione seguente: n n n n n n n n n n n i i j j i j j i j j i j j i = = = = = = = 1 1 1 1 1 1 1 Elementi di statistica 2 48 n n n n n j j j j = = = = 1 1 1 1
Passaggio al continuo Si disponga di un istogramma di probabilità ed uno di probabilità cumulata relativamente a un esperimento che coinvolga n elementi distribuiti in frequenze p i. Se N c e n si passa da una infinità numerabile ad un infinità non numerabile. Si consideri p j=1 P ( x x i ) = = n La curva discreta (istogramma) diventa via via una curva continua non decrescente normalizzata tra 0 e 1. i i Fi n Elementi di statistica 2 49
In generale si può ipotizzare che la funzione di distribuzione cumulata di probabilità F(x) sia definita tra + e -, sia monotona non decrescente e tenda asintoticamente a 0 per x - 1 per x + 1 x Elementi di statistica 2 50
Proprietà della funzione cumulata 1. F(+ ) = 1 evento certo 2. F(- ) = 0 evento impossibile 3. Se x i < x j allora i funzione monotona non decrescente 4. P ( x > x) = 1 P( x < x) F( x ) F( x j ) 5. Se x i < x j la probabilità che un valore assegnato x sia compreso tra x i e x j è P( xi < x' < x j ) = F( x j ) F( xi ) Elementi di statistica 2 51
Funzione densità di probabilità Si abbia una funzione cumulata F(x) continua che descrive un carattere di una popolazione o di un campione. Vale P( xi < x < x j ) = F( x j ) F( xi ) Qual è la probabilità di estrarre un individuo con un valore x del carattere conoscendo F(x)? Si consideri un intervallo ε che includa il valore x. Elementi di statistica 2 52
Ne risulta che: ε ε ε ε P( x' 2 < x < x' + 2) = F( x' + 2) F( x' 2) Se si restringe ε si ha che lim ε 0 P( x' ) = 0 Si definisce una nuova funzione (funzione densità di probabilità) f(x) definita su x. Essa fornisce la probabilità di accadimento di un certo evento nell intervallo (x, x +dx) P ( x, x + dx) = f ( x) dx Elementi di statistica 2 53
Si dimostra che: f ( x) = df( x) dx f(x) è la tangente alla F(x) nel punto x. Proprietà della funzione densità di probabilità 1. Essendo F(x) monotona non decrescente si ha che f ( x) 0 Elementi di statistica 2 54
2. Poiché F(+ )=1 e F(- )=0 + f ( x) dx = 1 F ( x) = x f ( x) dx 3.. 4. Essendo x P x', x' ± ) = f ( x' ) x ( 2 se x i < x j x j P( xi < x < x j ) = f ( x) dx = F( x j ) F( xi ) x i Elementi di statistica 2 55