STATISTICA DESCRITTIVA (variabili quantitative) PRIMO ESEMPIO: Concentrazione di un elemento chimico in una roccia. File di lavoro di STATVIEW Cliccando sul tasto del pane control si ottiene il cosiddetto riassunto di statistica descrittiva:
Riassunto di statistica descrittiva Media x n xi n i = = --Variabili quantitative -- Vengono usati tutti i valori = n = n ( xi x) 0 La distanza dei valori dalla media è 0 i Non è una statistica robusta Una statistica è una caratteristica misurabile del campione Una statistica si dice ROBUSTA quando il suo valore numerico è stabile rispetto a perturbazioni (=errori) numeriche Qual è il significato statistico della media? 2
Riassunto di statistica descrittiva Varianza n 2 s = xi x n i= ( ) 2 -- Variabili quantitative -- Vengono usati tutti i valori E una statistica robusta Qual è il significato statistico della varianza? Deviazione standard n s = xi x n i= ( ) 2 Misura la dispersione della popolazione 3
Riassunto di statistica descrittiva Errore standard Misura la dispersione della media campionaria s e = n ossia è una misura della sua imprecisione 4
Riassunto di statistica descrittiva Coefficiente di variazione Il coefficiente di variazioneo deviazione standard relativapermette di confrontare misure di fenomeni riferite a unità di misure differenti in quanto si tratta di un numero puro (ovvero non riferito ad alcuna unità di misura). reddito in Lire è diverso dal reddito in euro I coefficienti di variazione sono uguali CV = s x = la media non è un indice corretto = 0 la media è un indice perfetto > 0.5 la media non è un indice corretto 0.5 la media è un indice perfetto 5
Riassunto di statistica descrittiva Range range = max min Regola empirica per determinare la dispersione di un campione: range >> s / 4 i dati appaiono concentrati range s / 4 la dispersione è "normale" range << s / 4 i dati appaiono dispersi COUNT: taglia del campione casuale SUM n i= x i MISSING CELL: dati mancanti SUM of squares n i= x 2 i 6
Indici di posizione: media.. Indici di dispersione: varianza range deviazione standard. MODA E il valore che appare maggiormente nel campione casuale. MEDIANA E quel valore che divide il campione casuale in due parti di peso 50%. 60,000 87,000 84,000 53,000 7,000 92,000 57,000 75,000 78,000 66,000 52,000 63,000 Ordinati in ordine crescente 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 63+ 66 = 64.5 2 50% 50% Ci sono anche altri metodi per determinare la mediana!! 7
Dal confronto tra media, moda e mediana si può intuire se la distribuzionedei dati del campione sull asse reale è simmetrica oppure no. ISTOGRAMMA. Si dividono i dati del campione in classi di modalità 2. Si conta il numero di dati del campione che ricadono in ciascuna classe.= frequenza assoluta. 3. Il totale deve restituire la taglia. 4. Si alzano delle barre rettangolari aventi per base le classi e per altezza le frequenze assolute Media = 68.7 Mediana = 64.5 Moda = 62 Moda < Mediana < Media Coda destra = asimmetria positiva 8
Asimmetria positiva Skewness positivo Simmetria Skewness nullo 9
Asimmetria negativa Skewness negativo Il confronto tra media e mediana non basta! Media = mediana = 5 Media = mediana = 3 Invece il coefficiente di asimmetria vale 2 e -2. 0
Media geometrica M g n = n i= x i Si applica in genere a tassi di crescita! Risente di meno della presenza di termini estremi. Ex: 0, 9,, 4, 97 Media: 28.2 Media geometrica: 6.8 Media armonica M i= Si applica in genere a dati nei quali si vuole dare importanza ai reciproci. I valori prossimi allo 0 sono più pesanti degli altri. Si usa in genere per le velocità. a = n n x i
0% Trimmed mean Si calcola come una media ordinaria, eliminando il 5% dei dati nelle due code della distribuzione. Nell esempio: 0.05*4 restituisce. Quindi 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 E un indice relativamente robusto rispetto agli outliers Kurtosis Indice di dispersione di confronto con la gaussiana standard. f ( x; µ, σ ) = exp σ 2π ( x µ ) 2 2 2σ 2
MAD=median absolute deviation MAD = mediana ( xi M ) dove M è la mediana del campione Statistica più robusta rispetto agli outliers della deviazione standard Ex: Per (,, 2, 2, 4, 6, 9) la mediana è 2. I residui sono (,, 0, 0, 2, 4, 7) che ordinati restituiscono (0, 0,,, 2, 4, 7). La dev. standard vale 3.99. Se l istogramma si avvicina alla forma di una curva gaussianastandard allora: s.48 MAD IQR = Interval Inter-quartile IQR = Q3 Q Indice di dispersione 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 Q Q 2 Q 3 25% 25% 25% 25% 50% 50% QUARTILI 3
52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 OUTLIERS 3 Sono quei valori che superano Q3 + IQR 4 Sono quei valori che sono inferiori 3 Q IQR 4 4
PERCENTILI 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 = x p quel valore che lascia a sinistra il p% dei dati p è una percentuale tra 0 e 00 Come modificare l istogramma L istogramma è stato creato con i seguenti passi: Selezionare Analyze, poi Descriptive statistics ed infine Frequency Dist-continuous 5
Appare la seguente finestra di dialogo. Doppio click sulla variabile in esame: Example e poi OK Per modificare il grafico che si ottiene Cliccare su Edit Analysis Appare il seguente DIALOG-BOX 6
Per la curtosi 7
Per realizzare questo grafico Qualche considerazione finale sulla lettura degli istogrammi in geologia. Un istogramma con due mode è generalmente dovuto alla presenza di due sottopopolazioni con medie differenti. 2. Un coefficiente di asimmetria positivo può essere imputabile alla presenza di due popolazioni sovrapposte con media e deviazione standarddiverse. 8
3. Un istogramma con un elevato Kurtosis è originato dalla sovrapposizione di due popolazioni. 4. Una asimmetria positiva è spesso interpretata come presenza di elevate concentrazioni di un determinato elemento o minerale, probabilmentenei pressi della sorgente. 9