STATISTICA DESCRITTIVA (variabili quantitative)

Похожие документы
La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

tabelle grafici misure di

Nozioni di statistica

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Elementi di Probabilità e Statistica

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Teoria e tecniche dei test. Concetti di base

Variabili aleatorie. continue. Discreto continuo

MISURE DI SINTESI 54

Statistica di base per l analisi socio-economica

Statistica descrittiva

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Misure di dispersione (o di variabilità)

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

1/55. Statistica descrittiva

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII

Lezione 4 a - Misure di dispersione o di variabilità

Andrea Bonanomi Università Cattolica del Sacro Cuore. Principi di Statistica Descrittiva. Milano, 9 gennaio 2015 Camera di Commercio

Scale di Misurazione Lezione 2

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Elementi di Psicometria con Laboratorio di SPSS 1

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

Daniela Tondini

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Dispensa di Statistica

TEST DI AUTOVALUTAZIONE STATISTICA DESCRITTIVA

Statistica descrittiva II

Statistica Inferenziale

LEZIONI DI STATISTICA MEDICA

Statistica. Matematica con Elementi di Statistica a.a. 2017/18

Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi


Esercitazioni di Metodi Statistici per la Biologia

SOLUZIONI DI ALCUNI ESERCIZI. Appello del

Una statistica è una quantità numerica il cui valore è determinato dai dati.

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

INDICI DI FORMA: L ASIMMETRIA

MISURE DI DISPERSIONE

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Prova scritta di Statistica

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

TEST DI AUTOVALUTAZIONE STATISTICA DESCRITTIVA

Statistica Elementare

ISTOGRAMMI E DISTRIBUZIONI:

Транскрипт:

STATISTICA DESCRITTIVA (variabili quantitative) PRIMO ESEMPIO: Concentrazione di un elemento chimico in una roccia. File di lavoro di STATVIEW Cliccando sul tasto del pane control si ottiene il cosiddetto riassunto di statistica descrittiva:

Riassunto di statistica descrittiva Media x n xi n i = = --Variabili quantitative -- Vengono usati tutti i valori = n = n ( xi x) 0 La distanza dei valori dalla media è 0 i Non è una statistica robusta Una statistica è una caratteristica misurabile del campione Una statistica si dice ROBUSTA quando il suo valore numerico è stabile rispetto a perturbazioni (=errori) numeriche Qual è il significato statistico della media? 2

Riassunto di statistica descrittiva Varianza n 2 s = xi x n i= ( ) 2 -- Variabili quantitative -- Vengono usati tutti i valori E una statistica robusta Qual è il significato statistico della varianza? Deviazione standard n s = xi x n i= ( ) 2 Misura la dispersione della popolazione 3

Riassunto di statistica descrittiva Errore standard Misura la dispersione della media campionaria s e = n ossia è una misura della sua imprecisione 4

Riassunto di statistica descrittiva Coefficiente di variazione Il coefficiente di variazioneo deviazione standard relativapermette di confrontare misure di fenomeni riferite a unità di misure differenti in quanto si tratta di un numero puro (ovvero non riferito ad alcuna unità di misura). reddito in Lire è diverso dal reddito in euro I coefficienti di variazione sono uguali CV = s x = la media non è un indice corretto = 0 la media è un indice perfetto > 0.5 la media non è un indice corretto 0.5 la media è un indice perfetto 5

Riassunto di statistica descrittiva Range range = max min Regola empirica per determinare la dispersione di un campione: range >> s / 4 i dati appaiono concentrati range s / 4 la dispersione è "normale" range << s / 4 i dati appaiono dispersi COUNT: taglia del campione casuale SUM n i= x i MISSING CELL: dati mancanti SUM of squares n i= x 2 i 6

Indici di posizione: media.. Indici di dispersione: varianza range deviazione standard. MODA E il valore che appare maggiormente nel campione casuale. MEDIANA E quel valore che divide il campione casuale in due parti di peso 50%. 60,000 87,000 84,000 53,000 7,000 92,000 57,000 75,000 78,000 66,000 52,000 63,000 Ordinati in ordine crescente 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 63+ 66 = 64.5 2 50% 50% Ci sono anche altri metodi per determinare la mediana!! 7

Dal confronto tra media, moda e mediana si può intuire se la distribuzionedei dati del campione sull asse reale è simmetrica oppure no. ISTOGRAMMA. Si dividono i dati del campione in classi di modalità 2. Si conta il numero di dati del campione che ricadono in ciascuna classe.= frequenza assoluta. 3. Il totale deve restituire la taglia. 4. Si alzano delle barre rettangolari aventi per base le classi e per altezza le frequenze assolute Media = 68.7 Mediana = 64.5 Moda = 62 Moda < Mediana < Media Coda destra = asimmetria positiva 8

Asimmetria positiva Skewness positivo Simmetria Skewness nullo 9

Asimmetria negativa Skewness negativo Il confronto tra media e mediana non basta! Media = mediana = 5 Media = mediana = 3 Invece il coefficiente di asimmetria vale 2 e -2. 0

Media geometrica M g n = n i= x i Si applica in genere a tassi di crescita! Risente di meno della presenza di termini estremi. Ex: 0, 9,, 4, 97 Media: 28.2 Media geometrica: 6.8 Media armonica M i= Si applica in genere a dati nei quali si vuole dare importanza ai reciproci. I valori prossimi allo 0 sono più pesanti degli altri. Si usa in genere per le velocità. a = n n x i

0% Trimmed mean Si calcola come una media ordinaria, eliminando il 5% dei dati nelle due code della distribuzione. Nell esempio: 0.05*4 restituisce. Quindi 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 E un indice relativamente robusto rispetto agli outliers Kurtosis Indice di dispersione di confronto con la gaussiana standard. f ( x; µ, σ ) = exp σ 2π ( x µ ) 2 2 2σ 2

MAD=median absolute deviation MAD = mediana ( xi M ) dove M è la mediana del campione Statistica più robusta rispetto agli outliers della deviazione standard Ex: Per (,, 2, 2, 4, 6, 9) la mediana è 2. I residui sono (,, 0, 0, 2, 4, 7) che ordinati restituiscono (0, 0,,, 2, 4, 7). La dev. standard vale 3.99. Se l istogramma si avvicina alla forma di una curva gaussianastandard allora: s.48 MAD IQR = Interval Inter-quartile IQR = Q3 Q Indice di dispersione 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 Q Q 2 Q 3 25% 25% 25% 25% 50% 50% QUARTILI 3

52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 OUTLIERS 3 Sono quei valori che superano Q3 + IQR 4 Sono quei valori che sono inferiori 3 Q IQR 4 4

PERCENTILI 52,000 53,000 57,000 60,000 63,000 66,000 7,000 75,000 78,000 84,000 87,000 92,000 = x p quel valore che lascia a sinistra il p% dei dati p è una percentuale tra 0 e 00 Come modificare l istogramma L istogramma è stato creato con i seguenti passi: Selezionare Analyze, poi Descriptive statistics ed infine Frequency Dist-continuous 5

Appare la seguente finestra di dialogo. Doppio click sulla variabile in esame: Example e poi OK Per modificare il grafico che si ottiene Cliccare su Edit Analysis Appare il seguente DIALOG-BOX 6

Per la curtosi 7

Per realizzare questo grafico Qualche considerazione finale sulla lettura degli istogrammi in geologia. Un istogramma con due mode è generalmente dovuto alla presenza di due sottopopolazioni con medie differenti. 2. Un coefficiente di asimmetria positivo può essere imputabile alla presenza di due popolazioni sovrapposte con media e deviazione standarddiverse. 8

3. Un istogramma con un elevato Kurtosis è originato dalla sovrapposizione di due popolazioni. 4. Una asimmetria positiva è spesso interpretata come presenza di elevate concentrazioni di un determinato elemento o minerale, probabilmentenei pressi della sorgente. 9