Corso di Psicometria Progredito



Documenti analoghi
Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Corso di Psicometria Progredito

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

Indici di dispersione

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

Corso di Psicometria Progredito

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

STATISTICA DESCRITTIVA UNIVARIATA

Il concetto di valore medio in generale

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Misure della dispersione o della variabilità

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Prova di autovalutazione Prof. Roberta Siciliano

SPC e distribuzione normale con Access

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

LA STATISTICA NEI TEST INVALSI

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

ESERCIZI DI STATISTICA DESCRITTIVA

Statistica descrittiva

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Relazioni statistiche: regressione e correlazione

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Analisi della performance temporale della rete

La distribuzione Normale. La distribuzione Normale

Elementi di Psicometria

E naturale chiedersi alcune cose sulla media campionaria x n

LA CORRELAZIONE LINEARE

ESAME DI STATISTICA Nome: Cognome: Matricola:

Metodi Matematici e Informatici per la Biologia Maggio 2010

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Statistica. Lezione 6

Slide Cerbara parte1 5. Le distribuzioni teoriche

Statistica descrittiva

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Metodi statistici per le ricerche di mercato

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Capitolo 2 Distribuzioni di frequenza

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Brugnaro Luca Boscaro Gianni (2009) 1

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Statistica descrittiva: prime informazioni dai dati sperimentali

Probabilità e statistica

Dimensione di uno Spazio vettoriale

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Grafici delle distribuzioni di frequenza

Elementi di Psicometria con Laboratorio di SPSS 1

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Chi non risolve esercizi non impara la matematica.

Dott.ssa Caterina Gurrieri

IL TEST DI ACCESSO AI CORSI DI STUDIO TRIENNALI DI PSICOLOGIA

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Corso di. Dott.ssa Donatella Cocca

Matematica generale CTF

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

FONDAMENTI DI PSICOMETRIA - 8 CFU

Punteggi. Punteggi grezzi, norme e percentili

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Rapporto dal Questionari Insegnanti

Indice. 1 La statistica, i dati e altri concetti fondamentali

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2:

CURRICULUM SCUOLA PRIMARIA MATEMATICA

INDICI DI TENDENZA CENTRALE

Analisi di dati di frequenza

Anno 3. Funzioni: dominio, codominio e campo di esistenza

STATISTICA IX lezione

Appunti di complementi di matematica

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

Lezione Introduzione

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

INTERPRETAZIONE DEI RISULTATI DEL QUESTIONARIO I

ESEMPIO 1: eseguire il complemento a 10 di 765

Corso di Psicometria Progredito

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Probabilità II Variabili casuali discrete

Capitolo 12 La regressione lineare semplice

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

LE FUNZIONI A DUE VARIABILI

Temi di Esame a.a Statistica - CLEF

ESAMI DI QUALIFICA PROFESSIONALE

1. Distribuzioni campionarie

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

A.S CLASSE PRIMA SCUOLA PRIMARIA D ISTITUTO COMPETENZA CHIAVE EUROPEA DISCIPLINA

Esercitazione n.2 Inferenza su medie

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

Istituzioni di Statistica e Statistica Economica

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

VERIFICA DELLE IPOTESI

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati

Inferenza statistica. Statistica medica 1

Transcript:

Corso di Psicometria Progredito 2.1 Statistica descrittiva (Richiami) Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Sommario 1 Distribuzioni di frequenza 2 Indici di tendenza centrale 3 Indici di posizione 4 Indici di variabilità

L importanza della statistica descrittiva! La statistica descrittiva serve a scattare una prima fotografia ai dati raccolti. E utile per controllare, descrivere ed esplorare i dati. Serve a riassumere i dati attraverso indici statistici, tabelle e grafici. Non esiste una buona analisi statistica, senza una buona analisi descrittiva. Tukey, 1977. Exploratory Data Analysis

Il corso preparto Si supponga di aver chiesto a un gruppo di mamme che partecipano ad un corso pre-parto il numero di figli già avuti I dati raccolti sono presentati nella seguente tabella Codice mamma Numero di figli 1 0 2 0 3 1 4 0 5 2 6 0 7 1 8 3 9 0 10 1 11 2 12 2 13 1 14 3 15 2 16 0

Alcune domande Qual è l unità statistica di riferimento? Quante sono le unità statistiche rilevate? Qual è la variabile rilevata? Quali e quante sono le modalità della variabile rilevata?

Notazioni fondamentali Sia X la variabile numero di figli. Sia X j la modalità j esima di X, dove j = 1... 4. Sia n il totale delle unità statistiche (n = 16).

Le frequenze assolute semplici La frequenza assoluta semplice di una modalità è il numero naturale di unità statistiche che presentano tale modalità La generica frequenza assoluta semplice associata alla modalità j si indica con il simbolo f j Ad esempio nel nostro caso, f 2 = 4, indica che 4 mamme hanno già avuto un figlio

Le frequenze assolute cumulate La frequenza assoluta cumulata di una modalità è la somma delle frequenze assolute semplici delle modalità precedenti alla modalità data più la frequenza assoluta semplice della modalità data. La generica frequenza assoluta cumulata associata alla modalità j si indica con il simbolo F j Ad esempio, F 2 = 10, indica che 10 mamme hanno avuto un numero di figli uguale o inferiore a 1

Le frequenze relative semplici La frequenza relativa semplice è data dal rapporto tra la frequenza assoluta semplice di tale modalità e il numero totale di unità statistiche osservate. La generica frequenza relativa semplice associata alla modalità j si indica con il simbolo p j Ad esempio, p 2 =.25, indica che il 25% delle mamme ha avuto un figlio NB. Una frequenza relativa semplice varia sempre tra 0 e 1

Le frequenze relative cumulate La frequenza relativa cumulata di una modalità è la somma delle frequenze relative semplice delle modalità precedenti alla modalità data più la frequenza relativa semplice della modalità data. La generica frequenza relativa cumulata associata alla modalità j si indica con il simbolo P j Ad esempio, P 2 =.625, indica che il 62.5% delle mamme ha avuto un numero di figli uguale o inferiore a 1 NB. Una frequenza relativa cumulata varia sempre tra 0 e 1

Aspetti computazionali Supponiamo di aver rilevato su n unità statistiche la variabile X avente k modalità: X 1, X 2..., X k Per la generica modalità j, dove j = 1, 2,... k avremo: Frequenza assoluta semplice j f j = numero di unità statistiche con modalità j Frequenza assoluta cumulata j F j = i j f i Frequenza relativa semplice j Frequenza relativa cumulata j p j = f j n P j = i j p i

Aspetti computazionali Da quanto detto segue che... 1 La frequenza assoluta cumulata riferita all ultima modalità è pari al numero totale delle unità statistiche: F k = n 2 La frequenza relativa cumulata riferita all ultima modalità è pari 1: P k = 1 ESERCIZIO Dimostrare queste due semplici proprietà.

Esempio: Il corso pre parto Indice j X j f j F j p j P j 1 0 6 6.375.375 2 1 4 10.250.625 3 2 4 14.250.875 4 più di 2 2 16.125 1 Distribuzione del numero di figli (X) per mamma ESERCIZIO Comprendere, interpretare e descrivere i risultati ottenuti.

Esercizio: Un Maestro di clarinetto Un maestro di clarinetto dopo aver ascoltato le performance dei suoi studenti, decide di riassumere le sue valutazioni in maniera sintetica. Il prospetto creato dal Maestro è presentato nella seguente tabella Valutazione Numero di studenti insufficiente 0 sufficiente 8 discreto 6 buono 4 ottimo 2 Individuare le unità statistiche e la variabile misurata. Costruire una tabella riassuntiva contenente le frequenza assolute semplici e cumulate e le frequenze relative semplici e cumulate. Commentare i risultati.

Introduzione agli indici di tendenza centrale Un indice di tendenza centrale è un valore che descrive e riassume il centro di una distribuzione di dati.

La Moda La moda di una distribuzione di dati rilevati sulla variabile X, è la modalità che si presenta con la massima frequenza. Ad esempio, rispetto ai dati relativi al corso preparto, la moda è la modalità 0 (nessun figlio) a cui è associata una frequenza di 6.

La Mediana (o il dato di mezzo ) La mediana di una distribuzione di dati ordinati rilevati sulla variabile X, è il dato che occupa la posizione centrale rispetto alla distribuzione dei dati. La mediana si indica con il simbolo Mdn. Il calcolo della mediana differisce a seconda se i dati sono o non sono raggruppati in classi di frequenza.

Calcolo della mediana per dati non raggruppati: caso n dispari Se n (la numerosità dei dati raccolti) è dispari il valore centrale della serie ordinata dei dati è la mediana. La posizione i del dato corrispondente alla mediana è dato dalla seguente formula: i = n + 1 2

Calcolo della mediana per dati non raggruppati: caso n dispari Esempio Calcolare la mediana dei seguenti dati che rappresentano il voto di 5 studenti all esame di archeologia: voto: 18 ; 28 ; 19 ; 18 ; 22 Ordiniamo i dati: 18 ; 18 ; 19 ; 22 ; 28 Calcoliamo la posizione i del dato corrispondente alla mediana: i = n + 1 = 5 + 1 = 3 2 2 Posizione mediana = 3 Mdn = 19

Calcolo della mediana per dati non raggruppati: caso n pari Se n è pari non esiste un valore della serie di dati che possa essere definito centrale. Si potrà unicamente dire che la mediana è compresa tra i valori aventi le seguenti posizioni centrali i inf = n 2 e i sup = n 2 + 1

Calcolo della mediana per dati non raggruppati: caso n dispari Esempio Calcolare la mediana dei seguenti dati che rappresentano il voto di 6 studenti all esame di storia del cinema: voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26 Ordiniamo i dati: 22 ; 22 ; 24 ; 26 ; 29 ; 30 Calcoliamo le posizioni centrali: i inf = 6 2 = 3 i sup = 6 2 + 1 = 4 Concluderemo che la mediana (Mdn) dei dati è compresa tra 24 e 26.

Nota sull uso dell interpolazione lineare Nel caso in cui n è pari e i dati a disposizione oltre che ordinali sono anche continui è possibile stimare la mediana attraverso l interpolazione lineare: X Mdn = X i inf + X isup 2 Con i dati dell esempio sul voto all esame di storia del cinema avremo che: 24 + 26 X Mdn = = 25 2 In conclusione la mediana stimata è 25.

Calcolo della mediana per dati raggruppati in classe di frequenze Sei dati sono raggruppati in classi di frequenza ha senso parlare di classe mediana più che di valore mediano. Per determinare la classe mediana è necessario calcolare la posizione mediana: i = n + 1 2 La classe che contiene il dato avente la posizione mediana, sarà denominata classe mediana Anche in questo caso, se i dati oltre che ordinali sono continui, può essere stimato un valore mediano (la formula, che non vedremo, si trova in tutti i manuali di statistica di base).

Calcolo della mediana per dati raggruppati in classe di frequenze Esempio Calcolare la classe mediana dei seguenti dati: Indice j X j f j F j p j P j 1 0 6 6.375.375 2 1 4 10.250.625 3 2 4 14.250.875 4 più di 2 2 16.125 1 Distribuzione del numero di figli (X) per mamma Calcoliamo la posizione mediana: i = 16+1 2 = 8.5 La mediana ricade quindi tra l ottavo e il nono dato ordinato. Sulla base delle frequenze cumulate si può concludere che la classe mediana è quella con numero di figli pari a 1.

La Media aritmetica La media aritmetica di una distribuzione di dati rilevati sulla variabile X, è il data dalla somma dei dati divisa per il numero di unità statistiche: X = n i=1 X i n

La Media aritmetica Esempio Calcolare la media dei seguenti dati che rappresentano il voto di 5 studenti all esame di archeologia: voto: 18 ; 28 ; 19 ; 18 ; 22 Svolgimento X = 5 i=1 X i n = 18 + 28 + 19 + 18 + 22 5 = 21

La Media aritmetica Esercizio Calcolare la media dei seguenti dati che rappresentano il voto di 6 studenti all esame di storia del cinema: voto: 24 ; 29 ; 30 ; 22 ; 22 ; 26

La Media aritmetica ponderata per dati in classi di frequenza Se i dati sono raccolti in classi di frequenza, la media aritmetica si calcola associando a ciascun dato la frequenza ( il peso ) con cui si manifesta. Per questo motivo si usa il termine: media aritmetica ponderata ( pesata ). Dal punto di vista computazionale avremo: X = k i=1 X if i k i f i dove k è il numero di modalità della variabile X

La Media aritmetica ponderata Esempio Sulla base dei dati riportati nella seguente tabella calcolare la media dei voti ottenuti dai 22 studenti che hanno partecipato all ultimo appello di Statistica per l Ambiente: Svolgimento Indice i voto X i frequenze f i 1 20 11 2 24 7 3 30 4 X = 3 i=1 X if i 3 i=1 f i = 20 11 + 24 7 + 30 4 22 = 23.09

Alcune proprietà della media Aggiungendo a ciascun dato originale una costante k si otterrà una media pari alla somma della media dei dati originali e la costante k: (Xi + k) X = = X dati originali + k n Moltiplicando ciascun dato per una costante k si otterrà una media pari alla moltiplicazione tra la media dei dati originali e la costante k: (kxi ) X = = kx dati originali n La somma degli scarti tra i dati rilevati e la media è pari a 0: X = (X i X) = 0

Alcune note su moda, mediana e media Può accadere che data una distribuzione di dati, esista più di una modalità a cui è associata la massima frequenza. In questi casi non esiste un unica Moda, e si parlerà a seconda del caso di distribuzione bi-modale (con due mode), tri-modale (con tre mode)... La mediana è poco influenzata (al contrario della media) da valori estremamente grandi o piccoli presenti nella distribuzione dei dati. Per questo viene detta stimatore robusto

Note su moda, mediana e media: Un esercizio Costruire un prospetto riepilogativo contenente moda, mediana e media della distribuzione del peso (espresso in kilogrammi) per ciascuna delle seguenti squadre di calcetto: Longobarda: {80, 80, 85, 90, 90} Equality: {85, 85, 85, 85, 85} I Cardi: {60, 60, 85, 90, 95} I Bistecconi: {75, 80, 85, 120, 120} I Classici: {75,80,85, 90, 95} Ragionare sui risultati ottenuti.

Indici di tendenza centrale e scale di misura Variabile Variabile Variabile nominale Ordinale Quantitativa Moda SI SI SI Mediana NO SI SI Media NO NO SI Applicabilità degli indici a seconda della scala di misura

I quantili Data una distribuzione di dati, si definisce come Quantile di indice p e si indica con Q p, il dato al di sotto del quale si situa una percentuale p di dati. Ad esempio, la mediana può essere considerata come il quantile Q 50, e cioè il dato al di sotto del quale si situa il 50% dei dati.

Le Diverse tipologie di quantili Esistono diverse tipologie di quantili. Rispetto all utilizzo nelle applicazioni in psicologia, i più importanti sono i Quartili e i Percentili.

I quartili I quartili dividono in 4 parti uguali la distribuzione dei dati. Essi sono: Il primo quartile Q 25 : il dato al di sotto del quale si situa il 25% dei dati. Il secondo quartile (o mediana) Q 50 : il dato al di sotto del quale si situa il 50% dei dati. Il terzo quartile Q 75 : il dato al di sotto del quale si situa il 75% dei dati. I quartili vengono rappresentati all interno di un grafico molto utile per descrivere i dati detto diagramma a scatola (boxplot)... che vedremo tra poco.

I percentili I percentili, spesso indicati con la lettera maiuscola P, dividono in cento parti la distribuzione dei dati. Alcuni percentili molto importanti, sia dal punto di vista statistico che rispetto alle applicazioni in psicologia, sono: P 5 P 25 P 50 P 75 P 95

Le abilità di calcolo A 6 bambini di 8 anni è stato somministrato un test standardizzato a livello nazionale sulle abilità di calcolo. Il numero di risposte corrette al test è presentato nella seguente tabella: Codice Bambino 1 2 3 4 5 6 Punteggio 40 50 30 80 23 42 Valutare le prestazioni dei 6 bambini alla luce dei valori normativi del test: Percentile P 5 P 25 P 50 P 75 P 95 Punteggio 31 42 51 68 78

I Ranghi percentili Il Rango percentile indica la posizione di un dato all interno di una distribuzione di dati. Ad esempio, se ci riferiamo alla distribuzione del peso nei maschi adulti italiani, e sappiamo che il rango percentile associato al valore 90 kg è pari a 80 ( Rp 90 = 80)... potremo affermare che l 80% dei maschi adulti italiani pesa meno di 90 kg. Naturalmente: Rp 90 = 80 = P 80 = 90

Introduzione agli indici di variabilità Variability is the reason why people have had to develop sophisticated statistical methods to filter out any messages from the surrounding noise. (Wild & Pfannkuch, 1999)

A cosa servono gli indici di variabilità Una distribuzione di dati contiene un insieme di informazioni complesse e di per se poco maneggevole. Il ricorso ad un indice di tendenza centrale comporta una forte semplificazione, e da solo non fornisce informazioni esaurienti sulla distribuzione. E fondamentale capire quanto i dati siano dispersi intorno all indice di tendenza centrale.

Tizio, Caio o Sempronio? Consideriamo i risultati dei compiti di Psicometria ottenuti dagli studenti di tre diversi Professori: Professor Tizio = {18, 22, 24, 16, 19, 22, 18, 21} Professor Caio = {10, 10, 12, 10, 30, 28, 30, 30} Professor Sempronio = {20, 20, 20, 20, 20, 20, 20, 20} In ciascun gruppo di studenti la media dei voti è pari a 20, ma è evidente una diversa dispersione intorno a tale valore.

Gli indici di variabilità Gli indici che vedremo servono a misurare la variabilità (o dispersione) di una distribuzione di dati. Per questo motivo vengono definiti come indici di variabilità (o di dispersione). Gli indici di variabilità possono assumere solo valori positivi (non ha senso parlare di dispersione negativa) o nulli (quando i dati osservati hanno tutti lo stesso valore).

La gamma La gamma (o campo di variazione) di una distribuzione di dati è la differenza tra il valore massimo e il valore minimo osservato: gamma = X massimo X minimo Esempio Calcolare la gamma dei seguenti dati che rappresentano i punteggi ad un test di abilità di 8 soggetti: Svolgimento {90, 20, 50, 50, 50, 10, 40, 80} gamma = X massimo X minimo = 90 10 = 80

La differenza interquartilica La differenza interquartilica di una distribuzione è la differenza tra il terzo e il primo quartile (o equivalentemente tra il 75 esimo e il 25 esimo percentile) dei dati: Q = Q 75 Q 25 La differenza interquartilica è un indice di variabilitàrobusto, risente cioè poco della presenza di valori anomali (outliers) nei dati. La differenza interquartilica, viene rappresentata all interno di un grafico molto utile per descrivere i dati detto diagramma a scatola (boxplot)... che vedremo tra poco.

La varianza La varianza σ 2 di un insieme di dati è la media degli scarti al quadrato tra i dati e la media dei dati stessi: n σ 2 i = (X i X) 2 n Nota bene. La varianza assume valore minimo 0 quando tutti i dati sono uguali tra loro e aumenta all aumentare della dispersione dei dati rispetto alla media: σ 2 0

Il calcolo della varianza: formula ridotta La varianza può essere calcolata anche attraverso la seguente formula, che consente un calcolo più agevole e veloce: n σ 2 i X 2 ( n ) i i X 2 i = n n = X 2 (X) 2 La varianza può essere quindi vista come: la media dei quadrati meno il quadrato della media

Il calcolo della varianza: un esempio Un ricercatore ha valutato la capacità di memoria di 10 bambini in età prescolare ottenendo i dati riportati in tabella. La capacità di memoria viene usualmente espressa dal digit span, cioè dal numero di cifre che un soggetto è in grado di ricordare (Keppel, 1992). Calcolare la varianza dei dati. Soggetto Digit Span 1 8 2 6 3 7 4 7 5 9 6 6 7 7 8 9 9 4 10 7

Il calcolo della varianza: formula generale Per prima cosa calcoliamo la media dei dati: X = 10 i=1 X i n = 8 + 6 +... + 4 + 7 10 = 70 10 = 7 Utilizziamo ora la formula generale per il calcolo della varianza: n σ 2 i = (X i X) 2 n = (8 7)2 + (6 7) 2 +... + (4 7) 2 + (7 7) 2 10 = 20 10 = 2

Il calcolo della varianza: formula ridotta Per prima cosa calcoliamo la media dei quadrati: X 2 = 82 + 6 2 +... + 4 2 + 7 2 10 = 510 10 = 51 Calcoliamo il quadrato della media: (X) 2 = 7 2 = 49 Utilizziamo la formula ridotta: σ 2 = X 2 (X) 2 = 51 49 = 2... i conti tornano :-)

Il calcolo della varianza: per dati raggruppati in classi di frequenza Se i dati sono raggruppati in classi di frequenza, per il calcolo della varianza, si utilizzerà la seguente formula: σ 2 = n i (X i X) 2 f i n L idea è quella di pesare i singolari scarti dalla media per le relative frequenze associate.

La deviazione standard La deviazione standard (o scarto quadratico medio) è la radice della varianza: σ = σ 2 La deviazione standard è molto utile in chiave interpretativa perché, a differenza della varianza, è espressa nella stessa unità di misura del fenomeno studiato. Esempio In campione di 20 soggetti è stata rilevata la variabile peso. In tale campione la media è pari a 70 kg e la deviazione standard è pari a 10.7. Si potrà affermare che i soggetti differiscono mediamente di 10.7 kg dal peso medio di 70 kg.

Il coefficiente di variazione Il coefficiente di variazione è dato dal rapporto tra la deviazione standard e il valore assoluto della media dei dati: CV = σ X Il CV è un indice di variabiltà relativa che tiene conto, oltre che della deviazione standard dei dati, anche della media. Per questo motivo è molto utile per eseguire dei confronti in termini di variabilità tra fenomeni diversi tra loro.

Neonati e papà Nel reparto di ostetricia di un ospedale è stato rilevato il peso di un campione di 80 neonati maschi e contemporaneamente il peso dei rispettivi papà: gruppo media deviazione standard neonati 3.4 Kg 0.8 papà 82 Kg 15 Esiste più variabilità nel peso dei neonati o in quello dei papà?

Neonati e papà Naturalmente confrontare le deviazioni standard non è di grande aiuto. Esse dipendono fortemente dalle media dei dati su cui sono state calcolate. Per poter operare un confronto sulla variabilità dei due gruppi è opportuno calcolare i rispettivi coefficienti di variazione: CV neonati = 0.8 3.4 =.24 CV papà = 15 82 =.18 Osservando i risultati si può concludere che il gruppo dei bambini presenta una maggiore variabilità rispetto a quello dei papà.

Il consiglio del buon vecchio J. W. Tukey: The five number summary Per avere una prima idea sulla distribuzione dei dati raccolti, Tukey suggeriva di utilizzare il riassunto a 5 numeri: Minimo 25-esimo percentile Mediana 75-esimo percentile Massimo Tukey, 1977. Exploratory Data Analysis