STATISTICA DESCRITTIVA



Похожие документы
Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Indici di dispersione

Corso di. Dott.ssa Donatella Cocca

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Il concetto di valore medio in generale

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Elementi di Psicometria con Laboratorio di SPSS 1

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Grafici delle distribuzioni di frequenza

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Statistica descrittiva

E naturale chiedersi alcune cose sulla media campionaria x n

Elementi di Psicometria con Laboratorio di SPSS 1

Misure della dispersione o della variabilità

Relazioni statistiche: regressione e correlazione

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Statistica. L. Freddi. L. Freddi Statistica

Statistica descrittiva: prime informazioni dai dati sperimentali

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

Dott.ssa Caterina Gurrieri

ESERCIZI DI STATISTICA DESCRITTIVA

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

Prova di autovalutazione Prof. Roberta Siciliano

Statistica. Le rappresentazioni grafiche

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

La distribuzione Normale. La distribuzione Normale

Statistica. Lezione 6

Facciamo qualche precisazione

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Metodi statistici per le ricerche di mercato

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Statistica descrittiva

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

DIAPOSITIVE DI. BIOSTATISTICA (6 crediti, nuovo ordinamento) FONDAMENTI DI BIOMETRIA CON LABORATORIO (9 crediti, vecchio ordinamento)

SPC e distribuzione normale con Access

1. L analisi statistica

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

Statistica inferenziale

STATISTICA IX lezione

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Elementi di Statistica

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

Il confronto fra proporzioni

LA CORRELAZIONE LINEARE

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

STATISTICA DESCRITTIVA UNIVARIATA

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Slide Cerbara parte1 5. Le distribuzioni teoriche

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

VERIFICA DELLE IPOTESI

RAPPRESENTAZIONE DEI DATI

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Inferenza statistica. Statistica medica 1

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Analisi della performance temporale della rete

Capitolo 12 La regressione lineare semplice

3. Confronto tra medie di due campioni indipendenti o appaiati

LOGISTICA APPUNTI DI STATISTICA

Brugnaro Luca Boscaro Gianni (2009) 1

PROGETTO EM.MA PRESIDIO

LE ASSUNZIONI DELL'ANOVA

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Statistiche campionarie

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

ESAME DI STATISTICA Nome: Cognome: Matricola:

Corso di Psicometria Progredito

ALLEGATO D ANALISI STATISTICA DEI DATI METEOROLOGICI

Analisi e diagramma di Pareto

11. Analisi statistica degli eventi idrologici estremi

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

CURRICULUM SCUOLA PRIMARIA MATEMATICA

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

A.S CLASSE PRIMA SCUOLA PRIMARIA D ISTITUTO COMPETENZA CHIAVE EUROPEA DISCIPLINA

Esercitazione di riepilogo 23 Aprile 2013

matematica probabilmente

Calcolo delle probabilità

Dr. Marco Vicentini Anno Accademico Rev 30/03/2011

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Fogli Elettronici: MS Excel

Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media.

VALORE DELLE MERCI SEQUESTRATE

Modelli descrittivi, statistica e simulazione

Analisi di dati di frequenza

C) DIAGRAMMA A SETTORI

Premesse alla statistica

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Транскрипт:

STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti in un esperimento o raccolti sul campo, con lo scopo di acquisire una certa familiarità con i dati prima di passare alle analisi statistiche inferenziali evidenziare nei dati tendenze inattese a priori che possono suggerire analisi non previste inizialmente o anche nuovi esperimenti o campionamenti identificare rapidamente eventuali errori nella trascrizione dei valori o nel loro inserimento al calcolatore identificare preliminarmente alcune caratteristiche dei dati che potrebbero precludere il successivo utilizzo di alcune tecniche statistiche comunicare ad altre persone brevemente, con logica ed ordine, le principali caratteristiche dei dati raccolti Attenzione: riassumere vuol quasi sempre dire perdere parte dell informazione

Cos è una variabile? o una qualsiasi caratteristica misurata o registrata in un unità campionaria. Generalmente le variabili sono indicate con lettere maiuscole e i valori che possono assumere con lettere minuscole, spesso indicizzati per indicare il valore assunto dalla variabile in una specifica osservazioni I valori che assume possono essere numerici oppure di semplice appartenenza ad una certa categoria o Variabili quantitative continue Peso, altezza, concentrazione, o Variabili quantitative discrete Numero uova, numero parassiti, numero piastre batteriche, o Variabili qualitative con valori ordinabili (scala ordinale) Abbondanza, stato di salute, aggressività, o Variabili qualitative con valori non ordinabili (scala nominale) = variabili categoriche Gruppo sanguigno, tipo di malattia, tipo mutazione, specie

Variabili risposta e variabili esplicative (dipendenti e indipendenti) Ipertensione arteriosa e rischio di ictus Piani edificio e lesione gatti Intensità di caccia e livelli di variabilità genetica 2 Nucleotide diversity (%) 1.5 1 0.5 0 12 14 16 18 20 22 24 Level of hunting

Dati, frequenze e distribuzioni 22 nidi di merlo al momento dell involo e di avere contato in ciascuno di essi il numero di piccoli sopravvissuti o unità campionaria = nido o la femmina o variabile è quantitativa discreta. x 1 = 0; x 2 = 2; x 3 = 2; x 4 = 0; x 5 = 1; x 6 = 3; x 7 = 3; x 8 = 2; x 9 = 2; x 10 = 4; x 11 = 1; x 12 = 4; x 13 = 2; x 14 = 1; x 15 = 2; x 16 = 3; x 17 = 3; x 18 = 6; x 19 = 4; x 20 = 2; x 21 = 3; x 22 = 3, dove x i, indica il valore assunto dalla variabile X nella i-esima osservazione, con l'indice i che varia da 1 a n (n = 22 = dimensione del campione). classe di frequenza e tabella di frequenza: x i n i 0 2 1 3 2 7 3 6 4 3 6 1

In questo caso x i indica il valore assunto dalla variabile X nella i-esima classe, con l'indice i che varia da 1 a c, n i è il numero di volte che nel campione ricorre l'osservazione x i e c è il numero di classi (5 nel nostro caso) Chiaramente la somma di tutti gli n i deve dare n, ovvero i=c i=1 c n i = n i = n i = n i i=1 i = n distribuzione di frequenza: ossia alla distribuzione dei dati nelle diverse classi o distribuzione di probabilità o distribuzione di probabilità teorica diagramma a segmenti (o a barre) o capisco quali sono i valori che ricorrono più frequentemente o distribuzione unimodale, bimodale, multimodale? o Simmetrica o asimmetrica? Asimmetrica a destra o a sinistra? o capisco e l'intervallo di variazione della variabile analizzata

Si noti come nella tabella di frequenza è stata inserita anche una categoria, la 5, in cui non si rilevano osservazioni. Questo permette di costruire un diagramma a segmenti che rappresenti correttamente la distribuzione di frequenza dei dati.

Esempio di una distribuzione bimodale.

Distribuzioni contagiose o numero di animali che hanno contratto una certa parassitosi in 100 nidi di vespa o numero di piante in 100 quadrati di 1 metro x 1 metro

frequenze assolute (n i, dette anche numerosità) frequenze relative (f i, o, a volte, p i,), ovviamente varia tra 0 e 1 frequenza percentuale f i = p i = n i n f i (%)= f i 100 Il termine generico frequenza è spesso utilizzato per indicare cose diverse

Istogramma: quando la variabile analizzata assume molti valori diversi nel campione è una migliore rappresentazione della distribuzione di frequenza. Nell istogramma i dati vengono raggruppati in classi che includono tutti i valori in certo intervallo. Definizione classi o Regolette: radice di n; (1 + ln(n)/ln(2)) o Evitare la presenza di molte classi circa vuote o Limiti di classe (>= e <) o Buon senso

Distribuzioni di frequenza per le variabili di tipo qualitativo? Diagramma a segmenti (o a barre)

Diagramma a torta

Rappresentazione grafica della relazione tra due variabili numeriche Due variabili di tipo quantitativo misurate in ciascuna unità campionaria, o comunque di tipo ordinabile, la rappresentazione grafica delle singole osservazioni in un sistema di assi cartesiani diventa molto importante per evidenziare eventuali tendenze o associazioni. Scatterplot, o nube di punti (due esempi) E facile intuire che esiste una associazione tra le due variabili: le femmine di dimensioni maggiori depongono generalmente uova più grandi (a destra), e i maschi più brillanti generano figli più attraenti per le femmine. Associazione positiva, negativa e nulla

Inserisco una terza variabile In 30 località europee viene rilevato il livello di precipitazioni annue (mm di pioggia) e il ph medio delle piogge. Con il semplice utilizzo di simboli diversi (quadratini per le le località del Sud-Europa, asterischi per quelle del Nord-Europa), è possibile visualizzare in una nube di punti tre variabili (precipitazioni, ph e posizione geografica).

Diagramma a linee

. Tre esempi sulla differenza tra associazione e causazione Le variabili di confondimento creano problemi Gli studi sperimentali possono risolvere il problema

Rappresentazione tridimensionale di temperatura, umidità, e numero di specie misurate in 13 stazioni di campionamento.

Analisi di due (o più) variabili categoriche Tabella di contingenza (in questo caso, per 2 variabili categoriche)

Diagramma a barre raggruppate

Considerazioni generali sulla visualizzazione grafica - Chiarezza - Completezza - Onestà

Indici sintetici di una distribuzione Sintesi attraverso le distribuzioni di frequenza Ulteriori sintesi attraverso le o misure di tendenza centrale (o di posizione) cercano di identificare il valore "tipico" di una distribuzione, ovvero la posizione, nella scala della variabile analizzata, intorno alla quale si concentrano le osservazioni o misure di dispersione sintetizzano il grado di variabilità dei dati Le misure di tendenza centrale e di dispersione dovrebbero quindi rispecchiare, rispettivamente, la posizione e l ampiezza di una distribuzione di frequenza.

Conoscere la dispersione dei dati equivale a conoscere qualcosa sul valore di ogni singolo valore per la comprensione di un fenomeno. Se la dispersione è molto elevata, le singole osservazioni possono essere anche molto diverse, e quindi singolarmente di scarso valore. Si può dire quindi che all aumentare della dispersione il numero di osservazioni necessarie per trarre delle conclusioni generali a partire da un campione deve aumentare. Quando la variabilità è molto bassa può anche non essere necessario effettuare molte osservazioni, e forse nemmeno ricorrere alla statistica inferenziale.

Misure di tendenza centrale La media Media aritmetica. In genere quando si parla di media si intende la media aritmetica Media campionaria, della variabile X, la media campionaria viene indicata con x. x = n 1 n x i Media della popolazione µ= x i N La somma delle differenze dei singolo valori dalla media (detti scarti dalla media) è uguale a 0 e quindi la media si può considerare il baricentro del campione dove si bilanciano gli scarti. ( x i x )= x i x = nx nx = 0

Media a partire da una tabella di frequenza : x = c 1 x i n i n oppure x = x i f i c 1 Esempio Aplotipo x i n i A 51 5 B 54 11 C 55 15 D 57 29 E 62 22 F 63 4 x = c 1 x i n i n = 51 5+ 54 11+ 55 15+ 57 29+ 62 22+ 63 4 86 = 5738 86 = 57,44 E se la variabile continua?

Proprietà della media la media implica la somma di valori numerici e quindi ha un significato solo per le variabili quantitative; risente molto dei valori estremi; se un singolo valore nel campione è per esempio molto più grande di tutti gli altri, la media non identifica un valore tipico del campione non è calcolabile se alcune osservazioni sono fuori scala nel caso di distribuzioni multimodali, la media raramente identifica un valore tipico

Esempio: Supponiamo di sacrificare 12 trote campionate in natura per contare in ciascuna di esse il numero di parassiti intestinali di una certa specie. Dati: 3, 2, 3, 4, 6, 2, 44, 8, 5, 3, 4, 2. La media di questi valori risulta essere 7,16, ma come è facile rendersi conto, questo valore non identifica certamente un valore tipico del campione. Questio a causa di un valore estremo, detto outlier. Esempio: Nove cavie sono sottoposte ad un test cognitivo all interno di un labirinto, e per ogni animale si misura il tempo impiegato a percorrere un certo tracciato. I risultati ottenuti, in minuti, sono i seguenti: Dati: 23,25, 29, 22, 15, >120, 32, 20,>120 In questo caso due valori sono fuori scala, e la media calcolata escludendo questi valori mancanti non rappresenterebbe correttamente l esperimento.

La mediana La mediana è il valore centrale in una serie di dati ordinati. Per esempio Dati: 30, 49, 74, 40, 63, 295, 60 Dati ordinati: 30, 40, 49, 60, 63, 74, 295 La mediana è quindi il valore che divide un campione di dati ordinati in due parti ugualmente numerose. In altre parole, metà dei valori nel campione sono più piccoli della mediana, e metà sono più grandi. E evidente quindi che la mediana è una misura della tendenza centrale. Se il numero di osservazioni n è dispari, la mediana è il valore che occupa la posizione (n+1)/2 nella serie ordinata dei dati (il quarto valore nell esempio appena visto). Se n è pari, la mediana è la media tra i 2 valori centrali, ossia la media dei valori nelle posizioni n/2 e n/2 +1. Nel caso di dati raccolti in una tabella di frequenza, è in genere sufficiente identificare la classe che contiene la mediana (la classe mediana).

Proprietà della mediana Il calcolo della mediana non implica l elaborazione dei dati numerici osservati o L informazione sul peso relativo dei singoli valori viene perduta. E spesso un buon indicatore della tendenza centrale di un set di dati è calcolabile anche se la variabile è qualitativa (ma deve essere ordinabile!) non risente dei valori estremi è calcolabile anche se alcune osservazioni sono fuori scala Esempi precedenti - la mediana del numero di parassiti nelle 12 trote è pari a 3,5 parassiti - la mediana del tempo impiegato dalla cavie nel labirinto è 25 minuti In entrambi i casi la mediana e facilmente calcolabile e indica bene (meglio della media) dove si concentrano le osservazioni. La mediana, però, soffre dello stesso inconveniente della media, ovvero può portare ad un valore assolutamente non rappresentativo quando la distribuzione non è unimodale.

La moda La moda è semplicemente il valore osservato più spesso nel campione. Dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1,2 vengono riassunti nella tabella di frequenza x i n i 0 1 1 2 2 5 3 3 4 2 5 1 La moda è quindi pari a 2. Classe modale è quella che contiene il maggior numero di osservazioni. La stretta interpretazione della moda dovrebbe anche avere come conseguenza il fatto che praticamente tutte le distribuzioni osservate sono unimodali

Proprietà della moda La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di frequenza attraverso il suo picco più elevato. Anche se, come la mediana, non considera il peso delle singole osservazioni, ha alcune proprietà importanti: è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative non ordinabili indica sempre un valore realmente osservato nel campione non è influenzata dai valori estremi nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per descrivere la tendenza centrale di un campione è collegata direttamente al concetto di probabilità (che vedremo meglio nei prossimi capitoli): la moda di una popolazione è il valore della variabile con la la maggior probabilità di essere osservata

Questa distribuzione presenta una forte asimmetria a destra. La mediana ha valore 3 e la media 5.24, mentre la moda è uguale a 2.

Misure di dispersione Basate sulle differenze tra le singole osservazioni e la media (scarti dalla media) o Varianza o Deviazione standard o Coefficiente di variazione o Tutti i valori concorrono al calcolo di queste tre misure di dispersione (inclusi gli outliers) o L utilizzo di questi indici non è adatto allo studio della dispersione di variabili qualitative, Non basate sull elaborazione numerica dei dati o Range o Distanza interquartile.

La varianza La somma degli scarti della media è uguale a 0 o media degli scarti = 0 Se però ogni singolo scarto dalla media viene elevato al quadrato o La media degli scarti al quadrato, chiamata anche scarto quadratico medio, è la varianza. Varianza campionaria: s 2 = x i x ( ) 2 n 1,

La somma degli scarti quadratici al numeratore, chiamata devianza, può essere calcolata anche con le formule semplificate: Dev(X )= x i 2 ( x) 2 i n Infatti: 2 ( x i x ) ( ) = x i 2 + x 2 2x x i = x 2 i + n ( x i ) 2 2 n 2 x i n x i = x 2 i ( x i ) 2 n Così il calcolo (manuale) è più preciso. Perché? Attenzione però che concettualmente

Cosa c è di strano nel calcolo di s 2? o Dal punto di vista della statistica descrittiva potrei usare n al denominatore o Anche se fossero disponibili i dati riferiti a tutte le N unità campionarie della popolazione, allora σ 2 = ( x i µ ) 2 N Ma: o La varianza campionaria s 2, calcolata utilizzando n al denominatore è una stima distorta (una sottostima in questo caso) della varianza della popolazione σ 2 La media di un campione è imprecisa (non è uguale a µ) I valori tendono ad essere più vicini alla media campionaria di quanto non siano a µ Più il campione è piccolo, meno riesce a cogliere tutta la variabilità dei dati nella popolazione Tale distorsione (bias) si può correggere utilizzando il fattore n-1 a denominatore.

Nel caso di dati raggruppati in c classi di frequenza s 2 = c 1 n i ( x i x ) 2 n 1, Se poi i dati sono raccolti in classi corrispondenti ad un intervallo tra due valori, una stima di s 2 si può ottenere utilizzando la stessa espressione sostituendo x i con i valori centrali degli intervalli.

La deviazione standard L'unita di misura della varianza e l'unita di misura della deviazione standard La deviazione standard, s, indicata anche con l abbreviativo D.S. o DS, è data da: s=ds= s 2

Coefficiente di variazione E una sorta di deviazione standard rielaborata per evitare i cosiddetti effetti di scala. Esempio: Deviazione standard nella lunghezza del corpo dei maschi di Gambusia holbrooki (un piccolo pesce d acqua dolce) é uguale a 3.2 mm Deviazione standard nella lunghezza dei maschi territoriali di Zosterisessor ophiocephalus (il gò, un ghiozzo di laguna) sia pari 10.6 mm. I maschi di Gambusia sono meno variabili dei maschi di gò, ossia i maschi di Gambusia si assomigliano tra loro (per la lunghezza) più di quanto facciano quelli di gò? Forse la maggiore dispersione indicata dalla deviazione standard è solo un effetto della diversa dimensione media di queste due specie o Per esempio, la differenza nella lunghezza del femore tra due persone è senza dubbio di molte volte maggiore della differenza nella lunghezza della zampa di due maggiolini.

Quando cioè si vuole confrontare la dispersione tra variabili con medie molto diverse, si ricorre al CV CV= s x 100 Il coefficiente di variazione è dimensionale o Esempio: Siamo interessati a sapere se nel ghiro è più variabile la lunghezza della coda oppure la durata del letargo (variabili con unità di misura diverse) Nell esempio dei pesci, assumendo una lunghezza media di 29 mm per i maschi di gambusia e di 181 mm per i maschi di gò: CV(Gambusia) = 11% CV(gò) = 6 %, Un risultato di questo tipo suggerisce una conclusione molto diversa da quella basata sulla deviazione standard: la variabilità nelle dimensioni corporee è quasi doppia nei maschi di Gambusia rispetto a quelli di gò.

Il range Range = valore massimo valore minimo Descrizione molto rozza della dispersione dei dati o si basa solamente sui due valori estremi (ed è quindi altamente influenzata da questi) e non considera assolutamente la quale sia le distribuzione di frequenza dei dati tra essi.

La distanza interquartile Cosa sono i quartili? o Imparentati con la mediana, solo che invece di separare l insieme dei dati ordinati in due gruppi lo separano il quattro o Ogni gruppo contiene il 25% delle osservazioni: il primo quartile, Q 1, è il valore che separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana, e il terzo quartile, Q 3, è il valore che separa il primo 75% delle osservazioni dal restante 25%. La distanza interquartile è data dalla differenza Q 3 -Q 1, e identifica quindi l intervallo centrale della distribuzione di frequenza all interno del quale cade il 50% delle osservazioni. E una misura della dispersione dei dati che non risente di eventuali valori estremi molto diversi dalla gran parte degli altri, e può essere calcolata anche quando i valori estremi sono fuori scala. L identificazione dei quartili non è banale quando il numero di osservazioni non è elevato o Cerco la mediana delle due metà dei dati

Risultati per dati prima autoamputazione: Mediana: 2.90; primo quartile: 2.34; terzo quartile: 3.045; distanza interquartile: 0.705

Diagramma Box-and-Whiskers (scatola e baffi) o Mediana, primo e terzo quartile, range (+ a volte valori estremi, cioè valori a una distanza dalla scatola superiore a 1.5 volte la distanza interquartile)

ESEMPI Fare la tabella di frequenza, l istogramma, e discutere la forma dell istogramma

Classi con ampiezze diverse. E corretto?

Distribuzione di frequenza e distribuzione di densità o Classi di ampiezza diversa La corretta e fedele rappresentazione della distribuzione dei dati è ottenuta quando l altezza di ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all interno della classe corrispondente. E invece l area dei rettangoli a contenere l informazione relativa alla frequenza. Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di vista pratico.

Qual è la tabella più appropriata per rappresentare i dati?

Che varaibile è rappresentata nei due istogrammi? Che variabile distingue i due istogrammi? Che grafico è rappresentato? Cosa suggeriscono i grafici?

Che tipo di grafico? Che tipo di associazione?

Numero di ondulazioni per secondo in serpenti che planano Calcolare media, varianza, deviazione standard, CV, mediana, distanza interquartile Relazione con distribuzione di frequenza se la distribuzione è normale

Che tipo di diagrammi? Che tipo di variabile nei due istogrammi? C e una variabile esplicativa e una risposta? Quali sono? In cosa differeriscono i due diagrammi? Conclusioni

Calcolare il numero medio di ore dopo la morte fino al rigor mortis. Calcolare la deviazione standard. Calcolare la mediana. Perché minore della media?