Statistica descrittiva con R

Documenti analoghi
MISURE DI SINTESI 54

Università di Cassino. Esercitazioni di Statistica 1 del 29 Gennaio Dott. Mirko Bevilacqua

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Esercitazioni di Statistica

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Esercizi in preparazione all esame di. Laboratorio del corso di Principi di Informatica. Prof.sse M. Anselmo e R. Zizza. a.a.

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

STATISTICHE DESCRITTIVE Parte II

Statistica descrittiva II

x i. Δ x i

1/55. Statistica descrittiva

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

Esercitazioni di Metodi Statistici per la Biologia

Lezione 4 a - Misure di dispersione o di variabilità

Gli indici di variabilità

Teoria e tecniche dei test. Concetti di base

normopeso <=25 sovrappeso obesità I obesità II obesità III >=40

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Lezione 1.3 Corso di Statistica. Francesco Lagona

Esercitazioni di Statistica

STATISTICHE DESCRITTIVE

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

La statistica descrittiva per le variabili quantitative

Rappresentazioni grafiche

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Esempio: Media, Mediana, Moda

Esercitazioni di statistica

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Esercitazioni di statistica

Questionario 1. Sono assegnati i seguenti dati

Introduzione a R. Monica Marabelli. 30 Ottobre 2015

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Elementi di Psicometria con Laboratorio di SPSS 1

VENGONO DETTI QUANTILI

Dal campione alla popolazione

INDICI DI POSIZIONE - I QUANTILI

Approfondimento 6.1. Rappresentare graficamente la media campionaria e il suo intervallo di fiducia e le distribuzioni di probabilità con Excel

Esercizio 1. Si rilevano le variabili età, altezza e peso di 18 pazienti:

Misure di dispersione (o di variabilità)

STATISTICA DESCRITTIVA (variabili quantitative)

Lezione 4. Statistica. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Lezione 4. A. Iodice. Indici di posizione.

Le misure numeriche. La media aritmetica

Lo scarto quadratico medio è s = s 2 2,15. c) Le confezioni con peso inferiore a 500g sono 18, quindi in percentuale sono 18 = 0,72 = 72%.

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

L indagine statistica

1) Calcolare l indice di eterogeneità di Gini per i caratteri Qualifica Funzionale e Regime di Impiego.

ESERCIZIO 1. Confrontare, analiticamente e graficamente, la forma e la variabilità delle due distribuzioni. Commentare i risultati ottenuti.

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

Statistiche per riassumere i dati

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche


È possibile trovare la popolazione di origine conoscendone un campione? o meglio. partendo dalla conoscenza di n, x e d.s.?

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

Laboratorio di ST1 - Lezione 7. Antonietta di Salvatore. Dipartimento di Matematica Universitá degli Studi Roma Tre

SCOPO DELL ANALISI DI CORRELAZIONE

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

LEZIONI DI STATISTICA MEDICA

ESERCIZI DI RIEPILOGO 1

Elementi di statistica

Esercizi di preparazione all esame di Statistica Dr Alessia Mammone alessia STATISTICA DESCRITTIVA

Excel come foglio di calcolo. Altri Grafici con Excel Istogrammi, grafici a torta

Laboratorio di Statistica e Analisi Dati: Lezione 2

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

3. Matrici e algebra lineare in MATLAB

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Esempi di confronti grafici

Esercizi si statistica. Completi di soluzione guidata. Statistics.

Schemi delle Lezioni di Matematica Generale. Pierpaolo Montana

Statistica Descrittiva III

STATISTICA NOZIONI DI BASE

Marcella Anselmo Lezioni di laboratorio (altre 9): oggi e i mercoledì di aprile e maggio

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Anno Scolastico 2015/16 PROGRAMMAZIONE ANNUALE CLASSE PRIMA LICEO LINGUISTICO LICEO DELLE SCIENZE UMANE LICEO ECONOMICO-SOCIALE LICEO MUSICALE

7. Il valore che in un insieme di dati statistici si presenta con maggiore frequenza si chiama A.moda B.mediana C.media D.

Statistica - Prova scritta - 23 luglio 2015 (A) Le risposte prive di adeguata motivazione non saranno prese in considerazione

Microsoft Access (parte 5) Query. Query. Query. Query. Creare una query

I grafici parlano. Principali rappresentazioni grafiche per le distribuzioni doppie rispetto a caratteri di qualsiasi natura.

Anno scolastico 2015/2016 PROGRAMMA SVOLTO. Docente: Catini Romina. Materie: Matematica. Classe : 4 L Indirizzo Scientifico Scienze Applicate

Lezione n. 1 _Complementi di matematica

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

METODO DEI MINIMI QUADRATI

PIANO DI STUDIO DELLA DISCIPLINA MATEMATICA e COMPLEMENTI di MATEMATICA

Olimpiadi di Statistica Classe V - Fase Eliminatoria

Scanned by CamScanner

2. Variabilità mediante il confronto di valori caratteristici della

METODI E TECNOLOGIE PER L INSEGNAMENTO DELLA MATEMATICA. Lezione n 16

Le misure della tendenza

dott.ssa Gabriella Agrusti Docimologia 1

MATEMATICA C3 -ALGEBRA 1 7. STATISTICA

Probabilità e Statistica Prova del 29/07/2016 Traccia E TEORIA Università degli Studi di Verona Laurea in Informatica e Bioinformatica A.A.

STATISTICA ESERCITAZIONE 9

Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

SCHEDA DI APPROFONDIMENTO

Transcript:

Statistica descrittiva con R Monica Marabelli 6 Novembre 2015

Sintesi dei dati Le votazioni in matematica di 20 studenti della Yale University sono state le seguenti: 68 84 75 82 68 90 62 88 76 93 73 79 88 73 60 93 71 59 85 75. Calcola le misure di posizione e dispersione.

Moda Innanzitutto, inseriamo i dati in un vettore voti <- c(68, 84, 75, 82, 68, 73, 62, 88, 76, 93,73, 79, 88, 73, 60, 93, 71, 59, 85, 75) In R non esiste una funzione che calcoli la moda, ma la si puó estrarre utilizzando il comando table table(voti) 59 60 62 68 71 73 75 76 79 82 84 85 88 93 1 1 1 2 1 3 2 1 1 1 1 1 2 2

Mediana e quartili Mediana median(voti) [1] 75 La funzione quantile applicata a un vettore numerico restituisce il minimo, il massimo e i tre quartili principali quantile(voti) 0% 25% 50% 75% 100% 59.00 70.25 75.00 84.25 93.00

Il boxplot I quartili si possono rappresentare graficamente attraverso un grafico chiamato boxplot. Il boxplot é il disegno di una scatola i cui estremi sono il primo (Q1) e il terzo quartile (Q3). La mediana (Q2) divide la scatola in due parti ed é rappresentata come una riga piú spessa. I baffi sono posti a 1.5 volte l altezza della scatola (Q3 - Q1), a meno che il massimo o il minimo non siano piú vicini. In questo caso, i baffi si ottengono congiungendo Q1 al minimo o Q3 al massimo. boxplot(voti)

Media e varianza Media mean(voti) [1] 76.25 Varianza var(voti) [1] 104.0921

Deviazione standard e coefficiente di variazione Deviazione standard sd(voti) [1] 10.20255 Coefficiente di variazione sd(voti)/mean(voti) [1] 0.133804

Trovate ora: La votazione piú bassa La votazione piú alta La votazione dei cinque migliori studenti La votazione del decimo studente, cominciando dal migliore Quanti studenti hanno avuto la votazione di 75 o migliore Che percentuale di studenti ha avuto una votazione piú alta di 65 ma inferiore a 85

La votazione piú bassa min(voti) [1] 59 La votazione piú alta max(voti) [1] 93

La votazione dei cinque migliori studenti voti_sorted <- sort(voti, decreasing=true) best5 <- voti_sorted[1:5] best5 [1] 93 93 88 88 85 La votazione del decimo studente, cominciando dal migliore best10 <- voti_sorted[10] best10 [1] 75

Quanti studenti hanno avuto la votazione di 75 o migliore voti_sorted >= 75 # vettore di TRUE e FALSE [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE Creo un subset del vettore composto solamente degli elementi di interesse n <- voti_sorted[voti_sorted >= 75 ] Infine stampo la lunghezza del vettore length(n) [1] 11

Che percentuale di studenti ha avuto una votazione piú alta di 65 ma inferiore a 85 Creo un subset con i voti >65 e <85 s <- voti_sorted[voti_sorted >65 & voti_sorted <85] Infine calcolo la percentuale (length(s)/length(voti_sorted))*100 [1] 60

Distribuzione di frequenza Calcoliamo la distribuzione di frequenze assolute table(voti_sorted) voti_sorted 59 60 62 68 71 73 75 76 79 82 84 85 88 93 1 1 1 2 1 3 2 1 1 1 1 1 2 2 La somma delle frequenze assolute deve essere pari al numero di studenti length(voti_sorted) [1] 20

Distribuzione di frequenza Calcoliamo la distribuzione di frequenze relative table(voti_sorted)/length(voti_sorted) voti_sorted 59 60 62 68 71 73 75 76 79 82 84 85 88 93 0.05 0.05 0.05 0.10 0.05 0.15 0.10 0.05 0.05 0.05 0.05 0.05 0.10 0.10 La somma delle frequenze relative deve essere pari a 1. Calcoliamo la distribuzione di frequenze percentuali table(voti_sorted)/length(voti_sorted)*100 voti_sorted 59 60 62 68 71 73 75 76 79 82 84 85 88 93 5 5 5 10 5 15 10 5 5 5 5 5 10 10 La somma delle frequenze percentuali deve essere pari a 100.

Distribuzione di frequenza Calcoliamo le frequenze cumulate # assolute cumsum(table(voti_sorted)) voti_sorted 59 60 62 68 71 73 75 76 79 82 84 85 88 93 1 2 3 5 6 9 11 12 13 14 15 16 18 20 # relative cumsum(table(voti_sorted)/length(voti_sorted)) voti_sorted 59 60 62 68 71 73 75 76 79 82 84 85 88 93 0.05 0.10 0.15 0.25 0.30 0.45 0.55 0.60 0.65 0.70 0.75 0.80 0.90 1.00

La distribuzione in classi Quando si vogliono riassumere grandi quantitá di dati spesso é utile distribuire i dati in classi e determinare il numero di individui appartenenti a ciascuna classe. Definiamo i punti estremi delle classi estremi_classi <- c(50,60,70,80,90,100) Con la funzione cut si puó dividere la distribuzione in classi classi <- cut(voti_sorted, breaks=estremi_classi, right=false) fr.ass <- table(classi) fr.ass # frequenza assoluta, classi chiuse a sinistra classi [50,60) [60,70) [70,80) [80,90) [90,100) 1 4 8 5 2

Frequenze cumulate fr.cum <- cumsum(table(classi)) fr.cum [50,60) [60,70) [70,80) [80,90) [90,100) 1 5 13 18 20

Frequenza relativa e frequenza relativa cumulata Frequenza relativa fr.rel <- table(classi) / sum(table(classi)) fr.rel [50,60) [60,70) [70,80) [80,90) [90,100) 0.05 0.20 0.40 0.25 0.10 Frequenza relativa cumulata: applico la funzione cumsum fr.rel.cum <- cumsum(table(classi) / sum(table(classi))) fr.rel.cum [50,60) [60,70) [70,80) [80,90) [90,100) 0.05 0.25 0.65 0.90 1.00

Creiamo una tabella con i risultati Attraverso la funzione cbind possiamo mettere le varie frequenze che abbiamo calcolato in colonne parallele results <- cbind(fr.ass,fr.cum,fr.rel,fr.rel.cum) results fr.ass fr.cum fr.rel fr.rel.cum [50, 60) 1 1 0.05 0.05 [60, 70) 4 5 0.20 0.25 [70, 80) 8 13 0.40 0.65 [80, 90) 5 18 0.25 0.90 [90, 100) 2 20 0.10 1.00

Rappresentazione grafica delle distribuzioni di frequenza hist(voti_sorted, breaks=estremi_classi, right=f)

Esercizio riassuntivo Il dataset nel file peso_nascita.xls contiene l informazione relativa al peso alla nascita di alcuni bambini. Salva il file in.csv e importa il dataset in R Quali variabili sono riportate? Quanti individui? Calcola media e deviazione standard del peso. Calcola i quartili e rappresentali graficamente.

Esercizio riassuntivo Se il peso alla nascita é inferiore a 2.5 kg il neonato é definito sottopeso. Crea una nuova variabile che divida i neonati in due gruppi: normopeso e sottopeso. Quanti neonati sono normopeso? Quanti sottopeso? Qual é l etá media delle madri dei bambini normopeso e di quelli sottopeso? Dividi il peso alla nascita in 4 classi. Calcola distribuzione di frequenza assoluta, relativa e cumulata delle classi.