Statistica descrittiva con R

Похожие документы
Statistica descrittiva con R

Indici di Dispersione

Statistica Sociale - modulo A

Introduzione all Analisi Esplorativa dei Dati mediante R 1

MISURE DI SINTESI 54

Lezione 1.3 Corso di Statistica. Francesco Lagona

Statistica Un Esempio

tabelle grafici misure di

Scale di Misurazione Lezione 2

STATISTICHE DESCRITTIVE Parte II

Distribuzioni Statistiche e Medie Esercitazione n 01

Università di Cassino. Esercitazioni di Statistica 1 del 29 Gennaio Dott. Mirko Bevilacqua

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Esercitazioni. Es 1. Dato il seguente dataset

Esercizio 1 Nella seguente tabella sono riportate le lunghezze in millimetri di 40 foglie di platano:

1/55. Statistica descrittiva

Analisi delle Componenti Principali con R

Esercitazioni di Statistica per Biotecnologie. Francesca Pizzorni Ferrarese

STATISTICHE DESCRITTIVE

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

Istruzioni per l analisi in componenti principali con R

Statistica descrittiva II

Esercitazioni di Metodi Statistici per la Biologia

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Gli indici di variabilità

Matematica ed elementi di statistica Corso di laurea in Scienze e tecnologie per i beni culturali - a.a Esercizi 12: Statistica Descrittiva

Esercitazioni di statistica

Le medie. Antonello Maruotti

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

PSICOMETRIA Voto X frequenza

TEST DI AUTOVALUTAZIONE STATISTICA DESCRITTIVA

STATISTICA PER LA DIGITAL ECONOMY 2017

Istituzioni di Statistica e Statistica Economica

Misure di dispersione (o di variabilità)

Teoria e tecniche dei test. Concetti di base

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Nozioni di statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Esercitazioni di Statistica

Elementi di Psicometria con Laboratorio di SPSS 1

14/12/2016 IL SOFTWARE EXCEL 4 I GRAFICI I GRAFICI. E se questi dati volessimo trasformarli in grafico?

Fonte:

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

LA MISURA IN PSICOLOGIA

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

STATISTICA DESCRITTIVA (variabili quantitative)

Rappresentazioni grafiche

La statistica descrittiva per le variabili quantitative

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Una statistica è una quantità numerica il cui valore è determinato dai dati.

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Statistica descrittiva

Esercitazioni di Statistica

Misure di dispersione (o di variabilità)

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

Tutorato 1 - Statistica descrittiva

ESERCIZI STATISTICA DESCRITTIVA

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Lo scarto quadratico medio è s = s 2 2,15. c) Le confezioni con peso inferiore a 500g sono 18, quindi in percentuale sono 18 = 0,72 = 72%.

Indici di posizione e dispersione per distribuzioni di variabili aleatorie

Lezione 4 a - Misure di dispersione o di variabilità

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Esercizio 1. Si rilevano le variabili età, altezza e peso di 18 pazienti:

1) Calcolare l indice di eterogeneità di Gini per i caratteri Qualifica Funzionale e Regime di Impiego.

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

INTRODUZIONE A R Lezione 3

Approfondimento 6.1. Rappresentare graficamente la media campionaria e il suo intervallo di fiducia e le distribuzioni di probabilità con Excel

Tipi di variabili. Indici di tendenza centrale e di dispersione

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Транскрипт:

Statistica descrittiva con R Silvia Parolo 21 Novembre 2014

Sintesi dei dati Le votazioni in matematica di 20 studenti della Yale University sono state le seguenti: 68 84 75 82 68 90 62 88 76 93 73 79 88 73 60 93 71 59 85 75 Inseriamo i dati in un vettore voti <- c(68, 84, 75, 82, 68, 73, 62, 88, 76, 93,73, 79, 88, 73, 60, 93, 71, 59, 85, 75)

Calcoliamo le seguenti misure di posizione: moda In R non esiste una funzione che calcoli la moda ma la si può estrarre utilizzando il comando table table(voti) ## voti ## 59 60 62 68 71 73 75 76 79 82 84 85 88 93 ## 1 1 1 2 1 3 2 1 1 1 1 1 2 2

mediana e quartili median(voti) ## [1] 75 La funzione quantile applicata a un vettore numerico restituisce il minimo, il massimo e i tre quartili principali. Oppure quantili specifici di interesse. quantile(voti) ## 0% 25% 50% 75% 100% ## 59.00 70.25 75.00 84.25 93.00

I quartili si possono rappresentare anche graficamente attraverso un grafico chiamato boxplot. Il boxplot è il disegno di una scatola i cui estremi sono il primo (Q1) e il terzo quartile (Q3) e la riga in mezzo è la mediana (Q2). In alto e in basso ci sono altre due righe orizzonatli che sono poste a 1.5 volte la distanza tra Q3 e Q1. I valori restanti sono indicati con dei punti. boxplot(voti) 60 75 90

media mean(voti) ## [1] 76.25

Indici di dispersione varianza var(voti) ## [1] 104.1 deviazione standard sd(voti) ## [1] 10.2 coefficiente di variazione sd(voti)/mean(voti) ## [1] 0.1338

Trovate ora : La votazione più bassa La votazione più alta La votazione dei cinque migliori studenti La votazione del decimo studente, cominciando dal migliore Quanti studenti hanno avuto la votazione di 75 o migliore Che percentuale di studenti ha avuto una votazione più alta di 65 ma inferiore a 85

La votazione più bassa min(voti) ## [1] 59 La votazione più alta max(voti) ## [1] 93

La votazione dei cinque migliori studenti voti_sorted <- sort(voti,decreasing=true) best5 <- voti_sorted[1:5] best5 ## [1] 93 93 88 88 85 La votazione del decimo studente, cominciando dal migliore best10 <- voti_sorted[10] best10 ## [1] 75

Quanti studenti hanno avuto la votazione di 75 o migliore voti_sorted >= 75 #vettore di TRUE e FALSE ## [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TR ## [12] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FAL #poi faccio il subset del vettore n <- voti_sorted[voti_sorted >= 75 ] #infine ottengo la lunghezza del vettore length(n) ## [1] 11

Che percentuale di studenti ha avuto una votazione più alta di 65 ma inferiore a 85 #numero di voti esaminati length(voti_sorted) ## [1] 20 #subset >65 & < 85 s <- voti_sorted[voti_sorted > 65 & voti_sorted < 85] #percentuale (length(s)/length(voti_sorted))*100 ## [1] 60

Distribuzione di frequenza Calcoliamo la distribuzione di frequenze assolute table(voti_sorted) ## voti_sorted ## 59 60 62 68 71 73 75 76 79 82 84 85 88 93 ## 1 1 1 2 1 3 2 1 1 1 1 1 2 2 Calcoliamo la distribuzione di frequenze relative table(voti_sorted)/length(voti_sorted) ## voti_sorted ## 59 60 62 68 71 73 75 76 79 82 84 ## 0.05 0.05 0.05 0.10 0.05 0.15 0.10 0.05 0.05 0.05 0.05 0

Calcoliamo la distribuzione di frequenze percentuali table(voti_sorted)/length(voti_sorted)*100 ## voti_sorted ## 59 60 62 68 71 73 75 76 79 82 84 85 88 93 ## 5 5 5 10 5 15 10 5 5 5 5 5 10 10

Calcoliamo le frequenze cumulate #assolute cumsum(table(voti_sorted)) ## 59 60 62 68 71 73 75 76 79 82 84 85 88 93 ## 1 2 3 5 6 9 11 12 13 14 15 16 18 20 #relative cumsum(table(voti_sorted)/length(voti_sorted)) ## 59 60 62 68 71 73 75 76 79 82 84 ## 0.05 0.10 0.15 0.25 0.30 0.45 0.55 0.60 0.65 0.70 0.75 0

La distribuzione in classi Quando si vogliono riassumere grandi quantità di dati spesso è utile distribuire i dati in classi e determinare il numero di individui appartenenti a ciascuna classe. #Definiamo i punti estremi delle classi estremi_classi <- c(50,60,70,80,90,100) #con la funzione cut divido la distribzione in classi #classi chiuse a sinistra classi <- cut(voti_sorted, breaks=estremi_classi, right=false) fr.ass <- table(classi) fr.ass ## classi ## [50,60) [60,70) [70,80) [80,90) [90,100) ## 1 4 8 5 2

frequenze cumulate fr.cum <- cumsum(table(classi)) fr.cum ## [50,60) [60,70) [70,80) [80,90) [90,100) ## 1 5 13 18 20

frequenza relativa e frequenza relativa cumulata #frequenza relativa fr.rel <- table(classi) / (sum(table(classi))) fr.rel ## classi ## [50,60) [60,70) [70,80) [80,90) [90,100) ## 0.05 0.20 0.40 0.25 0.10 #frequenza relativa cumulata #applico la funzione cumsum fr.rel.cum <- cumsum(table(classi)) / sum(table(classi)) fr.rel.cum ## [50,60) [60,70) [70,80) [80,90) [90,100) ## 0.05 0.25 0.65 0.90 1.00

Creiamo una tabella con i risultati attraverso la funzione cbind possiamo mettere le varie frequenze che abbiamo calcolato in colonne parallele results <- cbind(fr.ass,fr.cum,fr.rel,fr.rel.cum) results ## fr.ass fr.cum fr.rel fr.rel.cum ## [50,60) 1 1 0.05 0.05 ## [60,70) 4 5 0.20 0.25 ## [70,80) 8 13 0.40 0.65 ## [80,90) 5 18 0.25 0.90 ## [90,100) 2 20 0.10 1.00

Rappresentazione grafica delle distribuzioni di frequenza hist(voti_sorted, breaks=estremi_classi,right=f) Histogram of voti_sorted Frequency 0 2 4 6 8 50 60 70 80 90 100 voti_sorted

Esercizio riassuntivo Il dataset nel file peso_nascita.csv contiene l informazione relativa al peso alla nascita di 15 bambini. Importa il dataset in R Quante variabili sono riportate? Quanti individui? Calcola media e deviazione standard del peso. Calcola i quartili e rappresentali graficamente

Se il peso alla nascita è inferiore a 2.5 kg il neonato è definito sottopeso. Crea una nuova variabile che divida i neonati in due gruppi: normopeso e sottopeso. Quanti neonati sono normopeso? Quanti sottopeso? Qual è l età media delle madri dei bambini normopeso e di quelli sottopeso?

Dividi il peso alla nascita in 4 classi. Calcola distribuzione di frequenza assoluta, relativa e cumulata delle classi.