INTRODUZIONE A R Lezione 3

Documenti analoghi
Esercitazioni di Statistica

Tenendo conto che la funzione di probabilità per una v.c. binomiale X è definita dalla seguente notazione

Laboratorio di Statistica con R

L ambiente grafico di R

Analisi dei dati con R

Generazione di Numeri Casuali- Parte 2

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2:

IN MATLAB distribuzione di frequenza. >> x(1)=7.5; >> for i=2:7 x(i)=x(i-1)+5; end. IN MATLAB distribuzione di frequenza

LAB LEZ. 1 STATISTICA DESCRITTIVA CON R

Istituzioni di Statistica e Statistica Economica

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Laboratorio di ST1 Lezione 2

2. Variabilità mediante il confronto di valori caratteristici della

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Grafici delle distribuzioni di frequenza

7. Si confronti la variabilità del carattere età nel gruppo dei maschi ed in quello delle femmine.

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

Grafici e Pagina web

Dai dati al modello teorico

R - Esercitazione 1. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. 30 Settembre Università Roma Tre

Facciamo qualche precisazione

Validazione dei modelli Strumenti quantitativi per la gestione

DISTRIBUZIONI DI PROBABILITÀ

ELEMENTI DI CALCOLO DELLE PROBABILITA

Esercitazioni di Statistica con Matlab

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Prof.ssa Paola Vicard

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

DALLA POPOLAZIONE AL CAMPIONE: IL CALCOLO DI PROBABILITÁ

APPENDICE III. CONSIGLI PER L USO DEL SOFTWARE R (a cura del Dott. Lorenzo Giolli)

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

ESERCITAZIONE 4 SOCIALE. Corso di Laurea Comunicazione e A.A. 2012/2013

DISTRIBUZIONI DI VARIABILI CASUALI DISCRETE

Elementi di Psicometria con Laboratorio di SPSS 1

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Analisi della varianza

La distribuzione Gaussiana

UNIVERSITA DEGLI STUDI DI PADOVA DIPARTIMENTO DI INGEGNERIA IDRAULICA, MARITTIMA E GEOTECNICA

1. la probabilità che siano tutte state uccise con pistole; 2. la probabilità che nessuna sia stata uccisa con pistole;

Esercizi riassuntivi di probabilità

CENNI DI METODI STATISTICI

Dipartimento di Scienze politiche, della comunicazione e delle relazioni internazionali - a.a

p k q n k = p n (k) = n 12 = 1 = ,1208. q = 1 2 e si ha: p 12 (8) =

Probabilità II Variabili casuali discrete

Grafici. Lezione 4. Fondamenti di Informatica 2 Giuseppe Manco Ester Zumpano

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1)

Statistica inferenziale

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

MATLAB (3) - Grafica 2 e 3D

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità

Matematica II: Calcolo delle Probabilità e Statistica Matematica

La variabile casuale Binomiale

Esercizi di Calcolo delle Probabilità e Statistica Matematica

STATISTICA ESERCITAZIONE 11 Dott. Giuseppe Pandolfo 3 febbraio Modelli continui di probabilità: la v.c. uniforme continua

ANALISI DEI DATI PER IL MARKETING 2014

Statistica 4038 (ver. 1.2)

####################### Il linguaggio R ############################# # Il cancelletto permette di fare commenti

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Controllo Statistico della Qualità

Esercitazione di riepilogo 23 Aprile 2013

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

VARIABILI ALEATORIE CONTINUE

1. Richiami di Statistica. Stefano Di Colli

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE SIMULAZIONE della PROVA SCRITTA di STATISTICA 23/03/2011

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Statistica con R. Jody Tubi.

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

Probabilità e Statistica Esercitazioni. a.a. 2006/2007

3.5.1 PREPARAZ1ONE I documenti che si possono creare con la stampa unione sono: lettere, messaggi di posta elettronica, o etichette.

Statistica Applicata all edilizia: alcune distribuzioni di probabilità

Esplorazione dei dati

ELEMENTI DI STATISTICA DESCRITTIVA

1. ANALISI DEI RESIDUI inizio recupero dati----- X = scan("clipboard") accessori.auto = ts(x, frequency=12, start=c(1995,1))

PROBABILITA GIUSEPPE DE NICOLAO. Dipartimento di Informatica e Sistemistica Università di Pavia

MATEMATICA e COMPLEMENTI di MATEMATICA

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

L indagine statistica

STATISTICA DESCRITTIVA UNIVARIATA

1 di 6. Usando un modello di probabilità

Esercitazioni del corso di Statistica - III canale Prof. Mortera e Vicard a.a. 2010/2011

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Definizione Dati due insiemi A e B, contenuti nel campo reale R, si definisce funzione reale di variabile reale una legge f : A

Soluzioni Esercizi elementari

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

MATLAB: Una veloce introduzione (Parte II)

Analisi di dati di frequenza

Indice Prefazione xiii 1 Probabilità

Prova di autovalutazione Prof. Roberta Siciliano

Transcript:

INTRODUZIONE A R Lezione 3 Silvia Bacci e Silvia Pandolfi 1 Creare grafici in R R consente di realizzare, con semplicità, grafici di qualità professionale. Questi sono poi esportabili come file in numerosi formato direttamente copiabili per l utilizzo in altri programmi. Per la realizzazione dei grafici si utilizzano delle funzioni specifiche nelle quali occorre specificare sia i dati da utilizzare sia eventuali parametri opzionali. 1.0.1 Istogrammi La funzione di R per creare un istogramma di frequenza di un vettore numerico è hist(). > dati.studenti = read.csv("dati.csv", header=t, sep=\,") > hist(dati.studenti$altezza) > #per specificare le classi da utilizzare > hist(dati.studenti$altezza,breaks=15) Altre possibili opzioni sono: > hist(dati.studenti$altezza,xlab="altezza",ylab="freq", + main="istogramma di Altezza studenti", col="green", label = TRUE) 1.0.2 Diagrammi a barre Per le variabili di tipo qualitativo, una rappresentazione possibile è il grafico a barre. Il comando barplot() richiede come argomento un oggetto contenente le modalità della variabile e le relative frequenze. > #partendo dal dataset dati-ita ricavare i diagrammi a barre > #delle variabili sesso, zona, figli e genitori > install.packages("gdata") > library(gdata) > dati.ita = read.xls("dati-ita.xls", sheet=1) > head(dati.ita) > attach(dati.ita) silvia.bacci@unipg.it pandolfi@stat.unipg.it 1

> par(mfrow=c(2,2)) #inserisce più grafici in una stessa finestra > barplot(table(sesso),col=c("pink","blue"),main="barplot di Sesso") > barplot(table(zona),col=c("green","gray"),main="barplot di zona") > barplot(table(figli),col=c("red","green","black","yellow"),main="barplot di figli") > barplot(table(genitori),main="barplot di genitori") 1.0.3 Diagrammi a torta Un altra rappresentazione classica di distribuzioni di frequenza è il diagramma a torta: > pie(table(dati.studenti$diploma)) > pie(table(dati.studenti$diploma),col=1:4) > pie(table(dati.studenti$diploma),col=c("pink","red","yellow","green"), >+main="diagramma a torta di diploma") 1.0.4 Diagrammi a scatola (Box-plot) I diagrammi a scatola consentono di visualizzare i principali indici di posizione di una variabile. In particolare, il grafico descrive la tendenza centrale, tramite la mediana, la dispersione dei dati, tramite i quartili e l estensione complessiva del campione. In R è possibile costruire anche boxplot di una variabile quantitativa, condizionatamente alle modalità di un variabile qualitativa. > boxplot(reddito) > boxplot(reddito ~ sesso) > boxplot(reddito ~ figli) 1.0.5 La funzione generica plot() La funzione plot() è una funzione generica che produce un grafico adeguato al tipo di oggetto a cui viene applicato. plot(x): se x è un vettore numerico si produce un grafico dei valori ordinati rispetto all indice di posizione plot(x,y): si produce il grafico a dispersione (o scatterplot) dei due vettori numerici plot(f): se f è una variabile qualitativa si produce il grafico a barre plot(f,x): se f è una variabile qualitativa (fattore) si produce il boxplot di x per ogni livello di f Carichiamo il dataset iris e facciamo alcuni esempi: > data(iris) > str(iris) > x = iris$petal.length > y = iris$sepal.length > f = iris$species > plot(x) 2

> plot(x,y) > plot(f) > plot(f, y) In questa funzione, ma in generale in tutte quelle per eseguire rappresentazioni grafiche dei dati, è presente una molteplicità di parametri grafici che permettono una notevole personalizzazione dell output. La maggior parte sono visualizzabili dall help di plot o di par, mentre altri sono specifici della singola tipologia di grafico. I più diffusi sono: type: argomento di plot che definisce la tipologia di rappresentazione: punti, linee etc. xlim, ylim: definiscono gli estremi degli assi xlab, ylab: assegnano delle etichette agli assi main, sub: titolo e sottotitolo del grafico col: specifica i colori da utilizzare nel grafico lty: tipo di linea del grafico: tratteggiata, continua,con punti etc. lwd: gestisce lo spessore delle linee e degli assi 1.0.6 Comandi grafici In R è possibile utilizzare alcuni comandi per aggiungere informazioni o modificare un grafico esistente. I più comuni sono: points(x, y) # aggiunge un punto nelle coordinate x y lines(x, y) # connette linee text(x, y, labels,...) # aggiunge una etichetta al punto di coordinate x y abline(a, b) # aggiunge una retta di pendenza b e intercetta a polygon(x, y,...) # disegna un poligono legend(x, y, legend,...) # aggiunge una legenda title(main, sub) # aggiunge un titolo axis(side,...) # aggiunge un asse 1.0.7 Esercizio Applicare le principali statistiche descrittive al dataset var-qualitative.txt e costruire i grafici appropriati. 3

2 Distribuzioni statistiche Per molte delle distribuzioni statistiche usate comunemente in R è possibile calcolare la funzione di densità, o di probabilità nel caso discreto, la funzione di ripartizione o di probabilità cumulata, i quantili, e generare campioni di una data ampiezza: Normale dnorm(x, mean=0, sd=1): calcola densità in x pnorm(q, mean=0, sd=1): calcola probabilità cumulata fino a q qnorm(p, mean=0, sd=1): calcola quantile corrispondente alla probabilità p rnorm(n, mean=0, sd=1): genera un campione di dimensione n Se i parametri opzionali non sono impostati si ottiene una distribuzione normale standardizzata, altrimenti mean corrisponde alla media e sd alla deviazione standard. Chi-quadrato dchisq(x, df): calcola densità in x pchisq(q, df): calcola probabilità cumulata fino a q qchisq(p, df): calcola quantile corrispondente alla probabilità p rchisq(n, df): genera un campione di dimensione n Binomiale Il parametro df corrisponde ai gradi di libertà della variabile chi-quadrato. dbinom(x, size, prob): calcola densità in x pbinom(q, size, prob): calcola probabilità cumulata fino a q qbinom(p, size, prob): calcola quantile corrispondente alla probabilità p rbinom(n, size, prob): genera un campione di dimensione n Poisson I parametri size e prob si riferiscono al numero di prove e alla probabilità di successo di ciascuna prova. La variabile casuale di Bernoulli è ottenuta come caso particolare specificando size=1 dpois(x, lambda): calcola densità in x ppois(q, lambda): calcola probabilità cumulata fino a q qpois(p, lambda): calcola quantile corrispondente alla probabilità p rpois(n, lambda): genera un campione di dimensione n 4

2.1 Esempi 2.1.1 Variabile Casuale Normale Si calcolino i seguenti quantili della V.C. Normale Standard: p(z < z) = 0.95 > qnorm(0.95, mean = 0, sd = 1) # P(X<x)=0.95 [1] 1.644854 > qnorm(0.95) [1] 1.644854 p(z > z) = 0.07 > qnorm(1-0.07,0,1) # P(X>x)=0.07 [1] 1.475791 > qnorm(0.07,0,1, lower.tail = FALSE) [1] 1.475791 p(z < z) = 0.10 > qnorm(0.10,0,1, lower.tail = TRUE) [1] -1.281552 > -qnorm(1-0.10,0,1) [1] -1.281552 > -qnorm(0.10,0,1,false) [1] -1.281552 Si consideri adesso una V.C. Normale con media 5 e varianza 9 e si calcolino: p(x < x) = 0.95 > qnorm(0.95, mean = 5, sd = sqrt(9)) [1] 9.934561 p(x > x) = 0.07 > qnorm(0.07,5,sqrt(9),false) [1] 9.427373 Con riferimento ad una V.C. Normale Standard si calcolino le seguenti probabilità: φ(1.64): > dnorm(x=1.64, mean=0, sd=1) [1] 0.1039611 Φ(2.3): 5

> pnorm(q = 2.3, mean = 0, sd = 1, lower.tail = TRUE) [1] 0.9892759 p(z > 1.5): > pnorm(q = 1.5, mean = 0, sd = 1, lower.tail = FALSE) [1] 0.0668072 > 1-pnorm(q = 1.5, mean = 0, sd = 1) [1] 0.0668072 Φ( 2.7): > pnorm(q = -2.7, mean = 0, sd = 1) [1] 0.003466974 p(z > 1): > pnorm(q = -1.0, mean = 0, sd = 1, FALSE) [1] 0.8413447 p( 2.4 < Z < 3.2): pnorm(q = 3.2, mean = 0, sd = 1) - pnorm(q = -2.4, mean = 0, sd = 1) [1] 0.9911153 Rappresentare graficamente la densità di una V.C. Normale Standard: > x = sort(rnorm(1000)) # si generano 1000 num. casuali da una Normale Standard # e si ordinano in senso non decrescente > f = dnorm(x) # si calcolano le corrispondenti densità > plot(x, f, type="l") > rug(x) # aggiunge delle linee verticali in corrispondenza dei valori osservati Si provi a ripetere l esperimento cambiando la dimensione del campione. Si generino anche osservazioni da una distribuzione normale non standardizzata (suggerimento: vedi help(rnorm)). Supponiamo di voler disegnare il grafico della distribuzione Normale con media uguale e diversa varianza o varianza uguale e diversa media > curve(dnorm(x,0,0.5),-6,6) > curve(dnorm(x,0,1),-6,6,add=true) > curve(dnorm(x,2,1),-6,6,add=true) 2.1.2 Approssimazione di una v.c. Chi-quadrato con una Normale Ricordando che se y χ 2 k allora E(y) = k e V ar(y) = 2k, possiamo rappresentare graficamente una v.c. χ 2 e, contemporaneamente, una v.c. normale con stessa media e varianza: > y = sort(rchisq(1000,10)) #genera 1000 num.casuali da una chi-quadro con 10 g.d.l. > plot(y,dchisq(y,10), type="l") #disegna la funzione di densità > x <- seq(10-4*sqrt(20),10+4*sqrt(20),by=1) #crea una sequenza di valori > lines(x,dnorm(x,10,sqrt(20)),col=2,lty=2) #aggiunge la funzione di densità normale 6

2.1.3 Distribuzione Binomiale Con riferimento ad una V.C. Binomiale con n = 20 e p = 0.30 si calcolino le seguenti probabilità: p(x = 6) > dbinom(x = 6, size = 20, prob = 0.30) [1] 0.191639 p(x 5) > pbinom(q = 5, size = 20, prob = 0.30, TRUE) [1] 0.4163708 p(x 13) > pbinom(q = 13, size = 20, prob = 0.30, FALSE) [1] 0.000261047 p(x > 13) > pbinom(q = 12, size = 20, prob = 0.30, FALSE) [1] 0.00127888 p(2 X 7) > pbinom(q = 7, size = 20, prob = 0.30)- pbinom(q = 2, size = 20, prob = 0.30) [1] 0.7367887 Si rappresenti graficamente la distribuzione di probabilità di una Binomiale con n = 10 prove indipendenti e p = 0.5. > k = c(0:10) > k [1] 0 1 2 3 4 5 6 7 8 9 10 > p= dbinom(k,10,0.5) > p [1] 0.0009765625 0.0097656250 0.0439453125 0.1171875000 0.2050781250 [6] 0.2460937500 0.2050781250 0.1171875000 0.0439453125 0.0097656250 [11] 0.0009765625 > plot(k,p,type="h") Al crescere del numero di prove la distribuzione Binomiale tende a quella Normale > n = c(5, 10, 50, 100, 1000, 10000) > x = matrix(0, nrow = 1000, ncol = 6) > for (i in 1:6) { x[,i] <- rbinom(1000, size = n[i], prob = 0.8) 7

} > 0.8*n [1] 4 8 40 80 800 8000 > colmeans(x) [1] 3.990 7.963 40.134 79.938 799.991 8001.107 Provare la seguente funzione: > p=0.8 > media = n*p > varianza=n*p*(1-p) > par(mfrow=c(2,3)) > for(i in 1:6){ hist(x[,i],freq=f) curve(dnorm(x,media[i],sqrt(varianza[i])),col="red",add=true) } 2.1.4 Esercizi 1. Con riferimento ad una V.C. V del tipo Chi quadrato con 5 gradi di libertà, calcolare: (a) il quantile v tale che p(v < v) = 0.95; (b) il quantile v tale che p(v > v) = 0.07; (c) il quantile v tale che p(v < v) = 0.10; (d) p(v > 3); (e) p(v < 1) p(v > 10). 2. Con riferimento ad una V.C. T del tipo t di Student con 12 gradi di libertà, calcolare: (a) p(t < 2.3); (b) p(t > 1.5); (c) p(t < 2.7); (d) p(t > 1); (e) p( 2.4 < T < 3.2); (f) il quantile t tale che p(t < t) = 0.80; (g) il quantile t tale che p(t > t) = 2.20. 3. Con riferimento ad una V.C. Y di tipo Poisson con parametro caratteristico uguale a 8, calcolare: (a) p(y = 6); (b) p(y 5); (c) p(y 13); (d) p(y > 13); (e) p(2 Y 7). 8