STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2: 04-03-2005



Documenti analoghi
> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] > sd(percorr.urbana[d]) [1] 2.

E naturale chiedersi alcune cose sulla media campionaria x n

i=1 Y i, dove Y i, i = 1,, n sono indipendenti e somiglianti e con la stessa distribuzione di Y.

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Slide Cerbara parte1 5. Le distribuzioni teoriche

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Analisi di dati di frequenza

SPC e distribuzione normale con Access

LAB LEZ. 1 STATISTICA DESCRITTIVA CON R

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 8:

La Distribuzione Normale (Curva di Gauss)

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

La distribuzione Normale. La distribuzione Normale

STATISTICA 1, metodi matematici e statistici

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

1. la probabilità che siano tutte state uccise con pistole; 2. la probabilità che nessuna sia stata uccisa con pistole;

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

PROGRAMMA SVOLTO NELLA SESSIONE N.

Introduzione al MATLAB c Parte 2

Probabilità e Statistica ESERCIZI. EsercizioA3 Data la variabile aleatoria normale standard Z, si calcoli la probabilità

[ Analisi della. concentrazione] di Luca Vanzulli. Pag. 1 di 1

Laboratorio di ST1 Lezione 2

Lezione n. 2 (a cura di Chiara Rossi)

USO DI EXCEL CLASSE PRIMAI

Istruzioni d uso software free to use

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Utilizzo delle formule in Excel

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Laboratorio di Statistica con R

Analisi di scenario File Nr. 10

ANALISI DELLE FREQUENZE: IL TEST CHI 2

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Appunti di complementi di matematica

Elementi di Psicometria

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Rcmdr

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).


Analisi della performance temporale della rete

Inferenza statistica. Statistica medica 1

CRITERI DI CONVERGENZA PER LE SERIE. lim a n = 0. (1) s n+1 = s n + a n+1. (2) CRITERI PER LE SERIE A TERMINI NON NEGATIVI

Facciamo qualche precisazione

Corso di Psicometria Progredito

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

Vittorio Casella. Calcolo del DTM. Dispense

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

ESERCIZI DI STATISTICA DESCRITTIVA

Dimensione di uno Spazio vettoriale

Guida all uso di Java Diagrammi ER

IL METODO PER IMPOSTARE E RISOLVERE I PROBLEMI DI FISICA (NB non ha nulla a che vedere con il metodo scientifico)

La grafica. La built-in funzione grafica plot. x spezzata poligonale. discretizzato

Scheda n. 10: PCA - parte seconda

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

Test statistici di verifica di ipotesi

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

MODULO 5 ACCESS Basi di dati. Lezione 4

STATISTICA ESERCITAZIONE 11 Dott. Giuseppe Pandolfo 3 febbraio Modelli continui di probabilità: la v.c. uniforme continua

1. Distribuzioni campionarie

Il concetto di valore medio in generale

15 febbraio Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a COGNOME... NOME... N. MATRICOLA...

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

Tabella 1 Figura 1 Figura 2 Figura 3 Figura 4

L analisi dei dati. Capitolo Il foglio elettronico

Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo

Istituzioni di Statistica e Statistica Economica

4.1. La migliore relazione affettiva con la figura di riferimento principale

età sesso luogo-abitazione scuola superiore esperienza insegnamento

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

PowerPoint 2007 Le funzioni

STATISTICA E PROBABILITá

Misure della dispersione o della variabilità

Tutorato di Probabilità e Statistica

A destra è delimitata dalla barra di scorrimento verticale, mentre in basso troviamo una riga complessa.

Statistica Matematica A - Ing. Meccanica, Aerospaziale I prova in itinere - 19 novembre 2004

LA CORRELAZIONE LINEARE

Indice. 1 Introduzione alle Equazioni Differenziali Esempio introduttivo Nomenclatura e Teoremi di Esistenza ed Unicità...

8 Elementi di Statistica

Prova di autovalutazione Prof. Roberta Siciliano

Statistiche campionarie

Esplorazione dei dati

Istituzioni di Statistica e Statistica Economica

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Ricerca di outlier. Ricerca di Anomalie/Outlier

Statistical Process Control

Corso di Laurea in Scienze della Formazione Primaria Università di Genova MATEMATICA Il

Temi di Esame a.a Statistica - CLEF

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Corso di Psicometria Progredito

1. PRIME PROPRIETÀ 2

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

ITIS Mattei Sondrio. Appunti veloci su moodle versione 2.7

Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno , Prof. Mortera

Esercitazioni del corso di Statistica Prof. Mortera a.a. 2008/2009

Lezione 9: Cambio di base

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Transcript:

esercitazione 2 p. 1/12 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2: 04-03-2005 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it

esercitazione 2 p. 2/12 Analisi dei dati I In R sono disponibili svariati insiemi di dati. Un elenco lo possiamo avere attraverso il comando >data() Tali dati vanno però caricati nel nostro workspace specificando, sempre attraverso il comando data(), quelli a cui siamo interessati >data(chickwts) Per vedere i dati basta digitare >chickwts Vediamo che le colonne hanno un nome: weight e feed. Possiamo vedere il loro contenuto selezionandole come in una matrice >chickwts[,1]

>library(stepfun) >plot(ecdf(weight),main="funzione di ripartizione") esercitazione 2 p. 3/12 oppure inserendole direttamente nel workspace >attach(chickwts) >weight Informazioni base sul peso dei polli del campione si possono trovare con >summary(weight) L istogramma ci permette di rappresentare graficamente la distribuzione del peso >hist(weight,prob=t,nclass=20) Per ottenere la funzione di ripartizione empirica possiamo richiamare la libreria stepfun (se la versione di R non è recente) e poi utilizzare il comando ecdf

esercitazione 2 p. 4/12 Per vedere come varia la distribuzione del peso dei polli al variare della dieta utilizzata possiamo confrontare i boxplot realtivi al peso per le varie diete >boxplot(weight feed) Ma che cosa è il boxplot? Il box plot non è altro che il disegno di una scatola tagliata in due da una linea che è la mediana, Q 2 ; delimitata in alto e in basso dai quartili Q 3, Q 1 ; con dei baffi, (le linee orizzonatali esterne e più piccole) rappresentanti il minimo e il massimo se non ci sono punti all esterno di Q 1 1.5(Q 3 Q1); Q 3 + 1.5(Q 3 Q1); e con dei pallini rappresentanti i valori esterni al range Q 1 1.5(Q 3 Q1); Q 3 + 1.5(Q 3 Q1), ovvero gli outliers; in questo caso i baffi coincidono con le ultime osservazioni prima degli outliers.

esercitazione 2 p. 5/12 Analisi dei dati II Vedremo ora un altro data-set relativo ai gol della serie A segnati a partire dal campionato 1996/1997. Prima di iniziare salvate nella working directory il dataset goal.dat già utilizzato a lezione. Aprendo il file possiamo osservare che sulla prima riga ci sono dei caratteri corrispondenti al nome delle colonne (in questo caso gli anni dei campionati di calcio) mentre sulla prima colonna i nomi delle righe (ovvero le giornate della serie A). Per importare un file di questo tipo si utilizza il comando read.table: > goal <- read.table("goal.dat") Possiamo calcolare la media e la varianza dei goal disputati ogni anno attraverso i comandi mean e var. > mean(goal) > var(goal)

esercitazione 2 p. 6/12 Notiamo che in questo modo otteniamo la media e la varianza suddivisa per anno. Questo perché l oggetto considerato è un data frame. Per ottenere una semplice matrice utilizziamo il comando as.matrix, potrebbe essere utile anche il vettore di tutti i goal: > goal.mx <- as.matrix(goal) > goal.vec <- c(goal.mx) > mean(goal.vec) > var(goal.vec) > sd(goal.vec) Nel caso fossimo interessati ai quantili (empirici) del campione possiamo utilizzare due funzioni: quantile e summary: > summary(goal.vec) > quantile(goal.vec) > quantile(goal.vec, 0.36)

esercitazione 2 p. 7/12 Vediamo ora come si distribuiscono i dati tramite l istogramma: > hist(goal.vec) Notiamo che l istogramma ha il tipico andamento a campana caratteristico della distribuzione normale. Per verificare ciò standardizziamo il vettore goal.vec e sovrapponiamo all istogramma del vettore standardizzato la densità di una normale (dnorm) con media 0 e varianza 1: > z = (goal.vec - mean(goal.vec))/sd(goal.vec) > hist(z, prob = T) > curve(dnorm(x), add = T, col = 2) Osserviamo che la curva approssima abbastanza bene l istogramma. Un altra verifica può essere fatta confrantando la funzione di ripartizione empirica (ecdf) con quella teorica (pnorm): > plot(ecdf(z)) > curve(pnorm(x), add = T, col = 2)

esercitazione 2 p. 8/12 Le funzioni di R che iniziano con una d,p,q seguite dal nome di una distribuzione (norm,beta,gamma,...) servono per calcolare rispettivamente la densità, la funzione di ripartizione, e i quantili di tali distribuzioni. Le funzioni di R che iniziano con una r invece servono per generare un campione di variabili iid da quella distribuzione: > dgamma(3, shape = 2, rate = 1) > pnorm(0) > qnorm(0.5) > hist(rbeta(n = 1000, shape1 = 2, shape2 = 3)) Nelle prossime slides vedremo meglio come generare campioni aleatori.

esercitazione 2 p. 9/12 Simulazioni Per molte delle distribuzioni di probabilità note ( ad es. normale, esponenziale, Poisson, t di Student...), R può generare delle realizzazioni e calcolarne densità, funzione di ripartizione e quantili. Per esempio, una realizzazione da una N (0, 1) si ottiene con il comando rnorm >rnorm(n=1,mean=0,sd=1) Come abbiamo già detto, non è importante dare i nomi degli argomenti (però dobbiamo sempre ricordarci l ordine, altrimenti possiamo trovarci nei guai) >rnorm(1,-100,1) >rnorm(1,1,-100)

esercitazione 2 p. 10/12 Generiamo allora un campione di numerosità 1000 da una N (0, 1) e ne calcoliamo media e varianza >campione<-rnorm(n=1000,0,1) >mean(campione) >var(campione) Sempre per la normale, per ottenere il valore della funzione di densità, della funzione di ripartizione e i quantili si usano i comandi dnorm, pnorm, qnorm. Volendo lavorare con distribuzione diverse dobbiamo solo ricordarci del nome che la distribuzione ha per R. Ad esempio i comandi rgamma, dgamma, pgamma, qgamma ci daranno realizzazioni, densità, ripartizione e quantili di una gamma. A questo punto basta ricordarsi i nomi utilizzati da R pois, binom, geom, unif, t, gamma, exp, chisq

esercitazione 2 p. 11/12 Legge debole dei grandi numeri Sia Y 1,..., Y n una successione i.i.d. di v.a. con media µ, allora Ȳ = n 1 p (Y 1 +... + Y n ) µ. Illustriamo la legge debole dei grandi numeri attraverso gli istogrammi di 10000 medie ottenute con altrettanti campioni esponenziali di numerosità 1,5,10,20. >s<-c() >for (i in 1:10000) s[i]<-mean(rexp(n=1,rate=1)) >hist(s,prob=t,xlim=c(0,4),ylim=c(0,2)) >for (i in 1:10000) s[i]<-mean(rexp(n=5,rate=1)) >hist(s,prob=t,xlim=c(0,4),ylim=c(0,2)) >for (i in 1:10000) s[i]<-mean(rexp(n=10,rate=1)) >hist(s,prob=t,xlim=c(0,4),ylim=c(0,2)) >for (i in 1:10000) s[i]<-mean(rexp(n=20,rate=1)) >hist(s,prob=t,xlim=c(0,4),ylim=c(0,2))

esercitazione 2 p. 12/12 Teorema del limite centrale Sia Y 1,..., Y n una successione i.i.d. di v.a. con media finita µ e varianza finita σ 2, allora 1/2 (Ȳ µ) Z n = n σ d N (0, 1) Verifichiamo il teorema nel caso in cui Y i è esponenziale con media µ = 1 (e di conseguenza varianza σ 2 = 1) con i seguenti comandi di R >s<-c() >n<-1 >for(i in 1:10000) s[i]<-sqrt(n)*(mean(rexp(n,rate=1))-1) >hist(s,prob=t,xlim=c(-3,3),ylim=c(0,1),main="n=1") >curve(dnorm(x),from=-3,to=3,add=t) e ripetendoli con n = 5, 10, 20.