Materiale didattico per i laboratori di Modelli Statistici I. a cura di: A. Brazzale, M. Chiogna, C. Gaetan e N. Sartori

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Materiale didattico per i laboratori di Modelli Statistici I. a cura di: A. Brazzale, M. Chiogna, C. Gaetan e N. Sartori"

Transcript

1 Materiale didattico per i laboratori di Modelli Statistici I a cura di: A. Brazzale, M. Chiogna, C. Gaetan e N. Sartori Anno Accademico

2 Sommario 1 Introduzione a R Iniziare e chiudere una sessione di R Semplice aritmetica Assegnazioni di valori Gestione di vettori Creazione di vettori Estrazione degli elementi da un vettore Matrici Data-frames Modello lineare semplice Analisi dei dati CHERRY.DAT Ancora sul modello lineare semplice Analisi dei dati BRAINBOD.DAT Esempi artificiali Dati simulati Studio di simulazione La distribuzione dello stimatore ˆβ Livello di copertura dell intervallo di confidenza per β Distribuzioni Adattamento ad una distribuzione Variabili continue Variabili discrete Analisi dei residui Analisi dei dati CEMENT.DAT Analisi dei dati WINDMILL.DAT Test t di Student Analisi del dataset FRUITFLY.DAT Confronto fra (RS, SS) e NS Confronto fra RS e SS Analisi del dataset CAPTOPRIL.DAT

3 SOMMARIO 2 8 Regressione multipla Analisi del dataset HOOK.DAT Analisi del dataset CHERRY.DAT Ancora sulla regressione multipla Analisi del dataset HILLS.DAT Analisi del dataset GASOLINE.DAT Analisi della varianza Analisi del dataset STURDY.DAT Analisi del dataset MORLEY.DAT Analisi della varianza a due fattori Analisi del dataset PENICILLIN.DAT Analisi del dataset RATS.DAT Analisi della covarianza Analisi del dataset CATS.DAT Analisi del dataset INSULATE.DAT

4 Laboratorio 1 Introduzione a R 1.1 Iniziare e chiudere una sessione di R Per iniziare una sessione R fare un doppio click di mouse sulla icona di R. Per uscire da R, usa q(). Per salvare i dati rispondere Si, altrimenti rispondere No. Per controllare cosa c e disponibile nella directory dei dati: > ls() character(0) Per eliminare un oggetto, usa rm(). > rm(thing) > thing Error: Object "thing" not found Se si vogliono eliminare più oggetti, bisogna elencarli separati da virgole. > rm(thing1,thing2) Quando si inizia una nuova sessione di lavoro, è opportuno rimuovere tutti i vecchi oggetti che non servono. Un comando utile è: > rm(list=ls()) oppure rm(list=objects()) 1.2 Semplice aritmetica In R, qualunque cosa venga scritta al prompt viene valutata: > [1] 6 > 2+3*4 [1] 14 3

5 LABORATORIO 1. INTRODUZIONE A R 4 > 3/2+1 [1] 2.5 > 2+(3*4) [1] 14 > (2 + 3) * 4 [1] 20 > 4*3**3 Usa ** o ^ per calcolare un elevamento a potenza. [1] 108 R fornisce anche tutte le funzioni che si trovano su un calcolatore tascabile: > sqrt(2) [1] > sin( ) sin(pi greco) e zero [1] e-06 e questo e vicino... Fornisce anche il valore di π > sin(pi) [1] e-16 ancora piu vicino a zero... Ecco una breve lista Nome Operazione sqrt radice quadrata abs valore assoluto sin cos tan funzioni trigonometriche asin acos atan funzioni trigonometriche inverse exp log exponenziale e logaritmo naturale Le funzioni possono essere annidate: > sqrt(sin(45*pi/180)) [1] Assegnazioni di valori Si può salvare un valore assegnandolo ad un oggetto mediante il simbolo <- il simbolo : oppure > x <- sqrt(2) salva in x la radice quadrata di 2 > x [1] > x**3 [1]

6 LABORATORIO 1. INTRODUZIONE A R 5 Valori logici R permette di gestire operazioni e variabili logiche: > x <- 10 fissa x uguale a 10 > x > 10 x e piu grande di 10? [1] FALSE > x <= 10 [1] TRUE > tf <- x > 10 > tf [1] FALSE 1.4 Gestione di vettori Creazione di vettori Per creare un vettore, si usa la funzione c(): > x <- c(2,3,5,7,11) > x [1] Se si hanno tanti dati da scrivere, puo essere più conveniente usare scan(): > x <- scan() 1: 1 2: 6 3: 3 4: 4 5: > x [1] > x <- scan() 1: : : Esercizio: scan() può anche servire per leggere un vettore da un file. Con un editor, prova a creare il file data1.dat contenente i seguenti dati: Puoi leggere il vettore con il comando: > redcell <- scan("data1.dat")

7 LABORATORIO 1. INTRODUZIONE A R 6 Successioni Si può usare la notazione a:b per creare vettori che sono sequenze di numeri: > xx <- 1:10 > xx [1] > xx <- 100:1 > xx [1] [19] [37] [55] [73] [91] La stessa operazione può essere fatta con: > xx<-seq(from=100, to=1) > xx Possono anche essere creati dei vettori che contengono elementi ripetuti > rep(2,times=3) [1] > rep(2,3) [1] > a_c(rep(2,3),4,5,rep(1,5)) > a [1] Ai vettori puoò essere applicata la stessa aritmetica di base che è stata applicata ai valori scalari: > x_1:10 > x*2 [1] > x * x [1] Possono essere eseguite operazioni logiche anche sui vettori > x > 5 [1] FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE TRUE

8 LABORATORIO 1. INTRODUZIONE A R Estrazione degli elementi da un vettore Gli elementi di un vettore possono essere estratti usando le parentesi quadre []: > xx[7] [1] 94 Si possono estrarre anche sottoinsiemi di elementi: > xx[c(2,3,5,7,11)] [1] > xx[85:91] [1] > xx[91:85] [1] > xx[c(1:5,8:10)] [1] > xx[c(1,1,1,1,2,2,2,2)] [1] Ovviamente, sottoinsiemi di elementi possono essere salvati in nuovi vettori: > yy <- xx[c(1,2,4,8,16,32,64)] > yy [1] Se le parentesi quadre racchiudono un numero negativo, l elemento corrispondente viene omesso dal vettore risultante: > x <- c(1,2,4,8,16,32) > x [1] > x[-4] [1] Alcune funzioni utili per la manipolazione di vettori > x <- 3:26 > length(x) [1] 24...il numero di elementi > max(x) [1] 26...il massimo > min(x) [1] 3...il minimo > sum(x) [1] la somma dei valori in x > prod(x) [1] e+26...il prodotto dei valori in x > mean(x)

9 LABORATORIO 1. INTRODUZIONE A R 8 [1] la media aritmentica : sum(x)/length(x) > var(x) [1] 50...la varianza corretta > range(x) [1] il campo di variabilita 1.5 Matrici R consente anche di usare le matrici: > x <- matrix(c(2,3,5,7,11,13),ncol=2) > x [,1] [,2] [1,] 2 7 [2,] 3 11 [3,] 5 13 NB: Bisogna specificare nrow o ncol per comunicare a R la dimensione della matrice. Se gli elementi di una matrice sono contenuti in un file, possiamo usare ancora scan() 1,24,32,36,33 2,16,44,34,33 3,20,31,43,32 4,23,35,37,35 5,27,40,40,31 6,19,43,32,37 Se questi elemeni sono contenuti nel file matdata, li possiamo mettere in una matrice 6X5 con il comando: > x2 <- scan( matdata,sep=, ) > mx <- matrix(x2,ncol=5, byrow=t) > mx [,1] [,2] [,3] [,4] [,5] [1,] [2,] [3,] [4,] [5,] [6,] Per estrarre da una matrice un elemento, bisogna specificarne le due coordinate: > x[2,1] [1] 3 > x[2,2] [1] 11

10 LABORATORIO 1. INTRODUZIONE A R 9 Se non si mette una delle coordinate, si ottiene una intera riga/colonna: > x[,1] [1] > x[3,] [1] 5 13 Possono essere estratti sottoinsiemi di righe e/o colonne: > x <- matrix(1:16,ncol=4) > x [,1] [,2] [,3] [,4] [1,] [2,] [3,] [4,] > x[c(1,4),c(3,4)] Riga 1 e 4, [,1] [,2] Col 3 e 4 [1,] 9 13 [2,] La funzione dim indica la dimensione (numero di righe e numero di colonne) della matrice > dim(mx) [1] Data-frames Un data frame è un oggetto simile ad una matrice, ma usato per rappresentare dati sperimentali. Ogni riga rappresenta una unità statistica, ogni colonna rappresenta una variabile misurata sulle unità statistiche. Le colonne possono contenere variabili numeriche o categoriali. Per leggere un insieme di dati di questo tipo si usa la funzione read.table(), che automaticamente controlla se le variabili sono numeriche o qualitative, se le righe e/o le colonne hanno etichette. Supponi che il file Cherry.dat sia così costituito: Possiamo acquisirlo con il comando:

11 LABORATORIO 1. INTRODUZIONE A R 10 > Ciliegi <- read.table("i:/modelli/cherry.dat") > Ciliegi (nota che Ciliegi e diverso da ciliegi) Il data frame è anche una matrice > dim(ciliegi) [1] 31 3 (31 osservazioni e 3 variabili) Se non specificati, i nomi delle tre variabili sono V1 V2 e V3: > names(ciliegi) [1] "V1" "V2" "V3" Si possono cambiare le etichette con il comando: > names(ciliegi) <- c( diametro, altezza, volume ) Alternativamente, potevano assegnare questi nomi direttamente in fase di lettura da file: > Ciliegi<-read.table("I:/modelli/Cherry.dat", + col.names=c("diametro","altezza","volume")) Essendo il data frame una matrice, possiamo considerare, ad esempio, la terza variabile con: Ciliegi[,3] [1] [16] [31] 77.0 Tuttavia, la struttura di data frame permette un metodo migliore per indicare le variabili: > Ciliegi$volume [1] [16] [31] 77.0 Utilizziamo il comando attach() per comunicare ad R che le operazioni che faremo si riferiscono al dataframe Ciliegi: > attach(ciliegi) > volume [1] [16] [31] 77.0 Per avere delle statistiche di base sulle variabili contenute in Ciliegi possiamo usare la funzione summary():

12 LABORATORIO 1. INTRODUZIONE A R 11 > summary(ciliegi) diametro altezza volume Min. : 8.30 Min. :63 Min. : st Qu.: st Qu.:72 1st Qu.:19.40 Median :12.90 Median :76 Median :24.20 Mean :13.25 Mean :76 Mean : rd Qu.: rd Qu.:80 3rd Qu.:37.30 Max. :20.60 Max. :87 Max. :77.00 Possiamo anche rappresentare graficiamente la distribuzione di una variabile ad esempio diametro, mediante un istogramma hist(diametro) oppure un diagramma a scatola (box plot) boxplot(diametro) Per estrarre elementi da un data frame valgono le stesse regole valide per le matrici. > altezza [1] [26] > Ciliegi[altezza > 80,] estrae un dataframe... diametro altezza volume...di alberi che sono alti piu di piedi

13 Laboratorio 2 Modello lineare semplice 2.1 Analisi dei dati CHERRY.DAT Riprendiamo l insieme di dati Ciliegi della precedente lezione. Se non era stato salvato, bisogna rileggerlo da file: > Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume )) Possiamo comunicare a R che le operazioni che faremo d ora in avanti si riferiscono al data frame Ciliegi: > attach(ciliegi) I dati contengono, per 31 alberi di ciliego abbattuti, la misura del volume di legno ricavato dall albero (volume), il diametro del tronco misurato a circa un metro dal suolo (diametro) e l altezza dell albero (altezza). Vogliamo indagare la relazione tra il volume di legno e il diametro. Possiamo fare un grafico di diametro e volume con il comando: > plot(diametro,volume) Il numero di osservazioni è: > n<-dim(ciliegi)[1] Calcoliamo le stime dei minimi quadrati della regressione volume= α + β * diametro: > beta<-(sum(diametro*volume)/n-mean(volume)*mean(diametro))/ + (mean(diametro^2)-mean(diametro)^2) > beta [1] Questo è equivalente a fare >beta<-cov(diametro,volume)/var(diametro) >beta [1]

14 LABORATORIO 2. MODELLO LINEARE SEMPLICE 13 La stima di α è quindi pari a >alpha<-mean(volume)-beta*mean(diametro) >alpha [1] Aggiungiamo la retta stimata nel grafico, con il comando > abline(alpha,beta,lty="dashed") Il comando abline(a,b) traccia una retta nel grafico corrente con intercetta a e coefficiente angolare b. L opzione lty è un opzione grafica generale (valida ad esempio anche per il comando plot) e definisce il tipo di linea. Assume valori: blank, solid (default), dashed, dotted, dotdash, longdash o twodash, oppure rispettivamente i numeri da 0 a 7. L opzione blank (o 0) traccia una linea invisibile. I valori predetti dal modello sono: > valori.predetti <- alpha+beta*diametro > valori.predetti [1] [8] [15] [22] [29] Ovviamente, i valori predetti dal modello sono quelli che stanno sulla retta di regressione. Possiamo aggiungere questi punti nel grafico precedente con il comando > points(diametro,valori.predetti,pch="x") Il comando points aggiunge i punti in un plot esistente. L opzione pch permette di scegliere il tipo di carattere da utilizzare nel grafico per identificare un punto (in questo caso si è scelto X). I residui sono dati dalla differenza tra i valori osservati e quelli stimati > residui <- volume - valori.predetti > residui [1] [7] [13] [19] [25] [31] Il coefficiente di determinazione e dato da > R2<- 1-var(residui)/var(volume) > R2 [1]

15 LABORATORIO 2. MODELLO LINEARE SEMPLICE 14 Supponiamo ora che la variabile casuale volume abbia distribuzione normale con media α+βdiametro e varianza σ 2. Come ben noto, le stime di massima verosimiglianza di (α, β) coincidono con le stime dei minimi quadrati (ottenute in precedenza). La stima di massima verosimiglianza di σ 2 è data da: > sigma2<- sum(residui^2)/n > sigma2 [1] Possiamo calcolare una stima non distorta di σ 2 > s2<-sum(residui^2)/(n-2) > s2 [1] che è equivalente a > s2<-sigma2*n/(n-2) > s2 [1] Utilizzando s2 possiamo calcolare una stima della varianza di alpha e beta: > var.alpha<-s2*(1/n+mean(diametro)^2/sum((diametro-mean(diametro))^2)) > var.alpha [1] > var.beta<-s2/sum((diametro-mean(diametro))^2) > var.beta [1] Un intervallo di confidenza di livello 0.95 per alpha avrà estremi inferiore e superiore, rispettivamente alpha.lower<- alpha-qt(0.975,n-2)*sqrt(var.alpha) alpha.upper<- alpha+qt(0.975,n-2)*sqrt(var.alpha) > alpha.lower [1] > alpha.upper [1] dove abbiamo utilizzato la funzione qt(p,df), che restituisce il quantile relativo alla probabilità p della distribuzione t di Student con df gradi di libertà (ricordate le tavole?). In modo analogo possiamo ottenere un intervallo di confidenza per beta > beta.lower<- beta-qt(0.975,n-2)*sqrt(var.beta) > beta.upper<- beta+qt(0.975,n-2)*sqrt(var.beta) > beta.lower [1] > beta.upper [1]

16 LABORATORIO 2. MODELLO LINEARE SEMPLICE 15 Verifichiamo ora l ipotesi di nullità di beta, con alternativa bilaterale. osservato del test T è Il valore > test.t<-(beta-0)/sqrt(var.beta) > test.t [1] Sotto H 0, test.t ha distribuzione t di Student con n 2 gradi di libertà. Il valore di significatività osservato (2 min{p r(t t oss ), P r(t < t oss )}) è quindi pari > 2*min(pt(test.t,n-2),pt(test.t,n-2,lower.tail=F)) [1] e-19 ed è equivalente a > 2*pt(abs(test.t),n-2,lower.tail=F) [1] e-19 Abbiamo utilizzato la funzione pt(q,df), che restituisce la probabilità relativa al quantile q della distribuzione t di Student con df gradi di libertà. L opzione lower.tail=f indica che vogliamo la probabilità sulla coda destra, anziché su quella sinistra. Il valore ottenuto per il livello di significatività osservato è praticamente nullo, quindi l ipotesi nulla è da rifiutare. Se volevamo un test di livello fissato 0.05, dovevamo confrontare il valore di test.t con il quantile qt(0.975,n-2) che, in questo caso, è pari a Essendo test.t maggiore di , l ipotesi nulla veniva rifiutata (era comunque ovvio guardando il livello di significatività osservato). Esercizio: verificare l analoga ipotesi di nullità per alpha. Verificare inoltre l ipotesi che beta sia uguale a 5. Per finire, con il comando > detach(ciliegi) diciamo a R che non stiamo più lavorando con il data frame Ciliegi. Ad esempio > volume Error: Object "volume" not found > Ciliegi$volume [1] [16] [31] 77.0 Esercizio: ripetere quanto appena fatto, utilizzando i logaritmi delle variabili volume e diametro.

17 LABORATORIO 2. MODELLO LINEARE SEMPLICE 16 Notiamo che, nell esercizio precedente, abbiamo utilizzato la formula log(volume) = α 1 + β 1 log(diametro). Questo, per le proprietà dei logaritmi, significa che e quindi che log(volume) = log(e α 1 diametro β 1 ). volume = e α 1 diametro β 1. Quindi, supponendo di aver salvato negli oggetti alpha1 e beta1 le stime dei coefficienti α 1 e β 1 : > beta1<-cov(log(volume),log(diametro))/var(log(diametro)) > alpha1<-mean(log(volume))-beta1*mean(log(diametro)) possiamo ottenere i valori predetti secondo questo modello nella scala originale delle variabili: > valori.predetti1 <- exp(alpha1)*diametro^beta1 e poi confrontare i risultati graficamente con quelli precedenti: > attach(ciliegi) > plot(diametro,volume) > abline(alpha,beta,lty="dashed") > lines(diametro,valori.predetti1) > detach(ciliegi) La linea continua sembra adattare meglio le osservazioni negli estremi. La funzione lines serve per aggiungere linee su un grafico esistente (vedi help(lines) per ulteriori dettagli). Se definiamo i residui del modello in scala logaritmica, nella scala originaria delle variabili, come > residui1<-volume-valori.predetti1 vediamo che la varianza di questi residui è minore rispetto a quella del primo modello utilizzato: > var(residui1) [1] > var(residui) [1]

18 Laboratorio 3 Ancora sul modello lineare semplice 3.1 Analisi dei dati BRAINBOD.DAT Considera il file brainbod.dat che contiene i seguenti dati sul peso del corpo (kg) e peso del cervello (g) di 15 mammiferi terrestri. species bodywt brainwt afeleph cow donkey man graywolf redfox narmadillo echidna phalanger guineapig eurhedghog chinchilla ghamster snmole lbbat Acquisiamo il file (NB: specificare il percorso per arrivare al file!), dopo aver ripulito la memoria degli oggetti > rm(list=ls()) > brainbod <- read.table("i:/modelli/brainbod.dat", header=t) NB: l opzione header=t indica che la prima riga del file deve essere utilizzata per dare il nome alle variabili. Per usarlo nelle analisi successive, usiamo: > attach(brainbod) 17

19 LABORATORIO 3. ANCORA SUL MODELLO LINEARE SEMPLICE 18 Facciamo qualche analisi grafica dei dati. > hist(bodywt) > boxplot(bodywt) > hist(brainwt) > boxplot(brainwt) Per creare un grafico dell andamento del peso del cervello rispetto al peso del corpo, usare: > plot(bodywt,brainwt) > identify(bodywt, brainwt, species) Questi grafici non risultano particolarmente leggibili, perché il peso dell elefante è così elevato che schiaccia tutti gli altri punti. Probabilmente è meglio esplorare i dati su scala logaritmica: > hist(log(bodywt)) > boxplot(log(bodywt)) > hist(log(brainwt)) > boxplot(log(brainwt)) > plot(log(bodywt), log(brainwt)) Ora i grafici appaiono più interessanti. Si intuisce la presenza di una relazione lineare tra i logaritmi del peso e del peso del cervello, con forse un paio di punti un po distanti dall ipotetica retta interpolante. Esercizio: stimare i coefficienti della retta di regressione log(brainwt) = α + β log(bodywt) e calcolare gli intervalli di confidenza di livello 0.99 per α e β.

20 Laboratorio 4 Esempi artificiali 4.1 Dati simulati Per provare a vedere come si comportano le quantità di interesse in una regressione semplice quando tutte le assunzioni sono verificate, costruiamo un modello artificiale. > x <- 1:30 > error <- rnorm(30, mean=0, sd=4) > y < *x + error La funzione rnorm(n, mean, sd) genera un campione di numerosità n da una variabile casuale normale di media mean e standard deviation sd. Proviamo a costruire il diagramma di dispersione: > plot(x, y) Ovviamente, la linearità della relazione è evidente! La stima dei parametri della regressione y = α + βx sono: > beta <- cov(x,y)/var(x) > beta [1] > alpha <- mean(y) - beta*mean(x) > alpha [1] Supponiamo ora di aumentare la varianza dell errore: > error <- rnorm(30, mean=0, sd=10) > y < *x + error > plot(x, y) I punti sono meno allineati di prima. Esercizio: ripetere l analisi aumentando ancora la varianza del termine d errore. Valutare gli effetti dell aumentata variabilità. Provare a vedere cosa succede se si diminuisce la varianza. 19

21 LABORATORIO 4. ESEMPI ARTIFICIALI Studio di simulazione La distribuzione dello stimatore ˆβ Come nell esempio precedente, supponiamo di generare un campione di 30 elementi, con α = 5, β = 3 e σ 2 = 4 2 = 16. > x <- 1:30 > error <- rnorm(30, mean=0, sd=4) > y < *x + error La stima di β è pari a > beta <- cov(y,x)/var(x) Se generiamo un campione diverso otteniamo un valore diverso della stima. Se generiamo 1000 campioni (con gli stessi valori dei parametri) e registriamo le corrispondenti stime di β, possiamo poi valutare (empiricamente) la distribuzione dello stimatore ˆβ. Rifacciamo per 1000 volte (non a mano!) il procedimento sopra elencato. > beta.sim <- vector("numeric", length=1000) > for (i in 1:1000) + { + error <- rnorm(30, mean=0, sd=4) + y < *x + error + beta.sim[i] <- cov(y,x)/var(x) + } Abbiamo prima definito un vettore beta.sim in cui registreremo i valori delle stime. Utilizziamo poi il ciclo for (i in 1:1000) { operazioni }. L indice i assumerà valori da 1 a 1000 e per ognuno di questi valori eseguirà le operazioni all interno delle parentesi { }. A questo punto il vettore beta.sim conterrà 1000 valori delle stime del parametro β, relative a 1000 diversi campioni. Quindi abbiamo 1000 realizzazioni indipendenti della variabile casuale ˆβ (lo stimatore di β). Possiamo valutare graficamente la distribuzione di ˆβ: > hist(beta.sim) > boxplot(beta.sim) Dalla teoria sappiamo che la distribuzione di ˆβ è normale, con media β e varianza σ 2 /( i (x i x) 2 ). In questo caso, β è uguale a 3 e la varianza è pari a: > var.beta <- 4^2/sum((x-mean(x))^2) > var.beta [1]

22 LABORATORIO 4. ESEMPI ARTIFICIALI 21 Possiamo confrontare questi valori con i valori empirici delle simulazione: > mean(beta.sim) > var(beta.sim) Possiamo confrontare la distribuzione empirica di ˆβ con quella teorica anche graficamente. > hist(beta.sim, freq=f) > lines(density(beta.sim)) > lines(seq(2.7, 3.3, 0.01), + dnorm(seq(2.7, 3.3, 0.01), 3, sqrt(var.beta)), lwd=2) Esercizio: Costruire la distribuzione simulata per lo stimatore del coefficiente α Livello di copertura dell intervallo di confidenza per β Possiamo ricorrere ad uno studio di simulazione (è questo il nome ufficiale di quanto fatto prima!) per valutare il livello di copertura reale di un intervallo di confidenza di livello nominale Concentriamoci nuovamente sul coefficiente di regressione β. > x <- 1:30 > error <- rnorm(30, mean=0, sd=4) > y < *x + error L intervallo di confidenza di livello 0.95 è dato da ˆβ ± Var( ˆ ˆβ)t n 2 (0.025), dove Var( ˆ ˆβ) è la stima della varianza di ˆβ e t n 2 (0.025) è il quantile di livello di una t di Student con n 2 gradi di libertà. > n <- 30 > beta <- cov(x,y)/var(x) > alpha <- mean(y) - beta*mean(x) > residui <- y - alpha - beta*x > s2 <- sum(residui^2)/(n-2) > var.beta <- s2/sum((x-mean(x))^2) > beta.lower <- beta + qt(0.025, n-2) * sqrt(var.beta) > beta.upper <- beta - qt(0.025, n-2) * sqrt(var.beta) > beta.lower [1] > beta.upper [1]

23 LABORATORIO 4. ESEMPI ARTIFICIALI 22 La teoria ci dice che un intervallo di confidenza di livello 0.95 contiene, nell ipotesi di replicabilità dell esperimento, il vero valore del parametro nel 95% dei casi. Proviamo a verificare questo punto con uno studio simulazione. Salviamo in un file di testo (usando un editor ASCII, ad esempio Notepad o Wordpad di Windows) le istruzioni seguenti: beta.ic <- matrix(na, ncol=2, nrow=1000) for (i in 1:1000) { error <- rnorm(30, mean=0, sd=4) y < *x + error beta <- cov(x,y)/var(x) alpha <- mean(y) - beta*mean(x) residui <- y - alpha - beta*x s2 <- sum(residui^2)/(n-2) var.beta <- s2/sum((x-mean(x))^2) beta.lower <- beta + qt(0.025, n-2) * sqrt(var.beta) beta.upper <- beta - qt(0.025, n-2) * sqrt(var.beta) beta.ic[i,1] <- beta.lower beta.ic[i,2] <- beta.upper } Generiamo, come prima, 1000 campioni diversi e su questi calcoliamo i 1000 intervalli di confidenza. Si noti che gli estremi inferiore e superiore sono memorizzati nella matrice beta.ic. Salviamo il file ad esempio con il nome simul.r. Le istruzioni possono essere passate a R con un semplice copia-incolla oppure con l istruzione: > source( H:/.../simul.R ) Calcoliamo la percentuale degli intervalli che contengono il vero valore di β, ovvero il livello di copertura reale: sum( (beta.ic[,1] <= 3) & (beta.ic[,2] >= 3) )/1000 [1] Il valore è prossimo al livello di copertura nominale fissato! Esercizio: Valutare il livello di copertura reale dell intervallo di confidenza di livello nominale 0.9 per il coefficiente α.

24 Laboratorio 5 Distribuzioni R consente di gestire automaticamente molte distribuzioni (per calcolare probabilità, quantili,... ). Questo permette di effettuare verifiche di ipotesi, calcolare intervalli di confidenza, ecc. Ad esempio, consideriamo la distribuzione normale standardizzata. Esistono 4 funzioni ad essa relative: dnorm(x) calcola il valore della densità in <x>; pnorm(q) calcola il valore della ripartizione in <q>; qnorm(p) calcola il quantile di livello <p>; rnorm(n) genera un campione da una normale standard di dimensione <n>. Per vedere per esempio l andamento della funzione di ripartizione di una normale standard: > x <- seq(-5, 5, length=100) > rip <- pnorm(x) > plot(x, rip, type="l") Ovviamente, possono essere gestite normali non standardizzate: è sufficiente aggiungere nell ordine la media e la deviazione standard nelle chiamate sopra viste. > args(pnorm) function (q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) > rip1 <- pnorm(x, 2, 0.7) > lines(x, rip1, col=2) Alcune delle distribuzioni disponibili sono: 23

25 LABORATORIO 5. DISTRIBUZIONI R Distribuzione Parametri Defaults chisq chi-quadrato df - exp exponenziale rate 1 f F df1, df2 -, - gamma Gamma shape, scale -, 1 lnorm log-normale meanlog, sdlog 0, 1 norm normale mean, sd 0, 1 t t di Student df - unif uniforme min, max 0, Adattamento ad una distribuzione Variabili continue Consideriamo un campione generato da una distribuzione normale standard di ampiezza 10: > x <- rnorm(10) Supponiamo di non sapere che il campione proviene da una popolazione normale. Proviamo a studiare graficamente la distribuzione dei dati per capire da che popolazione deriva. > hist(x) > hist(x, nclass=8) > hist(x, nclass=15) > boxplot(x) Aumentiamo la numerosità: > xx <- rnorm(100) > hist(xx) > boxplot(xx) Che strumenti grafici abbiamo a disposizione per vedere se proviene o meno da una distribuzione normale? > qqnorm(xx) > qqline(xx) > par(pty="s") > qqnorm(xx) > abline(0, 1)

26 LABORATORIO 5. DISTRIBUZIONI 25 Esercizio: provare a verificare la normalità di x. Cosa si puo dire? Per rendersi conto dell aspetto del qqnorm quando i dati non sono normali, generiamo dei dati da una distribuzione simile alla normale e da una completamente diversa e poi confrontiamoli: > y <- rt(100,2) > hist(y) > qqnorm(y) > abline(0, 1) > qqline(y) > z <- rexp(100) > hist(z) > qqnorm(z) > abline(0, 1) > qqline(z) > par(mfrow=c(1,2)) > qqnorm(xx) > abline(0, 1) > qqline(xx) > qqnorm(y) > abline(0, 1) > qqline(y) > qqnorm(xx) > abline(0, 1) > qqline(xx) > qqnorm(z) > abline(0, 1) > qqline(z) > par(mfrow=c(1,1)) Per verificare l adattamento dei dati ad una distribuzione diversa dalla normale, il comando qqnorm non può essere usato. Un grafico analogo ma compatibile con la distribuzione in esame può essere ottenuto con il comando (es. nel caso della distribuzione esponenziale): > qqplot(qexp(ppoints(z)), sort(z)) > abline(0, 1) > qqline(z) Variabili discrete Generiamo 100 dati da una Poisson di parametro 5: > x <- rpois(100,5)

27 LABORATORIO 5. DISTRIBUZIONI 26 La distribuzione di frequenze può essere ottenuta con il comando table: > tab <- table(x) > tab > names(tab) [1] "0" "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" Un semplice grafico della distribuzione di frequenze assolute (detto diagramma a bastoncini) può essere ottenuto con i comandi: > plot(tab, type="h") > points(tab,pch=5) Dal momento che alcuni valori potrebbero avere frequenza nulla, può essere conveniente costruire il grafico in questo modo: > plot(as.numeric(names(tab)), tab, type="h") > points(as.numeric(names(tab)), tab, pch=5) Per vedere l accostamento di variabili discrete a modelli di riferimento, possiamo confrontare la nostra distribuzione empirica di frequenze con quella teorica che ci si aspetta dato il modello di riferimento. Per esempio, confrontiamo la nostra distribuzione di frequenze empirica con quella teorica che ci si aspetta per una Poisson(5) (che in questo caso sappiamo essere la distribuzione di provenienza dei dati, ovvero ci aspettiamo una forte similitudine). Costruiamo prima la probabilità di ottere 1,2,3,4,...,13 per una Poisson(5): > prob <- dpois(1:13,5) Per ottenere le frequenze attese per 100 individui: > attese <- 100*prob > attese [1] [7] [13] > attese <- round(attese) > attese [1] > names(attese) <- 1:13 > attese > names(attese) [1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13"

28 LABORATORIO 5. DISTRIBUZIONI 27 Quindi confrontiamo. > tab > attese Per effettuare il confronto grafico: > lines((1:13)+0.2, attese, lty=3, type="h", col=2) Alcune classi potrebbero avere una frequenza che supera il limite superiore dell asse y nel grafico. È quindi necessario ricostruire l intero grafico tenendo conto di questo: > plot(as.numeric(names(tab)), tab, type="h", ylim=range(tab,attese)) > points(as.numeric(names(tab)), tab, pch=5) > lines((1:13)+0.2, attese,lty=3, type="h", col=2) > points((1:13)+0.2, attese, pch=3)

29 Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra le altre cose, dal tempo di essicazione. Nello studio si è misurata la resistenza alla tensione di lotti di cemento sottoposti a diversi tempi di essicazione. Si studi la relazione tra la resistenza alla tensione e il tempo di essicazione. In questo caso il tempo è la variabile esplicativa e la resistenza è la variabile risposta > cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement) Proviamo una prima analisi esplorativa dei dati: > plot(resist ~ tempo) Il grafico indica chiaramente una relazione non lineare. Un modello del tipo resist = α + βtempo + ε non parrebbe appropriato. Possiamo allora cercare qualche trasformazione delle variabili che ci riporti ad una relazione più lineare. Generalmente, si preferisce trasformare le variabili esplicative. Proviamo allora a trasformare la variabile tempo. Si noti l utilizzo della funzione par con l opzione mfrow. Questo permette di visualizzare in un un unica finestra 2 2 = 4 grafici. > par(mfrow=c(2,2)) > plot(log(tempo), resist) > plot(1/(tempo), resist) > plot(1/sqrt(tempo), resist) > plot(sqrt(tempo), resist) > par(mfrow=c(1,1)) Le prime tre trasformazioni pare linearizzino in maniera soddisfacente la relazione, in particolare la terza. Adottiamo quindi la trasformazione > x <- 1/sqrt(tempo) 28

30 LABORATORIO 6. ANALISI DEI RESIDUI 29 e procediamo specificando il modello di regressione resist = α + β tempo + ε A questo punto utilizziamo una nuova funzione lm. Questa fornisce le stime di massima verosimiglianza per un modello lineare quando gli errori si distribuiscono come una v.c. normale. > fit <- lm( resist ~ x ) Notate la sintassi di resist~x. A sinistra di vi è il regressore a destra la variabile esplicativa. La costante α è automaticamente inclusa. Abbiamo creato un oggetto, che abbiamo chiamato fit, di tipo lm. Un oggetto è qualcosa di più complicato di un vettore o di una matrice. È una lista di elementi su cui si può applicare una serie di funzioni. Ad esempio con il comando seguente vediamo i risultati dell adattamento. > summary(fit) Call: lm(formula = resist ~ x) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** x e-13 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 19 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 19 DF, p-value: 1.337e-13 Come si può osservare, otteniamo diverse statistiche e più in generale quantità. Notate che entrambi i coefficienti sono fortemente significativi e così pure (come ovvio) il test F sulla bontà dell adattamento complessivo del modello. L oggetto fit contiene più quantità > names(fit) [1] "coefficients" "residuals" "effects" "rank" [5] "fitted.values" "assign" "qr" "df.residual" [9] "xlevels" "call" "terms" "model" Proviamo a considerare i residui e i valori previsti dal modello.

31 LABORATORIO 6. ANALISI DEI RESIDUI 30 > res <- resid(fit) > fit.val <- fitted(fit) I residui contenuti in fit e che abbiamo appena salvato nel vettore res sono le quantità e i = y i ŷ i. Per ottenere i residui standardizzati, cioè e i = e i /(s 1 h i ) dobbiamo utilizzare la funzione rstandard > res.standard <- rstandard(fit) Alcuni grafici che possiamo fare per verificare linearità della relazione, omoschedasticità degli errori, indipendenza degli errori sono: 1. il grafico (i, e i ), utile soprattutto se le osservazioni sono in ordine temporale; 2. il grafico (ŷ i, e i ); 3. il grafico (ŷ i, y i ); 4. il grafico (x i, e i ). Il grafico (2), cioè i residui rispetto ai valori stimati, mostra una maggiore variabilità dei residui per valori stimati elevati. Questo sembrerebbe indicare che la varianza non è costante, ossia che i residui non sono omoschedastici. > plot(fit.val, res.standard) Lo stesso andamento è mostrato anche dal grafico (3) dei valori osservati sui valori stimati, anche se in modo meno evidente. > plot(fit.val, resist) Per quanto riguarda la normalità dei residui, appaiono lievi deviazioni sulla coda destra. > par(pty= s ) > qqnorm(res.standard, xlim=c(-2,2), ylim=c(-2,2)) > qqline(res.standard) Possiamo provare a vederlo anche con i soliti strumenti: > hist(res.standard, freq=f) > lines(density(res.standard)) > boxplot(res.standard) Complessivamente, la normalità appare soddisfacente considerando la bassa numerosità del campione. Concludendo, il modello interpola i dati abbastanza bene; esso risulta peraltro un poco carente per quanto riguarda la omoschedasticità del termine di errore. E adesso terminiamo. > detach(cement) Esercizio: Produrre il grafico (i, e i ) e commentarlo. Spesso, in pratica, anzichè utilizzare i residui standardizzati si utilizzano i residui non standardizzati e i. Ripetere le analisi grafiche precedenti con i residui non standardizzati e commentare eventuali somiglianze o differenze.

32 LABORATORIO 6. ANALISI DEI RESIDUI Analisi dei dati WINDMILL.DAT Un ingegnere sta provando una turbina a eolica per generare corrente elettrica. Egli ha raccolto un certo numero di osservazioni sulla corrente generata e sulla corrispondente velocità del vento ed è interessato alla relazione che intercorre tra velocità del vento e corrente generata. I dati sono contenuti nel file windmill.dat e si vuole studiare la relazione esistente tra le due variabili. > windmill <- read.table("i:/modelli/windmill.dat", header=t) > windmill wind dc > attach(windmill) Per esplorare graficamente la relazione esistente tra velocità del vento e corrente generata facciamo un diagramma a dispersione. > plot(wind, dc) Il grafico mostra una evidente relazione tra le due variabili. Proviamo dapprima ad ipotizzare un legame funzionale lineare. > fit <- lm( dc ~ wind ) > summary(fit) Call: lm(formula = dc ~ wind) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) wind e-12 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 23 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 23 DF, p-value: 7.546e-12

33 LABORATORIO 6. ANALISI DEI RESIDUI 32 A questo punto, per verificare la bontà del modello, possiamo valutare la significatività dei coefficienti e passare poi all analisi dei residui. Appare evidente che entrambe i coefficienti sono fortemente significativi. Dato il risultato osservato sul coefficiente angolare, non sorprende il risultato del test F per la bontà complessiva del modello: > ^2 [1] Passiamo ora all analisi dei residui. > res <- rstandard(fit) > fit.val <- fitted(fit) > plot(fit.val, res) > plot(wind, res) I grafici dei residui sui valori adattati e sulla variabile esplicativa indicano un chiaro andamento parabolico dei residui standardizzati (lo stesso si evincerebbe utilizzando i residui e i ). In particolare, il grafico (x i, e i ) ci dice che in corrispondenza di valori bassi della velocità del vento, il modello sistematicamente sottostima il valore della della corrente generata, in corrispondenza di valori centrali della velocità il modello sovrastima la corrente generata e in in corrispondenza di valori alti della velocità torna a sottostimare la corrente generata di ebollizione. Questo andamento ci suggerisce che il modello non coglie in maniera appropriata la dipendenza della variabile risposta dalla esplicativa. > qqnorm(res) Il grafico quantile quantile ci mostra qualche scostamento dalla normalità per i residui di segno positivo. Da questo potremmo desumere che la distribuzione dei residui risulta asimmetrica. In conclusione, l analisi dei residui non appare soddisfacente, nonostante i risultati ottenuti nei test di significatività. Come possiamo rimediare? Quanto detto precedentemente ci fa capire che deve esserci una relazione tra residui e velocità del vento. Effettivamente, il grafico (x i, e i ) mostra una relazione di tipo quadratico. Quindi il modello potrebbe essere migliorato introducendo un ulteriore regressore ovvero la velocità del vento al quadrato. Potremmo quindi passare da una regressione semplice ad una regressione multipla. Ma attenzione, dal diagramma di dispersione > plot(wind, res) possiamo dedurre che la parabola che meglio si adatterà ai dati sarà convessa. Quindi in base a questo modello, da un certo valore in poi, valori sempre via via crescenti della velocità del vento comporteranno valori via via decrescenti della corrente generata. Piuttosto proviamo a considerare un modello del tipo corrente = α + β velocità + ε

34 LABORATORIO 6. ANALISI DEI RESIDUI 33 > fit.inv <- lm( dc ~ I(1/wind) ) > summary(fit.inv) Call: lm(formula = dc ~ I(1/wind)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** I(1/wind) <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 23 degrees of freedom Multiple R-Squared: 0.98, Adjusted R-squared: F-statistic: 1128 on 1 and 23 DF, p-value: 0 Consideriamo dei valori della velocità del vento al di fuori del range di variazione dei valori osservati. > new.wind <- 1:30 > alpha <- coef(fit.inv)[1] > beta <- coef(fit.inv)[2] > fit.val <- alpha +beta/new.wind e rappresentiamoli > plot(wind, dc, xlim=c(0,30), ylim=c(0,4)) > lines(1:30, fit.val) Il modello stimato ha una sua coerenza. L adattamento misurato da R 2 è migliorato. I test rilevano forte significatività dei coefficienti e della bontà complessiva del modello. Inoltre, le analisi dei residui appaiono notevolmente migliorate. In particolare consideriamo > res.inv <- rstandard(fit.inv) > fitted.inv <- fitted(fit.inv) > plot(wind, res.inv) > plot(fitted.inv, res.inv) Esercizio: Completare l analisi dei residui.

35 Laboratorio 7 Test t di Student 7.1 Analisi del dataset FRUITFLY.DAT I dati fruitfly.dat si riferiscono alla fecondità dei moschini della frutta, valutata come numero medio giornaliero di uova prodotte nei primi 14 giorni di vita, come rilevate da ciascuna di 25 femmine appartenenti a tre linee genetiche: RS, SS e NS. Si vuole verificare: 1. se c è differenza fra le prime due linee e la terza; 2. se c è differenza fra le prime due. > fruit <- read.table( fruitfly.dat, col.names=c( RS, SS, NS )) > attach(fruit) > fruit RS SS NS Scegliamo come strumento per l analisi il test t di Student. Prima di utilizzarlo dobbiamo verificare che siano soddisfatte le ipotesi di base: normalità e omoschedasticità dei dati Confronto fra (RS, SS) e NS Definiamo la prima quantità d interesse: > RSS <- c(rs,ss) Per avere un idea di come sono distribuiti i dati (simmetria, dispersione... ): > boxplot(rss, NS) > par(mfrow=c(2,1)) # per vedere piu grafici nella stessa finestra > hist(rss, nclass=8, freq=f) > plot(density(rss)) > hist(ns, nclass=8, freq=f) > plot(density(ns)) 34

36 LABORATORIO 7. TEST T DI STUDENT 35 Per la normalità: > par(mfrow=c(1,2), pty= s ) > qqnorm(rss) > qqline(rss) > qqnorm(ns) > qqline(ns) Per verificare l omoschedasticità possiamo dare un occhiata alle varianze campionarie. > var(rss) [1] > var(ns) [1] Queste paiono abbastanza simili. Inoltre, anche dal confronto dei boxplot, pareva che le due distribuzioni empiriche avessero variabilità comparabile. Questo però non garantisce che le varianze delle due popolazioni siano uguali. Per verificarlo, possiamo costruire l intervallo di confidenza per il rapporto delle due varianze r = (σ 1 /σ 2 ) 2 ed usarlo per verificare il test: H 0 : r = 1 H 1 : r 1 ( varianze uguali) ( varianze diverse) Se H 0 è vera, l intervallo contiene 1 (vedi lezione sui test per l uso degli intervalli di confidenza per verificare ipotesi). Per costruire l intervallo di confidenza al 95%: > var.test(rss, NS)$conf.int [1] attr(, "conf.level"): [1] 0.95 Dal momento che l intervallo contiene 1, possiamo assumere che le varianze delle due popolazioni siano uguali. Adesso possiamo utilizzare la funzione t.test di R per un test t di Student a due campioni bilaterale, per saggiare l ipotesi H 0 : µ RSS = µ NS. > t.test(ns, RSS, var.equal=t) Two Sample t-test data: NS and RSS t = , df = 73, p-value = 9.587e-05 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y

37 LABORATORIO 7. TEST T DI STUDENT 36 La componente t è il valore osservato della statistica test; df sono i gradi di libertà della distribuzione della statistica test sotto H 0, p-value è il livello di significatività osservato, cioè 2 Pr(t 73 > t ). Verifichiamolo: > 2*( 1 - pt(4.1286, 73) ) [1] e-05 Poiché il valore-p è molto basso (< 0.01), si rifiuta l ipotesi di uguaglianza delle medie fra i due gruppi RSS e NS. Se si fissa il livello del test a 0.05, allora si può verificare che il valore osservato t della statistica test si trova nella regione di rifiuto. Infatti la soglia destra della regione di rifiuto, data dal quartile di livello di una distribuzione t con 73 gradi di libertà, cade nel punto: > qt(0.975, 73) [1] e la regione di rifiuto è R = ( t > ). Passiamo ora al confronto fra RS e NS. Cominciamo col verificare la normalità: > par(mfrow=c(1,3)) > boxplot(rs, NS) > hist(rs, freq=f, nclass=8) > plot(density(rs)) > qqnorm(rs) > qqline(rs) L adattamento ad una normale pare buono. Circa l omoschedasticità: > var(rs) [1] > var(ns) [1] Le varianze campionarie sembrano diverse. Il confronto dei boxplot lasciava però intuire una variabilità comparabile. Proviamo a costruire l intervallo di confidenza: > var.test(rs, NS)$conf.int [1] attr(, "conf.level"): [1] 0.95 Ancora una volta, l intervallo contiene 1, quindi possiamo assumere l omoschedasticità. Procediamo con il test: > t.test(ns, RS, var.equal=t) Standard Two-Sample t-test

38 LABORATORIO 7. TEST T DI STUDENT 37 data: NS and RS t = , df = 48, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y Concludiamo anche in questo caso con il rifiuto di H 0. NB: Nel caso le varianze delle due popolazioni non possano essere assunte uguali, R permette di utilizzare un test t approssimato per confrontare le medie dei due campioni. In questo caso, la chiamata è del tipo: > t.test(campione1, campione2, var.equal=f) Esercizio: Svolgere l analisi sui dati trasformati mediante la trasformata logaritmica, specificando bene l ipotesi posta sotto verifica. Esercizio: Fare il confronto fra SS e NS Confronto fra RS e SS Svolgiamo le solite analisi preliminari. > par(mfrow=c(1,2)) > boxplot(rs,ss) > qqnorm(ss) > qqline(ss) I dati del secondo gruppo sono asimmetrici e le variabilità paiono meno confrontabili dei casi precedenti. > var(rs) [1] > var(ss) [1] I due gruppi hanno varianze campionarie molto diverse. l intervallo di confidenza. Proviamo a costruire > var.test(rs,ss)$conf.int [1] attr(, "conf.level"): [1] 0.95 Nonostante l apparente diversità, il test ci dice che le varianze possono essere assunte uguali. Passiamo quindi al test t.

39 LABORATORIO 7. TEST T DI STUDENT 38 > t.test(rs, SS, var.equal=f) Standard Two-Sample t-test data: RS and SS t = , df = 48, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y In questo caso si accetta l ipotesi H 0. Le soglie della regione di accettazione possono essere trovate tramite: > qt(0.975, 48) [1] Quindi la regione di accettazione è costituita da tutti i valori t tali che t < , che comprende anche il nostro t osservato. Esercizio: Provare a ripetere l esercizio trasformando il dati mediante trasformazione logaritmica. In particolare, commentare l effetto della trasformazione su asimmetria e normalità. > detach() 7.2 Analisi del dataset CAPTOPRIL.DAT I dati sono relativi a misurazioni della pressione sistolica e diastolica del sangue di un gruppo di 15 pazienti, prima e dopo la somministrazione del farmaco captopril. Si vuole verificare l efficacia del farmaco nell abbassare le due pressioni. > capto <- read.table( capto.dat, header=t) > attach(capto) > capto Sp Sd Dp Dd Costruzione delle differenze e verifica della normalità. > SD <- Sd-Sp > DD <- Dd-Dp > par(mfrow=c(2,1)) > boxplot(sd) > qqnorm(sd) > qqline(sd)

40 LABORATORIO 7. TEST T DI STUDENT 39 La numerosità campionaria è bassa... > boxplot(dd) > qqnorm(dd) > qqline(dd) Procediamo con l analisi delle differenze di pressione sistolica. Si usa il test t ad un campione per verificare l ipotesi H 0 : µ = 0 (µ: media della popolazione delle differenze). > t.test(sd) One-sample t-test data: SD t = , df = 14, p-value = 1.146e-06 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x Si rifiuta l ipotesi che SD abbia media nulla. Il test t ad un campione sulle differenze corrisponde al test t a due campioni per dati appaiati. > t.test(sd, Sp, paired=t) Paired t-test data: Sd and Sp t = , df = 14, p-value = 1.146e-06 alternative hypothesis: true mean of differences is not equal to 0 95 percent confidence interval: sample estimates: mean of x - y Il risultato è identico a quello ottenuto dal test t ad un campione sulle differenze. In realtà si richiede di verificare se c è stato un miglioramento, cioè se la pressione si è abbassata. E percio piu adeguato utilizzare un test unilaterale. Cioè: H 0 : µ Sd > µ Sp H 1 : µ Sd < µ Sp.

> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)

> cement <- read.table(i:/modelli/cement.dat, col.names=c(tempo, resist)) > attach(cement) Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra

Dettagli

> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))

> Ciliegi <- read.table(i:/modelli/cherry.dat, + col.names=c( diametro, altezza, volume )) Laboratorio 2 Modello lineare semplice 2.1 Analisi dei dati CHERRY.DAT Riprendiamo l insieme di dati Ciliegi della precedente lezione. Se non era stato salvato, bisogna rileggerlo da file: > Ciliegi

Dettagli

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

R - seconda lezione. 1 Simulazione e rappresentazioni grafiche in R

R - seconda lezione. 1 Simulazione e rappresentazioni grafiche in R R - seconda lezione 1 Simulazione e rappresentazioni grafiche in R R contiene funzioni interne che fanno riferimento a distribuzioni note. Relativamente a una fissata distribuzione, possiamo valutarne

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Test per la correlazione lineare

Test per la correlazione lineare 10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche

Dettagli

Materiale didattico per i laboratori di Modelli Statistici I 1

Materiale didattico per i laboratori di Modelli Statistici I 1 Materiale didattico per i laboratori di Modelli Statistici I 1 M. Chiogna, A. Salvan e N. Sartori Anno Accademico 2006-2007 1 Documento preparato con LATEX, Sweave e R 2.4.1 su i386-apple-darwin8.8.1 in

Dettagli

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

Capitolo 6. La distribuzione normale

Capitolo 6. La distribuzione normale Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Covarianza, correlazione e retta di regressione Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Questa presentazione è stata preparata attingendo dai seguenti testi S. M. Iacus, Statistica,

Dettagli

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE

Dettagli

Esercitazione 8 maggio 2014

Esercitazione 8 maggio 2014 Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un

Dettagli

Progetto Lauree Scientifiche Laboratorio Statistico - Informatico La Statistica con R

Progetto Lauree Scientifiche Laboratorio Statistico - Informatico La Statistica con R Progetto Lauree Scientifiche Laboratorio Statistico - Informatico La Statistica con R Claudio Agostinelli 1 Dipartimento di Scienze Ambientali, Informatica e Statistica Università di Ca Foscari Venezia

Dettagli

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016 Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A) Prova scritta di STATISTICA CDL Biotecnologie (Programma di Massimo Cristallo - A) 1. Un associazione di consumatori, allo scopo di esaminare la qualità di tre diverse marche di batterie per automobili,

Dettagli

METODO DEI MINIMI QUADRATI

METODO DEI MINIMI QUADRATI METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l esperimento con diverse quantità

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2

Dettagli

In via preliminare, confrontiamo la distribuzione del peso del cuore nei due sessi.

In via preliminare, confrontiamo la distribuzione del peso del cuore nei due sessi. Laboratorio 12 Analisi della covarianza 12.1 Analisi del dataset CATS.DAT I dati contenuti nel file cats.dat presentano il peso del corpo ed il peso del cuore di alcuni gatti di sesso femminile (1) e maschile

Dettagli

Esercitazione: La distribuzione NORMALE

Esercitazione: La distribuzione NORMALE Esercitazione: La distribuzione NORMALE Uno dei più importanti esempi di distribuzione di probabilità continua è dato dalla distribuzione Normale (curva normale o distribuzione Gaussiana); è una delle

Dettagli

Gli errori nella verifica delle ipotesi

Gli errori nella verifica delle ipotesi Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E

Dettagli

Il test (o i test) del Chi-quadrato ( 2 )

Il test (o i test) del Chi-quadrato ( 2 ) Il test (o i test) del Chi-quadrato ( ) I dati: numerosità di osservazioni che cadono all interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero

Dettagli

Proprietà della varianza

Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Intermezzo: ma perché dovremmo darci la pena di studiare come calcolare la varianza nel caso di somme,

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

Casa dello Studente. Casa dello Studente

Casa dello Studente. Casa dello Studente Esercitazione - 14 aprile 2016 ESERCIZIO 1 Di seguito si riporta il giudizio (punteggio da 0 a 5) espresso da un gruppo di studenti rispetto alle diverse residenze studentesche di un Ateneo: a) Si calcolino

Dettagli

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati in una tabella Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6) Sintesi dei dati Spesso si vuole effettuare una sintesi dei dati per ottenere indici

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

L indagine campionaria Lezione 3

L indagine campionaria Lezione 3 Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato

Dettagli

Distribuzioni e inferenza statistica

Distribuzioni e inferenza statistica Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione

Dettagli

LABORATORIO DI PROBABILITA E STATISTICA

LABORATORIO DI PROBABILITA E STATISTICA UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 6 VARIABILI ALEATORIE CONTINUE z LA VARIABILE NORMALE Esempio

Dettagli

DISTRIBUZIONE NORMALE (1)

DISTRIBUZIONE NORMALE (1) DISTRIBUZIONE NORMALE (1) Nella popolazione generale molte variabili presentano una distribuzione a forma di campana, bene caratterizzata da un punto di vista matematico, chiamata distribuzione normale

Dettagli

Esercitazione 8 del corso di Statistica 2

Esercitazione 8 del corso di Statistica 2 Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione

Dettagli

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi

Dettagli

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n. 5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Il campionamento e l inferenza. Il campionamento e l inferenza

Il campionamento e l inferenza. Il campionamento e l inferenza Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 13-Il t-test per campioni indipendenti vers. 1.1 (12 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di

Dettagli

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1

Dettagli

Intervalli di confidenza

Intervalli di confidenza Probabilità e Statistica Esercitazioni a.a. 2006/2007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile

Dettagli

Generazione di Numeri Casuali- Parte 2

Generazione di Numeri Casuali- Parte 2 Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali

Dettagli

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati: Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

Dal campione alla popolazione

Dal campione alla popolazione Dal campione alla popolazione Monica Marabelli 20 Novembre 2015 L inferenza statistica La statistica si occupa di studiare le unitá/individui appartenenti alla popolazione statistica. Spesso, peró, non

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

Esercizi in preparazione all esame di. Laboratorio del corso di Principi di Informatica. Prof.sse M. Anselmo e R. Zizza. a.a.

Esercizi in preparazione all esame di. Laboratorio del corso di Principi di Informatica. Prof.sse M. Anselmo e R. Zizza. a.a. Esercizi in preparazione all esame di Laboratorio del corso di Principi di Informatica Prof.sse M. Anselmo e R. Zizza a.a. 2012/13 NOTA: E necessario salvare il file come .xlsx e inserire

Dettagli

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011 FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 1/9/11 ESERCIZIO 1 (+3++3) La seguente tabella riporta la distribuzione di frequenza dei valori di emoglobina nel sangue (espressi

Dettagli

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI

PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI PSICOMETRIA Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI CAMPIONI INDIPENDENTI Campioni estratti casualmente dalla popolazione con caratteristiche omogenee Assegnazione

Dettagli

Distribuzioni campionarie

Distribuzioni campionarie 1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari

Dettagli

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE

Dettagli

STATISTICA ESERCITAZIONE

STATISTICA ESERCITAZIONE STATISTICA ESERCITAZIONE Dott. Giuseppe Pandolfo 1 Giugno 2015 Esercizio 1 Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in

Dettagli

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI. Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi

Dettagli

Americani Inglesi Firenze Roma Provare l ipotesi che la nazionalità non influisca sulla scelta della meta.

Americani Inglesi Firenze Roma Provare l ipotesi che la nazionalità non influisca sulla scelta della meta. TEST D IPOTESI 1 Le resistenze alla rottura delle funi prodotte da una fabbrica hanno una media pari a µ = 1800N ed uno scarto quadratico medio di σ = 100N Immettendo una nuova tecnica nel processo produttivo,

Dettagli

12) Metodo dei minimi quadrati e linea di tendenza

12) Metodo dei minimi quadrati e linea di tendenza 12) Metodo dei minimi quadrati e linea di tendenza 43 Si supponga di avere una tabella di dati {y exp i} i=1,,n in funzione di altri dati {x i } i=1,,n che siano il risultato di una qualche misura sperimentale.

Dettagli

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE

Dettagli

lezione 7 AA Paolo Brunori

lezione 7 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove siamo arrivati? - se siamo interessati a studiare l andamento congiunto di due fenomeni economici - possiamo provare a misurare i due fenomeni e poi usare la lineare semplice

Dettagli

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di

Dettagli

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande) LA DISTRIBUZIONE NORMALE (Vittorio Colagrande) Allo scopo di interpolare un istogramma di un carattere statistico X con una funzione continua (di densità), si può far ricorso nell analisi statistica alla

Dettagli

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

STATISTICHE DESCRITTIVE Parte II

STATISTICHE DESCRITTIVE Parte II STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una

Dettagli

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza

Dettagli

Schema lezione 5 Intervalli di confidenza

Schema lezione 5 Intervalli di confidenza Schema lezione 5 Intervalli di confidenza Non centrerò quella barca, ne sono convinto al 95% COMPRENDERE: Significato di intervallo di confidenza Uso degli stimatori come quantità di pivot per stime intervallari

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Esercizi riassuntivi di Inferenza

Esercizi riassuntivi di Inferenza Esercizi riassuntivi di Inferenza Esercizio 1 Un economista vuole stimare il reddito medio degli abitanti di una cittadina mediante un intervallo al livello di confidenza del 95%. La distribuzione del

Dettagli

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl 1/4 Capitolo 4 La variabilità di una distribuzione Intervalli di variabilità Box-plot Indici basati sullo scostamento dalla media Confronti di variabilità Standardizzazione Statistica - Metodologie per

Dettagli

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare

Dettagli

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi Esercitazione 14 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 14 Ex.1: Verifica Ipotesi sulla media (varianza nota) Le funi prodotte da un certo macchinario hanno una

Dettagli

3. Matrici e algebra lineare in MATLAB

3. Matrici e algebra lineare in MATLAB 3. Matrici e algebra lineare in MATLAB Riferimenti bibliografici Getting Started with MATLAB, Version 7, The MathWorks, www.mathworks.com (Capitolo 2) Mathematics, Version 7, The MathWorks, www.mathworks.com

Dettagli

Distribuzioni di probabilità

Distribuzioni di probabilità Distribuzioni di probabilità Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione

Dettagli

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza CALCOLO DELLE PROBABILITÀ E STATISTICA ESAME DEL 16/06/2016 NOME: COGNOME: MATRICOLA: Esercizio 1 Cinque lettere

Dettagli

UNIVERSITÀ DEGLI STUDI DI PERUGIA

UNIVERSITÀ DEGLI STUDI DI PERUGIA SIGI, Statistica II, esercitazione n. 3 1 UNIVERSITÀ DEGLI STUDI DI PERUGIA FACOLTÀ DI ECONOMIA CORSO DI LAUREA S.I.G.I. STATISTICA II Esercitazione n. 3 Esercizio 1 Una v.c. X si dice v.c. esponenziale

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo a.costanzo@unicas.it TIPI DI MEDIA: GEOMETRICA, QUADRATICA, ARMONICA Esercizio 1. Uno scommettitore puntando una somma iniziale

Dettagli

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente: CAPITOLO TERZO VARIABILI CASUALI. Le variabili casuali e la loro distribuzione di probabilità In molte situazioni, dato uno spazio di probabilità S, si è interessati non tanto agli eventi elementari (o

Dettagli

LEZIONE N. 11 ( a cura di MADDALENA BEI)

LEZIONE N. 11 ( a cura di MADDALENA BEI) LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice

Dettagli

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione

Un esempio. Ipotesi statistica: supposizione riguardante: un parametro della popolazione. la forma della distribuzione della popolazione La verifica delle ipotesi In molte circostanze il ricercatore si trova a dover decidere quale, tra le diverse situazioni possibili riferibili alla popolazione, è quella meglio sostenuta dalle evidenze

Dettagli

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche: Istituzioni di Statistica 1 Esercizi su indici di posizione e di variabilità Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche: Durata (ore) Frequenza 0 100? 100 200

Dettagli

Prova scritta Affidabilità dei sistemi stocastici e controllo statistico di qualità 28 Marzo 2013

Prova scritta Affidabilità dei sistemi stocastici e controllo statistico di qualità 28 Marzo 2013 Prova scritta Affidabilità dei sistemi stocastici e controllo statistico di qualità 28 Marzo 2013 1. Un azienda che produce batterie per cellulari sta effettuando dei test per confrontare tre tipi diversi

Dettagli

Esercitazioni di statistica

Esercitazioni di statistica Esercitazioni di statistica Intervalli di confidenza Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 10 Dicembre 2014 Stefania Spina Esercitazioni di statistica 1/43 Stefania Spina

Dettagli

Il modello lineare misto

Il modello lineare misto Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica

Dettagli

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica 13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in

Dettagli

Sviluppi e derivate delle funzioni elementari

Sviluppi e derivate delle funzioni elementari Sviluppi e derivate delle funzioni elementari In queste pagine dimostriamo gli sviluppi del prim ordine e le formule di derivazioni delle principali funzioni elementari. Utilizzeremo le uguaglianze lim

Dettagli

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta):

b) E necessario formulare delle ipotesi per calcolare l intervallo di confidenza ottenuto al punto a? (motivare brevemente la risposta): ESERCIZIO 1 Una grande banca vuole stimare l ammontare medio di denaro che deve essere corrisposto dai correntisti che hanno il conto scoperto. Si seleziona un campione di 100 clienti su cui si osserva

Dettagli

STATISTICA DESCRITTIVA (variabili quantitative)

STATISTICA DESCRITTIVA (variabili quantitative) STATISTICA DESCRITTIVA (variabili quantitative) PRIMO ESEMPIO: Concentrazione di un elemento chimico in una roccia. File di lavoro di STATVIEW Cliccando sul tasto del pane control si ottiene il cosiddetto

Dettagli

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione

Dettagli

Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola

Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola Esame di Istituzioni di Matematiche II del 11 luglio 2001 (Corso di Laurea in Biotecnologie, Universitá degli Studi di Padova). Cognome Nome Matricola Es. 1 Es. 2 Es. 3 Es. 4 Somma Voto finale Attenzione:

Dettagli

Test di ipotesi su due campioni

Test di ipotesi su due campioni 2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche:

Dettagli

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Capitolo 3 Sintesi e descrizione dei dati quantitativi Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità

Dettagli

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza. Misure ripetute forniscono dati numerici distribuiti attorno ad un valore centrale indicabile con un indice (indice

Dettagli

La simulazione con DERIVE Marcello Pedone LE SIMULAZIONI DEL LANCIO DI DADI CON DERIVE

La simulazione con DERIVE Marcello Pedone  LE SIMULAZIONI DEL LANCIO DI DADI CON DERIVE LE SIMULAZIONI DEL LANCIO DI DADI CON DERIVE Premessa Abbiamo già visto la simulazione del lancio di dadi con excel Vedi: http:///statistica/prob_simu/index.htm Ci proponiamo di ottenere risultati analoghi

Dettagli

SIMULAZIONE - 29 APRILE QUESITI

SIMULAZIONE - 29 APRILE QUESITI www.matefilia.it SIMULAZIONE - 29 APRILE 206 - QUESITI Q Determinare il volume del solido generato dalla rotazione attorno alla retta di equazione y= della regione di piano delimitata dalla curva di equazione

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione

Dettagli

UNIVERSITÀ di ROMA TOR VERGATA

UNIVERSITÀ di ROMA TOR VERGATA UNIVERSITÀ di ROMA TOR VERGATA Corso di Laurea Magistrale in Scienze della Nutrizione Umana Corso di Statistica Medica, anno 2015-16 P.Baldi Lista di esercizi 4, 11 febbraio 2016. Esercizio 1 Una v.a.

Dettagli

Il Corso di Fisica per Scienze Biologiche

Il Corso di Fisica per Scienze Biologiche Il Corso di Fisica per Scienze Biologiche Ø Prof. Attilio Santocchia Ø Ufficio presso il Dipartimento di Fisica (Quinto Piano) Tel. 75-585 278 Ø E-mail: attilio.santocchia@pg.infn.it Ø Web: http://www.fisica.unipg.it/~attilio.santocchia/

Dettagli

DISTRIBUZIONI DI PROBABILITA

DISTRIBUZIONI DI PROBABILITA DISTRIBUZIONI DI PROBABILITA La distribuzione di probabilità e un modello matematico, uno schema di riferimento, che ha caratteristiche note e che può essere utilizzato per rispondere a delle domande derivate

Dettagli