Esercizio 1. Trovare un intervallo della distribuzione di COR che contenga il 95% dell'area.

Documenti analoghi
1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)

Esercizi vari sulle schede di statistica

Regressione Lineare Semplice e Correlazione

Correlazione tra due variabili

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Statistica I. Ingegneria Gestionale. Scritto del 20/07/2010

Laboratorio di Probabilità e Statistica

Statistica II Laurea magistrale in Ing. Gestionale a.a. 2012/13 Registro delle lezioni

STATISTICA. Esercitazione 5

Esercitazione del

STATISTICA. Regressione-2

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

COGNOME.NOME...MATR..

Esercizi di statistica

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

1.1 Obiettivi della statistica Struttura del testo 2

STATISTICA. Regressione-4 ovvero Macron!

Regressione lineare semplice

SOLUZIONE. a) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria):

Presentazione dell edizione italiana

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Esercizio 1. La variabile casuale G, somma di due V.C. normali, si distribuisce anch essa come una normale.

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Distribuzione normale

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Capitolo 12 La regressione lineare semplice

Metodi statistici per le ricerche di mercato

Distribuzione Normale

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta 15/12/2008 Compito B

Dispensa di Statistica

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

Il Teorema del limite Centrale (TLC)

Test delle Ipotesi Parte I

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Soluzioni della prova scritta del 6 Marzo 2013 (a.a. 2012/2013)

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Statistica Applicata Corso di Laurea in Scienze Naturali a. a. 2016/2017

Computazione per l interazione naturale: fondamenti probabilistici (2)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

assuma valori in un determinato intervallo è data dall integrale della sua densità ( = )=

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta A 18/12/2009

DISTRIBUZIONE NORMALE (1)

Statistica II Laurea magistrale in Ing. Gestionale a.a. 2012/13 Esempi di domande brevi. 1. Definizione di quantile gaussiano standard

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Soluzione di alcuni esercizi di statistica con R

Corso di Statistica - Prof. Fabio Zucca V Appello - 19 febbraio 2015

Lab. 2 - Excel. Prof. De Michele e Farina

Confronto tra due popolazioni Lezione 6

Statistica I. Ingegneria Gestionale. Scritto del 17/07/2012

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2016/17 - Prova del

Statistica Corso di laurea in Biotecnologie I esonero - 19 aprile 2010

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica. Esercizi: 8. Statistica Descrittiva Bivariata 3 Probabilità 1

Elementi di Probabilità e Statistica, A.A

STATISTICA. Regressione-2

Test per una media - varianza nota

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

3) In una distribuzione di frequenza si può ottenere più di una moda Vero Falso

Introduzione alle funzioni dnorm, pnorm, qnorm e rnorm in R

Esercizi di Ricapitolazione

Distribuzione Normale

Regressione e Correlazione (cap. 11) Importazione dati da file di testo

Test di ipotesi (a due code, σ nota)

INDICE PARTE METODOLOGICA

e) calcolate i cinque numeri di sintesi, la media e la deviazione standard per entrambi i campioni di lunghezze. 1,5 + 1,5

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

Statistica Applicata Corso di Laurea in Scienze Naturali a. a. 2016/2017

Distribuzioni di probabilità nel continuo

9.3 Il metodo dei minimi quadrati in formalismo matriciale

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Statistical Process Control

Stima dell intervallo per un parametro

Corso in Statistica Medica

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Esercitazione

3. rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze assolute dei diversi caratteri;

Laboratorio di Chimica Fisica. Analisi Statistica

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione 4

distribuzione normale

LA MISURA IN PSICOLOGIA

ARGOMENTI TRATTATI NEL CORSO DI ANALISI II

Statistica descrittiva: analisi di regressione

Statistica. Matematica con Elementi di Statistica a.a. 2017/18

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Analisi e scelta dei dati di input

STATISTICA. Esercizi

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Generazione di Numeri Casuali- Parte 2

Transcript:

Esercizio 1. Trovare un intervallo della distribuzione di COR che contenga il 95% dell'area. Soluzione. Ricordiamo che i comandi per ottenere (a livello simulativo) la distribuzione di COR sono (ad es. con n=27) n=27; N=100000 COR = 1:N for (i in 1:N) { x= rnorm(n) y= rnorm(n) COR[i] = cor(x,y) } hist(cor,100)

Il modo più semplice è l uso del comando quantile: > quantile(cor,0.025) 2.5% -0.3823481 > quantile(cor,0.975) 97.5% 0.3799307 Risposta alla domanda dell esercizio: l intervallo [-0.382,0.380]. Possiamo tracciare l intervallo di confidenza sul grafico: PP=seq(quantile(COR,0.025), quantile(cor,0.975),0.001) lines(pp,pp*0,type="p")

Esercizio: tracciare, invece, il complementare, cioè le due code utilizzabili come regione di rifiuto del test che vuole scoprire che le due variabili del campione non sono indipendenti. Esercizio di contorno: dare una soluzione parametrica. Nota: con questo si intende che si deve trovare una densità di forma nota che corrisponda il meglio possibile ai dati COR e poi si deve calcolare l intervallo usando tale densità. Soluzione. Dal grafico di COR si intuisce che la densità giusta potrebbe essere gaussiana. Se lo è, i suoi parametri sono > mean(cor) [1] -0.000860945 > sd(cor) [1] 0.1961472 Proviamo allora a sovrapporre la densità gaussiana con questi parametri, all istogramma:

hist(cor,100,false) COR.ord=sort(COR) Y=dnorm(COR.ord,mean(COR),sd(COR)) lines(cor.ord,y, col=2) Combacia perfettamente. Allora possiamo calcolare > qnorm(0.025,mean(cor),sd(cor)) [1] -0.3853024 > qnorm(0.975,mean(cor),sd(cor)) [1] 0.3835805 Con questo metodo l intervallo è [-0.385,0.383].

Quando scegliere tra parametrico e non-parametrico? Tra i pregi della non-parametrica c è la semplicità algoritmica, la generalità, il fatto che funziona (con un senso) anche quando non troviamo distribuzioni note che corrispondano abbastanza bene ai dati. Il metodo parametrico invece è l unico che può calcolare cose significative delle code, quando i dati non sono abbastanza ricchi rispetto alle code stesse. Esercizio (area corrispondente al punto). Invece che fissare una confidenza (o significatività, nel linguaggio dei test), qui 95% e vedere se il valore sperimentale (es. 0.8) cade nella regione di rifiuto, si può calcolare la probabilità che la distribuzione di COR abbia valori più estremi del valore sperimentale 0.8. L area dopo quel valore è pari a 1- la cumulativa in quel punto, calcolata con pnorm(0.8, ). Ecco il risultato: > 1-pnorm(0.8,mean(COR),sd(COR)) [1] 2.180131e-05 Questo è il p-value del test unilaterale. [Quello del test bilaterale è il doppio.] Nota: in modo non-parametrico sarebbe stato impossibile arrivare a questa conclusione tramite il campione COR generato precedentemente: il massimo di COR è inferiore a 0.8, quindi la percentuale di punti di COR che supera 0.8 è zero. La stima del p-value sarebbe stata pari a 0; eventualmente a 1/N. Esercizio 2: trovare una banda attorno alla retta di regressione che contenga il 95% dei punti. Soluzione. Prima risolviamo l esercizio relativamente a dati artificiali, per fare più in fretta. Supponiamo di avere i dati X=1:100; Y=X+10*rnorm(100) plot(x,y) REG= lm(y~x) abline(reg,col=2)

Estraiamo i residui (gli errori): RES = residuals(reg) plot(res)

Qui sono sull asse delle ordinate. hist(res,30)

Come sopra calcoliamo quantile(res,0.025) quantile(res,0.975) e troviamo così un intervallo al 95% per i residui. Dovendo invece tracciare una banda di confidenza, dobbiamo sottrarre e sommare ai parametri della retta di regressione una coppia (.,.) in cui la prima componente è lo scarto in intercetta, la seconda è zero (perché non si modifica la pendenza). Quindi plot(x,y) COEF=coef(REG) qmin= quantile(res,0.025) qmax= quantile(res,0.975)

abline(reg,col=2) abline(coef+c(qmin,0),col=3) abline(coef+c(qmax,0),col=3) Esercizio: ripetere la cosa per la tabella pesi-altezze.

A <- read.table ("clipboard") 1.67 61 04 0 1.78 62 26 0 1.78 72 5 0 1.84 75 2 0 1.82 76 12 0 1.80 72 2 0 1.95 91 3 0 1.81 80 9 0 1.80 70 9 0 1.86 77 6 0 1.68 65 9 0 1.84 64 8 0 1.72 62 1 0 1.76 65 26 0 1.82 74 4 0 1.86 86 3 0 1.84 75 14 0 1.73 65 19 0 1.72 57 25 1 1.62 56 2 1 1.70 59 3 1 1.61 46 15 1 1.70 64 22 1 1.60 63 26 1 1.61 60 16 1 1.60 55 28 1 1.65 50 12 1

Alt = A[,1] Peso = A[,2] Data = A[,3] Sesso = A[,4] REG= lm(peso~alt) RES = residuals(reg) COEF=coef(REG) qmin= quantile(res,0.025) qmax= quantile(res,0.975) plot(alt,peso) abline(reg,col=2) abline(coef+c(qmin,0),col=3) abline(coef+c(qmax,0),col=3)

1. MATRICE DI CORRELAZIONE E PLOT DI UNA TABELLA Si esegua cor(a) riconoscendo nella prima posizione la correlazione già calcolata tra peso ed altezza. Una curiosità piuttosto inspiegabile: la correlazione tra altezza e giorno di nascita è significativa rispetto al test di indipendenza eseguito al 95%. Si noti la naturale correlazione tra sesso ed altezza. Le posizioni sul triangolo superiore sono quelle che portano informazione; per il resto, sulla diagonale c è 1 di default ed il triangolo inferiore è la copia dell altro, per simmetria. Il comando cov(a) produce invece le covarianze. I valori della covarianza sono poco interpretabili per motivi di scala, come si vede ad es. dal valore tra sesso ed altezza. Invece sulla diagonale ci sono le varianze, a volte utili. Il comando

plot(a) raffigura i plot a due a due, dando un impressione visiva delle varie correlazioni: Si notino i grafici insoliti quando è coinvolta la variabile sesso, che è discreta. Sono però interessanti e mostrano a colpo d occhio delle informazioni.