Esercitazioni Infostat ConfInt

Documenti analoghi
Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Esercizi di statistica

STATISTICA A K (60 ore)

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

ESAME. 9 Gennaio 2017 COMPITO B

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

ESAME. 9 Gennaio 2017 COMPITO A

Uso elementare di R in Statistica G. Marchetti

05. Errore campionario e numerosità campionaria

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

DISTRIBUZIONI DI CAMPIONAMENTO

ESERCITAZIONE 21 : VARIABILI ALEATORIE CONTINUE

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Quanti soggetti devono essere selezionati?

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Esercitazione 8 maggio 2014

STATISTICA A K (60 ore)

Esercizi riassuntivi di Inferenza

Statistica Inferenziale

lezione 4 AA Paolo Brunori

Analisi della regressione multipla

Contenuto del capitolo

Tecniche di sondaggio

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

COGNOME.NOME...MATR..

La distribuzione t. Federico Plazzi. 7 Novembre 2015

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Laboratorio di Probabilità e Statistica

Intervalli di confidenza

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Metodi statistici per le ricerche di mercato

Esercitazione del

Il campionamento e l inferenza. Il campionamento e l inferenza

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Elementi di Psicometria con Laboratorio di SPSS 1

Statistica (parte II) Esercitazione 4

L indagine campionaria Lezione 3

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 7 Luglio 2011

Verifica delle ipotesi

assuma valori in un determinato intervallo è data dall integrale della sua densità ( = )=

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

ECONOMETRIA: Laboratorio I

Statistica Metodologica

Statistica Applicata all edilizia: Stime e stimatori

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

COGNOME.NOME...MATR..

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Confronto tra due popolazioni Lezione 6

Statistica Inferenziale

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Intervalli di confidenza

STATISTICA A K (60 ore)

1. Quali sono i possibili campioni di numerosità 2 senza reimmissione? X 1 e X 2 sono indipendenti?

Dispensa di Statistica

Cenni di Statistica Inferenziale

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

Esercitazione 5 del corso di Statistica 2 Prof. Domenico Vistocco

La verifica delle ipotesi

Calcolo delle Probabilità e Statistica Matematica: definizioni prima parte. Cap.1: Probabilità

Statistica descrittiva II

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza CALCOLO DELLE PROBABILITÀ E STATISTICA ESAME DEL 13/1/2017

Campionamento e stima di parametri

Statistica inferenziale

Casa dello Studente. Casa dello Studente

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Corso di Statistica - Prof. Fabio Zucca IV Appello - 5 febbraio Esercizio 1

INTERVALLI DI CONFIDENZA e TEST D IPOTESI 1 / 30

Analisi della varianza

Ringraziamenti dell Editore

Introduzione alle funzioni dnorm, pnorm, qnorm e rnorm in R

Si estrae casualmente usando uno schema di campionamento con ripetizione un campione di n=2 misurazioni.

Intervallo di confidenza.

STATISTICA. Inferenza: Stima & Intervalli di confidenza, 1

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

Il Teorema del limite Centrale (TLC)

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 8:

Test delle Ipotesi Parte I

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

INTERVALLI DI CONFIDENZA

Esercizi di statistica inferenziale

Test per l omogeneità delle varianze

Corso di Psicometria Progredito

Intervalli di confidenza

Test delle ipotesi statistiche

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Lezione VII: Z-test. Statistica inferenziale per variabili quantitative. Statistica inferenziale per variabili quantitative. Prof.

Transcript:

Esercitazioni Infostat ConfInt Matteo Re, Alessandro Di Domizio 3 Maggio 2019 1 Introduzione In questa esercitazione vedremo come stimare l intervallo di confidenza da un campione che assumiamo essere derivante da una popolazione normlmente distribuita. L esercitazione e basata su due esercizi pratici da svolgere in classe. el primo esercizio ci concentreremo sull automazione del calcolo dell intervallo di confidenza mediante l utilizzo di una funzione. el secondo esercizio utilizzeremo la funzione prodotta in esercizio 1 per effettuare dei test. el terzo esercizio vedremo alcuni esempi reali di calcolo dell intervallo di confidenza. 2 Esercizio 1 Data la formula della media della popolazione: µ x ± z σ L intervallo di confidenza (Confidence Interval) puo essere stimato come segue: [ z σ, z σ ] Iniziamo ad implementare in R la formula per il calcolo dell intervallo di confidenza a partire da un vettore di osservazioni. # Creazione di un vettore di 100 osservazioni # parametri normale : media =0, deviazione standard =1 obs <- rnorm (100,0,1) # Ora calcoliamone il valor medio <- length ( obs ) tot <- sum ( obs ) # calcolo media campionaria xbar <- tot / # verificate che xbar e uguale a mean ( obs ) # calcolo varianza campionaria s2 <- sum (( obs - xbar )^2)/( n - 1) # e uguale a var ( obs )? # la deviazione standard e la radice della varianza stddev <- sqrt ( s2) # verificate che e uguale a sd( obs ) 1

Abbiamo la media campionaria (xbar): x = 1 x i e la varianza del campione (s2): s 2 = 1 1 (x i x) 2 = 1 (x 2 i x 2 ) 1 Ora iniziamo a ragionare sugli intervalli di confidenza. La prima cosa da fare e verificare se, ragionevolmente, possiamo considerare la distribuzione generatrice dei dati campionati gaussiana. Per verificare questa ipotesi possiamo vedere i grafici di probabilita utilizzando le funzioni R qqnorm() e qqline() come segue: qqnorm ( obs ) # disegna i punti # O chiudete il grafico appena generato, # dobbiamo aggiungere unaa retta qqline ( obs ) # disegna la retta Abbiamo visto come valutare la normalita del campione in modo qualitativo mediante l utilizzo di grafici ma e anche possibile effettuare un test statistico. Il test piu utilizzato in questi casi (soprattutto per piccoli campioni, di numerosita inferiore a 30) e il Shapiro-Wilk test. Esso e disponibile in R nella libreria di base stats e, quindi, non e necessario installare alcun package aggiuntivo per poterlo utilizzare. E bene ricordare che nei test di normalita H 0, l ipotesi nulla, e che i dati del campione siano provengano da una popolazione normalmente distributa. Di conseguenza se il test di normalita non e significativo, non possiamo rifiutare l ipotesi nulla (che i dati sono distribuiti normalmente). Solo nel caso in cui il test sia statisticamente significativo (pvalue< 0.05) possiamo rifiutare H 0. In R il test di Shapiro-Wilk si utilizza come segue: # Test di normalita di Shapiro - Wilk : > mydata <- rnorm ( 20,0,1) > shapiro. test (x= mydata ) Shapiro - Wilk normality test data : mydata W = 0.97213, p- value = 0.799 } In questo esempio i dati del piccolo (n < 30) campione, se testati con Shapiro-Wilk portano ad un p-value > 0.05, quindi non possiamo rifiutare l ipotesi che siano distribuiti normalmente. In queste condizioni possiamo procedere alla stima dell intervallo di confidenza per il valor medio come segue. Supponiamo di sapere che la deviazione standard della popolazione sia σ = 1.005, 2

allora l intervallo di confidenza al 95% di µ e x ± 1.96 σ Cio a cui dobbiamo prestare attenzione e l associazione tra il valore della probabilita totale compresa nell intervallo (95%) ed il valore di z (1.96). Tali coppie di valori si trovano in tabelle statistiche che vengono utilizzate come riferimento durante i calcoli. Una tabella ridotta che potete utilizzare e la seguente: TAABELLA RIFERIMETO VALORI z Confidence level % z 50 0.67 68 1.00 80 1.29 90 1.64 95 1.96 96 2.00 99 2.58 99.7 3.00 99.9 3.29 Per costruire la funzione che calcola l intervallo di confidenza dobbiamo fornire alcune informazioni. In particolare servono il valore di z (che definisce il grado di confidenza), la deviazione standard della popolazione ed il vettore delle osservazioni (quest ultimo serve per calcolare la media campionaria e per fornire il valore di ). Data la disponibilita di tali informazioni la funzione R puo essere scritta come segue: # funzione per il calcolo dell intervallo di confidenza : confint <- function (z, sdpop, obsvector ){ # costruzione variabile per risultati res <- rep (0,3) names ( res ) <- c(" xbar "," IClowerBound "," ICupperBound ") # calcolo valori xbar <- mean ( obsvector ) res [ 1] <- xbar res [2] <- xbar - (z* sdpop )/ sqrt ( length ( obsvector )) res [3] <- xbar + (z* sdpop )/ sqrt ( length ( obsvector )) # restituzione risultati return ( res ) } 3

3 Esercizio 2 Equipaggiati con la funzione confint appena scritta possiamo procedere con alcuni esperimenti. Procedete come segue: Create 3 vettori vec1, vec2 e vec3 di osservazioni campionate casualmente da una normale con parametri µ = 5 e σ = 1.5. I vattori dovranno avere rispettivamente lunghezza 5, 10 e 100 Applicate ad essi la funzione confint() utilizzando z = 1.96 e σ = 1.5 Cosa osservate? C e relazione tra la lunghezza dei vettori e l ampiezza dell intervallo di confidenza calcolato? Provate a ripetere i passaggi utilizzando diversi valori di σ. Le vostre conclusioni cambiano? Motivate la risposta. 4 Esercizio 3 ella pratica statistica i reali valori di σ e µ non sono noti ed e quindi necessario procedere ad una stima di tali parametri a partire dal campione a disposizione. Lo stimatore appropriato per la media di popolazione e la media campionaria. Si procede poi alla stima dell errore quadratico medio. Quest ultimo, in particolare, puo essere stimato come segue: Si procede, infine, con la stima dell errore standard SE = σ 2 s = 1 (x i x) 1 2 s, in cui s vale : il calcolo della media campionaria in R e banale mentre SE puo essere calcolato come segue: # Calcolo SE di un vettore di osservazioni di nome obsvect s <- sd( obsvect ) SE <- s/ sqrt ( length ( obsvect )) el caso in cui il valore di σ della popolazione non sia noto sarebbe errato utilizzare la funzione confint (che richiede in input il vero valore di σ della popolazione). In questi casi possiamo procedere come segue per la stima di un intervallo di confidenza: x ± t s/ in cui: s e la deviazione standard del campione (non quella supposta nota della popolazione) 4

t e un coefficiente maggiore di 1.96 dipendente dalla dimensione del campione il coefficinete t si ottiene non dalla tavola della normale ma da quella della distribuzione t di Student. Si puo sostituire la tavola della distribuzione t di Studente con le seguenti istruzioni R: LC <- 0. 95 # Livello di confidenza n <- 11 # umerosita campionaria t <- qt(lc + (1-LC )/2, n-1) Ora proviamo a confrontare gli intervalli di confidenza al 95% calcolati a partire dal medesimo campione assumendo nota la si popolazione ed utilizzando il metodo appena presentato. Costruite un vettore rndvect contenente 10 campionamenti da una normale avente µ = 0 e σ = 1 Stimate intervallo di confidenza al 95% utilizzando la funzione confint() costruite una funzione per il cacolo del valore di t dato il livello di confidenza. Utilizzate la funzione per calcolare t per LC = 0.95 salvate il ritultato ottenuto in una variabile t095 ed utilizzatelo come segue: SE <- sd( rndvect )/ sqrt ( ength ( rndvect )) xbar <- mean ( rndvect ) A <- xbar - t * SE B <- xbar + t * SE ConfIntT <- c(a, B) Cosa osservate riguardo all ampiezza degli intervalli di confidenza calcolati assumento la σ di popolazione nota e non nota (mediante t). Che conclusioni potete trarne? Motivate la risposta. 5