i=1 Y i, dove Y i, i = 1,, n sono indipendenti e somiglianti e con la stessa distribuzione di Y.



Documenti analoghi

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2:

La distribuzione Normale. La distribuzione Normale

Metodi statistici per le ricerche di mercato

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

E naturale chiedersi alcune cose sulla media campionaria x n

Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)

La distribuzione Gaussiana

Statistica. Lezione 6

Analisi di dati di frequenza

Prof.ssa Paola Vicard

ESERCIZIO N 4. Fatturato Supermercati [0;500) 340 [500;1000) 368 [1000;5000) 480 [5000;10000) 37 [10000;20000) 15 taglia = 1240

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Facciamo qualche precisazione

Indici di dispersione

Prova di autovalutazione Prof. Roberta Siciliano

Politecnico di Milano - Scuola di Ingegneria Industriale. I Prova in Itinere di Statistica per Ingegneria Energetica 9 maggio 2013

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Elementi di Psicometria con Laboratorio di SPSS 1

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Basi di matematica per il corso di micro

Esercizi riassuntivi di probabilità

Statistiche campionarie

Istituzioni di Statistica e Statistica Economica

Elementi di Psicometria con Laboratorio di SPSS 1

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Slide Cerbara parte1 5. Le distribuzioni teoriche

SPC e distribuzione normale con Access

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

La variabile casuale Binomiale

Excel Terza parte. Excel 2003

Metodi statistici per le ricerche di mercato

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

Proposta di soluzione della prova di matematica Liceo scientifico di Ordinamento

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Analisi di scenario File Nr. 10

STATISTICA IX lezione

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

Esercitazioni di Statistica

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

1. Distribuzioni campionarie

Capitolo 12 La regressione lineare semplice

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x x2. 2, x3 +2x +3.

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Inferenza statistica. Statistica medica 1

Un gioco con tre dadi

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Misure di base su una carta. Calcoli di distanze

La grafica. La built-in funzione grafica plot. x spezzata poligonale. discretizzato

Grafici delle distribuzioni di frequenza

Prof.ssa Paola Vicard

Esponenziali elogaritmi

FASCI DI RETTE. scrivere la retta in forma esplicita: 2y = 3x + 4 y = 3 2 x 2. scrivere l equazione del fascio di rette:

Corso di Psicometria Progredito

LEZIONE n. 5 (a cura di Antonio Di Marco)

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Consideriamo due polinomi

Elementi di Psicometria con Laboratorio di SPSS 1

13. Campi vettoriali

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Calcolo del Valore Attuale Netto (VAN)

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Funzioni inverse Simmetrie rispetto alla bisettrice dei quadranti dispari. Consideriamo la trasformazione descritta dalle equazioni : = y

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Programmazione Disciplinare: Calcolo Classe: Quarte - Quinte

Statistica. Alfonso Iodice D Enza iodicede@unina.it

4 3 4 = 4 x x x 10 0 aaa

Analisi della performance temporale della rete

Capitolo 13: L offerta dell impresa e il surplus del produttore

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Il Controllo Interno di Qualità dalla teoria alla pratica: guida passo per passo IL MODELLO TEORICO. Pasquale Iandolo

Analisi e diagramma di Pareto

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Trasformazioni Geometriche 1 Roberto Petroni, 2011

Servizi di consulenza specialistica per IGRUE

Relazioni statistiche: regressione e correlazione

Esercizi del Corso di Statistica. Parte I - Variabili Aleatorie Continue

Osservazioni sulla continuità per le funzioni reali di variabile reale

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Esercizio 1. Nella Tabella A sono riportati i tempi di percorrenza, in minuti, di un tratto autostradale da parte di 40 autoveicoli.

QUANTIZZAZIONE diverse fasi del processo di conversione da analogico a digitale quantizzazione

Capitolo 25: Lo scambio nel mercato delle assicurazioni

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

1. Scopo dell esperienza.

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Corso di Automazione Industriale 1. Capitolo 4

3. Confronto tra medie di due campioni indipendenti o appaiati

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Transcript:

Lezione n. 5 5.1 Grafici e distribuzioni Esempio 5.1 Legame tra Weibull ed esponenziale; TLC per v.a. esponenziali Supponiamo che X Weibull(α, β). (i) Si consideri la distribuzione di Y = X β. (ii) Fissato α = 1, si analizzi la distribuzione esatta di S n = n i=1 Y i, dove Y i, i = 1,, n sono indipendenti e somiglianti e con la stessa distribuzione di Y. (iii) Applicando il teorema limite centrale, si analizzi la distribuzione limite di S n. Che cosa possiamo dire di Pr(S 10 > z)? Per un valore di z a scelta, confrontare i risultati ottenuti basandosi rispettivamente sulla distribuzione esatta e su quella approssimata di S 10 e verificare l errore commesso. Produrre una serie di rappresentazioni grafiche delle distribuzioni di S n al variare di n. Soluzione. Se X è una variabile casuale con densità f X ( ), la trasformata Y = g(x) con g( ) funzione strettamente monotona ha densità f Y (y) = f X (g 1 (y)) d(g 1 (y)) dy. Sapendo che la densità di X è f X (x) = αβx β 1 e αxβ, Y = X β si scrive come: x > 0, α > 0, β > 0, la densità di f Y (y) = αβy β 1 β β e αy β 1 β y 1 β β = αe αy, y > 0 cioè Y ha una distribuzione esponenziale negativa di parametro α.

2 Lezione n. 5. - 28/3/03 Utilizzando la funzione generatrice dei momenti di un esponenziale negativa di parametro α, G Y (t) = α α t, t < α, e sfruttando l indipendenza e la somiglianza delle Y i, la funzione generatrice dei momenti di n i=1 Y i con Y i i.i.d. Exp(α) è pari a: G Y (t) = { α α t }n, t < α, che è anche la f.g.m. di una Gamma(n, α). Pertanto, ricordando che si considera α = 1, la distribuzione di S 10 è di tipo Gamma(10, 1). Consideriamo ora la distribuzione limite di S n. Ricordando che ogni addendo in S n è distribuito come un esponenziale negativa di parametro 1 (e quindi anche media 1), si ottiene E(S n ) = n, e V (S n ) = i V (Y i) = n,per cui, in base al teorema limite centrale si ha S n n n n N(0, 1) (5.1) In base al risultato limite appena riportato, possiamo approssimare Pr(S 10 > z) = Pr( S 10 10 10 > z 10 10 ) con Φ( z 10 10 ). Conoscendo la distribuzione esatta di S n, possiamo valutare la bontà dell approssimazione (5.1). I comandi R per ottenere la probabilità cercata sono: pgamma(z,10,1,lower.tail=f) oppure 1-pgamma(z,10,1) e pnorm(z,10,sqrt(10),lower.tail=f) o ancora 1-pnorm(z,10,sqrt(10)),oppure pnorm((z-10)/sqrt(10),lower.tail=f). In ciascuno dei comandi z è un oggetto R in cui abbiamo salvato il valore in cui calcolare la probabilità della coda cercata. Ad esempio, ponendo z_20, otteniamo: > z_20 > pnorm(z,10,sqrt(10),lower.tail=f) [1] 0.05692315 > pnorm((z-10)/sqrt(10),lower.tail=f) [1] 0.05692315 > 1-pnorm(z,10,sqrt(10)) [1] 0.05692315 > pgamma(z,10,1,lower.tail=f) [1] 0.06985366 > zz <- seq(20,25,0.1) come si può constatare ad esempio visualizzando pgamma(zz,10,1,lower.tail=f) e pnorm((zz-10)/sqrt(10),lower.tail=f), i valori

5.2 Rappresentazioni grafiche: gli istogrammi 3 basati sull approssimazione normale decrescono molto più rapidamente di quelli basati sulla distribuzione esatta; l approssimazione peggiora al crescere di z. L approssimazione alla normale basata sul teorema limite centrale diventa accettabile solo per n molto elevato. Il risultato può essere intuitivamente giustificato dal fatto che passiamo da una distribuzione fortemente asimmetrica (si ricordi che S 1 ha distribuzione esponenziale negativa) ad una distribuzione simmetrica quale è quella limite. Questo può essere chiarito con una serie di grafici: a questo scopo, apriamo una nuova finestra grafica (comando win.graph()) e suddividiamola ad esempio in 6 aree: par(mfrow=c(3,2)) suddivide la finestra grafica attiva in una matrice di grafici con 3 righe e 2 colonne. N.B.: Se non è aperta alcuna finestra grafica, un comando par determina comunque l apertura di una nuova finestra grafica. Plottiamo la distribuzione esponenziale corrispondente a S 1, le distribuzioni di S n per n = 1, 2, 5, 10, 30, 35 e sovrapponiamo le distribuzioni normali con la stessa media e varianza di S n : par(mfrow=c(3,2)) curve(dgamma(x,1,1), 0.01,60, main= n=1 ) curve(dnorm(x, 1,1),col=2, add=t) curve(dgamma(x,2,1),0.01,60, main= n=2 ) #usato tra gli argomenti di plot(), main= titolo inserisce un titolo nel plot curve(dnorm(x, 2,sqrt(2)),col=2,add=T) curve(dgamma(x,5,1), 0.01,60, main= n=5 ) curve(dnorm(x, 5,sqrt(5)),col=2,add=T) curve(dgamma(x,10,1),0.01,60, main= n=10 ) curve(dnorm(x, 10,sqrt(10)),col=2,add=T) curve(dgamma(x,30,1), 0.01, 60, main= n=30 ) curve(dnorm(x, 30,sqrt(30)),col=2,add=T) curve(dgamma(x,35,1), 0.01,60, main= n=35 ) curve(dnorm(x,35,sqrt(35)),col=2,add=t) 5.2 Rappresentazioni grafiche: gli istogrammi Dato un campione e quindi una distribuzione empirica, l istogramma ci fornisce una rappresentazione grafica di tale distribuzione. R dispone del comando hist. Se x é un vettore in cui é salvato un campione estratto da una certa distribuzione, hist(x) restituisce

4 Lezione n. 5. - 28/3/03 l istogramma di x, ossia una rappresentazione grafica della distribuzione empirica dei dati. Il supporto osservato della variabile considerata viene suddiviso in classi e su ciascuna classe viene calcolata la frequenza assoluta (opzione di default, equivale a prob=f) o relativa (opzoine prob=t) di osservazioni che ricadono in ogni classe. L ampiezza di ciascun intervallo viene stabilita da R in modo automatico. Si può comunque agire sul numero di classi con l opzione nclass=k dove kè un intero, oppure sull ampiezza degli intervalli, specificando un vettore contenente gli estremi di ciascuna classe, con il comando breaks=c(a1,a2,...,ak) dove a1,...ak sono gli estremi degli intervalli in cui viene suddiviso il supporto. In generale è raccomandabile usare l opzione prob=t che calcola in ogni classe la frequenza relativa. In questo modo è anche possibile, laddove sia necessario, sovrapporre eventuali distribuzioni teoriche a quelle empiriche (comando lines, oppure curve, oppure points). Esercizio 5.1. Legge di Weibull Produrre grafici della densità Weibull con differenti scelte dei parametri. Verificare inoltre tramite simulazione, utilizzando istogrammi, che se X Weibull(α, β) (fissando α, β a piacimento), allora Y = X β Exp(α). 5.3 Rappresentazioni grafiche: il Q-Q plot per il confronto tra distribuzioni Per individare, tramite uno strumento grafico, da quale modello sono stati verosimilmente estratti i dati, si può confrontare direttamente l istogramma relativo alla distribuzione empirica con la densità di riferimento; così facendo, le frequenze relative degli intervalli in cui viene suddiviso il supporto osservato vengono confrontate con le probabilità teoriche di tali intervalli. In alternativa, è possibile confrontare le funzioni di ripartizione empirica e teorica direttamente, oppure attraverso il cosiddetto Q-Q plot, che mette a confronto graficamente i quantili della distribuzione empirica con i quantili omotetici (ossia dello stesso livello q) della distribuzione teorica di riferimento. Il fondamento della tecnica risiede nel fatto che, se la distribuzione empirica si conforma al modello distribuzionale ipotizzato, i quantili empirici dovrebbero essere simili ai quantili teorici dello stesso livello q. Pertanto, se il modello da cui sono stati estratti i dati è effettivamente quello ipotizzato, in un grafico a disperisione che rappresenti sulle ascisse i quantili empirici e sulle ordinate i quantili teorici della distribuzione di riferimento, i punti dovrebbero disporsi lungo una retta a 45 gradi. Se in particolare il modello di riferimento è la normale, abbiamo in R a disposizione la funzione qqnorm, che confronta i quantili della distribuzione empirica con quelli di pari livello

5.3 Rappresentazioni grafiche: il Q-Q plot per il confronto tra distribuzioni 5 della normale standardizzata. Il fatto che si utilizzino i quantili della normale standardizzata anche se il modello di confronto è normale con media diversa da zero e/o varianza diversa da 1 è semplicemente dovuto al fatto che, se x q è il quantile di livello q di una distribuzione N(µ, σ 2 ), si ha q = Pr(X x q ) = Pr( X µ σ x q µ ), σ da cui segue che xq µ σ = z q è il quantile di livello q di una normale standard. Di conseguenza x q = σz q + µ, cioè il quantile di livello q di una normale di media µ e varianza σ 2 si ottiene trasformando opportunamente il quantili omotetico della normale standard. Questo implica che in generale, se si vuole stabilire se il modello da cui sono stati generati i dati è di tipo normale, è sufficiente calcolare i quantili empirici e confrontarli con i quantili della normale standard. Se i punti rappresentanti le coppie di quantili omotetici si dispongono lungo una retta, la pendenza e l intercetta di tale retta forniscono inoltre un informazione sul valore di σ e µ rispettivamente. Una strategia alternativa, che consente di confrontare la distribuzione empirica con una distribuzione di riferimento non necessariamente normale, consiste nellutilizzare il comando qqplot. Con questo comando si confrontano le distribuzioni empiriche di due campioni per stabilire se essi provengano dalla stessa distribuzione. Nel nostro caso utilizzeremo però come secondo campione un vettore simulato dalla distribuzione di confronto. Di solito, avendo un campione di numerosità non molto elevata, i punti rappresentanti i quantili non si disporranno esattamente lungo una retta a 45 gradi, proprio perchè, per effetto della variabilità empirica, i quantili empirici non sarà mai esattamente uguali a quelli teorici. Naturalmente all aumentare della numerosità campionaria, se la distribuzione ipotizzata corrisponde a quella da cui sono sati estratti i dati, l effetto visivo di una retta aumenterà. In ogni caso sulle code della distribuzione avremo sempre una maggiore variabilità che nel centro della distribuzione, per cui gli scostamenti tra valori empirici e valori teorici saranno maggiori per valori di q vicini a 0 e 1 rispettivamente. per questo motivo si usa basare le proprie valutazioni sul 50% centrale della distribuzione. Per aiutare le valutazioni grafiche, si usa tracciare una retta a 45 gradi o, meglio, una retta passante per i punti definiti dal primo e terzo quartile empirico e teorico, (q n,0.25, z 0.25 ) e (q n,0.75, z 0.75 ). Mentre la retta a 45 gradi si traccia semplicemente con il comando abline(0,1) in cui 0 e 1 sono intercetta e coefficiente angolare rispettivamente, l esempio successivo mostra come tracciare la retta passante per i punti corrispondenti ai quantili di cui sopra. Esempio 5.2 (segue da Esempio 5.1) In riferimento all Esempio 5.1, costruiamo per simulazione campioni dalla legge esatta di S n e su questi costruiamo il Q-Q plot per verificare la bontà dell approssimazione normale fornita

6 Lezione n. 5. - 28/3/03 dal teorema limite centrale, per diversi valori di n. Verificheremo che l approssimazione non é soddisfacente anche per valori di n elevati, a causa dell asimmetria della distribuzione di S n, di cui conosciamo la legge esatta, che é di tipo Gamma(n, 1). I comandi per generare i campioni e costruire istogrammi e Q-Q plot sono i seguenti: x.40 <- rgamma(5000,40,1) hist(x.40, prob=t, nclass=40) curve(dnorm(x,40,sqrt(40)),add=t) qqnorm(x.40) qqline(x.40) #seconda opzione: confronto i quantili empirici di due campioni, #uno dei quali estratto da una normale con parametri n, sqrt(n). win.graph() qqplot(rnorm(5000,40,sqrt(40)),x.40) #comandi per tracciare la retta passante per i punti individuati #dal primo e terzo quartile in ciascuno dei due campioni coeff <- diff(quantile(x.40, c(0.25,0.75)))/diff(qnorm(c(0.25,0.75),40,sqrt(40))) interc <- quantile(x.40, 0.25)-coeff*qnorm(0.25,40,sqrt(40)) abline(interc,coeff) #aumentiamo n: win.graph() x.60 <- rgamma(5000,60,1) hist(x.60, prob=t, nclass=40) curve(dnorm(x,60,sqrt(60)),add=t) qqnorm(x.60) qqline(x.60) Come si vede sia dal confronto tra l istogramma e la curva della densità normale di riferimento sia dal Q-Q plot, l approssimazione normale non é buona, in particolare le distribuzioni differiscono sulle code. Il confronto tra quantili estremi indica che infatti che la distribuzione empirica é asimmetrica, per cui sia i quantili sulla coda sinistra che quelli sulla coda destra sono maggiori dei quantili dello stesso livello relativi alla distribuzione normale. A titolo puramente esemplificativo, vediamo che cosa succede confrontando un campione da una normale con la distribuzione normale: #campione da una normale standardizzata a <- rnorm(5000)

5.3 Rappresentazioni grafiche: il Q-Q plot per il confronto tra distribuzioni 7 qqnorm(a) qqline(a) #campione da una normale(3,1.5) a <- rnorm(5000, 3, sqrt(1.5)) qqnorm(a) qqline(a) come si puó notare, i punti si dispongono molto più marcatamente lungo una retta, segno di una maggiore corrispondenza tra quantili empirici e teorici.