Matematica e Statistica per Scienze Ambientali

Documenti analoghi
Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Modelli probabilistici variabili casuali

Dispensa di Statistica

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

UNIVERSITÀ di ROMA TOR VERGATA

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

Vedi: Probabilità e cenni di statistica

Variabili aleatorie continue

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Capitolo 6 La distribuzione normale

PROBABILITÀ - SCHEDA N. 3 VARIABILI ALEATORIE CONTINUE E SIMULAZIONE

Capitolo 6. La distribuzione normale

I appello di calcolo delle probabilità e statistica

Statistica. Alfonso Iodice D Enza

Presentazione dell edizione italiana

CAPITOLO QUINTO DISTRIBUZIONE NORMALE

Distribuzioni e inferenza statistica

Approfondimento 3.3. Approssimazione della distribuzione binomiale alla normale

Due variabili aleatorie X ed Y si dicono indipendenti se comunque dati due numeri reali a e b si ha. P {X = a, Y = b} = P {X = a}p {Y = b}

Il Corso di Fisica per Scienze Biologiche

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

PROBABILITÀ ELEMENTARE

Esame di AM2 & EAP (270/04) a.a. 2009/10

Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17

Il campionamento e l inferenza. Il campionamento e l inferenza

FENOMENI CASUALI. fenomeni casuali

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

Statistica. Alfonso Iodice D Enza

Variabili aleatorie. Variabili aleatorie e variabili statistiche

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Variabili aleatorie gaussiane

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica. Lezione 4

Alcune v.a. discrete notevoli

Ulteriori Conoscenze di Informatica e Statistica

ESAME. 9 Gennaio 2017 COMPITO B

Statistica. Alfonso Iodice D Enza

UNIVERSITÀ DEGLI STUDI DI PERUGIA

DISTRIBUZIONI DI CAMPIONAMENTO

METODO DEI MINIMI QUADRATI

Esercitazione del

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

Statistica. Alfonso Iodice D Enza

Note sulla probabilità

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

L analisi dei dati. Primi elementi. EEE- Cosmic Box proff.: M.Cottino, P.Porta

Esercizi di Calcolo delle Probabilità

PROBABILITA. Distribuzione di probabilità

Laboratorio di Calcolo B 68

Approssimazione normale alla distribuzione binomiale

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

tabelle grafici misure di

Regressione lineare semplice

L indagine campionaria Lezione 3

Statistica di base per l analisi socio-economica

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

Prova di recupero di Probabilità e Statistica - A * 21/04/2006

LAUREA SPECIALISTICA IN FARMACIA - Prova scritta di MATEMATICA - 24/01/03 ANNI PRECEDENTI. 1. (Punti 10) Si consideri la funzione

Variabili casuali. - di Massimo Cristallo -

MATEMATICA CORSO A II COMPITINO (Tema 1) 5 Aprile 2013

1 Eventi. Operazioni tra eventi. Insiemi ed eventi. Insieme dei casi elementari. Definizione di probabilità.

Statistica Inferenziale

Proprietà della varianza

Contenuti: Capitolo 14 del libro di testo

Le variabili casuali o aleatorie

MODELLI QUANTITATIVI. f x r = c

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

DISTRIBUZIONI DI PROBABILITA

Teoria e tecniche dei test. Concetti di base

Lezione n. 1 (a cura di Irene Tibidò)

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Scheda n.3: densità gaussiana e Beta

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

REGRESSIONE E CORRELAZIONE

PROBABILITÀ SCHEDA N. 7 LA VARIABILE ALEATORIA NORMALE

Esercitazione: La distribuzione NORMALE

Calcolo delle Probabilità 2

Ulteriori conoscenze di informatica Elementi di statistica Esercitazione3

Introduzione all inferenza statistica, II lezione

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Esercitazione N. 1 (11 ottobre 2016)

METODO DEI MINIMI QUADRATI

LE DISTRIBUZIONI CAMPIONARIE

Esame di Statistica del 19 settembre 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Capitolo 5 Confidenza, significatività, test di Student e del χ 2

Test delle Ipotesi Parte I

Statistica ARGOMENTI. Calcolo combinatorio

Tipi di variabili. Indici di tendenza centrale e di dispersione

Versione di Controllo

DISTRIBUZIONE NORMALE (1)

Intervalli di confidenza

Compiti tematici dai capitoli 2,3,4

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Matricola: Corso: 1. (4 Punti) Stimare la variazione del reddito quando il prezzo del prodotto finale raddoppia.

Transcript:

per Scienze Ambientali LABORATORIO R - Appunti 1 1 Dipartimento di Matematica Sapienza, Università di Roma Roma, Gennaio 2014

Argomenti La distribuzione normale e applicazioni La distribuzione binomiale e il suo legame con la distribuzione di Poisson e con la distribuzione normale Diversi tipi di distribuzione Analisi dei residui e decomposizione della varianza. Soluzione degli esercizi. Implementazione del modello lineare y i = α + βx i + e i. Test statistici

Variabili alatorie Se lanciamo una moneta, otteniamo testa o croce. Se indichiamo con x il risultato osservato del lancio della moneta, possiamo avere x = T oppure x = C, ed uno solo dei due casi si presenta. Se invece indichiamo con X il risultato possibile del lancio di una moneta, siamo in presenza di un oggetto, detto variabile aleatoria, di cui abbiamo una conoscenza parziale e incerta. Di esso conosciamo i possibili valori T e C e la distribuzione di probabilità, cioè la probabilità con cui assume ogni possibile valore. Indichiamo p(x = T ) la probabilità che X assuma il valore testa e con p(x = C) la probabilità che X assuma il valore croce. In assenza di ulteriori informazioni e supposizioni, possiamo solo assumere che esista un numero 0 p 1 tale che p(x = T ) = p e p(x = C) = 1 p. Se abbiamo l informazione, o possiamo supporre che la moneta non sia truccata, assumeremo che, p(x = T ) = 1/2 p(x = C) = 1/2. Qual è il legame tra la variabile aleatoria X e la variabile statistica x = (x 1,..., x n) che contiene l esito osservato di n lanci di una moneta? Il legame passa attraversi il valore aspettato E(X) = p 1 + (1 p) 0 = p della variabile aleatoria X. La variabile statistica x = (x 1,..., x n) è ottenuta realizzando n variabili aleatorie indipendenti X 1,..., X n, distribuite come X. Sia N la variabile aleatoria che conta il numero dei successi in n realizzazioni di X. Allora (legge dei grandi numeri) «lim P N n n p > ɛ 0.

Distribuzione normale Una funzione reale di variabile reale f : R R non negativa tale che + f = 1 determina una densità di probabilità. Una variabile statistica x si dice distribuita approssimativamente come f quando la frequenza relativa delle osservazioni che appartengano ad un qualsiasi intervallo (a, b) R è circa uguale a b f. L esempio più a comune è quello di una variabile che si distribuisce in maniera approssimativamente normale, o gaussiana. Le distribuzione gaussiana di media µ e deviazione standard σ è 1 σ (x µ) 2 2π e 2σ 2.

Esempio Per esempio, se l altezza di una certa popolazione si distribuisce in maniera approssimativamente gaussiana di media µ = 173cm e deviazione standard σ = 2cm, allora la percentuale approssimativa di individui la cui altezza è compresa tra 172cm e 175cm è 175 1 172 2 (x 173) 2 2π e 2 2 2 ovvero, l area evidenziata in figura, che si calcola con R con il comando pnorm(175,mu,sigma)-pnorm(172,mu,sigma). Distribuzione normale di parametri mu=173 e sigma=2 0.00 0.05 0.10 0.15 0.20 165 170 175 180

Quattro problemi sulle distribuzioni Per una variabile aleatoria X di data distribuzione, continua o discreta, ci possiamo porre i seguenti problemi: Disegnare la distribuzione di X. Calcolare la probabilità di osservare: a X b, a, b R per una distribuzione continua; a i X a j, dove a i e a j sono due valori possibili della distribuzione. Dato 0 q 1, determinare a tale che P(X < a) = q. Simulare n osservazioni estratte da n copie identiche di X.

Teorema del Limite Centrale Sia Y n (p) una variabile aleatoria distribuita in maniera binomiale di parametri p ed n e sia g(x) la gaussiana standard di media 0 e deviazione standard 1. Allora lim P n + ( Y n (p) p n n p (1 p) [a, b] ) = b a g(x) Teorema del limite centrale f(x) 0.0 0.1 0.2 0.3 0.4-10 -5 0 5 10 x

Legami tra due variabili statistiche Uno degli scopi della statistica elementare è lo studio dei legami (associazioni) tra due variabili statistiche. Ci limitiamo al caso in cui entrambe le variabili siano numeriche. Il coefficiente di correlazione Se x e y sono due variabili statistiche numeriche il coefficiente di correlazione è (x x)(y y) r = (x x) 2 (y y) = σ xy. 2 σ x σ y Il coefficiente di correlazione è compreso tra 1 e 1. Se i due caratteri sono estratti da una distribuzione congiunta approssimativamente normale, di densità 1 z(x, y) = p 2πσ exp 1 (x µx) 2 xσ y 1 ρ 2 2(1 ρ 2 ) σx 2 allora r è lo stimatore di ρ. 2ρ(x µx)(y µy) + σ xσ y ««(y µy)2 σy 2

Osservazioni sulla correlazione Supponiamo che x e y abbiano distribuzione congiunta approssimativamente gaussiana. Allora r = 0 indica mancanza di correlazione tra le variabili x e y r = 1 indica perfetta correlazione positiva, ovvero y = ax + b con a > 0 r = 1 indica perfetta correlazione negativa, ovvero y = ax + b con a < 0 Un valore di r vicino a 1 indica un elevato grado di associazione, ovvero una buona interpolazione del diagramma di dispersione di x e y con una retta. L interpretazione del coefficiente di correlazione è dubbia quando la distribuzione congiunta non è approssimativamente gaussiana.

Modello lineare Date due variabili statistiche x x 1,..., x n e y = y 1,..., y n il modello lineare standard è y i = α + βx i + e i. dove le x i si assumono come fisse e le e i sono variabili aleatorie indipendenti con E(e i ) = 0 e Var(e i ) = σ 2.

Modelli probabilistici Un modello probabilistico per un insieme di dati empirici consiste in un sistema di equazioni tra un insieme di variabili aleatorie per ognuna delle quali è specificato un insieme di possibili distribuzioni di probabilità. Il modello si dice parametrico quando le distribuzioni di ognuno degli insiemi associati alle variabili aleatorie del modello dipendono da un insieme di parametri. Un modello probabilistico serve per simulare la produzione di dati aventi distribuzione delle frequenze il più possibile simile a quella dei dati empirici. Un modello probabilistico permette anche di calcolare, almeno in linea di principio, la distribuzione teorica dei dati. Nella modellistica probabilistica abbiamo quindi tre oggetti fondamentali: dati empirci e relative frequenze empiriche dati simulati e relative frequenze empiriche variabili aleatorie o distribuzioni di probabilità o frequenze teoriche La modellizzazione probabilistica consiste nell adattamento ai dati di un insieme di distribuzioni di probabilità, solitamente attraverso la scelta di parametri ottimali e nella valutazione della bontà dell adattamento del modello ai dati.

Concretamente, è possibile simulare la realizzazione di variabili aleatorie con diverse distribuzioni di probabilità attraverso l uso del calcolatore, per esempio: normale, beta, gamma, del chi quadro, di Poisson, geometrica, binomiale, ecc. Se una variabile aleatoria ha una distribuzione dist implementata in R, di parametri a,b,..., allora n sue realizzazioni indipendenti si ottengono con il comando rdist(n,a,b,...) per esempio la simulazione di 30 realizzazioni di una variabile aleatoria normale di parametri µ = 0 e σ = 3 si ottiene con il comando rnorm(30,0,3).

Modello probabilistico per un insieme di dati: Esempio Si consideri la seguente tabella di dati empirici 0 1 2 3 4 10 27 35 19 9 Nella prima riga della tabella sono riportate le osservazioni ralative ad una certa variabile statistica e nella seconda riga sono riportate le frequenze assolute di tali osservazioni. Si tratta del conteggio del numero di crash di un certo sistema operativo, osservati durante 1000 ore di funzionamento di una certa marca di computer. Quindi, su 10 computer non si è osservato alcun crash, su 27 computer si è osservato un crash,... su 9 computer si sono osservati 4 o più crash. Un modello probabilistico per questi dati consiste in una distribuzioni di probabilità, estratta da una determinata famiglia parametrica, per cui si possa ragionevolmente ipotizzare che i dati siano stati prodotti dalla realizzazione di n variabili aleatorie indipendenti (n uguale al numero totale delle osservazioni, in questo caso 100) aventi quella distribuzione.

Scelta del modello: distribuzione binomiale Per scegliere la classe di modelli parametrici e fissare i parametri, guardiamo all istogramma dei dati. Frequenze 10 15 20 25 30 35 0 1 2 3 4 Osservazioni La forma ricorda quella di una variabile aleatoria che conta il numero di teste nel lancio ripetuto 4 volte di una moneta, che ha distribuzione binomiale di parametro p uguale alla probabilità che venga testa in un lancio. La forma asimmetrica, che favorisce valori più bassi, suggerisce p < 1/2.

Scelta dei parametri del modello parametrico Una volta ipotizzata la distribuzione parametrica, bisogna scegliere i parametri in modo da adeguarsi ai dati. Sono possibili diversi approcci, tra cui: Calcolare, in funzione di p una opportuna distanza tra la distribuzione empirica dei dati e la distribuzione teorica e determinare p minimizzando tale distanza. Calcolare, in funzione di p la verosimiglianza dei dati e determinare p massimizzando tale verosimiglianza. Calcolare un indice statistico/empirico (per esempio la media aritmetica) dei dati e il corrispondente indice teorico della distribuzione in funzione di p e determinare il parametro imponendo l uguaglianza tra l indice teorico e quello empirico In questo caso scegliamo la terza strada in quanto è ben noto che la media teorica di una variabile aleatoria X avente distribuzione binomiale di parametri n e p vale: E(X) = p 0 0 + p 1 1 + + p n n = np. dove, naturalmente n p k = p k k (1 p) n k Nell esempio, n = 4, e la media dei dati empirici vale 1.9, e quindi la stima di p risulta essere p = 0.475.

Frequenze empiriche dalle frequenze aspettate La distribuzione scelta, cioè la distribuzione binomiale di parametri n = 4 e p = 0.475 prevede per ogni possibile risultato, la probabilità di osservarlo. In generale la probabilità prevista per l osservazione i secondo una distribuzione dist implementata in R si calcola con il comando ddist(i,a,b,...) dove a, b,... sono i parametri della distribuzione. Abbiamo quindi, nel nostro caso la tabella seguente che indica, per ogni possibile valore, la probabilità di osservazione, calcolate con il comando dbinom(0:4,4,0.475), approssimando il risultato alla seconda cifra decimale. 0 1 2 3 4 0.08 0.27 0.37 0.23 0.05 Naturalmente queste probabilità non sono immediatamente confrontabili con le frequenze empiriche, in quanto la somma delle diverse probabilità è uguale a 1 mentre la somma delle frequenze empiriche è uguale al totale delle osservazioni, in questo caso 100. Dobbiamo quindi moltiplicare le probabilità per il numero totale delle osservazione prima di procedere al confronto.

Confronto grafico tra le frequenze empiriche e le frequenze aspettate Le frequenze empiriche e le frequenze aspettate da confrontare sono quindi Confronto grafico freq.empiriche 10 27 35 19 9 freq.aspettate 7.60 27.49 37.31 22.51 5.09 0 10 20 30 40 0 1 2 3 4

Confronto numerico tra le frequenze empiriche e le frequenze aspettate A occhio si vede che un certo accordo tra le frequenze empiriche e le frequenze aspettate, ma come misurare numericamente la qualità dell accordo. Una indice utile per misurare l accordo tra frequenze empiriche e frequenze aspettate è la distanza del chi quadro. Se O = (o 1,..., 0 n ) e E = (e 1,..., e n ) sono le frequenze osservate o empiriche e le frequenze aspettate (expected), allora n i=1 χ 2 (O, E) = (o i e i ) 2 Nel nostro esempio il valore del chi quadro è pari a 4.46. Abbiamo ora una distanza numerica determinata tra le frequenze empiriche e le frequenze aspettate. Non è chiaro ancora, però, se questa distanza è grande o no. e i

Strategia per misurare la bontà dell adattamento La startegia che possiamo seguire per renderci conto della significatività di questa distanza è la seguente. 1 Simuliamo un grande numero di volte i dati empirici 2 Misuriamo ogni volta la distanza tra le frequenze dei dati simulati e le frequenze teoriche 3 Contiamo la frazione dei dati simulati per i quali la distanza dalle frequenze teoriche è maggiore della distanza tra frequenze empiriche e frequenze teoriche. 4 Se la frazione è minore di una certa soglia (comunemente si sceglie come valore di soglia 0.05 o 0.01) giudichiamo scarso o molto scarso l adattamento dei dati empirici alla distribuzione, altrimenti lo riteniamo soddisfaciente.

Simulazione dei dati empirici La simulazione di una variabile aleatoria con distribuzione binomiale si ottiene con la funzione rbinom. Per simulare un set di dati da confrontare con quelli empirici dobbiamo valutare 100 variabili aleatorie indipendenti con distribuzione binomiale di parametri n e p: dati.simulati=rbinom(100,n,p) la tabella delle frequenze dei dati simulati è freq.simulate=table(dati.simulati) la distanza del chi quadro tra le frequenze dei dati simulati e quelle teoriche è freq.simulate=table(dati.simulati)

Simulazione della distribuzione campionaria del chi quadro dist.campionaria=c() for(i in 1:10000){ freq.simulate=table( rbinom(sum(freq.osservate),n,p) ) if(length(freq.simulate)==n+1){ chi2.simul=sum( (freq.simulate-freq.aspettate)ˆ2/freq.aspettate ) dist.campionaria=c(chi2.simul,dist.campionaria) } }

Confronto del valore empirico del chi quadro con la distribuzione campionaria del chi quadro Nella figura è riportato un istogramma della distribuzione campionaria del chi quadro relativo a 10000 campioni. In rosso il valore del chi quadro per la distribuzione empirica. Tale valore non è nella norma dei valori campionari. Si avrebbe uno scostamento statisticamente significativo del valore empirico se la frazione dei campioni simulati con valore del chi quadro maggiore di quelli empirici fosse molto piccola, (se minore di 0.05 il discostamento sarebbe statisticamente significativo, se minore di 0.01 sarebbe molto significativo). Nell esempio, tale frazione è pari 0.343, quindi il discostamento è non significativo e l ipotesi che i dati empirici provengano dalla realizzazione di variabili aleatorie con distribuzione binomiale è statisticamente sostenibile. Histogram of dist.campionaria Density 0.00 0.05 0.10 0.15 ENRICO 5ROGORA 10 Matematica 15 20e Statistica 25 0

Approssimazione della distribuzione campionaria del chi quadro In generale, la distribuzione campionaria delle distanze del chi quadro tra frequenze aspettate e frequenze osservate in n classi di conteggio è, sotto opportune ipotesi non troppo restrittive ben approssimata da una densità di probabilità continua χ 2 n 1, detta distribuzione del chi quadro con n 1 gradi di libertà, rappresentata in blu nella figura. Histogram of dist.campionaria Density 0.00 0.05 0.10 0.15 0 5 10 15 20 25 dist.campionaria

Calcolo teorico della significatività dello scostamento La percentuale dei campioni con valore del chi quadro maggiore di quello empirico chi2 si può quindi calcolare come + chi2 χ 2 n 1 ovvero, utilizzando i comandi per l integrazione di una distribuzione di probabilità in R, 1-pchisq(chi2,n) che fornisce, approssimato alla terza cifra decimale, il valore 0.347.