per Scienze Ambientali LABORATORIO R - Appunti 1 1 Dipartimento di Matematica Sapienza, Università di Roma Roma, Gennaio 2014
Argomenti La distribuzione normale e applicazioni La distribuzione binomiale e il suo legame con la distribuzione di Poisson e con la distribuzione normale Diversi tipi di distribuzione Analisi dei residui e decomposizione della varianza. Soluzione degli esercizi. Implementazione del modello lineare y i = α + βx i + e i. Test statistici
Variabili alatorie Se lanciamo una moneta, otteniamo testa o croce. Se indichiamo con x il risultato osservato del lancio della moneta, possiamo avere x = T oppure x = C, ed uno solo dei due casi si presenta. Se invece indichiamo con X il risultato possibile del lancio di una moneta, siamo in presenza di un oggetto, detto variabile aleatoria, di cui abbiamo una conoscenza parziale e incerta. Di esso conosciamo i possibili valori T e C e la distribuzione di probabilità, cioè la probabilità con cui assume ogni possibile valore. Indichiamo p(x = T ) la probabilità che X assuma il valore testa e con p(x = C) la probabilità che X assuma il valore croce. In assenza di ulteriori informazioni e supposizioni, possiamo solo assumere che esista un numero 0 p 1 tale che p(x = T ) = p e p(x = C) = 1 p. Se abbiamo l informazione, o possiamo supporre che la moneta non sia truccata, assumeremo che, p(x = T ) = 1/2 p(x = C) = 1/2. Qual è il legame tra la variabile aleatoria X e la variabile statistica x = (x 1,..., x n) che contiene l esito osservato di n lanci di una moneta? Il legame passa attraversi il valore aspettato E(X) = p 1 + (1 p) 0 = p della variabile aleatoria X. La variabile statistica x = (x 1,..., x n) è ottenuta realizzando n variabili aleatorie indipendenti X 1,..., X n, distribuite come X. Sia N la variabile aleatoria che conta il numero dei successi in n realizzazioni di X. Allora (legge dei grandi numeri) «lim P N n n p > ɛ 0.
Distribuzione normale Una funzione reale di variabile reale f : R R non negativa tale che + f = 1 determina una densità di probabilità. Una variabile statistica x si dice distribuita approssimativamente come f quando la frequenza relativa delle osservazioni che appartengano ad un qualsiasi intervallo (a, b) R è circa uguale a b f. L esempio più a comune è quello di una variabile che si distribuisce in maniera approssimativamente normale, o gaussiana. Le distribuzione gaussiana di media µ e deviazione standard σ è 1 σ (x µ) 2 2π e 2σ 2.
Esempio Per esempio, se l altezza di una certa popolazione si distribuisce in maniera approssimativamente gaussiana di media µ = 173cm e deviazione standard σ = 2cm, allora la percentuale approssimativa di individui la cui altezza è compresa tra 172cm e 175cm è 175 1 172 2 (x 173) 2 2π e 2 2 2 ovvero, l area evidenziata in figura, che si calcola con R con il comando pnorm(175,mu,sigma)-pnorm(172,mu,sigma). Distribuzione normale di parametri mu=173 e sigma=2 0.00 0.05 0.10 0.15 0.20 165 170 175 180
Quattro problemi sulle distribuzioni Per una variabile aleatoria X di data distribuzione, continua o discreta, ci possiamo porre i seguenti problemi: Disegnare la distribuzione di X. Calcolare la probabilità di osservare: a X b, a, b R per una distribuzione continua; a i X a j, dove a i e a j sono due valori possibili della distribuzione. Dato 0 q 1, determinare a tale che P(X < a) = q. Simulare n osservazioni estratte da n copie identiche di X.
Teorema del Limite Centrale Sia Y n (p) una variabile aleatoria distribuita in maniera binomiale di parametri p ed n e sia g(x) la gaussiana standard di media 0 e deviazione standard 1. Allora lim P n + ( Y n (p) p n n p (1 p) [a, b] ) = b a g(x) Teorema del limite centrale f(x) 0.0 0.1 0.2 0.3 0.4-10 -5 0 5 10 x
Legami tra due variabili statistiche Uno degli scopi della statistica elementare è lo studio dei legami (associazioni) tra due variabili statistiche. Ci limitiamo al caso in cui entrambe le variabili siano numeriche. Il coefficiente di correlazione Se x e y sono due variabili statistiche numeriche il coefficiente di correlazione è (x x)(y y) r = (x x) 2 (y y) = σ xy. 2 σ x σ y Il coefficiente di correlazione è compreso tra 1 e 1. Se i due caratteri sono estratti da una distribuzione congiunta approssimativamente normale, di densità 1 z(x, y) = p 2πσ exp 1 (x µx) 2 xσ y 1 ρ 2 2(1 ρ 2 ) σx 2 allora r è lo stimatore di ρ. 2ρ(x µx)(y µy) + σ xσ y ««(y µy)2 σy 2
Osservazioni sulla correlazione Supponiamo che x e y abbiano distribuzione congiunta approssimativamente gaussiana. Allora r = 0 indica mancanza di correlazione tra le variabili x e y r = 1 indica perfetta correlazione positiva, ovvero y = ax + b con a > 0 r = 1 indica perfetta correlazione negativa, ovvero y = ax + b con a < 0 Un valore di r vicino a 1 indica un elevato grado di associazione, ovvero una buona interpolazione del diagramma di dispersione di x e y con una retta. L interpretazione del coefficiente di correlazione è dubbia quando la distribuzione congiunta non è approssimativamente gaussiana.
Modello lineare Date due variabili statistiche x x 1,..., x n e y = y 1,..., y n il modello lineare standard è y i = α + βx i + e i. dove le x i si assumono come fisse e le e i sono variabili aleatorie indipendenti con E(e i ) = 0 e Var(e i ) = σ 2.
Modelli probabilistici Un modello probabilistico per un insieme di dati empirici consiste in un sistema di equazioni tra un insieme di variabili aleatorie per ognuna delle quali è specificato un insieme di possibili distribuzioni di probabilità. Il modello si dice parametrico quando le distribuzioni di ognuno degli insiemi associati alle variabili aleatorie del modello dipendono da un insieme di parametri. Un modello probabilistico serve per simulare la produzione di dati aventi distribuzione delle frequenze il più possibile simile a quella dei dati empirici. Un modello probabilistico permette anche di calcolare, almeno in linea di principio, la distribuzione teorica dei dati. Nella modellistica probabilistica abbiamo quindi tre oggetti fondamentali: dati empirci e relative frequenze empiriche dati simulati e relative frequenze empiriche variabili aleatorie o distribuzioni di probabilità o frequenze teoriche La modellizzazione probabilistica consiste nell adattamento ai dati di un insieme di distribuzioni di probabilità, solitamente attraverso la scelta di parametri ottimali e nella valutazione della bontà dell adattamento del modello ai dati.
Concretamente, è possibile simulare la realizzazione di variabili aleatorie con diverse distribuzioni di probabilità attraverso l uso del calcolatore, per esempio: normale, beta, gamma, del chi quadro, di Poisson, geometrica, binomiale, ecc. Se una variabile aleatoria ha una distribuzione dist implementata in R, di parametri a,b,..., allora n sue realizzazioni indipendenti si ottengono con il comando rdist(n,a,b,...) per esempio la simulazione di 30 realizzazioni di una variabile aleatoria normale di parametri µ = 0 e σ = 3 si ottiene con il comando rnorm(30,0,3).
Modello probabilistico per un insieme di dati: Esempio Si consideri la seguente tabella di dati empirici 0 1 2 3 4 10 27 35 19 9 Nella prima riga della tabella sono riportate le osservazioni ralative ad una certa variabile statistica e nella seconda riga sono riportate le frequenze assolute di tali osservazioni. Si tratta del conteggio del numero di crash di un certo sistema operativo, osservati durante 1000 ore di funzionamento di una certa marca di computer. Quindi, su 10 computer non si è osservato alcun crash, su 27 computer si è osservato un crash,... su 9 computer si sono osservati 4 o più crash. Un modello probabilistico per questi dati consiste in una distribuzioni di probabilità, estratta da una determinata famiglia parametrica, per cui si possa ragionevolmente ipotizzare che i dati siano stati prodotti dalla realizzazione di n variabili aleatorie indipendenti (n uguale al numero totale delle osservazioni, in questo caso 100) aventi quella distribuzione.
Scelta del modello: distribuzione binomiale Per scegliere la classe di modelli parametrici e fissare i parametri, guardiamo all istogramma dei dati. Frequenze 10 15 20 25 30 35 0 1 2 3 4 Osservazioni La forma ricorda quella di una variabile aleatoria che conta il numero di teste nel lancio ripetuto 4 volte di una moneta, che ha distribuzione binomiale di parametro p uguale alla probabilità che venga testa in un lancio. La forma asimmetrica, che favorisce valori più bassi, suggerisce p < 1/2.
Scelta dei parametri del modello parametrico Una volta ipotizzata la distribuzione parametrica, bisogna scegliere i parametri in modo da adeguarsi ai dati. Sono possibili diversi approcci, tra cui: Calcolare, in funzione di p una opportuna distanza tra la distribuzione empirica dei dati e la distribuzione teorica e determinare p minimizzando tale distanza. Calcolare, in funzione di p la verosimiglianza dei dati e determinare p massimizzando tale verosimiglianza. Calcolare un indice statistico/empirico (per esempio la media aritmetica) dei dati e il corrispondente indice teorico della distribuzione in funzione di p e determinare il parametro imponendo l uguaglianza tra l indice teorico e quello empirico In questo caso scegliamo la terza strada in quanto è ben noto che la media teorica di una variabile aleatoria X avente distribuzione binomiale di parametri n e p vale: E(X) = p 0 0 + p 1 1 + + p n n = np. dove, naturalmente n p k = p k k (1 p) n k Nell esempio, n = 4, e la media dei dati empirici vale 1.9, e quindi la stima di p risulta essere p = 0.475.
Frequenze empiriche dalle frequenze aspettate La distribuzione scelta, cioè la distribuzione binomiale di parametri n = 4 e p = 0.475 prevede per ogni possibile risultato, la probabilità di osservarlo. In generale la probabilità prevista per l osservazione i secondo una distribuzione dist implementata in R si calcola con il comando ddist(i,a,b,...) dove a, b,... sono i parametri della distribuzione. Abbiamo quindi, nel nostro caso la tabella seguente che indica, per ogni possibile valore, la probabilità di osservazione, calcolate con il comando dbinom(0:4,4,0.475), approssimando il risultato alla seconda cifra decimale. 0 1 2 3 4 0.08 0.27 0.37 0.23 0.05 Naturalmente queste probabilità non sono immediatamente confrontabili con le frequenze empiriche, in quanto la somma delle diverse probabilità è uguale a 1 mentre la somma delle frequenze empiriche è uguale al totale delle osservazioni, in questo caso 100. Dobbiamo quindi moltiplicare le probabilità per il numero totale delle osservazione prima di procedere al confronto.
Confronto grafico tra le frequenze empiriche e le frequenze aspettate Le frequenze empiriche e le frequenze aspettate da confrontare sono quindi Confronto grafico freq.empiriche 10 27 35 19 9 freq.aspettate 7.60 27.49 37.31 22.51 5.09 0 10 20 30 40 0 1 2 3 4
Confronto numerico tra le frequenze empiriche e le frequenze aspettate A occhio si vede che un certo accordo tra le frequenze empiriche e le frequenze aspettate, ma come misurare numericamente la qualità dell accordo. Una indice utile per misurare l accordo tra frequenze empiriche e frequenze aspettate è la distanza del chi quadro. Se O = (o 1,..., 0 n ) e E = (e 1,..., e n ) sono le frequenze osservate o empiriche e le frequenze aspettate (expected), allora n i=1 χ 2 (O, E) = (o i e i ) 2 Nel nostro esempio il valore del chi quadro è pari a 4.46. Abbiamo ora una distanza numerica determinata tra le frequenze empiriche e le frequenze aspettate. Non è chiaro ancora, però, se questa distanza è grande o no. e i
Strategia per misurare la bontà dell adattamento La startegia che possiamo seguire per renderci conto della significatività di questa distanza è la seguente. 1 Simuliamo un grande numero di volte i dati empirici 2 Misuriamo ogni volta la distanza tra le frequenze dei dati simulati e le frequenze teoriche 3 Contiamo la frazione dei dati simulati per i quali la distanza dalle frequenze teoriche è maggiore della distanza tra frequenze empiriche e frequenze teoriche. 4 Se la frazione è minore di una certa soglia (comunemente si sceglie come valore di soglia 0.05 o 0.01) giudichiamo scarso o molto scarso l adattamento dei dati empirici alla distribuzione, altrimenti lo riteniamo soddisfaciente.
Simulazione dei dati empirici La simulazione di una variabile aleatoria con distribuzione binomiale si ottiene con la funzione rbinom. Per simulare un set di dati da confrontare con quelli empirici dobbiamo valutare 100 variabili aleatorie indipendenti con distribuzione binomiale di parametri n e p: dati.simulati=rbinom(100,n,p) la tabella delle frequenze dei dati simulati è freq.simulate=table(dati.simulati) la distanza del chi quadro tra le frequenze dei dati simulati e quelle teoriche è freq.simulate=table(dati.simulati)
Simulazione della distribuzione campionaria del chi quadro dist.campionaria=c() for(i in 1:10000){ freq.simulate=table( rbinom(sum(freq.osservate),n,p) ) if(length(freq.simulate)==n+1){ chi2.simul=sum( (freq.simulate-freq.aspettate)ˆ2/freq.aspettate ) dist.campionaria=c(chi2.simul,dist.campionaria) } }
Confronto del valore empirico del chi quadro con la distribuzione campionaria del chi quadro Nella figura è riportato un istogramma della distribuzione campionaria del chi quadro relativo a 10000 campioni. In rosso il valore del chi quadro per la distribuzione empirica. Tale valore non è nella norma dei valori campionari. Si avrebbe uno scostamento statisticamente significativo del valore empirico se la frazione dei campioni simulati con valore del chi quadro maggiore di quelli empirici fosse molto piccola, (se minore di 0.05 il discostamento sarebbe statisticamente significativo, se minore di 0.01 sarebbe molto significativo). Nell esempio, tale frazione è pari 0.343, quindi il discostamento è non significativo e l ipotesi che i dati empirici provengano dalla realizzazione di variabili aleatorie con distribuzione binomiale è statisticamente sostenibile. Histogram of dist.campionaria Density 0.00 0.05 0.10 0.15 ENRICO 5ROGORA 10 Matematica 15 20e Statistica 25 0
Approssimazione della distribuzione campionaria del chi quadro In generale, la distribuzione campionaria delle distanze del chi quadro tra frequenze aspettate e frequenze osservate in n classi di conteggio è, sotto opportune ipotesi non troppo restrittive ben approssimata da una densità di probabilità continua χ 2 n 1, detta distribuzione del chi quadro con n 1 gradi di libertà, rappresentata in blu nella figura. Histogram of dist.campionaria Density 0.00 0.05 0.10 0.15 0 5 10 15 20 25 dist.campionaria
Calcolo teorico della significatività dello scostamento La percentuale dei campioni con valore del chi quadro maggiore di quello empirico chi2 si può quindi calcolare come + chi2 χ 2 n 1 ovvero, utilizzando i comandi per l integrazione di una distribuzione di probabilità in R, 1-pchisq(chi2,n) che fornisce, approssimato alla terza cifra decimale, il valore 0.347.