Richiami di probabilità e statistica

Richiami di probabilità e statistica Una variabile casuale (o aleatoria) X codifica gli eventi con entità numeriche x ed è caratterizzata dalla funzione di distribuzione di probabilità P(x) : P(x)=Pr ob[x x] = E quindi equivalente determinare la distribuzione di densità di probabilità p(x) o la funzione di distribuzione di probabilità P(x), detta anche probabilità cumulata o probabilità di non superamento, infatti: p(x)= dp dx Relazione fra tempo di ritorno T e probabilità di non superamento P ns : x 1 T = 1 P ns (x) p(z)dz P ns (x)=1 1 T Fissato il tempo di ritorno T si ricava la probabilità di non superamento P e quindi la portata o pioggia x con tempo di ritorno T. La probabilità di superamento P s (x) sarà invece: P s = 1 T = (1 P ns ) 1

Probabilità condizionata e indipendenza stocastica Se l'accadimento di un evento B può modificare la probabilità che si verifichi l'evento A parliamo di probabilità condizionata: P(A \ B) = P(A B) P(B) Se (A, B) Ω e, inoltre, B i B j = si ha: P(A) = P(A \ B) P(B i ) i=1,n Si dice che (A, B) Ω sono stocasticamente indipendenti se vale una delle seguenti condizioni: 1) P(A \ B) = P(A) se P(B) > 0 2) P(B \ A) = P(B) se P(A) > 0 Per la 1) il fatto che si è verificato B non modifica la probabilità di A; Per la 2) il fatto che si sia verificato A non modifica la probabilità di B. 2

Richiami di calcolo combinatorio Disposizioni semplici: si considerano gruppi di k elementi, tratti da n, tutti diversi tra loro e che si considerano differenti se presentino sia almeno un elemento diverso, sia nel caso in cui differiscano solo per ordine: n = numero oggetti ; k = numerosità nel gruppo D n,k = n! (n k)! Disposizioni con ripetizione: i k oggetti, di cui al caso precedente, possono essere anche ripetuti, * ossia uguali fra loro (caso di estrazione con reimmissione): D n,k = n k Permutazioni semplici: possibilità di ordinamento diverso di n oggetti: P n = n! n! Permutazioni con ripetizione: P * n = n 1! n 2!... n k! " Combinazioni semplici: possibili gruppi di k elementi diversi C n, k = $ n% n! ' = # k& k! (n k)! Combinazioni con ripetizione: possibili gruppi di k elementi anche ripetuti C # * n,k = n + k 1 & % ( $ k ' 3

Richiami di probabilità e statistica (II) La distribuzione di probabilità cumulata P(x), o in modo equivalente la distribuzione di densità di probabilità p(x), viene determinata utilizzando il campione osservato: x = (x 1, x 2,..., x n ), riordinato in ordine crescente. Distribuzione di frequenza relativa: Distribuzione di frequenza cumulata: Il campo delle osservazioni (ad es. di portata o pioggia) deve essere stato suddiviso in classi o intervalli di ampiezza Δx. n k è il numero di osservazioni che ricadono nell intervallo k-esimo [x k - Δx, x k ]. Più spesso in idrologia la distribuzione di frequenza cumulata è definita attraverso una regola di plotting position, ad esempio: F j =F(x j )= j n +1 f k = n k n F(x j )= j k =1 f k oppure : F j =F(x j )= j 0.5 n 4

Indici di posizione e di dispersione Richiami di probabilità e statistica (III) N : indica la numerosità del campione (x 1, x 2,... x N ) Media: individua il valore centrale del campione E(x) = x = 1 N " % $ ' x # N & i i=1 La media è un operatore lineare, quindi: Y = a g(x) + b E(Y) = a E(g(x)) + b Varianza: è un indice che misura la dispersione del campione attorno alla media N.B.: s 2 = 1 N 1 La varianza non è un operatore lineare: (formula corretta) y = ax + b σ y 2 = E(y µ y ) 2 = E(aX + b aµ x b) 2 = a 2 E(X µ x ) 2 = a 2 σ x 2 Scarto quadratico (o deviazione standard): N i=1 (x i x ) 2 s 5

Mediana: valore x 0.5 per cui risulta: P[ X x 0.5 ] 0.5 Una generalizzazione del concetto di mediana è il quantile, ossia il valore x α per cui risulta: [ ] α P X x α Momento centrale di ordine k: µ k = E [(X µ x ) k ] Coefficiente di variazione: c v = s x / µ x Coefficiente (o indice) di asimmetria: (skewness) β = µ 3 σ x 3 = N N ( x i x ) 3 i=1 (N 1)(N 2) s 3 (stima corretta) Coefficiente (o indice) di curtosi γ = µ 4 σ x 4 6

Dipendenza e Indipendenza stocastica Come già detto, tra due variabili marginali X e Y c è indipendenza stocastica se le frequenze di ogni x i condizionata a y j sono tutte uguali tra loro facendo variare j, i. Analisi di correlazione: studia la dipendenza funzionale lineare tra le variabili X e Y. Momenti doppi semplici: µ h,k = x i h y j k f i, j k = 0 h = 0 N M momenti semplici marginali di X e se h =1 si ha la media di X momenti semplici marginali di Y e se k =1 si ha la media di Y Momenti doppi centrali: i=1 N i=1 M µ h,k = (x i µ 1,0 ) h (y j µ 0,1 ) k f i, j Se k = 0 e h = 2 si ha la varianza di X; se h = 0 e k = 2 si ha la varianza di Y Se h =1 e k =1 si ottiene la covarianza tra X ed Y : N M µ 1,1 = σ xy = (x i µ 1,0 )(y j µ 0,1 ) f ij i=1 j =1 i=1 j=1 Coefficiente di correlazione lineare: ρ = σ xy σ x σ y = σ xy σ x 2 σ y 2 7

Regressione La teoria della regressione ipotizza una variabile (di solito la Y ) come dipendente dall altra (X) che è chiamata a spiegare la variabilità della prima. L interpolante più nota tra i valori di X ed Y è la retta di regressione (di 2 tipo): u = α 0 α 1 x con : α 1 = σ xy σ x 2 = ρ σ y σ x α 0 = µ y µ x α 1 quindi, l equazione della retta di regressione di 2 tipo di Y su X si può anche scrivere: y ˆ µ y = σ xy σ (x µ 2 x) x dove il simbolo y ˆ indica il valore di y stimato sulla retta di regressione. La varianza residua può essere stimata con: 2 σ Ry = i=1,n (y j ˆ y j ) 2 p i, j j =1,m = 1 M y j (α 0 α 1 x) j =1,M [ ] 2 = σ 2 y (1 ρ 2 ) La varianza totale è data dalla somma della varianza spiegata e della varianza residua. σ y 2 = σ Sy 2 2 +σ Ry 8

Coefficiente di autocorrelazione delle serie temporali: con: r k = c k c 0 c k = 1 N k! $ # & (y t+k y)(y t y ) k 0 " N % t=1 c 0 = 1 N! $ # & (y t y) 2 2 = σ y " N % t=1 t indica il tempo, mentre k è il lag ovvero la distanza temporale tra gli eventi considerati. L'andamento di r k al variare di k fornisce il correlogramma. 9

Esempio: Analisi statistica dei massimi annui di portata al colmo Dalle serie di portata osservate alle stazioni di misura si estraggono i valori massimi annui Si ordinano i massimi annui di portata al colmo Q i e si assegna a ciascuno una frequenza cumulata F(Q i ) utilizzando una regola di plotting position : Q : Q 1 Q 2... Q i... Q N F(Q): 1/(N+1) ; 2/(N+1) ;... ; i/(n+1) ;... ; N/(N+1) Dove: Q i = massimo annuo i-esimo (posizione riordinata) di portata al colmo F(Q i ) = frequenza cumulata corrispondente alla portata Q i. Ricordare che: Il tempo di ritorno T associato ad una portata Q T è il tempo (espresso in anni) che mediamente intercorre fra due osservazioni di portata massima annua Q T. La relazione con la probabilità P di non superamento (CDF) `e: 1 T = 1 P(Q T ) P(Q T )=1 1 T Procedimento generale per campione singolo: 1. Scelta distribuzione; 2. Stima parametri; 3. Test di adattamento P(Q) F(Q) 1 P(Q ) T 1/T 1 1/T Q 1 Q 2 Q 3 Q 4 Q T Q N Q 10

Distribuzione uniforme discreta " 1 $ per x =1, 2, 3,... N f (x) = # N % $ 0 altrove Distribuzioni di probabilità discrete Permette di rappresentare i fenomeni i cui eventi elementari sono in numero finito e sono equiprobabili Distribuzione binomiale )" n + % $ ' p x (1 p) n x per x =1, 2, 3,... N f (x) = *# x& +, 0 altrove Vengono eseguite n prove indipendenti con le stesse condizioni al contorno in modo da ripetere l esperimento nelle condizioni più simili possibili; sono possibili due soli risultati: successo o insuccesso; x è il generico valore che la variabile può assumere nelle n prove indipendenti, mentre p è il valore (costante) della probabilità di successo in una singola prova. La probabilità che l evento si verifichi x volte è dato dalla binomiale. 11

Distribuzione di Bernoulli # f (x) = px (1 p) 1 x $ % 0 altrove per x = 0,1 E un caso particolare della distribuzione binomiale con n=1 : descrive l esito di un singolo esperimento nel quale sono possibili solo gli esiti (valori 0 o 1) di successo (con probabilità p) o insuccesso. µ x = q Si ha inoltre: σ 2 x = pq con q = (1 p) Distribuzione di Poisson $ λ & x f (x) = e λ x! % per x = 0,1, 2,... '& 0 altrove λ > 0 µ con: x = λ σ 2 x = λ La distribuzione di Poisson può approssimare la binomiale se p è piccolo ed n è grande; si usa per determinare la probabilità di accadimento di un evento in un tempo Δt ; con λ si indica il numero medio (o valore atteso) di accadimenti nell intervallo Δt. 12

Distribuzioni di probabilità continue Distribuzione uniforme: tra a e b la f(x) ha valore costante $ 1 & in [ a, b] con < a < b < + f (x) = % b a ' & 0 altrove Distribuzione Gamma: & λ ( f (x) = Γ(r) (λx)r 1 e λx in 0, + ' ) ( 0 altrove [ ] con r > 0 ; λ > 0 Distribuzione Esponenziale: è un caso particolare della Gamma, con r=1 %' f (x) = λ e λx in [ 0, + ] & (' 0 altrove Distribuzione Normale o Gaussiana: è tra le più utilizzate 1 1 (x µ )/σ f (x) = σ 2π e 2 [ ] 2 con < x < + ; σ > 0 13

Alcune distribuzioni di probabilità utilizzate in idrologia Lognormale Si trasforma l osservazione x di portata o pioggia in y = log x e si utilizza la Normale: P(x)= P(y)= y 1 - exp 1 ' y µ *. σ 2π 2( ) σ +, / 2 0 1 dy 2 dove µ = µ(y) e σ = σ(y) sono media e scarto attesi (teorici) della distribuzione di y. Gumbel (distribuzione asintotica del massimo valore tipo 1, detta anche EV1) { [ ]} P(x)=exp exp α(x u) dove α = 1.283/σ(x) ; u = µ(x) 0.45 σ(x), µ(x) e σ(x) sono media e scarto attesi della distribuzione di x. TCEV (distribuzione asintotica del massimo valore a due componenti) P(x)=exp( λ 1 e x /θ 1 λ 2 e x /θ 2 ) N.B.: distribuzione a 4 parametri il cui utilizzo è indirizzato alle analisi regionali degli eventi estremi poiché la stima dei parametri richiede un notevole numero di dati. 14

Stima dei parametri di una distribuzione probabilistica Metodo dei momenti: Si eguagliano i momenti teorici della distribuzione di probabilità ai momenti campionari. Occorre eguagliare tanti momenti quanti sono i parametri da stimare. Media campionaria: m= 1 n n x i =1 i Varianza campionaria: s 2 = 1 n (x i m) 2 i =1 n 1 L incertezza di stima dei momenti cresce con l ordine del momento. In pratica, si sostituiscono ai momenti teorici (ad esempio a µ e σ della Lognormale o Gumbel) i momenti calcolati sul campione: µ m ; σ s Metodo della massima verosimiglianza: Si rimanda al corso di statistica. 15

Verifica delle ipotesi (test statistici: esempio del χ 2 ) Ipotesi nulla (H 0 ): Il campione x = (x 1, x 2,..., x n ) è una realizzazione estratta dalla distribuzione di probabilità P(x); Statistica test S: statistica utilizzata per il test (ad esempio il test del χ 2 ); Livello di significatività del test (α): probabilità di rifiuto di ipotesi nulla vera (es: α = 0:05; 0:01; 0:001); definisce la zona di rifiuto (R); Regione di accettazione (W): è complementare alla zona di rifiuto; Test Statistico del χ 2 (K. Pearson): χ 2 K (n c = j np j ) 2 j=1 np j K = numero di classi in cui si suddivide il campo della variabile casuale X p j = P[x j X < x j+1 ] = P(x j +1) - P(x j ) = probabilità che la variabile casuale X ricada nella classe j-esima, nel caso in cui H 0 sia vera. n j = numero di osservazioni che ricadono nella classe j-esima n = numero totale di osservazioni np j = numero di osservazioni atteso per la classe j-esima Zona di rifiuto: R = {χ 2 c χ 2 (α, ν)} ; Zona di accettazione: W={χ 2 c < χ 2 (α, ν)} ν = (K - 1 s) = gradi di libertà; s = numero di parametri della distribuzione P(x) stimati con il campione x ; Regola di equi-probabilità di Gumbel: p 1 = p 2 =... = p j =... = p K Regola empirica per il calcolo del n. di classi K: np j 5 K n/5 16

Inversione delle distribuzioni Gumbel e Lognormale Distribuzione di Gumbel I parametri α e u sono già stati calcolati. Fisso T (tempo di ritorno), calcolo la probabilità di non superamento P = 1 1/T La portata o pioggia con tempo di ritorno T è: x = u ln( ln(p)) α Distribuzione Lognormale (distribuzione normale della variabile trasformata y = ln x, ovvero y = log 10 x); Procedura di stima: I parametri µ y e σ y sono già stati calcolati. Fisso T, calcolo la probabilità di non superamento P = 1 1/T Ricavo il frattile z P della distribuzione N(0,1) dalle tavole. Ricavo la variabile trasformata: y = µ y +σ y z P La portata o pioggia con tempo di ritorno T è: x = exp(y) ovvero: x = 10 y 17