Introduzione Metodo POT 1 Un recente metodo di analisi dei valori estremi è un metodo detto POT ( Peak over thresholds ), inizialmente sviluppato per l analisi dei dati idrogeologici a partire dalla seconda metà degli anni 70, ha trovato in anni recenti una sempre maggiore applicazione. L idea fondamentale alla base di questo metodo è l analisi degli estremi di una grandezza X sulla base delle eccedenze. Dato un insieme di dati x 1, x 2..x n, si definiscono come eccedenze y j quei valori xi maggiori di un valore di soglia u. Le quantità (y j -u) sono detti gli eccessi sopra u.
Introduzione metodo POT 2 raccogliere solo le eccedenze risulta vantaggioso (es. stazioni metereologiche) L accadimento di una eccedenza è condizionato dall evento che l osservazione sia maggiore di u. Tale probabilità condizionata, detta F la probabilità cumulata della variabile X, risulta: [ ] F( x) F( u) F u ( x) = 1 F( u)
Distribuzione Pareto generalizzata 3 Le distribuzioni generalizzate dei valori estremi sono correlate ad una distribuzione detta distribuzione di Pareto generalizzata avente probabilità cumulata: W ( x) 1" (1 + = # x) " 1/ definita per x>0 se γ>0 e per 0<x< 1/ se γ<0 Per γ 0 la distribuzione tende all espressione: W 0 ( x) = 1 e x Il legame tra la distribuzione di Pareto e la distribuzione generalizzata dei massimi è la seguente: W ( x) = 1+ logg( x)
Distribuzione Pareto generalizzata 4 Come già visto per la G, possiamo introdurre due parametri µ e σ : W $ $ x # µ %%,, ( x) = 1# ' 1+ & ' ( " ( ) ) ** µ " # 1/ Una interessante proprietà della distribuzione di Pareto è la seguente: [ u] W, µ," ( x) = W, u, " + $ u # ( µ ) ovvero la distribuzione delle eccedenze è ancora una Pareto con il parametro γ, con µ=u e con una parametro di scala espresso da: ( u ) + " # $ µ
Distribuzione Pareto generalizzata 5 La distribuzione delle eccedenze ha proprietà asintotiche simili a quelle delle distribuzioni dei valori estremi. In particolare considerando ipotesi sulla F(x) simili a quelle dei valori estremi: F [ u] (, x) " W$, u # ( x) 0 per u ω(x), dove con ω(x) si indica l estremo superiore della grandezza x. Sulla base della relazione soprascritta è possibile cercare di analizzare le eccedenze di dati provenienti da una qualsiasi distribuzione mediante la Pareto generalizzata. Dati quindi : x 1, x 2, x 3..x n y 1,y 2, y 3 y k dati originali raccolti in un tempo Γ eccedenze sopra una soglia u si analizzano le eccedenze mediante una distribuzione W γ,u,σ, ricavando i parametri γ e σ mediante metodo ML.
Fittaggio parametri distribuzione Pareto 6 I parametri della distribuzione di Pareto si cercano mediante metodo ML. In particolare la log-verosimiglianza: per γ 0 diventa: ed in particolare la stima di σ risulta:
Applicazione POT - a 7 Cosa ce ne facciamo della W γ,u,σ per stimare degli eventi estremi? 1 possibilità Conoscendo k ed n, possiamo stimare che: F( x) # F( u) F x W 1 # F( u) [ u ] ( ) = $, u, ( ) 1" k F u " n ( ) ( ) ( ) ( 1 ) y, u, F x " F u + # F u $ W per x u A questo punto disponiamo di una stima della F(x) con cui ad esempio stimare il valore massimo di x su un intervallo 10 Γ massimo caratteristico su 10 n (evento con T=10 n) F max,10 ( ) 10 = " $ F x # % n
Applicazione POT - b 8 La strada vista prima presuppone di sapere che il numero di estrazioni in Γ è pari ad n. Possiamo anche sapere solo di avere k eccedenze. 2 possibilità Disponiamo della stima della distribuzione tronca: [ u ] ( )#, u, F x W " l evento massimo rilevato su Γ è il massimo di k eccedenze; l evento massimo ha quindi T u = k; y cl # 1 $ 1 % = W, u, " & 1# ' ( k ) Fmax,10 W, u, " # = $ & % ' 10k
Applicazione POT - c 9 3 possibilità Cerchiamo una distribuzione: W, µ, " Tale che: [ u] # $ W, µ," = W, u, " % $& W, µ," ( u) = FX ( u)
10 Applicazione POT - c Per l esponenziale negativa (γ =0): ln k u n µ = " # $ % & = + ' ( ) # * +, Per γ 0 : " # $ % % & ' ( ( ) * % & ' ( ) * +, + = % & ' ( ) *, = -. µ.. - - / 1 n k u n k
Diagnostica - mean excess plot 11 in linea teorica y' = y u " # 1 # esempio inclusioni praticamente non si ha mai un adamento così semplice e si identificano delle zone (prima della zona finale) in cui identificare l andamento
Legame tra POT e LEVD - a 12 Supponiamo di aver analizzato k eccedenze su un periodo di acquisizione Γ # W 0,u, = 1" exp " y " u & $ % ' ( Se cerchiamo il valore massimo caratteristico su Γ ha periodo di ritorno T=k e risulta: y( T = k) = u + " log( k) Se cerchiamo il valore massimo caratteristico su 10Γ ha periodo di ritorno T=10k e risulta: y( T = 10k) = u + " log( 10 " k) che diventa: y( T = 10k) = y T = k + " log(10) Dobbiamo ricordarci che il massimo caratteristico ha una probabilità di superamento del 63.2%
Legame tra POT e LEVD -b 13 Se avessimo dato la descrizione dell evento massimo su 10Γ attraverso la LEVD, avremmo potuto stimarlo dal massimo caratteristico su Γ (ovvero il λ Γ dei massimi su Γ) come: 10"# = # + $ " log(10) E evidente l analogia tra le due formulazioni. Ne segue che i massimi su Γ appartengono ad una LEVD con parametri: ( ) & " = u + # $ log k ' (% = #