Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 ELEMETI DI STATISTICA PER IDROLOGIA Introduzione Una variabile si dice casuale quando assume valori che dipendono da un numero elevato di cause sconosciute e/o parzialmente note e che, quindi, non sono prevedibili a priori. Le grandezze idrologiche possono essere considerate variabili casuali. Ad esempio le portate massime annuali in un corso d acqua non sono prevedibili e si succedono con variazioni di entità rilevante e possono quindi apparire come una serie di numeri casuali. Per determinare il possibile campo di valori che può assumere una grandezza idrologica si esegue sulla base di dati noti un analisi statistico-probabilistico al fine di individuare la distribuzione di probabilità che segue per associare ad ogni valore che può assumere la grandezza idrologica la frequenza con cui si verifica. Per tempo di ritorno Tr si intende l intervallo di tempo, per essere più precisi il numero di anni, in cui un dato valore di una grandezza idrologica viene mediamente uguagliato o superato una sola volta. Per evento si intende il verificarsi di un qualsiasi valore della variabile casuale superiore od inferiore ad un valore prefissato o compreso in un possibile intervallo due valori prestabiliti. Il verificarsi di un valore della grandezza idrologica uguale o superiore a quello prefissato è un evento con tempo di ritorno Tr pari al numero di anni di osservazione. Il tempo di ritorno è quindi univocamente collegato ad un prefissato valore della grandezza idrologica. Ad esempio se un anno il valore massimo della portata convogliata dal fiume Po è Q = 7 m 3 /s e l anno successivo è Q = 6 m 3 /s, il primo valore corrisponde ad un tempo di ritorno di due anni, ovvero accade ogni due anni, mentre il secondo corrisponde ad un tempo di ritorno di un anno, ovvero viene uguagliato o superato ogni anno. ell esempio sopra riportato la stima del tempo di ritorno associata ad un evento (verificarsi del valore della grandezza idrologica) è basata su una finestra di osservazione di due anni. Prendendo in considerazione una finestra di osservazione di più anni, i tempi di ritorno associati ai valori considerati possono cambiare. Data una qualsiasi variabile casuale si definisce popolazione l insieme di tutti i valori che la variabile casuale può assumere. Si definisce campione di dimensione, un insieme di valori estratto dalla popolazione della variabile casuale. Ad esempio i valori di precipitazione massima annuale registrati da un pluviometro per la durata di un ora per il periodo 97- costituiscono un campione della popolazione della variabile casuale precipitazione massima annuale per la durata di un ora nella località in cui è stata registrata.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 Analisi statistica preliminare del campione e funzioni di frequenza L analisi statistica preliminare del campione si esegue per descrivere l andamento dei valori del campione. Si ordinano gli valori della variabile casuale che costituiscono il campione in senso crescente o decrescente. Il campione viene quindi suddiviso in classi che comprendono più di un elemento. Il numero di classi k è stabilito mediante la relazione di Snedecor: k = +.33 ln () Il valore di k ottenuto tramite la relazione () deve essere arrotondato ad un numero intero: con =, k = 4.98, si assume k = 5, con = 5, k = 6., si assume k = 6. Si determinano quindi gli estremi delle classi in cui si vuole suddividere il campione. L estremo inferiore della prima classe x è un valore della variabile casuale minore del valore minimo del campione mentre l estremo superiore dell ultima classe x è un valore della variabile casuale maggiore od uguale al valore massimo del campione. Fissati gli estremi inferiore e superiore della prima ed ultima classe si stabiliscono gli estremi delle rimanenti classi dividendo l intervallo tra i due estremi in parti uguali o diseguali. Gli elementi del campione facenti parte di una classe di estremi x i ed x i+ (x i < x i+ ) sono quelli per cui il loro valore x è compreso tra gli estremi della classe che viene considerata chiusa a destra: x i < x x i+ Il numero di elementi di un campione f Ai contenuti in una classe è denominato frequenza assoluta di classe. Si definisce frequenza relativa f Ri il rapporto fra la frequenza assoluta di classe e la dimensione del campione: f Ri = f Ai /. La frequenza relativa di classe indica la percentuale di elementi del campione compresi in quella classe, ovvero la frequenza con cui si presenta un qualsiasi elemento contenuto in quella classe. Si introduce il rapporto g i = f Ai /( (x i+ x i )), denominato densità di frequenza relativa che rapporta la frequenza relativa f Ai / all ampiezza della classe (x i+ x i ). La rappresentazione grafica della densità di frequenza relativa è l istogramma di frequenza relativa costituito da un insieme di rettangoli aventi per base l ampiezza di classe x i+ x i e per altezza la densità di frequenza relativa g i (fig. ). La densità di frequenza relativa indica come è distribuita la frequenza relativa in funzione dei valori del campione. Ad esempio se un campione è composto di 9 elementi divisi in due classi la cui ampiezza è l una il doppio dell altra e con un corrispondente numero di elementi l uno il doppio
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 3 dell altro la densità di frequenza relativa è uguale per ogni classe, ovvero il campione è distribuito uniformemente e qualsiasi elemento del campione si presenta con la stessa frequenza (fig. a). g x x x 3 x 4 x 5 x 6 x Figura. Istogramma di frequenza relativa. Se invece il numero di elementi del campione in classi di ampiezza l una il doppio dell altra è l uno la metà dell altro la distribuzione non è uniforme è la densità di frequenza con cui si presentano gli elementi appartenenti alla classe di ampiezza maggiore è ¼ di quella con cui si presentano gli elementi appartenenti alla classe di ampiezza minore (fig. b). L istogramma di frequenza relativa permette di visualizzare la distribuzione di frequenza relativa per tutti i valori degli elementi del campione. La somma delle aree delle barre costituenti l istogramma è perchè rappresenta la frequenza con cui si presenta l insieme di tutti gli elementi del campione. g.3 a) g.3 b).. 6 3 3 5 7 9 x.. 6 3 3 5 7 9 x Fig.. Istogrammi di frequenza relativa con 6 elementi nella prima classe e 3 elementi nella seconda (a) e con 3 elementi nella prima classe e 6 elementi nella seconda (b). Si definisce frequenza cumulata di non superamento F a il numero di elementi del campione che hanno un valore minore od uguale ad uno prefissato: x x prefissato. Se si scelgono come valori prefissati gli estremi superiori di ogni classe la frequenza cumulata di non superamento coincide con la somma progressiva delle frequenze assolute di classe f ai :
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 4 i F a (x x i+ ) = f aj () j= el caso si scelgano come valori prefissati gli elementi stessi del campione la frequenza cumulata di non superamento è il numero di ordine in senso crescente dell elemento: con F a (x x i ) = i (3) F a Si definisce frequenza cumulata relativa di non superamento F, la frequenza cumulata di non superamento divisa per la dimensione del campione (numero di elementi dello stesso). In questo caso: i F(x x i ) = (4) con / F La frequenza cumulata di non superamento è rappresentata graficamente dalla curva spezzata di cumulata di non superamento (fig. 4). La frequenza relativa e la densità di frequenza relativa insieme alle frequenza cumulata di superamento/non superamento sono funzioni di frequenza, ovvero indicano la frequenza con cui si presentano uno od un insieme di elementi del campione. Il tempo di ritorno di un elemento del campione per la definizione al paragrafo precedente è: Tr (x = x i ) = = (6) F(x x ) - F(x < x ) i i Ad esempio considerando un campione di dieci valori di portata massima annuale in un corso d acqua posto in ordine crescente (Q i i =,; Q i < Q i+ ) l elemento Q 9 viene uguagliato o superato due volte in dieci anni e per cui si verifica mediamente una volta ogni cinque anni ed ha quindi un tempo di ritorno pari a 5 anni. La frequenza cumulata relativa di superamento è / = /5 che è il valore inverso del tempo di ritorno.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 5 Secondo la relazione (4) vale F(x x ) = / =, il che significa associare al valore massimo del campione x una frequenza cumulata relativa di non superamento pari ad uno, ovvero, tutti i valori del campione sono minori od uguali di x, il che esteso alla popolazione da cui il campione è estratto significa che tutti gli elementi della popolazione devono essere minori od uguali di x che può non essere vero. Per ovviare a questo inconveniente la frequenza cumulata di non superamento viene stimata mediante la formula di plotting position di Weibull: i F(x x i ) = (5) + per cui al valore massimo del campione viene associata una frequenza cumulata relativa di non superamento leggermente inferiore ad uno (/(+)). ella tabella I, in prima colonna, sono presentate le precipitazioni massime annuali corrispondenti alla durata h misurate dalla stazione pluviometrica di San Martino di Castrozza (T) negli anni 95-99 che vengono ordinate in senso crescente in seconda colonna. In terza colonna sono poste le corrispondenti frequenze cumulate relative di non superamento ed in quarta colonna il corrispondente tempo di ritorno relativo alla finestra di osservazione di 3 anni, uno in più della reale finestra di osservazione per tener conto dell utilizzo della formula di plotting position: + Tr = = (7) i + - i + Tabella. Precipitazione massime annuali (x) di durata ora registrati dalla stazione pluviometrica di San Martino di Castrozza (Tn) e le corrispondenti funzioni di frequenza ed il tempo di ritorno associato. Anno x (mm) i x i (mm) F(x x i ) Tr 95 5.8 7..3.3 953-7.8.63.7 954 5.4 3 8..94. 955-4 8.8.5.4 956. 5 9..56.9 957 9.8 6..88.3 958.6 7.6.9.8 959-8..5.33 96 8.8 9.4.8.39 96 -.8.33.45 963 -..344.5
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 6 963 3..8.375.6 964.4 3 3..46.68 965. 4 3.4.438.78 966 5.6 5 3.6.469.88 967 6. 6 3.6.5. 969 7. 7 5..53.3 97 5. 8 5..563.9 97 9. 9 5.4.594.46 97.8 5.6.65.67 973 9.4 6..656.9 974-6..688 3. 975-3 6..79 3.56 976 7.8 4 6.8.75 4. 977 5. 5 8..78 4.58 978 6. 6 8.8.83 5.33 979 3.6 7 9.8.844 6.4 98 9.8 8 9.8.875 8. 98 6. 9 5.8.96.67 98. 3 6..938 6. 983.8 3 9.4.969 3. 984 8. 985 3.4 986 8. 987 6. 988 6.8 989 3.6 99 8.8 Gli anni in cui non si hanno dati (ad esempio il 953) non sono considerati e nel caso che in anni differenti sia registrato lo stesso valore di precipitazione, questi, viene considerato per ogni anno in cui compare come un valore a se stante e quindi nella tabella nella colonna x j si possono avere valori uguali e consecutivi ma caratterizzati da una frequenza diversa proprio perché considerati indipendenti l uno dall altro. elle figure 3 e 4 sono illustrati l istogramma di frequenza relativa e la spezzata di cumulata relativa di non superamento del campione in tabella I.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 7. g.5 5 5 5 3 x Figura 3. Istogramma di frequenza relativa del campione in tabella. F.8.6.4. 5 5 5 3 x Figura 4. Spezzata di frequenza cumulata relativadi non superamento per il campione in tabella. 3 Concetto di probabilità e di probabilità cumulata di non superamento La densità di probabilità p(x) associata ad un dato valore x della popolazione della variabile casuale esprime la frequenza con cui il valore x si può presentare. La probabilità cumulata di non superamento P(x X) esprime la frequenza con cui si presenta un valore x della variabile casuale minore od uguale del prefissato X. La probabilità cumulata di superamento P(x X) esprime la frequenza con cui si presenta un valore x della variabile casuale
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 8 maggiore od uguale del prefissato X. La probabilità cumulata di non superamento e la probabilità cumulata di superamento sono complementari rispetto ad perché qualsiasi valore generico x della variabile casuale è sicuramente o maggiore o minore od uguale a X e quindi si presenta sempre e la sua frequenza è l unità. Vale: P(x X) + P(x > X) = Ambedue la probabilità cumulata di non superamento e di superamento sono comprese tra ed. In base alla definizione della probabilità cumulata di superamento il tempo di ritorno è l inverso della probabilità cumulata di superamento ed è tale che: Tr = = (8) P(x X) - P(x < X) 4 Curva densità di probabilità e curva probabilità cumulata di non superamento L istogramma di frequenza relativa è costruito con un campione di elementi estratto da una popolazione di una variabile casuale. Se si aumenta la dimensione del campione, aumenta il numero di classi k (eq. ) e diminuisce l ampiezza delle stesse per cui si ottiene un istogramma meglio definito nella forma (fig. 5). Se la dimensione del campione tende ad infinito, ovvero estendendo il campione all intera popolazione, il numero di classi tende all infinito, l ampiezza delle stesse a zero. La densità di frequenza relativa diviene, quindi, rappresentativa di un solo valore x della variabile casuale e non più ad un intervallo di valori e viene chiamata densità di probabilità ed è indicata con p(x) mentre l istogramma di frequenza relativa diventa una curva continua chiamata curva densità di probabilità (fig. 6). La densità di probabilità p(x) esprime la frequenza con cui si presenta il valore x della variabile casuale cui si riferisce ed il prodotto p(x) dx, area sottesa dalla curva densità di probabilità tra i valori x dx/ e x + dx/, esprime la frequenza con cui si presenta un valore della variabile compreso tra x dx/ e x + dx/ (analogamente all istogramma). L area sottesa dalla curva p(x) per x x x, e tratteggiata in figura 6 esprime la frequenza con cui si presenta un valore di x compreso nel precedente intervallo.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 9 g..5 5 5 5 3 35 x Figura 5. Istogramma di frequenza relativa per un campione di dimensione = 5 L area sottesa dalla curva densità di probabilità vale perché rappresenta la frequenza con cui si presenta un qualsiasi possibile valore x della variabile casuale che è un evento certo: p(x) dx = (9) p( x).4.3.. 5 5 X X x 5 3 35 4 Figura 6. Curva densità di probabilità (distribuzione doppio esponenziale) con area sottesa per x x x.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 Analogamente la spezzata di cumulata di non superamento, estendendo il campione alla popolazione, diviene una curva continua e la frequenza cumulata relativa di non superamento F(x X) diviene la probabilità cumulata di non superamento P(x X) (fig. 7). Il valore della probabilità cumulata di non superamento è sempre minore od uguale ad, come spiegato nel paragrafo precedente. L area sottesa dalla curva densità di probabilità compresa tra il valore minimo che può assumere la nostra variabile casuale ed il valore X (fig. 8) è la probabilità cumulata di non superamento: p( ) x.4 X P(x X) = p(x) dx ().3.. 5 5 X 5 3 35 4 x Figura 7. Curva di probabilità cumulata di non superamento (distribuzione doppio esponenziale). P(xX).8.6.4. 5 5 5 3 35 4 x Figura 8. Area sottesa per x X dalla curva densità di probabilità (distribuzione doppio esponenziale)
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 L estremo inferiore di integrazione è x = perché le variabili casuali considerate sono le grandezze idrologiche (precipitazioni, portate etc etc) caratterizzate da valori positivi altrimenti l estremo minore di integrazione è x = -. Essendo la derivata di un integrale la funzione integranda vale: p(x) = dp(x X) dx () Se la variabile casuale x è funzione della variabile casuale, = f(x), per cui Y = f(x) vale: e quindi: p() = P(x X) = P( Y) () dp( Y) dp(x X) = d dx dx d = dx p(x) d (3) p() d = p(x) dx (4) 5 Parametri I parametri sono entità che descrivono quantitativamente alcune caratteristiche della distribuzione dei valori di un campione o di una popolazione della variabile casuale generica x. I parametri si dividono in parametri di tendenza centrale che quantificano i valori verso cui si accentrano i valori del campione/popolazione e di dispersione che quantificano la dispersione dei valori del campione/popolazione rispetto ai primi. Appartiene ai parametri di tendenza centrale il valor medio (o media) dei valori del campione/popolazione. Il valor medio dei valori di un campione di dimensione estratto dalla popolazione della variabile casuale x è: x i i= x = (5) La densità di probabilità p(x) rappresenta la frequenza probabile con cui si presenta il generico valore x rispetto a tutti gli altri valori della variabile casuale. Il prodotto x p(x) rappresenta quindi il valore mediato del generico valore x rispetto a tutti gli altri valori della popolazione. Il valore medio dei valori che costituiscono la popolazione della variabile casuale è la somma di tutti i valori mediati :
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 µ = x p(x) dx (6) X Se la variabile casuale = a x + b è funzione lineare e crescente della variabile casuale x, tenendo conto della relazione (4), si ha: = p() d = (a x + b) p(x) dx = a x p(x) dx + b p(x) dx = a µ b (7) µ Y X + Appartengono ai parametri di dispersione, la deviazione standard, lo scarto quadratico medio e la varianza. Si definisce scarto la quantità x i - x differenza tra un valore del campione ed il suo valore medio. La somma degli scarti per gli elementi del campione è nulla per definizione di valore i i i i = = = medio (eq. 5): (x x) = x x = x x. La somma del quadrato degli scarti non è nulla perché vengono sommate quantità positive. La stessa proprietà vale per la popolazione. Si definisce deviazione standard per un campione di valori estratto da una popolazione di una variabile casuale la seguente: s X = i= (x i x) (8) Per la popolazione, il quadrato dello uno scarto viene mediato sulla popolazione tramite la densità di probabilità, e la deviazione standard assume la seguente espressione: X = X (x - µ ) p(x) dx (9) Si definisce varianza il quadrato della deviazione standard. Per il campione la varianza è la media del quadrato degli scarti: s X = i= (x i x) () Per la popolazione la varianza è il valore del quadrato dello scarto rispetto al valor medio mediato sull intera popolazione:
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 3 X = X (x - µ ) p(x) dx () Definito il valore atteso, il valore medio di una qualunque serie di valori o quantità generiche, il valor medio si suddivide la popolazione di una variabile casuale in campioni. Il valore atteso del valor medio dei singoli campioni estratti dalla popolazione risulta uguale al valor medio della popolazione: E( x ) = µ X Il valore atteso della varianza dei singoli campioni non è però uguale alla varianza della popolazione: E(s X ) X per cui la deviazione standard, per il campione, viene corretta, mediando il quadrato degli scarti su - valori, invece che con valori: s XC = i= (x i - x) () Analogamente la varianza del campione viene sostituita con la varianza corretta: per cui s XC = i= (x i - x) E(s XC ) = X (3) Le quantità deviazione standard e varianza indicano la dispersione dei valori del campione/popolazione intorno al valor medio degli stessi. Valori elevati di questi parametri significano grande dispersione dei valori del campione/popolazione, ovvero la maggior parte dei valori del campione/popolazione sono lontani dal valor medio mentre bassi valori di questi parametri indicano che la maggior parte dei valori del campione/popolazione sono vicini al valor medio. La deviazione standard non corretta è anche denominata scarto quadratico medio.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 4 ella figura 9 sono illustrati i grafici delle funzioni di frequenza per il campione e le corrispondenti per la popolazione. ella tabella seguente si illustrano le grandezze ed i parametri che descrivono il campione e le corrispondenti grandezze e parametri della popolazione. Tabella. Rappresentazione di parametri e frequenze per il campione e la popolazione Campione frequenza relativa di classe g i Popolazione Densità di probabilità p(x) Frequenza relativa f ai /(x i+ - x i ) Frequenza relativa attesa p(x) dx Frequenza relativa cumulata di non superamento F(x X) g i (x i+ x i ) = Probabilità cumulata di non superamento P(x X) dx = Valor medio x = i= x i Valor medio µ X = x p(x) dx Deviazione standard s XC = Varianza s XC = i= i= (x i - (x i x) Deviazione standard X = (x - µ - x) Varianza X = (x - µ X X ) ) p(x) dx p(x) dx
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 5 g..5 p( x)..5 F.8.6.4. 5 5 5 3 x 5 5 5 3 P(xX).8.6.4. x x x 5 5 5 3 x 5 5 5 3 35 4 x 35 4 x Figura 9. Funzioni di frequenza per il campione e le corrispondenti per la popolazione. 6 Distribuzioni di probabilità Le espressioni della densità di probabilità p(x) e della probabilità cumulata di non superamento P(X x) sono anche indicate con il termine distribuzioni di probabilità perché rappresentano la distribuzione delle funzioni di frequenza per tutti i valori della popolazione della variabile casuale. Le distribuzioni di probabilità sono, in genere, funzioni della variabile casuale x e dei parametri valor medio e varianza o funzioni di questi parametri. 7 Distribuzione doppio esponenziale o di Gumbel La distribuzione doppio esponenziale, nota anche come distribuzione di Gumbel o dei valori estremi di tipo, segue la seguente legge: xu P(x X) = e e (4) essendo ed u due costanti che cambiano da popolazione a popolazione. Si introduce la variabile ridotta : x u = (5)
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 6 e l eq. 4 diventa: P( Y) = e e (6) che è di più semplice utilizzo. La densità di probabilità p() è: p() = dp( Y) d = - e e e (7) Il valore medio della popolazione della variabile casuale che segue la distribuzione di probabilità secondo la relazione (7) è: e µ = e e d =.577 (8) L integrale ha come estremo di integrazione minore - invece che perché la variabile casuale può assumere valori negativi in corrispondenza di valori positivi della variabile casuale x. La varianza della distribuzione di probabilità della variabile casuale è: Y = ( - µ Y ) p() d = ( -.577) p() d = (9) 6 - - Essendo funzione lineare di x secondo le costanti parametriche u ed si ha (equazione 7): µ u = (3) x µ Y = x - u µ x u x µ x x ( - µ Y ) p() d = - p(x) dx = - p(x) dx = (3) - Combinando l eq. (9) con l eq. (3) si ha: = 6 x (3) che sostituita insieme alla (8) nella (3) porge:
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 7 6 u = x µ x.577 (33) Le equazioni (3) e (33) esprimono i parametri della distribuzione doppio esponenziale in funzione del valor medio e della varianza della popolazione che segue quella distribuzione. Si introduce una proprietà della distribuzione doppio esponenziale tramite l utilizzo del legame tra tempo di ritorno Tr e probabilità cumulata di non superamento. Tramite l eq. (6) si ottiene: Dall eq. (8) si ottiene: ln ln ( P( Y) ) = - e ( ln( P( Y) )) = ( ln( P( Y) )) = ln (34) - P( Y) = Tr Tr - P( Y) = - = (35) Tr Tr che sostituita a secondo membro dell eq. (35) permette: Tr = lnln (36) Tr - sostituendo nella relazione (36) l espressione che la lega la variabile casuale alla variabile casuale x si ottiene: e quindi x - u Tr = lnln Tr - Tr x = lnln + u (37) Tr - oto il valore del tempo di ritorno Tr, il corrispondente valore della variabile casuale x viene calcolato tramite l eq. (37), mentre, noto il valore della variabile casuale x, il corrispondente valore del tempo di ritorno si ottiene tramite l eq. (8) dopo aver calcolato il valore della variabile ridotta
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 8 tramite l eq. (5) e della corrispondente probabilità cumulata di non superamento P( Y) tramite l eq. (6) tenendo conto che P(x X) = P( Y). 8 Distribuzione lognormale La distribuzione di probabilità lognormale è la distribuzione di una variabile casuale continua x tale che la variabile casuale = ln x segue la distribuzione di probabilità normale di Gauss: µ p() = e (38) essendo funzione di x vale la relazione (4) per cui: e p(x) = p() d/dx ln x µ p(x) = e (39) x I parametri della distribuzione sono µ Y e Y che sono legati ai parametri della popolazione della variabile casuale x dalle seguenti relazioni ottenute introducendo la variabile ridotta: µ z = (4) per cui: z d p(z) = p() = p() = e (4) dz z + µ µ = = = = x x p(x) dx x p() d e p() d e p(z) dz
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 9 µ x -.5 z = e + z + µ dz = µ e + / (4) da cui: µ x µ / = e + (43) µ = ln µ x (44) X = ( x - x µ x + µ x ) p(x) dx = x p(x) dx - µ x x p(x) dx µ x (x - µ x ) p(x) dx = + - p(x) dx introducendo la variabile si ottiene: e quindi la variabile z: X e p() d - µ x µ x - += ( z ) -.5 z z µ + + + µ X = e p(z) dz - µ x = e dz - µ x - - sostituendo la 4 e la 4 si ottiene: x 4 µ + µ + ( + ) µ = e = e = e µ e x e da cui: e = x µ x + = ln x + (45) µ x I parametri µ e sono legati ai parametri µ x e x della popolazione tramite le relazioni (44) e (45). Si introduce una proprietà della distribuzione lognormale. La variabile ridotta z segue la legge di
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 distribuzione data dalla relazione (4) e fissato Z rimane fissata la probabilità cumulata di non superamento: Z z P(z Z) = e dz (46) I valori di P(z Z) secondo la (46) sono tabulati in funzione di z. Se è noto il valore di z è anche noto il valore di P(z Z) e quindi il tempo di ritorno Tr = /( P(z Z)). Se, invece, è noto Tr, si ottiene P(z Z) = (Tr-)/Tr e tramite i valori tabulati si stima il corrispondente valore di z. Conoscendo i parametri della distribuzione tramite la (4) ed essendo = ln x dal valore z si ottiene il corrispondente valore della variabile casuale x e viceversa. 9 Carta probabilistica La carta probabilistica è un diagramma con in ascissa il valore della variabile casuale ed in ordinata il corrispondente valore della probabilità cumulata di non superamento. Poiché quest ultima è legata al tempo di ritorno Tr (eq. (8)) è presente un secondo asse delle ordinate con il tempo di ritorno. Il procedimento di associare ad un qualunque valore della variabile casuale x, il corrispondente della probabilità cumulata di non superamento si realizza tramite la variabile ridotta che diventa il terzo asse delle ordinate della carta probabilistica. Per la distribuzione doppio esponenziale la relazione tra variabile casuale x e variabile ridotta è (eq. 5): x u = mentre quello tra la variabile ridotta e la probabilità cumulata di non superamento (eq. (34)) è: = ln ( ln( P( Y) )) Poiché la variabile è funzione della probabilità cumulata di non superamento, la retta = (x u)/ individua la popolazione dei valori della variabile casuale x che segue la distribuzione doppio esponenziale di parametri u ed (fig. ). ella figura è illustrata la carta probabilistica della distribuzione doppio esponenziale in cui in ascissa in scala decimale è posta la variabile x ed in
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 ordinata in scala decimale c e la variabile ridotta ed in scala dipendente dal legame = f(p) e/o = f(tr) ci sono la probabilità cumulata di non superamento P( Y) ed il tempo di ritorno Tr. Figura. Rappresentazione di una popolazione di valori tramite una retta nella carta probabilistica della distribuzione doppio esponenziale. Figura. Carta probabilistica della distribuzione doppio esponenziale. Per la distribuzione lognormale la relazione tra il logaritmo della variabile casuale x, = ln x, e variabile ridotta z è (eq. 4):
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 z = µ Poiché la variabile ridotta z segue la distribuzione normale di Gauss è possibile stabilire noto un valore z della stessa il corrispondente valore della probabilità cumulata di non superamento P(z Z) tramite la tabella 3. La retta z = ( µ )/ individua la popolazione dei valori del logaritmo della variabile casuale x che segue la distribuzione lognormale di parametri µ ed (fig. ). ella figura 3 è illustrata la carta probabilistica della distribuzione lognormale in cui in ascissa in scala logaritmica c e la variabile x ed in ordinata in scala decimale c e la variabile ridotta z ed in scala dipendente dalla distribuzione normale di Gauss la probabilità cumulata di non superamento P(z Z). µ Figura. Rappresentazione di una popolazione di valori tramite una retta nella carta probabilistica della distribuzione lognormale I valori in tabella 3 esprimono la probabilità secondo la distribuzione normale di Gauss che si abbia z Z. el caso Z =.7, questa probabilità è.6 (area tratteggiata in figura 4). La distribuzione di densità di probabilità normale di Gauss è simmetrica rispetto all origine. Per calcolare la probabilità cumulata di non superamento, per il caso di Z positivo al valore in tabella deve essere aggiunto la quantità.5 pari a all area sottostante la curva densità di probabilità per i valori negativi di Z (fig. 4). Per esempio la probabilità cumulata di non superamento per Z =.7 è P(.7) =.5 +.6 =.76. el caso di valori negativi di z la probabilità cumulata di non superamento è il complementare a.5 del valore in tabella 3 (fig. 4). Per esempio la probabilità cumulata di non superamento per Z = -.7 è P(-.7) =.5 -.6 = -.388
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 3 Figura 3. Carta probabilistica della distribuzione lognormale. Tabella 3. Valori della probabilità secondo la distribuzione normale di Gauss per z Z. Z 3 4 5 6 7 8 9...4.8..6.99.39.79.39.359..399.438.478.57.557.596.636.675.74.754..793.83.87.9.948.987.6.64.3.4.3.79.l7.55.93.33.368.46.443.48.57.4.554.59.68.664.7.736.77.88.844.879.5.95.95.985.9.54.88.3.57.9.4.6.53.9.34.357.389.4.454.486.58.549.7.58.6.64.673.74.734.764.794.83.85.8.88.9.939.967.996.33.35.378.36.333.9.359.386.3.338.364.389.335.334.3365.3389..343.3438.346.3485.358.353.3534.3577.3599.36..3463.3665.3686.378.3379.3749.377.379.38.383..3849.3869.3888.397.395.3944.396.398.3997.45.3.43.449.466.48.499.45.43.447.46.477.4.49.47.4.436.45.465.479.49.436.439.5.433.4345.4357.437.438.4394.446.448.449.444.6.445.4463.4474.4484.4495.455.455.455.4535.4545
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 4.7.4554.4564.4573.458.459.4599.468.466.465.4633.8.464.4649.4656.4664.467.4678.4686.4693.4699.476.9.473.479.476.473.4738.4744.475.4756.476.4767..477.4778.4783.4788.4793.4798.483.488.48.487..48.486.483.4834.4838.484.4846.485.4854.4857..486.4864.4868.487.4875.4878.488.4884.4887.489.3.4893.4896.4998.49.494.496.499.49.493.496.4.498.49.49.495.497.499.493.493.4934.4936.5.4938.494.494.4943.4945.4946.4948.4949.495.495.6.4953.4955.4956.4957.4959.496.496.496.4963.4964.7.4965.4966.4967.4968.4969.497.497.497.4973.4974.8.4974.4975.4976.4977.4977.4978.4979.4979.498.498.9.498.498.498.4983.4984.4984.4985.4986.4986.4986 3..4987.4987.4987.4988.4988.4989.4989.4989.499.499 3..499.499.499.499.499.499.499.499.4993.4993 3..4993.4993.4994.4994.4994.4994.4994.4995.4995.4995 3.3.4995.4995.4995.4996.4996.4996.4996.4996.4996.4997 3.4.4997.4997.4997.4997.4997.4997.4997.4997.4997.4998 3.5.4998.4998.4998.4998.4998.4998.4998.4998.4998.4998 3.6.4998.4998.4998.4998.4998.4998.4998.4998.4998.4998 3.7.4999.4999.4999.4999.4999.4999.4999.4999.4999.4999 3.8.4999.4999.4999.4999.4999.4999.4999.4999.4999.4999 3.9.5.5.5.5.5.5.5.5.5.5 Figura 4. Curva densità di probabilità della distribuzione normale di Gauss.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 5 Adattamento di una distribuzione di probabilità ad un campione: interferenza statistica L obbiettivo dell analisi statistico-probabilistico è quella di individuare la distribuzione di probabilità della variabile casuale considerata che permette di associare ad ogni valore della variabile casuale la sua frequenza probabile, ovvero il suo tempo di ritorno. Ipotizzata una possibile distribuzione di probabilità seguita dalla popolazione le incognite da determinare per stimare la frequenza corrispondente ad ogni singolo valore della variabile casuale sono i parametri della distribuzione stessa. Una qualsiasi retta sulla carta probabilistica individua una popolazione che segue la distribuzione di probabilità con parametri individuati tramite il coefficiente angolare e l intercetta sull asse delle ordinate. I parametri della distribuzione vengono stimati ricercando la retta che permette il miglior allineamento possibile dei valori del campione riportati sulla carta probabilistica. I valori del campione sono riportati sulla carta probabilistica approssimando la probabilità cumulata di non superamento con la frequenza cumulata di non superamento stimata mediante una formula di plotting position. Questa assunzione è tanto più vera quanto più è grande la dimensione del campione. Si consideri una variabile casuale x, distribuita con probabilità P(x) e si estragga dalla sua popolazione un campione di valori. La differenza tra la frequenza cumulata di non superamento e la probabilità cumulata di non superamento di ogni singolo valore tende a zero all aumentare di. Questa affermazione non si può dimostrare e costituisce un postulato che viene accettato dall esperienza: al crescere del numero di osservazioni la frequenza cumulata di non superamento associata ad un evento converge alla probabilità cumulata di non superamento. Affinché tale procedura di stima abbia un significato statistico il campione deve essere sufficientemente rappresentativo della popolazione, ovvero questi deve avere una dimensione superiore od uguale a 3. In caso contrario la media e la varianza del campione possono differire sensibilmente dai corrispondenti valori della popolazione ed l adattamento della distribuzione di probabilità al campione non è assicurato.la ricerca della miglior retta possibile viene eseguita tramite il metodo dei momenti, il metodo dei minimi quadrati ed il metodo di Gumbel.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 6 Metodo dei momenti Il metodo dei momenti consiste nello stimare i parametri della distribuzione di probabilità tramite il valor medio e la varianza del campione. La retta di miglior allineamento è quindi individuata dai parametri del campione. Si attribuiscono alla popolazione il valor medio e la varianza del campione: µ X = x X = s XC Per la distribuzione doppio esponenziale le relazioni che legano i parametri ed u alla media ed alla varianza della popolazione (eq. 3 e 33) diventano: 6 sxc = (47) 6 sxc u = x.577 (48) Le espressioni (47) e (48), sostituite nell eq. (5), permettono di individuare la retta di miglior allineamento secondo il presente criterio: 6 s XC x x +.577 x u = = (49) 6 s XC Sulla carta probabilistica si riportano i valori del campione e la retta secondo l eq. (49). Il disegno della retta permette una stima visiva e soggettiva per la verifica del miglior all allineamento dei punti del campione. Tramite la retta è possibile determinare un valore della variabile casuale x per un assegnato tempo di ritorno Tr e viceversa (fig. 5). L utilizzo della retta esemplifica le operazioni analitiche per determinare le coppie di valori (x,tr), l uno in funzione dell altro, tramite l eq. (37) o tramite le eq. (5), (6) e (35). In tabella 4 si riportano i valori del campione in tabella insieme al quadrato dello scarto (x i - x ) corrispondente ad ogni valore.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 7 Figura 5. Utilizzo della retta che rappresenta la popolazione per determinare il valore della variabile x corrispondente ad un fissato tempo di ritorno Tr. Tabella 4. Valori del campione ed i corrispondenti quadrati degli scarti dal valor medio. i x i (mm) (x i - x ) 7. 57.564 7.8 48.895 3 8. 46.647 4 8.8 35.8453 5 9. 3.57 6..45 7.6 7.538 8. 4.34 9.4.474.8 8.97. 6.693.8 3.9486 3 3..589 4 3.4.94 5 3.6.49
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 8 6 3.6.49 7 5..453 8 5..453 9 5.4.3757 5.6.668 6..47 6..47 3 6..47 4 6.8 4.58 5 8..37 6 8.8 6.34 7 9.8 5.9 8 9.8 5.9 9 5.8.84 3 6. 3.544 3 9.4 3.5369 La somma dei valori del campione e del quadrato degli scarti sono 458.4 e 86.7. Il valor medio, la deviazione standard e la varianza corrette sono: x = 458.4/3 = 4.79 mm s XC = 86.7/3 = 8.73 s XC = 8.73 / = 5.36 I parametri ed u secondo le eq. (47) e (48) sono: 6 x 8.73 = = 4.8 6 x 8.73 u = 4.79.577 x =.38 Sostituendo i valori di u ed nella eq. (5) si ottiene la retta che individua la popolazione sulla carta probabilistica: =.39 x.96 La retta viene disegnata in figura 6 congiungendo due coppie di valori determinate tramite l equazione di cui sopra: (,-.57) e (,.8) insieme ai valori del campione rappresentati dai punti di coordinate (x i, F i ) secondo la tabella (le frequenze cumulate di non superamento sono considerate come probabilità cumulate di non superamento).
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 9 Figura 6. Adattamento della distribuzione doppio esponenziale al campione: metodo dei momenti. Per la distribuzione lognormale l utilizzo del metodo dei momenti permette la stima dei parametri µ Y e Y attribuendo alla popolazione il valor medio e la varianza del campione e le eq. (45) e (44) diventano: s XC = ln + (5) x µ s XC = ln x.5 ln + x (5) Le espressioni (5) e (5), sostituite nell eq. (4), permettono di individuare la retta di miglior allineamento secondo il presente criterio: z = µ Y Y s ln x ln x +.5 ln x = s ln XC + x XC + (5) Dato il campione di = 3 elementi riportato in tabella, i parametri µ Y e Y secondo le eq. (5) e (5) sono:
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 3 8.73 = ln + =. 4.79 Y =.349 8.73 µ = ln 4.79.5 x ln + =.633 4.79 La retta che individua la popolazione sulla carta probabilistica è: z =.865 ln x 7.544 La retta viene disegnata in figura 7 congiungendo due coppie di valori determinate tramite l equazione di cui sopra: (,-.947) e (,.39) insieme ai valori del campione secondo la tabella. Figura 7. Adattamento della distribuzione lognormale al campione: metodo dei momenti. Metodo dei minimi quadrati Il metodo dei minimi quadrati assume come retta di miglior allineamento quella per cui si ha il minimo della somma dei quadrati degli scarti tra i valori x i del campione ed i corrispondenti della retta incognita xˆ i (fig 8).
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 3 Figura 8. Interpolazione lineare ai minimi quadrati. Questa retta è denominata retta ai minimi quadrati o di interpolazione lineare ed il procedimento è anche noto come interpolazione lineare. La retta ai minimi quadrati, x = A + B, minimizza la somma dei quadrati degli scarti D per le coppie di valori (x i, i ): D = i= (x i xˆ ) i = i= (x i (A i + B)) I valori di A e B che rendono minimo D sono quelli per cui le derivate di D rispetto ad A ed B si annullano: D = A D = B La soluzione del sistema costituito dalle due soprascritte è: s A = (53) s XY Y B = x A (54) essendo x ed i valori medi delle coordinate degli valori ed s XY la covarianza:
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 3 s XY (x i x)(i ) i= = (55) el caso si fosse minimizzata la somma degli scarti orizzontali, ovvero gli scarti della variabile, le relazioni (53) e (54) valgono ancora sostituendo a denominatore della (53) s X con s Y. Il calcolo della covarianza s XY può essere semplificato utilizzando i valori medi di x ed : (x i x)(i ) (x ii x i - xi + x) x ii x i i i= i= i= i= i= sxy = = = x + x x ii x i i x ii i= i= i= i= sxy = x + x = x x + x s XY = i= x i i x (56) Per la distribuzione doppio esponenziale valgono le eq. (34) e (36) per cui: = ln ( ln( P( Y) )) Tr = lnln Tr - Si approssima la probabilità cumulata di non superamento dei valori del campione con la frequenza di probabilità cumulata di non superamento stimata mediante la formula di plotting position di Weibull (eq. 5). Per il campione estratto da una popolazione che segue la distribuzione doppio esponenziale vale: Tr = ln( ln( F( Y) )) = lnln (57) Tr - Essendo la frequenza cumulata di non superamento F( Y) stimata con la formula di Weibull (eq. 5) F( i ) = i/(+) il valor medio, la deviazione standard s Y e la varianza s Y della variabile ridotta dipendono dalla dimensione del campione e sono tabulati nelle tabelle 5a,b. In questo caso per la
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 33 deviazione standard e la varianza si utilizzano le espressioni (8) e (9), ovvero si fa riferimento ai parametri non corretti. Tabella 5. Valori medi e deviazione standard della variabile ridotta in funzione della dimensione del campione Valore medio della variabile ridotta 3 4 5 6 7 8 9.536.55.568.583.596.539.53.533.5343.5353 3.536.537.538.5388.5396.54.54.548.544.543 4.5436.544.5448.5453.5458.5463.548.5473.5477.548 5.5485.5489.5493.5497.55.554.558.55.555.558 6.55.554.557.553.5533.5535.5538.554.5543.5545 7.5548.555.555.5555.5557.5559.556.5563.5565.5567 8.5569.557.557.5574.5576.5578.558.558.5583.5585 9.5586.5587.5589.559.559.5593.5595.5596.5598.5599 Deviazione standard della variabile ridotta s Y 3 4 5 6 7 8 9.68.696.754.8.864.95.96.4.47.86 3.4.59.93.6.55.85.33.339.363.388 4.43.436.458.48.499.59.538.557.574.59 5.67.63.638.658.667.68.696.78.7.734 6.747.759.77.78.793.83.84.84.834.844 7.854.863.873.88.89.898.96.95.93.93 8.938.945.953.959.967.973.98.987.994. 9.7.3..6.3.38.44.49.55.6 rappresenta le decine e la prima riga le unità: per esempio: =4, m =.5448, S =.458) Il legame lineare tra x ed espresso dalla retta ai minimi quadrati esplicitando è: x B = A (58) Confrontando le eq. (5) e (58) e tenendo conto delle (53) e (54) si ha: s = A = s XY Y (59) sxy u = B = x (6) s Y Sostituendo i valori di u ed nella eq. (5) o di A ed B nella eq. (58) si ottiene la retta di miglior allineamento secondo il presente criterio:
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 34 x - u s Y = = (x - x) + (6) s XY In tabella 6 sono riportati i valori di x i ed i con i corrispondenti prodotti x i i. Tabella 6. Valori x del campione con i corrispondenti valori di ed il prodotto x i x i (mm) F i i x i i 7..33 -.49-8.949 7.8.65 -.98-7.9543 3 8..938 -.867-6.8934 4 8.8.5 -.73-6.445 5 9..563 -.686-5.69 6..875 -.55-5.55 7.6.88 -.486-4.437 8..5 -.366-3.593 9.4.83 -.378 -.74.8.35 -.5 -.7834..3438 -.656 -.88.8.375.94.478 3 3..463.45.379 4 3.4.4375.93.555 5 3.6.4688.775 3.7738 6 3.6.5.3665 4.9846 7 5..533.458 6.876 8 5..565.558 8.93 9 5.4.5938.654.3 5.6.65.755.778 6..6563.8646 3.8338 6..6875.986 5.764 3 6..788.79 7.769 4 6.8.75.459.93 5 8..783.3989 5.88 6 8.8.85.57 9.557 7 9.8.8438.776 35.965 8 9.8.875.34 39.8657 9 5.8.963.383 59.83 3 6..9375.745 7.89 3 9.4.9688 3.4499.47
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 35 La sommatoria dei prodotti x i i è 46.33 il valore di, secondo la tabella 5 (=3) è.537 (il valor medio x, stimato nel paragrafo precedente è 4.79). La covarianza calcolata secondo l eq. (56) per il campione in tabella è: s XY = 46.33/3 4.79 x.537 = 5.89 La deviazione standard della variabile ridotta secondo la tabella 5 è s Y =.4 e la varianza è: s Y =.4 =.37 I valori di A () ed B (u) secondo le equazioni (53) e (54) sono: A = = s XY /s Y = 5.89/.37 = 4.696 B = u = x - A = 4.79 4.696 x.537 =.7 Sostituendo i valori A ed B nell espressione (58) (o di ed u nell eq. (5)) si ottiene la retta che individua la popolazione sulla carta probabilistica: =.3 x.6 La retta viene disegnata in figura 9 congiungendo due coppie di valori determinate tramite l equazione di cui sopra: (,-.48) e (,.65) insieme ai valori del campione secondo la tabella ed alla retta ottenuta con il metodo dei momenti. La retta ottenuta col metodo dei momenti permette un miglior allineamento rispetto alla retta ottenuta col metodo dei minimi quadrati. La retta ai minimi quadrati, essendo un interpolazione nel piano (x,), risente della dispersione dei punti sul cartogramma probabilistico, ovvero risente dell approssimazione della probabilità cumulata di non superamento dei valori del campione con la frequenza cumulata di non superamento determinata con la formula di plotting position, mentre la retta ottenuta con il metodo dei momenti dipendendo dalla deviazione standard e dalla media dei valori del campione non ne risente. Per la distribuzione lognormale non è possibile utilizzare in modo diretto il metodo dei minimi quadrati perché i valori della variabile ridotta z non sono noti a priori, ovvero non esiste una relazione analitica, come per la distribuzione doppio esponenziale, che esprima la variabile ridotta z in funzione della probabilità cumulata di non superamento o del tempo di ritorno. Per poter
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 36 utilizzare il metodo dei minimi quadrati occorre riportare sulla carta probabilistica tutti i valori del campione ed elemento per elemento determinare il valore della variabile ridotta z corrispondente alla frequenza cumulata di non superamento determinata tramite la formula di Weibull. Figura 9. Adattamento della distribuzione doppio esponenziale al campione: metodo dei minimi quadrati. 3 Metodo di Gumbel Il metodo di Gumbel per la ricerca della retta di miglior allineamento dei valori del campione nella carta probabilistica è un metodo di interpolazione analogo al metodo ai minimi quadrati. La retta di interpolazione viene determinata minimizzando invece che gli scarti la distanza delle coppie di valori ( i,x i ) del campione dalla retta stessa (fig. ). In questo caso i coefficienti A ed B della retta di interpolazione x = A + B diventano: sx A = (6) s Y B = x A (63)
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 37 Figura. Interpolazione lineare ai minimi quadrati tramite la distanza dalla retta. Le relazioni (eq. 59 e 6) che esprimono i parametri della distribuzione ed u in funzione di A e B rimangono valide sostituendo s XY con s X ed s Y con s Y e l espressione della retta di interpolazione per cui si ha il miglior allineamento dei punti, secondo il presente criterio è: x - u s Y = = (x - x) + (64) s X L espressione della retta è uguale a quella ottenuta tramite il metodo dei momenti (eq. 49) se =.577, s Y = / 6 ed s X = s XC. La procedura di adattamento della distribuzione doppio esponenziale al campione in tabella viene eseguita utilizzando i risultati ottenuti nei paragrafi precedenti. La somma del quadrato degli scarti è 86.7 e la standard non corretta è: 86.7 s X = = 3 5.7 La deviazione standard non corretta della variabile ridotta (tabella 6, =3) è: s Y =.4 Il valore di, secondo la tabella 5 (=3) è:
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 38 =.537 Il coefficiente angolare A e l intercetta B della retta secondo il metodo di Gumbel, secondo le equazioni (6) e (63) sono: A = s X /s Y = 5.7/.4 = 4.58 B = x - A = 4.79 4.58 x.537 =.56 Sostituendo i valori A ed B nell espressione (58) si ottiene la retta che individua la popolazione sulla carta probabilistica: =.4 x 3. In figura è disegnata la retta corrispondente al metodo di Gumbel insieme alle rette ottenute con il metodo dei momenti e dei minimi quadrati oltre ai valori del campione. Figura. Adattamento della distribuzione doppio esponenziale al campione: metodo di Gumbel. La retta ottenuta con il metodo di Gumbel permette un miglior allineamento dei punti del campione rispetto a quella ottenuta con i minimi quadrati perché la distanza tra punto e retta presenta una minor dispersione rispetto allo scarto sia verticale che orizzontale, ma uno peggiore rispetto alla retta ottenuta con il metodo dei momenti perché, quest ultima non risente dell approssimazione
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 39 della probabilità cumulata di non superamento dei valori del campione con la frequenza cumulata di non superamento determinata con la formula di plotting position. 4 Test di Pearson o del Il test di pearson o del è un test convenzionale per stabilire se accettare o meno l adattamento di una distribuzione di probabilità ad un campione. Il campione viene diviso in un numero k di classi equi-probabili: la probabilità che un valore della popolazione ha di cadere in una classe è la stessa per tutte le classi. Indicata con p* = /k la probabilità che ha un valore di cadere in una classe equi-probabile, gli estremi delle classi equiprobabili dipendono dalla distribuzione di probabilità adattata. Gli estremi delle classi equiprobabili sono quei valori per cui P(x) = n p* (n =, k-), come illustrato nella figura, essendo p* k =. Figura. Divisione in intervalli equi-probabili della distribuzione doppio esponenziale (p* =.). Si confronta quindi per ogni classe il numero di elementi del campione che ricade nella classe con p* (/k), numero che rappresenta il numero di elementi del campione che cadrebbe in una classe equi-probabile se la distribuzione di probabilità si adattasse perfettamente al campione: punti allineati ed appartenenti alla retta che rappresenta la popolazione nella carta probabilistica.
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 4 Infatti i valori della frequenza cumulata di non superamento degli elementi del campione sono uniformemente distribuiti tra ed e nel caso di adattamento perfetto della distribuzione di probabilità sono anche coincidenti con i valori della probabilità cumulata di non superamento e quindi equamente distribuiti nella classi equi-probabili. Maggiore è la differenza tra il numero di elementi del campione in una classe equi-probabile ed p* (/k) minore è l adattamento della distribuzione al campione. Il parametro che quantifica questa differenza e permette quindi di valutare l adattamento o meno della distribuzione al campione è: k ( i - p *) = (65) p * essendo i il numero di elementi del campione ricadenti nella classe iesima. La quantità misura la dispersione dei valori del campione rispetto alle classi equi-probabili. Il valore del deve essere confrontato con uno di riferimento indicato con crit. Affinché la distribuzione di probabilità si adatti al campione deve essere: crit Il valore di crit è quello per cui la probabilità cumulata di non superamento relativa alla distribuzione di probabilità del è pari a.95 (P ( ) =.95). La distribuzione del dipende dal parametro: = k - s (66) essendo k il numero delle classi ed s il numero di parametri della distribuzione di probabilità che si vuole adattare al campione. el caso delle distribuzione di probabilità doppio esponenziale e lognormale s = (i parametri sono u ed per la distribuzione doppio esponenziale e µ e per la distribuzione log-normale). ella tabella 7 sono riportati i valori di crit per diversi. Il valore di p * viene scelto secondo la seguente regola empirica: p* 5 (67)
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 4 In genere si cerca di scegliere p* in modo che /p* sia un numero intero. Infatti il numero di classi viene infatti individuato dal rapporto /p*, essendo il valore massimo della probabilità cumulata di non superamento si ha = k p *, da cui: k = (/p*) (68) el caso di 3 elementi ( = 3), p* 5/3 = /6 =.7. Si sceglie quindi p* =. e ne consegue k = (/.) Affinché il test abbia significato deve essere 5, altrimenti k diventa troppo piccolo e potrebbe diventare nulla o negativa ( per definizione). Tabella 7 Valori di crit in funzione di 3 4 5 crit 3.84 5.99 7.8 9.49. 5 Esempio di applicazione del test del ella tabella I sono riportate in ordine crescente i valori di pioggia massimi annuali per una durata di h registrati dal pluviometro della stazione di San Martino di Castrozza. L elaborazione statistico probabilistica di questo campione di = 3 elementi ha prodotto il seguente adattamento della distribuzione doppio esponenziale mediante il metodo dei momenti: =.39 x +.96 (69) essendo x la massima precipitazione annuale di durata h. Si sottopone l adattamento della distribuzione di probabilità al test del. La regola empirica () suggerisce p* 5/3 =.6. Si sceglie p* =. che permette k = /. = 5. Gli estremi degli
Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 4 intervalli equi-probabili si determinano individuando i valori della variabile ridotta per cui P() =.;.4;.6;.8 tramite la relazione: = ln ( ln( P( Y) )) I valori di calcolati (fig. ) ed i corrispondenti valori di x, estremi dell intervallo, calcolati secondo la (69) sono riportati nella tabella 8. Tabella 8 Estremi degli intervalli equi-probabili. P() x. -.4759.39.4.874.75.6.677 5.9.8.4999 8.65 ella tabella 9 vengono riportati per ogni classe, gli estremi, il numero di elementi del campione contenuto nella classe i e la quantità ( i p*). Tabella 9 Valori riassuntivi per il calcolo del parametro. Classe Estremi i ( i p*) ( i p*) -.39 6.4.4.39.75 5.44.48 3.75 5.9 7.64. 4 5.9 8.65 7.64.76 5 8.65-6.4.8 Il valore del parametro è: =.8 / (3 x.) =.45 Essendo crit = 5.99 l adattamento della distribuzione doppio esponenziale al campione è accettato.