Richiami di probabilità e statistica

Documenti analoghi
Studi sugli eventi estremi per stima delle portate di piena

Studi sugli eventi estremi per stima delle portate di piena

Calcolo delle Probabilità e Statistica Matematica: definizioni prima parte. Cap.1: Probabilità

Ulteriori Conoscenze di Informatica e Statistica

Ulteriori Conoscenze di Informatica e Statistica

Tecniche di sondaggio

Università di Pavia Econometria. Richiami di teoria delle distribuzioni statistiche. Eduardo Rossi

Presentazione dell edizione italiana

Problema tipico delle applicazioni idrologiche: qual'è la portata con tempo di ritorno T?

Calcolo delle probabilità (3/7/2001) (Ing. Elettronica, Informatica, Telecomunicazioni - Latina)

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Matematica e Statistica per Scienze Ambientali

Analisi della disponibilità d acqua. Valutazione dell impianto attraverso il calcolo di un indice economico (criterio)

ANALISI ESPLORATIVA DI SERIE DI OSSERVAZIONI

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Esercitazione Maggio 2019

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

I appello di calcolo delle probabilità e statistica

Statistica ARGOMENTI. Calcolo combinatorio

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

RICHIAMI DI CALCOLO DELLE PROBABILITÀ

Dispensa di Statistica

Calcolo delle Probabilità e Statistica Matematica previsioni 2003/04

DISTRIBUZIONI DI PROBABILITA PER L IDROLOGIA

Statistica Applicata all edilizia: alcune distribuzioni di probabilità

SOLUZIONI PROVA SCRITTA DI STATISTICA (cod. 4038, 5047, 371, 377) 8 settembre 2005

LE VARIABILI CASUALI A 1, A 2.,..., A k., p 2.,..., p k. generati da una specifica prova sono necessari ed incompatibili:

Esperimentazioni di Fisica 1. Prova in itinere del 12 giugno 2018

Richiami di TEORIA DELLE PROBABILITÀ

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

Corso di probabilità e statistica

Elaborazione statistica di dati

Calcolo delle Probabilità 2

Università della Calabria

Condizione di progetto: Periodo di Ritorno

PROBABILITÀ ELEMENTARE

1.1 Obiettivi della statistica Struttura del testo 2

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

ECONOMETRIA: Laboratorio I

Computazione per l interazione naturale: fondamenti probabilistici (1)

CALCOLO DELLE PROBABILITÀ - 9 giugno 1998 Scrivere le risposte negli appositi spazi Motivare dettagliatamente le risposte su fogli allegati

Regressione lineare. Lucio Demeio Dipartimento di Ingegneria Industriale e Scienze Matematiche Università Politecnica delle Marche.

DI IDROLOGIA TECNICA PARTE III

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica

Esercizi di statistica

Matematica e Statistica per Scienze Ambientali

Alcune v.a. discrete notevoli

Variabili casuali. - di Massimo Cristallo -

VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul

Statistica Applicata all edilizia: Stime e stimatori

Fin qui si sono considerate le variabili casuali ciascuna per proprio conto. Ora consideriamo la possibilità di relazioni tra variabili.

II Esonero - Testo B

VARIABILI CASUALI. Fino ad ora abbiamo definito:

Modelli probabilistici variabili casuali

Probabilità e Statistica

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

Introduzione al modello Uniforme

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A

Due variabili aleatorie X ed Y si dicono indipendenti se comunque dati due numeri reali a e b si ha. P {X = a, Y = b} = P {X = a}p {Y = b}

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c.

DISTRIBUZIONI DI PROBABILITA

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Esercizi 6 - Variabili aleatorie vettoriali, distribuzioni congiunte

9. Test del χ 2 e test di Smirnov-Kolmogorov. 9.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita

5. Distribuzioni. Corso di Simulazione. Anno accademico 2009/10

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 2 Concetti di base

1 Eventi. Operazioni tra eventi. Insiemi ed eventi. Insieme dei casi elementari. Definizione di probabilità.

w=k,k+1,k+2, p. Pertanto la probabilità dell evento composto [k-1 successi in w-1 k k W

PROVA SCRITTA DI STATISTICA. CLEA/CLEFIN/CLEMIT (cod. 5047/4038/371/377) 3 Novembre 2004 MOD. A

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

COMUNE DI CONSIGLIO DI RUMO

Probabilità e Statistica

PROBABILITÀ E STATISTICA - 23 Giugno 2017 Scrivere le risposte negli appositi spazi. Motivare dettagliatamente le risposte su fogli allegati

Esercitazione del 29 aprile 2014

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Lezione 17. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 17. A. Iodice

STATISTICA (modulo II - Inferenza Statistica) Soluzione Esercitazione I

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

FACOLTA DI INGEGNERIA

DISTRIBUZIONI DI PROBABILITA

Probabilità e Statistica

con distribuzione gaussiana standard e si ponga

Teoria dei Fenomeni Aleatori AA 2012/13. Il Concetto di Distribuzione Condizionata ( )

Matematica Applicata L-A Definizioni e teoremi

Statistica. Capitolo 5. Variabili Aleatorie Discrete e Distribuzioni di Probabilità. Chap 5-1

M 3 = ..p x.q n x. σ 3 = npq q p. npq npq = q p. npq.

Indice. Presentazione

Teoria dei Fenomeni Aleatori AA 2012/13. Il Modello Lognormale La funzione di densità di probabilità lognormale è data:

3. Distribuzioni. Corso di Simulazione. Anno accademico 2006/07

Corso di Idrologia A.A Piogge intense. Antonino Cancelliere. Dipartimento di Ingegneria Civile e Ambientale Università di Catania

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

2. Introduzione alla probabilità

Significato probabilistico di σ: su 100 misure, 68.3 hanno probabilità di cadere nell intervallo x σ, x +σ, 95.5 nell intervallo

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 Appello B - 5 Febbraio 2015

Statistica Corso di laurea in Biotecnologie I esonero - 23 aprile 2009

DISTRIBUZIONE ESPONENZIALE Nella forma più usuale la distribuzione esponenziale assume la forma: Le relazioni teoriche dei momenti sono:

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

Modelli di probabilità

La distribuzione normale o distribuzione di Gauss

Transcript:

Richiami di probabilità e statistica Una variabile casuale (o aleatoria) X codifica gli eventi con entità numeriche x ed è caratterizzata dalla funzione di distribuzione di probabilità P(x) : P(x)=Pr ob[x x] = E quindi equivalente determinare la distribuzione di densità di probabilità p(x) o la funzione di distribuzione di probabilità P(x), detta anche probabilità cumulata o probabilità di non superamento, infatti: p(x)= dp dx Relazione fra tempo di ritorno T e probabilità di non superamento P ns : x 1 T = 1 P ns (x) p(z)dz P ns (x)=1 1 T Fissato il tempo di ritorno T si ricava la probabilità di non superamento P e quindi la portata o pioggia x con tempo di ritorno T. La probabilità di superamento P s (x) sarà invece: P s = 1 T = (1 P ns ) 1

Probabilità condizionata e indipendenza stocastica Se l'accadimento di un evento B può modificare la probabilità che si verifichi l'evento A parliamo di probabilità condizionata: P(A \ B) = P(A B) P(B) Se (A, B) Ω e, inoltre, B i B j = si ha: P(A) = P(A \ B) P(B i ) i=1,n Si dice che (A, B) Ω sono stocasticamente indipendenti se vale una delle seguenti condizioni: 1) P(A \ B) = P(A) se P(B) > 0 2) P(B \ A) = P(B) se P(A) > 0 Per la 1) il fatto che si è verificato B non modifica la probabilità di A; Per la 2) il fatto che si sia verificato A non modifica la probabilità di B. 2

Richiami di calcolo combinatorio Disposizioni semplici: si considerano gruppi di k elementi, tratti da n, tutti diversi tra loro e che si considerano differenti se presentino sia almeno un elemento diverso, sia nel caso in cui differiscano solo per ordine: n = numero oggetti ; k = numerosità nel gruppo D n,k = n! (n k)! Disposizioni con ripetizione: i k oggetti, di cui al caso precedente, possono essere anche ripetuti, * ossia uguali fra loro (caso di estrazione con reimmissione): D n,k = n k Permutazioni semplici: possibilità di ordinamento diverso di n oggetti: P n = n! n! Permutazioni con ripetizione: P * n = n 1! n 2!... n k! " Combinazioni semplici: possibili gruppi di k elementi diversi C n, k = $ n% n! ' = # k& k! (n k)! Combinazioni con ripetizione: possibili gruppi di k elementi anche ripetuti C # * n,k = n + k 1 & % ( $ k ' 3

Richiami di probabilità e statistica (II) La distribuzione di probabilità cumulata P(x), o in modo equivalente la distribuzione di densità di probabilità p(x), viene determinata utilizzando il campione osservato: x = (x 1, x 2,..., x n ), riordinato in ordine crescente. Distribuzione di frequenza relativa: Distribuzione di frequenza cumulata: Il campo delle osservazioni (ad es. di portata o pioggia) deve essere stato suddiviso in classi o intervalli di ampiezza Δx. n k è il numero di osservazioni che ricadono nell intervallo k-esimo [x k - Δx, x k ]. Più spesso in idrologia la distribuzione di frequenza cumulata è definita attraverso una regola di plotting position, ad esempio: F j =F(x j )= j n +1 f k = n k n F(x j )= j k =1 f k oppure : F j =F(x j )= j 0.5 n 4

Indici di posizione e di dispersione Richiami di probabilità e statistica (III) N : indica la numerosità del campione (x 1, x 2,... x N ) Media: individua il valore centrale del campione E(x) = x = 1 N " % $ ' x # N & i i=1 La media è un operatore lineare, quindi: Y = a g(x) + b E(Y) = a E(g(x)) + b Varianza: è un indice che misura la dispersione del campione attorno alla media N.B.: s 2 = 1 N 1 La varianza non è un operatore lineare: (formula corretta) y = ax + b σ y 2 = E(y µ y ) 2 = E(aX + b aµ x b) 2 = a 2 E(X µ x ) 2 = a 2 σ x 2 Scarto quadratico (o deviazione standard): N i=1 (x i x ) 2 s 5

Mediana: valore x 0.5 per cui risulta: P[ X x 0.5 ] 0.5 Una generalizzazione del concetto di mediana è il quantile, ossia il valore x α per cui risulta: [ ] α P X x α Momento centrale di ordine k: µ k = E [(X µ x ) k ] Coefficiente di variazione: c v = s x / µ x Coefficiente (o indice) di asimmetria: (skewness) β = µ 3 σ x 3 = N N ( x i x ) 3 i=1 (N 1)(N 2) s 3 (stima corretta) Coefficiente (o indice) di curtosi γ = µ 4 σ x 4 6

Dipendenza e Indipendenza stocastica Come già detto, tra due variabili marginali X e Y c è indipendenza stocastica se le frequenze di ogni x i condizionata a y j sono tutte uguali tra loro facendo variare j, i. Analisi di correlazione: studia la dipendenza funzionale lineare tra le variabili X e Y. Momenti doppi semplici: µ h,k = x i h y j k f i, j k = 0 h = 0 N M momenti semplici marginali di X e se h =1 si ha la media di X momenti semplici marginali di Y e se k =1 si ha la media di Y Momenti doppi centrali: i=1 N i=1 M µ h,k = (x i µ 1,0 ) h (y j µ 0,1 ) k f i, j Se k = 0 e h = 2 si ha la varianza di X; se h = 0 e k = 2 si ha la varianza di Y Se h =1 e k =1 si ottiene la covarianza tra X ed Y : N M µ 1,1 = σ xy = (x i µ 1,0 )(y j µ 0,1 ) f ij i=1 j =1 i=1 j=1 Coefficiente di correlazione lineare: ρ = σ xy σ x σ y = σ xy σ x 2 σ y 2 7

Regressione La teoria della regressione ipotizza una variabile (di solito la Y ) come dipendente dall altra (X) che è chiamata a spiegare la variabilità della prima. L interpolante più nota tra i valori di X ed Y è la retta di regressione (di 2 tipo): u = α 0 α 1 x con : α 1 = σ xy σ x 2 = ρ σ y σ x α 0 = µ y µ x α 1 quindi, l equazione della retta di regressione di 2 tipo di Y su X si può anche scrivere: y ˆ µ y = σ xy σ (x µ 2 x) x dove il simbolo y ˆ indica il valore di y stimato sulla retta di regressione. La varianza residua può essere stimata con: 2 σ Ry = i=1,n (y j ˆ y j ) 2 p i, j j =1,m = 1 M y j (α 0 α 1 x) j =1,M [ ] 2 = σ 2 y (1 ρ 2 ) La varianza totale è data dalla somma della varianza spiegata e della varianza residua. σ y 2 = σ Sy 2 2 +σ Ry 8

Coefficiente di autocorrelazione delle serie temporali: con: r k = c k c 0 c k = 1 N k! $ # & (y t+k y)(y t y ) k 0 " N % t=1 c 0 = 1 N! $ # & (y t y) 2 2 = σ y " N % t=1 t indica il tempo, mentre k è il lag ovvero la distanza temporale tra gli eventi considerati. L'andamento di r k al variare di k fornisce il correlogramma. 9

Esempio: Analisi statistica dei massimi annui di portata al colmo Dalle serie di portata osservate alle stazioni di misura si estraggono i valori massimi annui Si ordinano i massimi annui di portata al colmo Q i e si assegna a ciascuno una frequenza cumulata F(Q i ) utilizzando una regola di plotting position : Q : Q 1 Q 2... Q i... Q N F(Q): 1/(N+1) ; 2/(N+1) ;... ; i/(n+1) ;... ; N/(N+1) Dove: Q i = massimo annuo i-esimo (posizione riordinata) di portata al colmo F(Q i ) = frequenza cumulata corrispondente alla portata Q i. Ricordare che: Il tempo di ritorno T associato ad una portata Q T è il tempo (espresso in anni) che mediamente intercorre fra due osservazioni di portata massima annua Q T. La relazione con la probabilità P di non superamento (CDF) `e: 1 T = 1 P(Q T ) P(Q T )=1 1 T Procedimento generale per campione singolo: 1. Scelta distribuzione; 2. Stima parametri; 3. Test di adattamento P(Q) F(Q) 1 P(Q ) T 1/T 1 1/T Q 1 Q 2 Q 3 Q 4 Q T Q N Q 10

Distribuzione uniforme discreta " 1 $ per x =1, 2, 3,... N f (x) = # N % $ 0 altrove Distribuzioni di probabilità discrete Permette di rappresentare i fenomeni i cui eventi elementari sono in numero finito e sono equiprobabili Distribuzione binomiale )" n + % $ ' p x (1 p) n x per x =1, 2, 3,... N f (x) = *# x& +, 0 altrove Vengono eseguite n prove indipendenti con le stesse condizioni al contorno in modo da ripetere l esperimento nelle condizioni più simili possibili; sono possibili due soli risultati: successo o insuccesso; x è il generico valore che la variabile può assumere nelle n prove indipendenti, mentre p è il valore (costante) della probabilità di successo in una singola prova. La probabilità che l evento si verifichi x volte è dato dalla binomiale. 11

Distribuzione di Bernoulli # f (x) = px (1 p) 1 x $ % 0 altrove per x = 0,1 E un caso particolare della distribuzione binomiale con n=1 : descrive l esito di un singolo esperimento nel quale sono possibili solo gli esiti (valori 0 o 1) di successo (con probabilità p) o insuccesso. µ x = q Si ha inoltre: σ 2 x = pq con q = (1 p) Distribuzione di Poisson $ λ & x f (x) = e λ x! % per x = 0,1, 2,... '& 0 altrove λ > 0 µ con: x = λ σ 2 x = λ La distribuzione di Poisson può approssimare la binomiale se p è piccolo ed n è grande; si usa per determinare la probabilità di accadimento di un evento in un tempo Δt ; con λ si indica il numero medio (o valore atteso) di accadimenti nell intervallo Δt. 12

Distribuzioni di probabilità continue Distribuzione uniforme: tra a e b la f(x) ha valore costante $ 1 & in [ a, b] con < a < b < + f (x) = % b a ' & 0 altrove Distribuzione Gamma: & λ ( f (x) = Γ(r) (λx)r 1 e λx in 0, + ' ) ( 0 altrove [ ] con r > 0 ; λ > 0 Distribuzione Esponenziale: è un caso particolare della Gamma, con r=1 %' f (x) = λ e λx in [ 0, + ] & (' 0 altrove Distribuzione Normale o Gaussiana: è tra le più utilizzate 1 1 (x µ )/σ f (x) = σ 2π e 2 [ ] 2 con < x < + ; σ > 0 13

Alcune distribuzioni di probabilità utilizzate in idrologia Lognormale Si trasforma l osservazione x di portata o pioggia in y = log x e si utilizza la Normale: P(x)= P(y)= y 1 - exp 1 ' y µ *. σ 2π 2( ) σ +, / 2 0 1 dy 2 dove µ = µ(y) e σ = σ(y) sono media e scarto attesi (teorici) della distribuzione di y. Gumbel (distribuzione asintotica del massimo valore tipo 1, detta anche EV1) { [ ]} P(x)=exp exp α(x u) dove α = 1.283/σ(x) ; u = µ(x) 0.45 σ(x), µ(x) e σ(x) sono media e scarto attesi della distribuzione di x. TCEV (distribuzione asintotica del massimo valore a due componenti) P(x)=exp( λ 1 e x /θ 1 λ 2 e x /θ 2 ) N.B.: distribuzione a 4 parametri il cui utilizzo è indirizzato alle analisi regionali degli eventi estremi poiché la stima dei parametri richiede un notevole numero di dati. 14

Stima dei parametri di una distribuzione probabilistica Metodo dei momenti: Si eguagliano i momenti teorici della distribuzione di probabilità ai momenti campionari. Occorre eguagliare tanti momenti quanti sono i parametri da stimare. Media campionaria: m= 1 n n x i =1 i Varianza campionaria: s 2 = 1 n (x i m) 2 i =1 n 1 L incertezza di stima dei momenti cresce con l ordine del momento. In pratica, si sostituiscono ai momenti teorici (ad esempio a µ e σ della Lognormale o Gumbel) i momenti calcolati sul campione: µ m ; σ s Metodo della massima verosimiglianza: Si rimanda al corso di statistica. 15

Verifica delle ipotesi (test statistici: esempio del χ 2 ) Ipotesi nulla (H 0 ): Il campione x = (x 1, x 2,..., x n ) è una realizzazione estratta dalla distribuzione di probabilità P(x); Statistica test S: statistica utilizzata per il test (ad esempio il test del χ 2 ); Livello di significatività del test (α): probabilità di rifiuto di ipotesi nulla vera (es: α = 0:05; 0:01; 0:001); definisce la zona di rifiuto (R); Regione di accettazione (W): è complementare alla zona di rifiuto; Test Statistico del χ 2 (K. Pearson): χ 2 K (n c = j np j ) 2 j=1 np j K = numero di classi in cui si suddivide il campo della variabile casuale X p j = P[x j X < x j+1 ] = P(x j +1) - P(x j ) = probabilità che la variabile casuale X ricada nella classe j-esima, nel caso in cui H 0 sia vera. n j = numero di osservazioni che ricadono nella classe j-esima n = numero totale di osservazioni np j = numero di osservazioni atteso per la classe j-esima Zona di rifiuto: R = {χ 2 c χ 2 (α, ν)} ; Zona di accettazione: W={χ 2 c < χ 2 (α, ν)} ν = (K - 1 s) = gradi di libertà; s = numero di parametri della distribuzione P(x) stimati con il campione x ; Regola di equi-probabilità di Gumbel: p 1 = p 2 =... = p j =... = p K Regola empirica per il calcolo del n. di classi K: np j 5 K n/5 16

Inversione delle distribuzioni Gumbel e Lognormale Distribuzione di Gumbel I parametri α e u sono già stati calcolati. Fisso T (tempo di ritorno), calcolo la probabilità di non superamento P = 1 1/T La portata o pioggia con tempo di ritorno T è: x = u ln( ln(p)) α Distribuzione Lognormale (distribuzione normale della variabile trasformata y = ln x, ovvero y = log 10 x); Procedura di stima: I parametri µ y e σ y sono già stati calcolati. Fisso T, calcolo la probabilità di non superamento P = 1 1/T Ricavo il frattile z P della distribuzione N(0,1) dalle tavole. Ricavo la variabile trasformata: y = µ y +σ y z P La portata o pioggia con tempo di ritorno T è: x = exp(y) ovvero: x = 10 y 17

18