Tesina: Catene di Markov in tempo discreto e Hidden Markov Models. Loris Bazzani, Diego Tosato e Davide Fasoli

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Tesina: Catene di Markov in tempo discreto e Hidden Markov Models. Loris Bazzani, Diego Tosato e Davide Fasoli"

Transcript

1 Tesina: Catene di Markov in tempo discreto e Hidden Markov Models Loris Bazzani, Diego Tosato e Davide Fasoli 3 maggio 7

2 Indice 1 Catena di Markov in tempo discreto 1.1 Catene di Markov Probabilità di transizione in n passi Decomposizione dello spazio degli stati Costruzione e simulazione di una Catena di Markov omogenea Probabilità limite Probabilità invariante Algoritmo di Metropolis, simulated annealing Simulated Annealling Catene di Markov a stati numerabili Classificazione degli stati di una catena di Markov omogenea Decomposizione Canonica Esistenza e costruzione di una probabilità invariante Hidden Markov Models 7.1 Esempi di HMM Caratterizzazione di un HMM Tre problemi fondamentali per gli HMM Soluzione al problema della valutazione Soluzione al problema della codifica Soluzione al problema dell addestramento Osservazioni con densità continua nei HMMs Comparazione di HMMs Applicazioni utilizzando i HMMs 4 1

3 Capitolo 1 Catena di Markov in tempo discreto In teoria della probabilità un processo stocastico è una generalizzazione dell idea di variabile casuale. I processi stocastici sono modelli matematici di fenomeni aleatori che evolvono nel tempo. Vediamo ora un esempio. Esempio 1. Due giocatori A e B hanno un capitale iniziale pari rispettivamente ad a e b unità e giocano una serie di partite in ciascune delle quali A cede a B un unità con probabilità p e ne riceve con una probabilità q = 1 p. Il gioco si ferma non appena uno dei due giocatori si trova a.in seguito si vedrà come costruire un buon modello per descrivere tale situazione. Una catena di Markov è un processo stocastico a tempo discreto che soddisfa la proprietà di Markov (che vedremo più avanti). Una catena di Markov è rappresentabile come una serie di stati ognuno dei quali rappresenta un evento fisico. Ad ogni istante (discreto) il sistema può cambiare stato: al tempo i saremo ad un certo stato, al tempo i + 1 si può passare ad un nuovo stato. Tale processo viene chiamato transizione ed viene regolato da una matrice di transizione associata alla catena di Markov. In questo capitolo vedremo meglio i concetti appena accennati ed esploreremo le proprietà e la potenza di tale modello. I modelli di tipo markoviano vengono anche utilizzati nel progetto di reti di telecomunicazioni; la teoria delle code che ne consegue trova applicazione in molti ambiti: dalla fila alle poste ai pacchetti in coda in un router. 1.1 Catene di Markov Definizione 1. Sia (Ω, F, P) uno spazio di probabilità, sia {X n } n= con X n : Ω E si dice Catena di Markov se j, i, i n 1,..., i E: P(X n+1 = j X n = i, X n 1 = i n 1,..., X = i ) = P(X n+1 = j X n = i) (1.1)

4 Dove E indica lo spazio degli stati della Catena di Markov. Dalla definizione si può intuire che: in generale le X n sono non indipendenti tra loro, per cui la conoscenza del valore assunto da X n dà delle informazioni sul possibile valore che avrà X n+1. Ma la conoscenza dei valori X n 1, X n,... non mi dà informazioni ulteriori. In altre parole una catena di Markov non ha memoria, in quanto la probabilità di essere in un certo stato al tempo n+1 dipende solamente dallo stato in cui era la catena al tempo n ed è indipendente dagli stati precedenti (n 1, n... ). Definizione. Una Catena di Markov si dice omogenea se {p ij } ij E tale che P(X n+1 = j X n = i) = p ij n =, 1,... i, j E Dalla definizione ricaviamo che una Catena di Markov è omogenea se: P(X n+1 = j X n = i) = p ij (1.) è indipendente da n, cioè indipendente dal tempo. Con P indichiamo la matrice di transizione della Catena di Markov, la quale gode delle seguenti proprietà: p ij 1 i, j E; j E p ij = 1; una matrice che soddisfa tali proprietà è detta stocastica, mentre con p ij indichiamo la probabilità di passare dallo stato i allo stato j. Esempio. Riprendendo l esempio precedente, vediamo come sia ragionevole utilizzare un modello che soddisfa la proprietà di Markov. Se indichiamo con {X n } n= il capitale del giocatore A risulta chiaro che tale valore dipende dal valore di X n 1, e la conoscenza di ciò che è successo prima di X n 1 è superfluo per la predizione di X n. Potremmo scegliere come spazio degli stati E = [, a + b]. Determiniamo ora la matrice di transizione, per i e i (a + b) sarà: q se i = j + 1 P(X n+1 = j X n = i) = p se i = j 1 altrimenti se invece i = o i = (a + b) avremo: P(X n+1 = j X n = i) = P(X n+1 = j X n = i) = { 1 se j = altrimenti { 1 se j = a + b altrimenti 3

5 da qui ricaviamo la matrice di transizione: P = 1... p q... p q p q... p q... 1 Facciamo ora una piccola digressione e vediamo le densità congiunte finite di un processo. Sia {X t } t un processo definito su uno spazio di probabilita dato (Ω, F, P). Si consideri un sottoinsieme finito di istanti temporali t 1 < t <... < t n. Si definiscono densità congiunte finite del processo le seguenti quantità: P (X t1 = y 1, X t = y,..., X tn = y n ) = {P t1,t,...,t n (y 1, y,..., y n )} } {{ } legge del processo t 1, t,..., t n y 1, y,..., y n E Nota P sono note tutte le densità congiunte finite del processo. Dato il concetto di densità congiunte, possiamo introdurre la proposizione: Proposizione 1. Sia {X n } n= una Catena di Markov omogenea con densità iniziale v = {v, v 1,...} e matrice di transizione {p ij } i,j E allora restano univocamente definite tutte le densità congiunte finite. Dimostrazione. Sia P(X = k) = v k k E N, con n = 1 si ha P(X = k, X 1 = j) = P(X 1 = j X = k) P(X = k) (1.3) Il passaggio 1.3 risulta dall applicazione della regola: = p kj v k (1.4) P(A, B) = P(A B) P(B) (1.5) mentre il passaggio 1.4 si esegue perchè P(X 1 = j X = k) = p kj e P(X = k) = v k. Con n = si ha P(X = k, X 1 = j 1, X = j ) = (1.6) = P(X = j X 1 = j 1, X = k) P(X = k, X 1 = j 1 ) (1.7) = P(X = j X 1 = j 1 ) P(X 1 = j 1 X = k) P(X = k) (1.8) = p kj1 p j1 j v k (1.9) 4

6 I passaggi 1.6 e 1.7 si effettuano applicando la regola 1.5, nel passaggio 1.7 utilizziamo anche la proprietà di Markov. Per induzione abbiamo che: P(X n = j n, X n 1 = j n 1,..., X 1 = j 1, X = k) = v k p kj1... p jn 1 j n = p(k, j 1,..., j n 1, j n ) Esempio 3 (Random Walk). Supponiamo di avere un processo stocastico che modella una passeggiata aleatoria in uno spazio monodimensionale. Sia {X i } i=1,,... i.i.d. definito come { +1 p passo avanti X i = 1 1 p passo indietro abbiamo {Y n } n= Y + Y n = Y n 1 n i=1 X i y n 1 {M, M} altrimenti Vogliamo vedere se è una catena di Markov: P(Y n+1 = j Y n = i n,..., Y = i ) = P(Y n+1 = j Y n = i n ) i, j {, ±1, ±,..., ±M} scriviamo la matrice di transizione, ma si mappa lo spazio degli stati da { M, +M} a {, M} per comodità P (M+1 M+1) = = p, p,1 p, p,3... p,m p 1, p 1,1 p 1, p 1,3... p 1,M p, p,1 p, p,3... p,m p M, p M, p M,M p p... 1 p p

7 1. Probabilità di transizione in n passi Definizione 3. La matrice di transizione in n passi la matrice è composta dai seguenti elementi: Esempio 4. p (n) ij = P(X n = j X = i) P(X n+m = j X m = i) (1.1) m =, 1,,... (1.11) p () ij = P(X = j X = i) (1.1) = P( X = j Ω X = i) (1.13) = P( X = j ( X 1 = k ) X = i) (1.14) k E = k E P( X = j X 1 = k X = i) (1.15) = k E P(X = j X 1 = k, X = i) P(X 1 = k X = i) (1.16) = k E P(X = j X 1 = k) P(X 1 = k X = i) (1.17) = k E p ik p kj = (P ) ij P = {p ij } ij E (1.18) Il passaggio 1.15 si esegue utilizzando la proprietà di σ-additività; nel passaggio 1.16 si utilizza la definizione di probabilità congiunta; mentre nel 1.17 si applica la proprietà di Markov. Per induzione: P(X n = j X = i) = (P n ) ij = p (n) ij (1.19) Teorema 1 (Equazione di Chapman-Kolmogorov). L equazione di Chapman-Kolmogorov è: p (n) ij = k E p (m) ik p (n m) kj (1.) Dimostrazione. Prendiamo tre istanti di tempo a < b < c con b a = n, c b = m e c a = n + m p (n+m) ij = P (X c = j X a = i) (1.1) p (n) ik = P (X b = k X a = i) (1.) p (m) kj = P (X c = j X b = k) = P (X c = j X b = k, X a = i) (1.3) 6

8 P (A) = k P (A X b = k)p (X b = k) (1.4) P i (A) = P (A X a = i) A = {X h = j} (1.5) P (X c = j X a = i) = P i (X c = j) (1.6) = k P (X c = j X b = k, X a = i)p i (X b = k) (1.7) = k P (X c = j X b = k)p i (X b = k) (1.8) k P (X c = j X b = k) P (X } {{ } b = k X a = i) } {{ } p (m) kj p (n) ik (1.9) p (n+m) ij = k p (n) ik p(m) kj (1.3) Nel passaggio 1.7 si applica la proprietà di Markov, il passaggio 1.9 si esegue utilizzando la Decomposizione dello spazio degli stati Prendiamo in considerazione una catena di Markov {X i } i=1, definita sullo spazio degli stati E e con matrice di transizione {p ij } ij E. Definizione 4. i, j E. Si dice che j è accessibile da i se n tale che p (n) ij >. Indichiamo tale relazione con la simbologia: i j. Definizione 5. i e j comunicano se i j e j i. Indichiamo tale relazione con il simbolo: i j. La relazione di comunicazione è una relazione di equivalenza, cioè soddisfa le seguenti proprietà: riflessiva: i i; Dimostrazione. prendiamo i i e i i allora n tale che p (n) ii > con n = abbiamo p () ii = 1. simmetrica: se i j allora j i; Dimostrazione. i j i j e j i j i. Il viceversa è analogo. 7

9 transitiva: se i j e j k allora i k; Dimostrazione. Se prendiamo i j e j k n e m tale che p (n) ij > e p (m) jk > per definizione di accessibilità. p n+m ik = r S p (n) ij }{{} > p (n) ir p(m) rk equazione di Chapman-Kolmogorov (1.31) p (m) jk }{{} > > (1.3) abbiamo che 1.31 è maggiore di 1.3 perchè il secondo è contenuto nella sommatoria del primo. Da qui ricavo che i k. Analogamente da k j e j i implica k i. In definitiva se: i j e j k i j, j k e k j, j i i k e k i i k E può essere decomposto esaustivamente in classi di equivalenza modulo la relazione ; la procedura utilizzata per decomporre lo spazio degli stati è la seguente: prendiamo i E costuisco C = {i i E i i}; prendiamo i 1 E \ C costuisco C 1 = {i i E \ C i 1 i}; si itera il procedimento sino al consumo di tutti gi stati. Su tale procedimento possiamo fare due semplici considerazioni: C i C j = i, j cioè tutte le classi sono disgiunte; i C i = E cioè l unione di tutte le classi mi da lo spazio degli stati. Esempio 5. Prendiamo la rovina del giocatore con p = 1 e E = {1,, 3, 4} P = prendiamo i = 1, C = {1};

10 prendiamo i 1 =, C 1 = {, 3}; prendiamo i = 4, C = {4}; Definizione 6. Se abbiamo un unica classe di equivalenza modulo allora abbiamo una Catene di Markov irriducibile. Cioè tutti gli stati della catena comunicano tra di loro. Esempio 6. Prendiamo la rovina del giocatore con barriere riflettenti, p = 1 e E = {1,, 3, 4} P = Prendendo i = 1, si ha C = {1,, 3, 4}. Dunque è irriducibile. 1.4 Costruzione e simulazione di una Catena di Markov omogenea Proposizione. Supponiamo di avere uno spazio di probabilità (Ω, F, P) e di avere definito: 1. X a valori in S = N ;. {U n } n=1 i.i.d uniformi in [, 1] indipendenti da X ; allora {X n } n= è una Catena di Markov omogenea tale che X n+1 = f(x n, U n+1 ) dove f : S [, 1] S. Dimostrazione. Costruiamo la catena in questo modo: X 1 = f(x, U 1 ) (1.33) X = f(x 1, U ) = f(f(x, U 1 ), U ) = F (X, U 1, U ) (1.34)... (1.35) X n = f(x n 1, U n ) = f(f(...)) = F n (X, U 1, U,..., U n ) (1.36) Vediamo se è una Catena di Markov: P(X n+1 = j X n = i, X n 1 = i n 1,..., X = i ) = (1.37) = P(f(X n, U n+1 ) = j X n = i, X n 1 = i n 1,..., X = i ) (1.38) = P(i, U n+1 ) = j F n (X, U 1,..., U n ),..., X = i ) (1.39) per l indipendenza di funzioni variabili aleatorie abbiamo: = P(f(i, U n+1 ) = j) = P(f(X n, U n+1 ) = j X n = i) (1.4) Quindi è una catena di Markov omogenea. 9

11 Problema. Data una Catena di Markov omogenea {X n } n= con S N, con densità iniziale v e matrice di transizione P, determinare una funzione f : S [, 1] S tale che X n+1 = f(x n, U n+1 ) con {U n } n=1 i.i.d indipendente da X. Soluzione. Per trovare la soluzione eseguiamo due passi: generiamo X con densità v, determiniamo f tale che P(f(i, U n+1 ) = k) = p ik. Partendo dal fatto che X è discreta (E x N) a = {a, a 1,...}, e sapendo che U è uniforme su [, 1] posso costruire una variabile aleatoria Y X tale che: Y := k ki P [ k 1 j= a j, P k j= a (U) (1.41) j] dalla quale conosciamo che: Concludiamo che X = Figura 1.1: Distribuzione uniforme U k 1 P (Y = k) = P (U [ a j, k= f(i, u) = j= k a j ]) = a k (1.4) j= ki [ P k 1 j= v j,p k j= v j ](U ) (1.43) k= ki P [ k 1 j= p ij, P k j= p (u) con u [, 1] (1.44) ij] 1

12 Dunque P(X n+1 = k X n = i) = P(f(X n, U n+1 ) = k X n = i) (1.45) Dove la 1.47 si ricava dalla = P(f(i, U n+1 ) = k) (1.46) k 1 k = P(U n+1 [ p ij, p ij ]) (1.47) j= j= = p ik (1.48) Teorema. {X n } n= con X n+1 = f(x n, V n+1 ) dove {V n } n=1 sono i.i.d random elements indipendenti da X allora è una Catena di Markov omogenea. I random elements sono per esempio variabili aleatorie, variabili aleatorie vettoriali e successioni di variabili aleatorie. Esempio 7 (Modello di inventario). Il problema si può formalizzare nel seguente modo: I(t) livello dell inventario al tempo t; T, T 1, T,... istanti di controllo; politica di stoccaggio: I(T n ) s I(T + n ) = S; I(T n ) (s, S] I(T + n ) = I(T n ) dove s =livello minimo e S =livello massimo; D n richiesta totale in [T n 1, T n ) con n = 1,,...; Definiamo X = I(T ) (s, S] { (Xn D X n+1 = n+1 ) se X n (s, S] (S D n+1 ) se X n s X n+1 = g(x n, D n+1 ),se {D n } n=1 i.i.d. allora {X n} n= è Markov; se D n non è equidistribuita la catena non è più omogenea. Esempio 8 (M/G/1). In questo esempio prendiamo in considerazione una coda con le seguenti caratteristiche, il flusso di arrivo è di tipo aleatorio Markoviamo, il flusso delle partenze è di tipo aleatorio generale e ha un unico canale: T, T 1, T,... istanti di compimento di un servizio (un cliente esce dalla coda); X n = X (T + n ) numero di clienti subito dopo che è uscito un cliente; 11

13 A n+1 = numero di arrivi in [T n, T n+1 ) X n+1 = (X n 1) + A n+1 = g(x n, A n+1 ) se {A n } n=1 i.i.d. allora {X n} n= è una Catena di Markov omogenea. Esempio 9 (G/M/1). In questo esempio prendiamo in considerazione una coda con le seguenti caratteristiche, il flusso di arrivo è di tipo aleatorio generale, il flusso delle partenze è di tipo aleatorio Markoviano e ha un unico canale: τ, τ 1, τ,... istanti di arrivo (un cliente entra nella coda); X n = X (τ n ) numero di clienti subito prima che arrivi un cliente. X n+1 = (X n + 1 S n+1 ) + = g(x n, S n+1 ) dove con S n+1 indichiamo i servizi potenziali che il server può erogare in [τ n, τ n+1 ) se {S n } n=1 i.i.d. allora Catena di Markov omogenea. 1.5 Probabilità limite Prendiamo in considerazione una catena di Markov omogenea {X n } n=1 con matrice di transizione P = {p ij } i,j E Definizione 7. π = {π j } j E, π j [, 1] e π j = 1 è una probabilità limite in {X n } se i E abbiamo che il: #E j= lim n p(n) ij = π j j E. (1.49) Un osservazione che si può fare è che se X ha densità a e π è una probabilità limite allora: ora proviamo tale osservazione: lim P (X n = j) = π j (1.5) n lim P (X n = j) = lim n n k E p (n) kj a k (1.51) = a k lim n p(n) kj (1.5) k E = π j a k = π j (1.53) come volevasi dimostrare. Dove nella 1.51 si applica la formula della probabilità totale. Al variare della densità a ( X ) possiamo ottenere Catene di Markov diverse con la stessa probabilità limite. 1 k E

14 1.6 Probabilità invariante Definizione 8. Data una Catena di Markov omogenea con matrice di transizione P = {p ij } ij E si dice che π = {π j } j E è una probabilità invariante (o stazionaria) se π = π P. Il significato di questa definizione va ricercato nel fatto che se X a e a = a P X n a n; proviamo ora la veridicità di tale significato: P(X n = j) = k E a k p (n) kj = k E a k (P n ) kj (1.54) a P n = a P n 1 = = a. (1.55) Definizione 9. Una Catena di Markov è detta stazionaria se tutte le densità congiunte finite sono invarianti per shift temporale ovvero: P(X n1 = i 1, X n = i,..., X nh = i h ) = (1.56) = P(X n1 +m = i 1, X n +m = i,..., X nh +m = i h ) (1.57) n 1, n,..., n h, m Esempio 1. Prendiamo una passeggiata aleatoria con barriere semiriflettenti con E = {, 1,, 3}; la matrice di transizione è così formata: P = la quale è una matrice bistocastica, cioè ha che: 3 3 p ij = p ij = 1 i= j= i, j E scegliamo ora come π = ( 1 4, 1 4, 1 4, 1 4 ) vediamo se π è una probabilità invariante: π = π P = ( 1 4, 1 4, 1 4, 1 4 ) = ( , , , ) = ( 1 4, 1 4, 1 4, 1 4 ) 13

15 Esempio 11. Prendiamo una passeggiata aleatoria con barriere riflettenti con E = {, 1,, 3}, la cui matrice di transizione è così definita: P = Calcoliamo π = (π, π 1, π, π 3 ) tale che sia una probabilità invariante, ovvero risolviamo il seguente sistema: π = (π, π 1, π, π 3 ) = (π, π 1, π, π 3 ) da questo si trovano le equazioni π = 1 π 1 π 1 = π + 1 π π = 1 π 1 + π 3 da cui ricaviamo che: da cui concludiamo che: π 3 = 1 π { π1 = 1 (π 1 + π ) π = 1 (π 1 + π ) π = k π 1 = k π = k π 3 = k π 1 = π sapendo che 6k = 1 k = 1 6 ricavo π = ( 1 6, 1 3, 1 3, 1 6 ) Proposizione 3. Una probabilità limite è anche invariante Dimostrazione. Vale per il caso a stati finiti. Prendiamo π probabilità limite π j = lim n p(n) ij i E (1.58) = lim p (n 1) ik p kj (1.59) n k E = k E = k E p kj lim n p(n 1) ik (1.6) p kj π k (1.61) 14

16 Il passaggio 1.59 lo possiamo fare per Chapman-Kolmogorov. L equazione 1.61 si può scrivere perché lim n p(n 1) ik = π k, perció π j = k E π k p kj π = π P Proposizione 4. Se una Catena di Markov è irriducibile allora esiste un unica probabilità invariante. Esempio 1. Prendiamo una Catena di Markov non irriducibile, dobbiamo trovare soluzioni di π = π P dove P = proviamo a prendere π 1 = (1,,, ): (1,,, ) = (1,,, ) } {{ } } {{ } π 1 π 1 proviamo a prendere π = (,,, 1): (,,, 1) = (,,, 1) } {{ } } {{ } π π } {{ 1 } P } {{ 1 } P = (1,,, ) } {{ } π 1 = (,,, 1) } {{ } π abbiamo più probabilità invariante. Se si prende la combinazione lineare di π 1 e π, ovvero π = α π 1 + β π con α, β [, 1] e α + β = 1, posso creare infinite probabilità invarianti π. Definizione 1. Una catena di Markov è regolare se n p (n) ij > i, j E. Un criterio pratico per vedere se una catena di Markov è regolare è controllare h E tale che p hh > ; come prerequisito la catena deve essere irriducibile. Se tale controllo fallisce si procede con il controllo che p (n) hh >. Questa relazione è più forte della proprietà di irriducibilità ed è indipendente da i, j. Teorema 3 (Markov). Se una catena di Markov con matrice di transizione P è a stati finiti e regolare allora esiste un unica probabilità invariante π ed è anche una probabilità limite lim n p (n) ij = π j. 15

17 1.7 Algoritmo di Metropolis, simulated annealing In questa sezione si propone l algoritmo di Metropolis e alcune applicazioni pratiche. È necessario dare a priori la seguenti definizioni: Definizione 11. Una probabilità π su E si dice reversibile se π i p ij = π j p ji per ogni i, j E. Definizione 1. Una catena di Markov è reversibile se: 1. irriducibile (ammette un unica probabilità invariante π).. π i p ij = π j p ji, (ovvero π è reversibile) allora π è invariante. Dimostriamo la seconda delle due condizioni dato che la prima è già stata trattata in precedenza. Proposizione 5. Se una probabilità π su E è reversibile allora è invariante. Dimostrazione. π i p ij = π j p ji = π j p ji = π j i E i E i E Con l algoritmo di Metropolis ci si propone di rispondere al seguente quesito: è possibile costruire una catena di Markov regolare a partire da: uno spazio degli stati E; una qualsiasi matrice di transizione Q simmetrica e irriducibile (e quindi bistocastica) su lo spazio degli stati E; e π una probabilità invariante su E tale che π i >. In altre parole si deve trovare una nuova matrice di transizione P tale che π = πp. Poniamo: π j π i, i j q ij p ij = q ij π j π i π j < π i, i j (1.6) 1 j i p ij j = i, Si nota subito che P = {p ij } ij è una matrice di transizione, dunque si può provare che P è simmetrica. Teorema 4. P è simmetrica. 16

18 Dimostrazione. Ricordiamo prima di iniziare la dimostrazione che Q è simmetrica π (q ij = q ji ). Supponiamo π j < π i allora p ij = q j ij π i da cui: π i p ij = π i q ij π j π i = π j q ij = π j q ji = π j p ji Supponiamo π j π i allora p ij = q ij da cui: π i p ij = π i q ij = π i q ji = π i p ji π j π i = π j p ji È facile osservare che anche la matrice P è irriducibile. Infatti se gli stati i, j E e i j sono tali che q ij > allora, per definizione, p ij >. Dalla dimostrazione si ottiene inoltre che: π i p ij = π j p ji (reversibilità) e quindi π è invariante per P. Corollario 1. Se π non è la distribuzione uniforme la catena di Markov associata alla matrice di transizione P, ha π come distribuzione reversibile ed è regolare Simulated Annealling Nell algoritmo di Metropolis supponiamo che la legge π sia della forma πi ε = e H(i) ε Z ε dove H è una funzione su E, ε > e Z ε una costante di normalizzazione scelta in modo che sia i E πε i = 1, cioè: Z ε = i E e H(i) ε. La regola di tansizione 1.6 diventa: q ij p ε ij = q ij e (H(j) H(i)) ε H(j) H(i), H(j) > H(i), (1.63) 1 j i pε ij j = i La regola di transizione è quindi la seguente: si sceglie il nuovo stato j secondo la matrice di transizione Q. Se H(j) H(i) si effettua la transizione in j; se invece H(j) > H(i) con probabilità e (H(j) H(i)) ε la transizione viene rifiutata e il processo resta in i. Per il teorema di Markov (teorema 3) a un tempo n grande la catena ha una distribuzione vicina a π ε. Ad uno sguardo più attento si nota che se ε è piccolo questa distribuzione si concentra sugli stati dove H è piccolo. Si può inoltre dimostrare che se i 1,..., i K sono gli stati che sono i punti di minimo assoluto per H, per ε la distribuzione π ε converge alla distribuzione uniforme su i 1,..., i K. 17

19 1.8 Catene di Markov a stati numerabili Ci occupiamo ora di analizzare le catene di Markov con uno spazio degli stati infinito ma numerabile per inferire dei risultati più generali. Definizione 13. Sia (Ω, F, P ) uno spazio di probabilità per una variabile aleatoria estesa X se: X : Ω R (1.64) misurabile su F, dove R = [, ]. Il cui significato è che P (X R) < 1. Nel caso discreto: Definizione 14. X : Ω N dove N = N {, }. Il cui significato è che P (X N ) < 1 o equivalentemente P (X = k) = a k. Allora può verificarsi che: a k < 1 dove N non assume e k N P (X = k) = k N Classificazione degli stati di una catena di Markov omogenea Sia {X n } n= una catena di Markov omogenea su (Ω, F, P ) e uno spazio degli stati E non finito ma numerabile. Definizione 15. Per ogni j E si definisce un tempo aleatorio: τ j (ω) = min {n > ; X n (ω) = j} (1.65) dove τ j (ω) è il primo istante in cui la catena visita lo stato j, naturalmente se assume valore significa che nello stato j non ci entrerà mai. Entriamo quindi nel merito della classificazione degli stati. Sia i E allora: Definizione 16. i è transiente se P i (τ i < ) < 1. Definizione 17. i è ricorrente se P i (τ i < ) = 1. Definizione 18. i è positivamente ricorrente se E i [τ i ] <. Si può dare una caratterizzazione alternativa più efficace di transienza e ricorrenza dopo aver definito la seguente quantità: Definizione 19. N i (ω) = numero di visite nello stato i (è una v.a. estesa). Da cui: Definizione. i è transiente se E i [N i ] <. 18

20 Definizione 1. i è ricorrente se E i [N i ] =. Diamo quindi le condizioni necessarie e sufficienti per transienza e ricorrenza: Teorema 5. Per ogni i, j sia p ij la matrice di transizione. E i [N i ] < E i [N i ] = n= n= p (n) ii < (1.66) p (n) ii = (1.67) Dimostrazione. Iniziamo col dimostrare la doppia implicazione in 1.66 dove E i [N i ] < e quindi vale che E i [N k i ] E i[n i ] < dove k è un numero fissato di passi. Dunque: E i [N k i ] = E i [ = = = k I [Xn=i]] (1.68) n= k E i [I [Xn=i]] (1.69) n= k P i (X n = i) (1.7) n= k n= p (n) ii (1.71) k E i [N k i ] = lim k n= k k n= n= p (n) ii E i [N i ] < (1.7) p (n) ii < (1.73) p (n) ii <. (1.74) Si dimostra la condizione 1.67 analogamente alla prima dato che è il suo complementare. Nota. I è una variabile aleatoria indicatrice e in quanto tale il suo comportamento è quello di una Bernoulli(p), dunque: E[I A ] = 1 P (I A = 1) + P (I A = ) = P (A). Proposizione 6. Se E è finito almeno uno stato ricorrente. 19

21 Dimostrazione. Dire che esiste almeno uno stato ricorrente equivale a dire che non tutti gli stati possono essere transienti. Per definizione: j E è transiente E j [N j ] < E i [N j ] < n= p (n) ij < Dunque per ogni i E e per ogni stato transiente j E la serie n= p(n) ij (dove i termini p ij per definizione) è convergente. Il che implica che al limite: Se E = m con m finito, per definizione: e quindi al limite n lim n p(n) ij = (1.75) lim m j=1 m n j=1 m lim p (n) ij = 1 n p(n) j=1 p (n) ij = 1 ij = 1 significa che per almeno un j, p (n) ij non tende a per n in contaddizione con la 1.75 = da cui j non è transiente. n= p (n) jj Si può dare un risultato ancora più forte di transienza e ricorrenza, ovvero che queste sono proprietà di classe modulo grazie al teorema di solidarietà. Teorema 6 (Solidarietà). Transienza e ricorrenza sono proprietà di classe modulo. Dimostrazione. Supponiamo che i j e i ricorrente. Dato che i j esiste n tale che p (n) ij >. Viceversa, dato che j i esiste m tale che p (m) ji >. Ora consideriamo uno spazio degli stati S e p (n+m+k) jj, per la Chapman - Kolmogorov (usata volte) = p (n+m+k) jj α,β S p (m) jα p(k) αβ p(n) βj p (m) ji p (k) ii p (n) ij = (p (m) ji p (n) ij ) } {{ } c p (k) ii

22 c > infatti per ipotesi p (n) ij > p (m) ij >. Inoltre dato che i è ricorrente si ha che k= p(k) ii = e dunque: l= p (l) jj c k= k= p (m+n+k) jj (1.76) p (k) ii (1.77) = (1.78) e quindi dalla definizione di stato ricorrente si ha che j è ricorrente. Il ragionamento è simmetrico in i e j, quindi se (per ipotesi) i j i è ricorrente j è ricorrente. Dato che la ricorrenza e complementare alla transienza, si ha che se i j allora i è transiente j è transiente. Nota. Nella 1.76 si ha l uguaglianza se m + n =. Definizione. Una classe C è chiusa se: i, j C j è accessibile da i Sulla base di quanto appena dimostrato enunciamo la seguente proposizione importante: Proposizione 7. Se una classe è ricorrente (composta di stati tutti ricorrenti per solidarietà) allora è una classe chiusa. Dimostrazione. Supponiamo che j k e j ricorrente. Se j k allora esiste m tale che p (m) jk > e se j è ricorrente allora: P j (X l j l m) = ovvero dopo m o più passi torno sicuramente in j. = P j (X l j l m) (1.79) P j (X l j l m, X m = k) (1.8) = p (m) jk P k(x l j l m) } {{ } =1 se k j (1.81) p (m) jk > assurdo. (1.8) La 1.8 deriva dal risulato più generale: P (A) P (A B). Mentre la 1.81 si ha per Markovianità. 1

23 1.9 Decomposizione Canonica È possibile decomporre lo spazio degli stati di una catena di Markov nel seguente modo: E = T C 1 C... dove T è l insieme degli stati transienti e C 1 C... sono classi chiuse e disgiunte di stati ricorrenti. Quindi la procedura per decomporre lo spazio degli stati è la seguente: 1. metto in T tutti gli stati transienti;. scelgo uno stato a caso i E \ T ; 3. si costruisce la corrispondente classe ricorrente (e chiusa) C 1 ; 4. scelgo uno stato a caso i 1 E \ (T C 1 ); 5. si costruisce la corrispondente classe ricorrente (e chiusa) C ; 6. ecc. Quindi posso riordinare E in base alle classi di cui è composto: E E = {{... }, {... }, {... },... } } {{ } } {{ } } {{ } T C 1 C da cui la forma canonica di P è: Q 1 Q Q 3... Q n P 1... P P = P P n dove P i è la matrice di transizione della sottocatena corrispondente alla classe C i contenente solo stati ricorrenti. Gli elementi restanti (Q i ) sono stati transienti. Si può notare che per costruzione della matrice che da uno stato transiente è possibile passare a un altro qualsiasi stato, mentre da uno stato ricorrente i è possibile passare solo ad un altro stato della medesima classe di i. 1.1 Esistenza e costruzione di una probabilità invariante (per una C.d.M. a stati numerabili) Per una catena di Markov con un infinità numerabile di stati, non sempre esiste una distribuzione invariante (o stazionaria).

24 Nota. Riprendiamo brevemente il concetto di distribuzione invariante (o stazionaria) per poi dare la definizione di misura invariante. Una probabilità su E è assegnata da una famiglia v = {v i } i E di numeri v i tali che i E v i = 1. Una distribuzione invariante per una catena di Markov su E, di funzione di transizione P, è una probabilità v su E tale che i E si abbia v i = j E v j p ji. (1.83) Esattamente come nel caso di un numero finito di stati si può verificare per ricorrenza che v i = j E v j p (n) ji (1.84) e dunque che se X ha come legge una distribuzione invariante v allora anche X 1, X,... hanno distribuzione v. Osserviamo che se π = πp vale anche a π = a πp dove a R. Definizione 3. Dato un vettore ν = {ν j } j E, esso è una misura invariante per P se ν = ν P con ν j (1.85) Se lo spazio degli stati E è finito allora una misura invariante ν determina univocamente una probabilità (o distribuzione) invariante π infatti ν π = j E ν j (1.86) Proposizione 8. Siano i uno stato ricorrente e ν j il numero atteso di visite in j in un i-ciclo, ovvero ν j = E i [N j ], allora: Dimostrazione. ν = {ν j } j E è una misura invariante. (1.87) i ricorrente P i [τ i < ] = 1 (1.88) τ i ν j = E i [ I [Xn=j]] (1.89) n=1 = E i [ I [Xn=j,n τi ]] (1.9) = = n=1 E i [I [Xn=j,n τi ]] (1.91) n=1 P i (X n = j, n τ i ) (= ν j ) (1.9) n=1 3

25 = p ij + P i (X n = j, n τ i ) (1.93) n= = p ij + P i (X n 1 = k, X n = j, n τ i ) } {{ } n= k i p kj P i (X n 1 =k,n τ i )) (1.94) = p ij + p kj P i (X m = k, m + 1 τ i ) (1.95) = p ij + k i m=1 k i p kj m=1 E i [I [Xm=k,m+1 τ i ]] (1.96) = p ij + k i p kj E i [num. visite in k in un i-ciclo] (1.97) = p ij + k i p kj ν k (1.98) = ν i p ij + k i p kj ν k (1.99) = k E p kj ν k (1.1) (ν 1, ν,..., 1,... ) = ν è invariante. (1.11) Se ν i = 1 ν = ν P ν è una misura invariante. La 1.88 deriva direttamente dalla definizione di ricorrenza. Nella 1.89 la v.a. indicatrice conta quante volte la catena attraversa j. La 1.9 è esattamente uguale alla precedente per il semplice fatto che se n supera τ i l indicatrice I =. E la 1.9 si ottiene sapendo che I è una Bernoulli(p). La 1.94 si ottiene applicando l equazione di Chapman-Kolmogorov, spezzando il cammino da i a j con stato intermedio k. Si ottiene la 1.95 facendo il seguente assegnamento: m = n 1. E nella 1.96 si è portata dentro la seconda sommatoria la prima sommatoria. La 1.99 è vera se e solo se ν i = 1. Corollario. È sufficiente avere uno stato ricorrente per trovare una misura invariante. Per effetto del teorema di solidarietà (teorema 6) se tutti gli stati di una catena comunicano tra di loro, essi sono tutti ricorrenti o tutto transienti. Diciamo che una catena irriducibile (nella quale tutti gli stati comunicano) è transiente o ricorrente a seconda che tutti i sui stati siano transienti o ricorrenti. Una catena irriducibile con un numero finito di stati è certamente ricorrente poichè abbiamo provato che possiede almeno uno stato ricorrente. Se invece gli stati sono un infinità numerabile allora essa può essere transitoria o ricorrente e determinare quale delle due opzioni si verifica è un problema interessante per le applicazioni. Nota. Se lo spazio degli stati E è finito allora esiste una probabilità invariante. 4

26 Teorema 7 (Teorema ergodico o delle medie temporali). Sia {X n } n= una catena di Markov omogenea irriducibile, positivamente ricorrente e tale che i E i [τ i ] < dove S è lo spazio degli stati. Detta π la sua unica probabilità invariante, si ha: lim N per ogni f : E R, f. 1 N N n= f(x n ) = j S f(j)π j (1.1) Nota. Se X π n X n π perché la distribuzione è invariante. f(j)π j = E(f(X n )) = f(j) P (X n = j) } {{ } j S j S π j Esempio 13. Se poniamo f(j) := δ ij = { i j, 1 j = i (1.13) 1 allora lim N N N n= f(x 1 n) = lim N N N n= δ ix n dove δ ixn è la frequenza relativa con cui la catena visita i, e risulta: lim N 1 N n= ergodicità { }} { N 1 N f(x n ) = lim δ ixn = δ ij π j = π i N N n= j S il che significa che con un unica realizzazione del processo posso calcolare la probabilità invariante. E viceversa, si può calcolare il valore atteso del processo, se ci conosce la probabilità invariante. Ci chiediamo ora cosa si può dire in merito al comportamento della catena a regime, ovvero cosa è possibile dire sulla probabilità limite. Teorema 8. Sia M una catena di Markov omogenea ergodica (ovvero irriducibile, positivamente ricorrente e regolare) allora esiste un unica probabilità invariante π che è anche una probabilità limite, ovvero: Dimostrazione. Omessa. lim n p(n) ij = π j Nota. Condizione sufficiente per la regolarità è che la catena sia aperiodica. Definizione 4 (Periodo). Si definisce periodo di uno stato i Uno stato i è detto: d i = MCD{n N : p (n) ii > } (1.14) 5

27 periodico se d i > 1 aperiodico se d i = 1 Proposizione 9. Il periodo è una proprietà di classe modulo. Dimostrazione. Supponiamo che i j e che i abbia periodo d i e j abbia periodo d j. Calcoliamo: p (n+m+k) jj = α,β S p (m) jα p(k) αβ p(n) βi p (m) ji p (n) ij } {{ } c> p (k) ii = cp (k) ii. Dato che p () ii = 1 allora p (m+n) jj >. Dunque possiamo definire n + m = k 1 d j per qualche k 1. Per ogni k > tale che p (k) ii > si ha che p (m+k+n) jj cp (k) ii > perciò: m + k + n = k d j per qualche k intero positivo. Ora, per k tale che p (k) ii > abbiamo: k = (m + k + n) (n + m) = k d j k 1 d j = (k k 1 )d j dunque d j è divisore di {n 1 : p (n) ii > }. Dato che per definizione il massimo comun divisore dell insieme precedente è per definizione d i, possiamo affermare alla luce dei fatti precedenti che d j è un divisore di d i, quindi d i d j. Per simmetria del ragionamento possiamo affermare che d i è divisore di d j e quindi che d j d i. Concludiamo che d j = d i. Estendendo il ragionamento a ogni coppia di stati (i, j) che comunicano tra loro otteniamo che il periodo è una proprietà di classe modulo. 6

28 Capitolo Hidden Markov Models Le catene di Markov viste nel capitolo precedente fanno parte dei modelli di Markov osservabili; in particolare questo significa che gli stati sono visibili direttamente da un osservatore esterno e che ad ogni stato corrisponde un evento fisico. Tali modelli sono restrittivi in molte applicazioni per la risoluzioni di problemi di interesse. Perciò si sono estesi i modelli di Markov per includere i casi in cui l osservazione è una funzione probabilistica di uno stato. In altre parole, non si vede l evento fisico che genera l osservazione, ma si riceve solo il risultato dell evento. Il modello risultante, chiamato modello nascosto di Markov (Hidden Markov Model o HMM), è un processo stocastico non osservabile. Questo non significa che non può essere osservato; infatti si modella attraverso un altro insieme di processi stocastici i quali producono la sequenza delle osservazioni. I modelli nascosti di Markov sono conosciuti particolarmente per le loro applicazioni nel riconoscimento del parlato, della scrittura a mano, nel riconoscimento di textures e nella bioinformatica. In seguito si presentano alcuni esempi di modelli nascosti di Markov per capire meglio il loro funzionamento, poi si presenta la trattazione matematica formale delle catene nascoste di Markov in cui le osservazioni sono discrete e nel caso in cui sono segnali continui (cenni)..1 Esempi di HMM Ora si trattano due esempi per introdurre i HMM: il modello del lancio della moneta (Coin Toss Model); il modello delle palline nell urna (The Urn and Ball Model). Esempio 14 (Coin Toss Model). Si assume che un individuo sia in una stanza in cui vi è una barriera e non può vedere cosa succede dall altra parte. Dall altra parte vi è una persona che effettua un esperimento di lancio di monete. Questa persona dice solo il risultato di ogni lancio della moneta all altro individuo. Quindi la persona riceve una serie di osservazioni di teste e croci; tale sequenza viene rappresentata 7

29 come O = (O 1, O,..., O T ) = (H, H, T, T, T,..., H) per esempio dove T è il simbolo per la testa e H è il simbolo per la croce. Come costruire un HMM che modella la sequenza osservata di teste e croci? Il primo problema è decidere quali e quanti stati del modello creare. Esistono diverse possibilità per risolvere tale problema. Una prima ipotesi è quella di realizzare un modello a due stati, ognuno dei quali rappresenta un lato della moneta (fig..1(a)). In questo caso si è generato un modello di Markov osservabile. Una seconda forma di HMM potrebbe essere un modello a due stati, ognuno dei quali corrisponde a una differente moneta truccata lanciata (fig..1(b)). Ogni stato è caratterizzato dalla probabilità di avere testa o croce. Una terza forma di HMM potrebbe essere quella di considerare un modello a tre stati, che corrispondono a tre monete truccate (fig..1(c)). (a) Modello 1 lancio (b) Modello lanci (c) Modello 3 lanci Figura.1: Tre possibili modelli di Markov per l esempio: lancio della moneta. Vediamo ora una situazione un po più complicata. Esempio 15 (The Urn and Ball Model). Si assuma di avere N urne di vetro in una stanza, ognuna delle quali contiene un numero grande di palline colorate. Si assuma che ci siano M colori distinti. Una persona sceglie un urna iniziale, secondo una qualche legge di un processo casuale. Da questa urna estrae casualmente una pallina; il suo colore rappresenta un osservazione. La pallina è reinserita nell urna da dove è stata estratta. Tale procedimento si itera generando una sequenza finita di osservazioni di colori, così da poter modellare tali osservazioni con un HMM. Il modello più semplice che descrive tale processo è quello in cui ogni stato corrisponde ad un urna specifica e per ogni stato è definita una probabilità di estrarre 8

30 un determinato colore (fig..). La scelta delle urne viene specificato dalla matrice di transizione del HMM. Figura.: Esempio delle palline nell urna. Caratterizzazione di un HMM In questa sezione si definiscono formalmente gli elementi di un HMM e si spiega come il modello genera le sequenze osservate. Un HMM è caratterizzata nel seguente modo: S = {S 1, S,..., S N }: è l insieme degli stati nel modello. Sebbene gli stati siano nascosti, per molte applicazioni pratiche spesso c è qualche significato fisico associato agli stati o ad insiemi di stati. Generalmente gli stati sono interconnessi in modo tale che ogni stato possa essere raggiunto da ogni altro stato (ad esempio un modello ergodico). N è il numero totale degli stati del modello e denotiamo con q t lo stato al tempo t. V = {v 1, v,..., v M }: è l insieme dei simboli osservabili, i quali corrispondono all output fisico del sistema che si sta modellando. Tale insieme identifica l alfabeto del sistema ed M rappresenta il numero di simboli distinti osservabili per stato. A = {a ij }: è la matrice di transizione 1, dove: a ij = P (q t+1 = S j q t = S i ), 1 i, j N (.1) che rappresenta la probabilità di transizione dallo stato S i allo stato S j. In particolare se uno stato può raggiungere qualsiasi altro stato in un singolo passo, si ha che a ij > i, j. Per altri tipi di HMM si avranno a ij = per una o più coppie (i, j). 1 La matrice A ha dimensione NxN 9

31 B = {b j (k)}: è la matrice delle emissioni, dove b j (k) = P (v k al tempo t q t = S j ), 1 j N, 1 k M (.) che è la probabilità di emettere il simbolo v k all istante t dato che il sistema si trova nello stato S j. π = {π i }: è la distribuzione di probabilità iniziale, dove π i = P (q 1 = S i ), 1 i N (.3) che è la probabilità che il sistema sia nello stato i al primo istante. Dati dei valori appropriati di N, M, A, B e π, il HMM può essere usato come un generatore per produrre una sequenza di osservazioni: O = (O 1, O,..., O T ) (.4) dove ogni osservazione O t è un simbolo di V e T è il numero di osservazioni della sequenza. La sequenza O viene generata con il seguente procedimento: (1) Scegliere uno stato iniziale q 1 = S i secondo la distribuzione di probabilità iniziale π. () Inizializzare t = 1. (3) Scegliere O t = v k secondo la distribuzione di probabilità b i (k). (4) Transire in un nuovo stato q t+1 = S j trovando l elemento a ij nella matrice di transizione A. (5) Settare t = t + 1. Se t < T ritornare al passo (3), altrimenti terminare la procedura. Tale procedura può essere usata come un generatore di osservazioni, ma anche come un modello per capire come una data sequenza di osservazioni è stata generata da un HMM appropriato. La sequenza (q 1, q,..., q t ) definisce gli stati che vengono attraversati durante la procedura, quindi indica l evoluzione della catena nascosta di Markov. Definizione 5. Un cammino Q è un insieme ordinato di stati Q = (q 1, q,..., q t ) che vengono percorsi in sequenza. Nota. Per convenienza si usa la notazione compatta λ = (A, B, π) per indicare l insieme di parametri del modello. La matrice B ha dimensione NxM 3

32 .3 Tre problemi fondamentali per gli HMM Dato un HMM λ = (A, B, π) vi sono tre problemi fondamentali di interesse che devono essere risolti per rendere il modello vantaggioso e utile nelle applicazioni reali. Tali problemi vengono descritti in seguito: Problema 1: Data la sequenza di osservazioni O = (O 1, O,..., O T ) e il modello λ = (A, B, π), come computare efficientemente P (O λ)? P (O λ) è la probabilità di avere la sequenza di osservazioni O dato il modello. Problema : Data la sequenza di osservazioni O = (O 1, O,..., O T ) e il modello λ = (A, B, π), come scegliere un cammino Q = (q 1, q,..., q t ) che è ottimale secondo qualche criterio significativo? Problema 3: Come adattare e aggiustare i parametri del modello λ = (A, B, π) al fine di massimizzare P (O λ)? Il Problema 1 viene detto anche problema della valutazione, ovvero dato un modello e una sequenza di osservazioni, come computare la probabilità che la sequenza osservata sia prodotta dal modello. Questo problema può essere visto come il problema di dire in che modo un dato modello si adatta alla sequenza di osservazioni data. Nel Problema, noto come problema della codifica, si tenta di scoprire le parti nascoste del modello, ovvero si cerca la sequenza di stati corretta. Il concetto di correttezza di una sequenza di stati risulta essere un po vago, questo perchè solitamente non si ha la certezza che la sequenza sia corretta. Infatti nelle situazioni pratiche, si usa un criterio di ottimalità per risolvere il problema nel modo migliore possibile. Sfortunatamente ci sono molti criteri di ottimalità ragionevoli che possono essere adottati e quindi la scelta del criterio risulta essere un compito duro. Nel Problema 3, detto anche problema dell addestramento, si tenta di ottimizzare i parametri del modello. Tramite le osservazioni si cerca di rendere il HMM più verosimile possibile alla situazione reale osservata. Perciò la sequenza osservata viene usata per aggiustare i parametri del modello; tale osservazione prende il nome di sequenza di training, perchè viene usata per addestrare il HMM. Ora si analizzano le soluzioni dei problemi descritti sopra..3.1 Soluzione al problema della valutazione Si desidera calcolare la probabilità di osservare la sequenza O = (O 1, O,..., O T ) dato un modello λ, ovvero P (O λ). Un metodo diretto per risolvere tale problema è attraverso l enumerazione di tutte le sequenze di stati possibili di lunghezza T. Si consideri la seguente sequenza di stati Q = (q 1, q,..., q t ) (.5) 31

33 dove q 1 è lo stato iniziale. La probabilità dell osservazione di O data la sequenza di stati Q è T P (O Q, λ) = P (O t q t, λ) (.6) t=1 naturalmente l uguaglianza vale se e solo se si assume l indipendenza statistica delle osservazioni. Tale probabilità si può riscrivere come P (O Q, λ) = b q1 (O 1 ) b q (O )... b qt (O T ). (.7) La probabilità di avere una certa sequenza di stati può essere scritta come P (Q λ) = π q1 a q1 q a q q 3... a qt 1 q T. (.8) La probabilità congiunta di O e Q è il prodotto di.7 e.8, cioè P (O, Q λ) = P (O Q, λ)p (Q λ). (.9) La probabilità di O si ottiene sommando la probabilità congiunta su tutte le sequenze di stati possibili: P (O λ) = P (O Q, λ)p (Q λ) (.1) tutti Q = q 1,q,...,q T π q1 b q1 (O 1 ) a q1 q b q (O )... a qt 1 q T b qt (O T ) (.11) Questa equazione viene interpretata nel seguente modo: al tempo t = 1 la catena si trova nello stato q 1 con probabilità π q1 e genera il simbolo O 1 con probabilità b q1 (O 1 ). Quando il clock cambia dal tempo t al tempo t + 1 (t = ) si effettua la transizione dallo stato q 1 allo stato q con probabilità a q1 q e si genera il simbolo O con probabilità b q (O ). Questo processo continua in questo modo fino al tempo T, dove si effettua la transizione dallo stato q T 1 allo stato q T con probabilità a qt 1 q T e si genera il simbolo O T con probabilità b qt (O T ). Nota. Si può osservare che tale procedura effettua numero di operazioni che è dell ordine di T N T, dove N T rappresenta tutte le possibili sequenze di stati di lunghezza T e T è il numero di operazioni richiesto per ogni termine della somma. Evidentemente tale calcolo è computazionalmente improponibile. Viene introdotta la Procedura Forward-Backward per calcolare P (O λ) in modo efficiente. Procedura Forward-Backward Tale procedura si struttura in due parti: forward e backward. Per ciascuna delle due parti si definiscono due variabili ausiliarie che identificano rispettivamente la probabilità forward e la probabilità backward. 3

34 Definizione 6. La probabilità forward α t (i) = P (O 1, O,..., O t, q t = S i λ) (.1) indica la probabilità di avere la sequenza (parziale) osservata fino al tempo t e di essere nello stato S i al tempo t, dato il modello λ. La probabilità forward si calcola induttivamente nel seguente modo: (1) Inizializzazione (base dell induzione): α 1 (i) = π i b i (O 1 ), 1 i N (.13) () Induzione: ( N ) α t+1 (j) = α t (i) a ij b j (O t+1 ), 1 t T 1 1 j N (.14) i=1 (3) Terminazione: P (O λ) = N α T (i) (.15) i=1 Al primo passo si inizializza la probabilità forward come la probabilità congiunta di essere nello stato S i e di avere l osservazione iniziale O 1. Il passo di induzione viene illustrato in figura.3(a). La figura mostra come lo stato S j è raggiunto da (a) (b) Figura.3: Illustrazione della sequenza di operazioni per il calcolo della probabilità forward α t+1 (i) e della struttura a traliccio per computare α t (i). N possibili stati S i al tempo t + 1. Dato che α t (i) è la probabilità congiunta di osservare (O 1, O,..., O t ) e che lo stato al tempo t sia S i, il prodotto di α t (i)a ij è la probabilità congiunta di ossevare (O 1, O,..., O t ) e che lo stato S j sia raggiunto 33

35 al tempo t + 1 dallo stato S i al tempo t. Sommando questo prodotto su tutti gli N stati S i (1 i N) al tempo t si ottiene la probabilità di essere nello stato S j al tempo t + 1 osservando (O 1, O,..., O t ). Una volta fatto questo si conosce S j ; α t+1 (j) è ottenuto moltiplicando la somma per la probabilità b j (O t+1 ). La computazione di.14 viene effettuata su tutti i stati 1 j N per un dato t; la computazione si itera per t = 1,,..., T 1. Infine si ottiene il valore di P (O λ). Nota. Si può osservare che la parte forward della procedura effettua numero di operazioni che è dell ordine di T N, nettamente inferiore alla complessità dell approccio diretto (T N T ). Il calcolo della probabilità forward è basata su una struttura a traliccio riportato in figura.3(b). Dato che ci sono solo N stati, tutte le possibili sequenze di stati saranno riunite in questi N nodi. Al tempo t = 1 si deve calcolare α 1 (i); ai tempi t =, 3,..., T si calcola il valore di α t (i), utilizzando gli N valori di α t 1 (i) calcolati precedentemente, questo perchè ogni punto della griglia è raggiunto dagli stessi N punti del periodo di tempo precedente. Si è appena visto come calcolare la probabilità forward. Viene utilizzata un idea analoga per il calcolo della probabilità backward. Definizione 7. La probabilità backward β t (i) = P (O t+1, O t+,..., O T q t = S i, λ) (.16) rappresenta la probabilità di avere la sequenza (parziale) osservata dal tempo t + 1 fino alla fine (T ), dato che lo stato sia S i al tempo t e dato il modello λ. Anche la probabilità backward si calcola induttivamente nel seguente modo: (1) Inizializzazione (base dell induzione): () Induzione: β t (i) = β T (i) = 1, 1 i N (.17) N a ij b j (O t+1 ) β t+1 (j) (.18) j=1 con t = T 1, T,..., 1 e 1 i N L inizializzazione definisce β T (i) = 1 per ogni i. Il passo di induzione, che viene schematizzato in figura.4, mostra che per essere nello stato S i al tempo t ed avere la sequenza di osservazioni dal tempo t+1 in poi, si devono valutare tutti i possibili stati S j al tempo t + 1 considerando: la probabilità di passare dallo stato S i allo stato S j, cioè il termine a ij ; la probabilità di avere l osservazione O t+1 nello stato S j, cioè il temine b j (O t+1 ); 34

36 le sequenze parziali delle osservazioni dal tempo t + 1 in poi, cioè il termine β t+1 (j). La parte backward della procedura sopra descritta viene usata per risolvere i problemi della codifica e dell addestramento descritti nelle sezioni successive. Invece la parte forward della procedura da la soluzione del problema della valutazione (calcola P (O λ)). Una volta costruito il modello λ basato sul HMM, P (O λ) rappresenta la probabilità di avere una certa osservazione. Figura.4: Illustrazione della sequenza di operazioni per il calcolo della probabilità backward β t (i). Nota. Anche la parte backward della procedura, come quella forward, effettua numero di operazioni che è dell ordine di T N, dunque risulta molto efficiente l approccio combinato forward-backward..3. Soluzione al problema della codifica Tale problema non ammette soluzione esatta come il problema della valutazione, ma si possono trovare diverse possibili metodi per risolverlo. Il problema della codifica chiede di trovare una sequenza di stati ottimale associata ad una particolare sequenza di ossevazioni data. La difficoltà della risoluzione di tale problema sta nella definizione di cosa si intende per ottimale ; infatti ci sono svariati criteri di ottimalità. Per esempio, un criterio di ottimalità ragionevole potrebbe essere quello di scegliere lo stato q t che è singolarmente più probabile. Questo criterio massimizza il numero atteso di stati singoli corretti. Per implementare tale criterio si definisce la variabile γ t (i) = P (q t = S i O, λ) (.19) che è la probabilità di essere nello stato S i al tempo t, data la sequenza osservata O e il modello λ. L equazione.19 può essere espressa in termini delle probabilità 35

37 forward-backward, cioè γ t (i) = α t(i) β t (i) P (O λ) = α t(i) β t (i) N α t (i) β t (i) i=1 (.) dove α t (i) considera la sequenza parziale (O 1, O,..., O t ), mentre β t (i) tiene conto della parte della sequenza rimanente (O t+1, O t+,..., O T ), dato che al tempo t si ha lo stato S i. Inoltre si può notare il fattore P (O λ) a denominatore, questo per normalizzare α t (i)β t (i) in modo tale da avere una misura di probabilità. Di conseguenza si ha che N i=1 γ t(i) = 1. Usando γ t (i), si può trovare lo stato che è singolarmente più probabile al tempo t nel seguente modo q t = argmax [γ t (i)], 1 t T. (.1) 1 i N L equazione.1 massimizza il numero atteso di stati corretti, però ci potrebbero essere alcuni problemi con la sequenza di stati risultante. Per esempio, quando il HMM ha transizioni la cui probabilità è uguale a zero (a ij = ), la sequenza di stati ottimale potrebbe non essere mai una sequenza valida. Questo è dovuto al fatto che la soluzione di.1 determina semplicemente lo stato più probabile ad ogni istante, senza considerare la probabilità di occorrenza delle sequenze degli stati; in altre parole non si valuta la possibilità che gli stati con probabilità basse siano ripetuti molte volte. Per risolvere tale problema si potrebbero utilizzare diversi criteri di ottimalità. Il criterio più usato e più ragionevole per molte applicazioni pratiche è quello di trovare la sequenza singola di stati migliore. Perciò l idea è quella di massimizzare P (Q O, λ) la quale si traduce nel massimizzare P (Q, O λ). Una tecnica formale per trovare la sequenza singola di stati migliore è l Algoritmo di Viterbi. Algoritmo di Viterbi Al fine di trovare la sequenza singola di stati migliore Q = (q 1, q,..., q T ) per una data osservazione O = (O 1, O,..., O T ), si definisce: Definizione 8. La più alta probabilità lungo un singolo cammino al tempo t, che considera le prime t osservazioni e termina nello stato S j è definita come δ t (i) = per induzione si ha max P (q 1, q,..., q t = S i, O 1, O,..., O t λ); (.) q 1,q,...,q t 1 ( ) δ t+1 (j) = max δ t (i) a ij b j (O t+1 ). (.3) i Si necessita di tenere traccia degli argomenti che massimizzano.3 per ogni t e j; di conseguenza si tiene in memoria l array ψ t (j). La procedura completa per la determinazione della sequenza di stati singola migliore si riporta in seguito: 36

38 (1) Inizializzazione: δ 1 (i) = π i b i (O 1 ), 1 i N (.4) ψ 1 (i) =. (.5) () Ricorsione: ( ) δ t (j) = max δ t 1(i) a ij b j (O t ), 1 j N t T (.6) 1 i N ψ t (j) = argmax δ t 1 (i) a ij 1 j N t T (.7) 1 i N (3) Terminazione: P = max 1 i N δ T (i) (.8) qt = argmax δ T (i) (.9) 1 i N (4) Backtracking del percorso: q t = ψ t+1 (q t+1), t = T 1, T, (.3) Si può notare che tale algoritmo è molto simile all implementazione della parte forward della procedura forward-backward..3.3 Soluzione al problema dell addestramento Il problema è di determinare un metodo per adattare i parametri del modello (A,B e π) in modo da massimizzare la probabilità di osservare una certa sequenza. Non si conosce un metodo analitico per risolvere tale problema; infatti data una qualsiasi osservazione di training, non c è un modo ottimale per stimare i parametri del modello. Di conseguenza si sceglie il modello λ tale che P (O λ) viene massimizzato localmente usando una procedura iterativa come metodo di Baum-Welch, o tecniche basate sul gradiente. Al fine di descrivere la procedura, basata sul metodo di Baum-Welch, per la ristima dei parametri del HMM si definisce una nuova variabile. Definizione 9. La variabile ξ t (i, j) rappresenta la probabilità di partire dallo stato S i al tempo t e di andare nello stato S j al tempo t + 1, dato il modello e l osservazione O; cioè ξ t (i, j) = P (q t = S i, q t+1 = S j O, λ). (.31) 37

39 La variabile ξ t (i, j) può essere riscritta in termini delle probabilità forward e backward: ξ t (i, j) = α t(i) a ij b j (O t+1 ) β t+1 (j) P (O λ) α t (i) a ij b j (O t+1 ) β t+1 (j) = N N α t (i) a ij b j (O t+1 ) β t+1 (j) i=1 j=1 (.3) (.33) dove il numeratore è P (q t = S i, q t+1 = S j, O λ) e si normalizza dividendo per P (O λ) così da dare una misura di probabilità (dalla definizione di probabilità congiunta). Percedentemente si è definita la probabilità γ t (i); questa si può mettere in relazione con ξ t (i, j) sommandolo su tutti i j γ t (i) = N ξ t (i, j). (.34) j=1 Se sommiamo γ t (i) su tutti i t si ha il numero atteso di volte che lo stato S i è stato visitato, o in altre parole si ha il numero atteso di transizioni fatte dallo stato S i. Similarmente se sommiamo ξ t (i, j) su tutti i t si trova il numero atteso di transizioni dallo stato S i allo stato S j. Riassumendo: T 1 γ t (i) = numero atteso di visite in S i, (.35) t=1 T 1 ξ t (i, j) = numero atteso di transizioni da S i a S j. (.36) t=1 Usando le formule sopra si può dare un metodo per la ristima dei parametri di un HMM. Le espressioni per la ristima di π, A e B sono π i = numero atteso di visite in S i al tempo (t = 1) = γ 1 (i) (.37) a ij = numero atteso di transizioni da S i a S j numero atteso di visite in S i = T 1 ξ t (i, j) t=1 T 1 γ t (i) t=1 (.38) 38

40 b j (k) = numero atteso di visite in S j con osservazione di v k (.39) numero atteso di visite in S j T γ t (j) t=1 e O t=v = k (.4) T γ t (j) t=1 Se si ha un modello λ = (A, B, π) tramite queste formule si può ristimare il modello come λ = (A, B, π). Baum ha dimostrato che vi sono due casi: il modello iniziale λ definisce un punto critico per la funzione di verosomiglianza, in questo caso si ha λ = λ; il modello λ è più verosimile del modello λ nel senso che P (O λ) > P (O λ), ovvero si è trovato un nuovo modello λ in cui è più probabile produrre la sequenza osservata O. Ci si può basare sulla procedura appena descritta per effettuare una ristima sistematica dei paramentri. In altre parole, una volta trovato λ che è la stima di λ, si pone λ = λ e si itera il procedimento effettuando una ristima di λ. In questo modo si migliora la probabilità che O sia osservata dal modello; il procedimento termina quando si è raggiunto un punto limite, in cui non si hanno più miglioramenti. Il risultato finale di tale procedura viene chiamato stima di massima verosimiglianza (o meglio maximum likelihood estimate) del HMM. La formula per la ristima dei parametri può essere derivata direttamente massimizzando la funzione ausiliaria di Baum. Definizione 3. Si definisce la funzione ausiliaria di Baum come la somma su tutte le sequenze di stati Q della probabilità di avere Q data l osservazione O e il modello λ moltiplicata per il logaritmo della probabilità congiunta tra O e Q dato il modello ristimato λ. Più formalmente Q(λ, λ) = Q P (Q O, λ) log P (O, Q λ). (.41) La massimizzazione di.41 incrementa la verosimiglianza max Q(λ, λ) P (O λ) P (O λ). (.4) λ Infine, iterando il procedimento, la funzione di verosimiglianza converge ad un punto critico (limite). Nota. Un aspetto importante della procedura di ristima è che i parametri del HMM 39

41 hanno vincoli stocastici; formalmente N π i = 1 (.43) i=1 N a ij = 1, 1 i N (.44) j=1 N b j (k) = 1, 1 j N (.45) k=1 e sono automaticamente soddisfatti ad ogni iterazione della procedura. Un strada alternativa per risolvere il problema dell addestramento è utilizzare una tecnica basata sul gradiente. In questo caso si utilizza una metodo meglio noto in letteratura come tecnica dei moltiplicatori di Lagrange. Può essere utilizzata per massimizzare P (O λ) che ha come vincoli le equazioni.43,.44 e.45. Si ottengono così i paramentri ottimali del modello. Sono state testate dai ricercatori entrambe le procedure e hanno dimostrato che producono soluzioni comparabili alle procedure standard di ristima..4 Osservazioni con densità continua nei HMMs Fino a questo punto si è considerato solo il caso in cui le osservazioni sono caratterizzate da simboli discreti scelti da un alfabeto finito. In molte applicazioni le osservazioni sono segnali continui. Sebbene sia possibile effettuare una quantizzazione per renderli discreti, questa potrebbe causare degradazioni del segnale originale. Per questo motivo è necessario introdurre i HMMs che considerano le osservazioni con densità continua. Per utilizzare tali HMMs si devono aggiungere delle restrizioni tramite una funzione di densità di probabilità (pdf), così che si possano ristimare i parametri in modo consistente. La forma più generale di questa funzione è una mistura della forma seguente M b j (O) = c jm G(O, µ jm, U jm ), 1 j N, (.46) m=1 dove O è l osservazione con densità continua, c jm è il coefficiente di mistura per l m-esima mistura riferita allo stato S j e G è una densità di probabilità logaritmica concava o ellittica simmetrica, dove µ jm è la media e U jm è la matrice di covarianza. Solitamente viene usata una Gaussiana per G. Il coefficiente c jm soddisfa il vincolo M c jm = 1, 1 j N (.47) m=1 c jm, 1 j N, 1 m M (.48) 4

42 così la funzione di densità di probabilità è normalizzata b j (x) dx = 1, 1 j N. (.49) In questo modo si possono ristimare i parametri in modo consistente. Le formule per a ij e per π i sono identiche a quelle usate per le osservazioni con densità discreta. Ristimare il parametro b j (O), si traduce nella ristima dei parametri c jm, µ jm e U jm. La formula di ristima per c ik è la frazione tra il numero atteso di transizioni in S j della k-esima mistura e il numero atteso di visite in S j. Mentre nella ristima di µ jk si pesa il numero atteso di transizioni in S j della k-esima mistura con l osservazione; dunque da il valore atteso della porzione di osservazione considerando la k-esima mistura. Infine nel calcolo di U jk si pesa il numero atteso di transizioni in S j della k-esima mistura con la covarianza dell osservazione rispetto la media..5 Comparazione di HMMs Dati due HMMs, λ 1 e λ, ci si può domandare: quanto simili sono i due modelli? Questo concetto viene detto criterio di similarità. Definizione 31. La misura di distanza tra due modelli di Markov λ 1 e λ si definisce come D(λ 1, λ ) = 1 ( ) log P (O () λ 1 ) log P (O () λ ) (.5) T dove O () = (O 1, O,..., O T ) è la sequenza di osservazioni generata dal modello λ. L equazione.5 da una misura di quanto bene λ 1 modella l osservazione generata λ, relativa a quanto bene λ modella l osservazione generata dallo stesso. L equazione.5 non è simmetrica; per renderla simmetrica si usa la seguente formula: D s (λ 1, λ ) = D(λ 1, λ ) + D(λ, λ 1 ). (.51) Ora si hanno tutti gli strumenti necessari per provare ad utilizzare i HMMs per qualche applicazione nell ambito scientifico-tecnologico. A tal fine nel prossimo capitolo si analizza una particolare applicazione di tali modelli nell ambito della Pattern Recognition. 41

43 Capitolo 3 Applicazioni utilizzando i HMMs In questo capitolo si analizzano 3 applicazioni utilizzando gli Hidden Markov Model nell ambito della riconiscimento di gesti e nell ambito della quantizzazione di segnali. In particolare, si analizzano 3 problemi diversi per vedere i limiti e i punti di forza dei modelli di Markov a stati nascosti. Il primo è il problema della quantizzazione dei livelli di grigio di una sequenza video (avi non compresso). Il secondo è volto al confronto tra modelli di aree diverse dello stesso video segmentato (foreground-background). Infine nel terzo si hanno filmati segmentati di movimenti differenti, e lo scopo è quello di classificare e dunque di riconoscere i video. Questi esempi sono riportati in seguito. Esempio 16. (Davide Fasoli) Consideriamo tre sequenze video differenti, una che rappresenta una persona che batte le mani (clapping), una persona che corre (run), ed infine una persona che saluta (waving). Lo scopo di tale esempio è di addestrare una HMM per pixel, al fine di quantizzare i livelli di grigio. Affronteremo nell esempio il problema dell addestramento ottimizzando i parametri della HMM utilizzando il metodo di Baum-Welch, risolvendo poi il problema della codifica dove tenteremo di scoprire le parti nascoste, cercando la sequenza di stati corretta, attraverso l algoritmo di viterbi. Per fare ciò inizializziamo una HMM continua la quale è formata da 4 stati (che essenzialmente saranno 4 livelli di grigio), che viene addestrata durante il processo, infine tramite Viterbi troviamo la più alta probabilità lungo un singolo cammino attraverso gli stati della HMM. L associazione tra lo stato e il giusto livello di grigio viene effettuato considerando la media della gaussiana del modello. In questo modo si ha una stima abbastanza verosimile, perchè nelle zone che non variano tanto lungo la sequenza, la media sarà costante e quindi si assegna un valore simile a tutti gli stati di quel particolare modello. Applicando questa procedura abbiamo una versione quantizzata del video iniziale. Le immagini osservate così non hanno senso, andrebbero osservate in sequenza. La presenza di pixel neri può essere data dal fatto che il numero di iterazioni scelte per l addestramento della HMM non sono sufficienti. 4

44 (a) Frame di partenza del video (b) Frame ottenuto con l addestramento Figura 3.1: Confronto tra un immagine della sequenza iniziale e un immagine della sequenza addestrata (a) Frame di partenza del video (b) Frame ottenuto con l addestramento Figura 3.: Confronto tra un immagine della sequenza iniziale e un immagine della sequenza addestrata (a) Frame di partenza del video (b) Frame ottenuto con l addestramento Figura 3.3: Confronto tra un immagine della sequenza iniziale e un immagine della sequenza addestrata 43

45 Esempio 17. (Diego Tosato) Vogliamo ora vedere il comportamento delle sequenze video considerando delle macro - regioni che compongono il flusso video. Ovvero, considerando un singolo frame che compone la sequnza del flusso video esso viene splittato in 16 quadranti. Per ognuno di questi quadranti addestriamo una hmm con la procedura iterativa spiegata nel capitolo. Vogliamo quindi valutare la distanza tra i diversi modelli addestrati. Il fine di tale confronto è quello di capire se ci sono modelli che si adattano a più reguioni del video. Il che implicherebbe che in quadranti diversi del video vengono eseguiti movimenti simili. Entriamo nel dettaglio dei dati che vengono analizzati in questo esempio che sono nettamente diversi dal caso precedente. In questo caso le sequenze video per ogni tipo di gesto sono di tipo logico. Ovvero si i pixels che compongono ogni singolo frame della sequenza possono assumere solo i valori i{, 1}. Il che significa che i video sono segmentati tra figura e sfondo. I gesti contenuti nelle sequenze video sono tali e quli ai precedenti: applauso, corsa e saluto. Introduciamo la formula della distanza adottata per valutare la somiglianza tra i modelli: D(λ 1, λ ) = P (O 1 λ ) + P (O λ 1 ). Dalla quale si vede immediatamente che per essere calcolata è necessario risolvere il problema della valutazione trattato nel capitolo precedente che in generale vuole trovare un modo efficiente per calcolare la probabilità che una data sequenza di osservazioni O appartenga a un ben preciso modello λ: P (O λ). Inolrte si nota anche la formula adottata è simmetrica. Ora esponiamo bervemente la sequenza di passi che ci ha portato alla risoluzione di quest esempio. Nella prima fase abbiamo costruito i modelli delle hmm per ogni quadrante costruendo le matrici A, B e quindi ottenendo λ i = (A i, B i, π i ) con 1 i 16. Per ogni λ i il vettore delle osservazioni O i contiene i dati proprio di ogni quadranti opportunamente linearizzati e tali che O i = (O i1, O i,..., O it ) dove T è il numero totale di frame per sequenza video. A priori abbiamo scelto la cardinalità degli stati nascosti, posta uguale a 3. In una seconda fase tramite la procedura di Baum - Welch ristimiamo i parametri del modello per trovare il modello ottimale per ogni quadrante. Per evitare che la procedura diverga fissiamo un limite al numero di iterazioni pari a 1 (il limite viene posto anche perché un numero di iterazioni elevato può causare overfitting). La procedura di ristima, dunque massimizza la funzione di likehood propria al metodo di Baum - Welch. Calcoliamo tramite la procedura forwards P (O λ) (terza fase). Per eseguire tale calcolo usiamo i modelli che sono il risultato del passo di ottimizzazione precedente. Come detto inizialmente viene fatto per tutte le possibili combinazioni di modelli e di osservazioni: P (O i λ j ) 1 i, j 16 In fine si calcola la distanza tra tutte le possibili coppie di modelli con la formula introdotta sopra Dunque dato che la distanza è simmetrica si ottiene una matrice 44

46 simmetrica che contiene una misura di quanto bene un modello addestrato su una data regione del video si adatta alle altre regioni e viceversa. Il range di valori che la distanza D può assumere è [, ]. In particolare più ci si avvicina allo più i modelli sono simili. Con i casi con D = quindi i modelli sono uguali e D = quindi i modelli sono diversi. I test effettuati sui tre diversi tipi di sequenze confermano le ipotesi. Le sequenze dove il soggetto in foreground applaude o saluta evidenziano che le hmm dei quadranti dove è eseguito il gesto sono molto simili in termini di distanza tra i modelli. E quindi nella matrice finale si notano delle zone dove la distanza è vicina allo. Tutt altra situazione quella che si ricava dal video dove il soggetto in foreground corre da una parte all altra della scena ripresa. In questo caso I modelli non localizzano alcuna zona dove i modelli sono nettamente diversi. E quindi non è possibile riconoscere dove avvenga il gesto. Presentiamo ora la parte sperimentale evidenziando esempi significativi per tipologia di gesto. Sono state fatte diverse prove per individuare un numero di stati adeguato per le hmm e dato che non si possiede una procedura automatica per la selezione del numero di stati ottimale per i modelli abbiamo fissato il numero a 8. Nel dettaglio: griglia utilizzando un modello a 8 stati per il gesto applauso; griglia 4 4 utilizzando un modello a 8 stati per il gesto applauso; griglia utilizzando un modello a 8 stati per il gesto corsa; griglia 4 4 utilizzando un modello a 8 stati per il gesto corsa; griglia utilizzando un modello a 8 stati per il gesto saluto; griglia 4 4 utilizzando un modello a 8 stati per il gesto saluto; Per tutti questi esperimenti si evidenzia un miglioramento qualitativo dei risultati nel caso in cui la griglia sia divisa più dettagliatamente ovvero in 16 quadranti. Quindi ci aspettiamo che all aumentare del numero di quadranti i risultati siano sempre più accurati. In particolare la localizzazione spaziale delle zone dove i modelli sono simili è molto più precisa. In tutti i grafici presentati in questo esempio sia nell asse delle ascisse che in quello delle ordinate sono indicizzati i modelli. Essendo rappresentata la distanza formulata im modo simmetrico, tutte le matrici sono simmetriche. E quindi quindi sulla diagonale si hanno i valori di distanza più vicini allo dato che si valuta la distanza tra due modelli uguali. Vediamo quindi cosa accade nel caso il gesto in considerazione sia l applauso nelle figure 3.4. Si evidenziano chiaramente delle zone dell immagine nettamente differenti (quelle da dove avviene il festo da quelle dove non avviene) in blu. Viceversa si evidenziano delle zone molto simili fuori dalla diagonale dove verosimilmente avviene l applauso in rosso. Come detto in precedenza l localizzione è molto piì precisa quando la griglia è divisa in 16 blocchi. Vediamo nella figura 3.5 come si comportano le hmm modellate nel caso della corsa. In questo caso il gesto della corsa non 45

47 è efficacemente modellabile infatti nella matrice delle distanza non si evidenzia alcuna area dove avviene la corsa. Infatti questo gesto convolge quasi tutta la scena e non si distinguono dei blocchi della matrice dove le distanze sono elevate. Per ultimo il gesto del saluto in figura 3.6 che, come nel primo caso, tornano a essere efficaci nel riconoscimento del gesto. Infatti si evidenziano le zone dove avviene il saluto nettamente distinte dallo sfondo in blu anche in questo caso. (a) griglia (b) griglia 4 4 Figura 3.4: Risultati del confronto tra modelli: applauso. (a) griglia (b) griglia 4 4 Figura 3.5: Risultati del confronto tra modelli: corsa. 46

48 (a) griglia (b) griglia 4 4 Figura 3.6: Risultati del confronto tra modelli: saluto. Esempio 18. (Loris Bazzani) Si considerino quindici sequenze video differenti, le quali sono suddivise in tre categorie: 5 sequenze contenenti una persona che batte le mani (clapping); 5 sequenze contenenti una persona che corre (running); 5 sequenze contenenti una persona che saluta (waving). Lo scopo di tale esempio è quello di addestrare un HMM multidimensionale per ogni filmato. Dopo aver creato il modello lo si ottimizza e si confronta con gli altri modelli. Prima di fare ciò, ai video si è stata applicata una fase di preprocessing, al fine di estrapolare una sorta di segmentazione tra background e foreground. Dopo tale fase ogni frame del filmato è una matrice che contiene solo valori logici ( che rappresenta il nero e 1 che rappresenta il bianco). Per ricavare l osservazione O, prima si suddivide ogni frame del filmato in N quadranti. Per ogni quadrante si calcola il numero di 1 presenti. Quindi l informazione ora è cambiata: non si ha più un filmato, ma si ha una sequenza {O i } T i=1 dove ogni O i contiene N elementi. Perciò si parla di osservazione multidimensionale: O = (O 1, O,..., O T ). In altre parole, al termine di tale procedimento si ha una nuova sequenza i cui frame avranno dimensione N. Tali passaggi vengono schematizzati in figura 3.7. Fatto questo, si ha l osservazione O; il passo successivo è quello di risolvere il problema della valutazione e quello dall addestramento descritti nel capitolo precedente. In particolare prima di tutto si inizializza il HMM dandogli in input l osservazione multidimensionale e il numero di stati del modello (che viene scelto a priori). Poi si addestra il modello, ovvero si effettua la ristima dei parametri in modo da ottimizzare la funzione di verosimiglianza (maximum likelihood estimate) attraverso il metodo di Baum-Welch. Infine si calcola la probabilità P (O λ) del modello ottimizzato tramite la procedura forward. Il calcolo di P (O λ) viene effettuato per ogni O, ovvero per ogni filmato dato il modello che stiamo considerando. Tale procedura si itera sistematicamente su tutti le sequenze video. 47

49 Figura 3.7: Schema per la realizzazione di un osservazione Alla fine si ottiene una matrice P (O i λ j ), che ci dice come un dato modello si adatta ad una osservazione generata da altri modelli. Per un problema di precisione di macchina P (O i λ j ) viene espesso in forma logaritmica (log P (O i λ j )). Per confrontare i vari modelli calcoliamo la seguente distanza D: D(λ i, λ j ) = P (O i λ j ) + P (O j λ i ). Si effettua una media tra le due probabilità in modo da rendere simmetrica D. Tale distanza ci dice se il modello λ i è migliore del modello λ j. Ogni elemento di tale matrice ha un valore nell intervallo [, ], dove indica che i modelli sono nettamente differenti, mentre indica che i modelli sono uguali. Perciò un valore di D vicino a indica che i modelli sono simile, mentre se è distante da si deduce che i due modelli sono differenti. Da questa osservazione si può intuire che dato un modello di una certa sequenza (per esempio running) se confrontato con sequenze simili si hanno valori che tendono a, mentre se confrontato con sequenze diverse (ad esempio clapping) i valori tenderanno a. Questo ragionamento ci suggerisce una tecnica di riconoscimento dei gesti. Al contrario degli altri esempi si utilizza un osservazione multidimensionale. Con tale tipo di osservazione si genera un modello i cui parametri sono multidimensionali. Sono stati effettuati diversi esperimenti variando sul numero di quadranti con cui si è suddiviso i filmati (N) e sul numero di stati. In seguito si presentano le seguenti prove: 48

50 griglia utilizzando un modello a 4 stati; griglia utilizzando un modello a 8 stati; griglia 4 4 utilizzando un modello a 4 stati; griglia 4 4 utilizzando un modello a 8 stati. I risultati vengono riportati in forma grafica nelle figure 3.8, 3.9, 3.1 e L immagine di sinistra rappresenta le distanze D(λ i, λ j ), mentre quella di destra rappresenta la likelihood P (O i, λ j ). I colori tendenti al rosso indicano valori vicini allo zero, mentre il blu indica valori vicini a. I modelli indicati nelle figure sono in sequenza quelli relativi ai filmati elencati sopra; in particolare i primi 5 sono i clapping, poi seguono i 5 di running ed infine i rimanenti di waving. I grafici delle distanze tra i diversi modelli D ci indicano che i alcuni modelli delle diverse osservazioni sono simili tra loro, mentre altri sono diversi. Ci si aspettavano delle matrici delle distanze simmetriche diagonali a blocchi, ovvero con valori tendenti a per i modelli della stessa classe e valori tendenti a per il resto. Questo perchè i modelli della stessa classe di movimenti dovrebbero essere simili. L esperimento che più rappresenta tale situazione è quello con una griglia e 8 stati (figura 3.9(a)). Si nota che aumentando il numero di stati la situazione si avvicina di più alla situazione ideale. Però se si aumenta la dimensione della griglia si hanno delle distanze poco verosimili, infatti nelle figure 3.1(a) e 3.11(a) si nota le distanze più vicine allo si hanno se si confronta un modello con se stesso (la diagonale della matrice). Naturalmente si potrebbero provare delle situazioni intermedie variando sulla dimensione della griglia e sul numeri di stati per trovare dei modelli più generali e più utili per il riconoscimento dei movimenti. Bisogna però porre attenzione e non incorrere nel problema dell overfitting, ovvero si crea un modello con troppi gradi di libertà così da rendere il modello troppo generale e quindi non in grado di adattarsi alla situazione in esame. Al fine di effettuare il riconoscimento dei filmati e quindi di classificarli in una delle classi dei movimenti, consideriamo le figure delle likelihood: 3.8(b), 3.9(b), 3.1(b) e 3.11(b). Anche in questo caso la situazione ideale è una matrice diagonale a blocchi. Si nota che in nessuna delle figure si ha tale situazione; perciò si può dedurre che la classificazione dei movimenti non va a buon fine. Anche nella likelihood si può notare che all aumentare dei stati (figure 3.1(b) e 3.11(b)) vi è overfitting. Riassumendo si è visto che non si riesce a fare riconoscimento in modo accurato. Per migliorare tale situazione si potrebbe aggiungere uno step preliminare di model selection ; tale fase serve per determinare preventivamente il numero di stati che deve avere un HMM. Infatti la scarsa accuratezza nella classificazione è dovuta prevalentemete alla scelta errata del numero di stati. 49

51 (a) Distanza tra i modelli (b) Likelihood Figura 3.8: Risultati del modello a 4 stati con una griglia (a) Distanza tra i modelli (b) Likelihood Figura 3.9: Risultati del modello a 8 stati con una griglia (a) Distanza tra i modelli (b) Likelihood Figura 3.1: Risultati del modello a 4 stati con una griglia 4 4 5

52 (a) Distanza tra i modelli (b) Likelihood Figura 3.11: Risultati del modello a 8 stati con una griglia 4 4 Concludendo si è visto che il primo esempio ha avuto successo, ovvero i filmati analizzati sono stati quantizzati in modo abbastanza affidabile e verosimile. Nel secondo esempio si è visto che alcune aree dei filmati i modelli creati sono molto differenti; in particolare nel caso della corsa si nota che le HMM sono abbastanza simili tra loro. Infine nell ultimo esempio si nota che vi è il riconoscimento dei filmati della stessa classe, ma si inferisce la classe sbagliata in alcuni casi. 51

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k

u 1 u k che rappresenta formalmente la somma degli infiniti numeri (14.1), ordinati al crescere del loro indice. I numeri u k Capitolo 4 Serie numeriche 4. Serie convergenti, divergenti, indeterminate Data una successione di numeri reali si chiama serie ad essa relativa il simbolo u +... + u +... u, u 2,..., u,..., (4.) oppure

Dettagli

Matematica generale CTF

Matematica generale CTF Successioni numeriche 19 agosto 2015 Definizione di successione Monotonìa e limitatezza Forme indeterminate Successioni infinitesime Comportamento asintotico Criterio del rapporto per le successioni Definizione

Dettagli

1 Serie di Taylor di una funzione

1 Serie di Taylor di una funzione Analisi Matematica 2 CORSO DI STUDI IN SMID CORSO DI ANALISI MATEMATICA 2 CAPITOLO 7 SERIE E POLINOMI DI TAYLOR Serie di Taylor di una funzione. Definizione di serie di Taylor Sia f(x) una funzione definita

Dettagli

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) PROBABILITÀ -

Dettagli

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell

Dettagli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe

Dettagli

1. PRIME PROPRIETÀ 2

1. PRIME PROPRIETÀ 2 RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,

Dettagli

Metodi Computazionali

Metodi Computazionali Metodi Computazionali Elisabetta Fersini fersini@disco.unimib.it A.A. 2009/2010 Catene di Markov Applicazioni: Fisica dinamica dei sistemi Web simulazione del comportamento utente Biologia evoluzione delle

Dettagli

Esercizi di Calcolo delle Probabilita (I)

Esercizi di Calcolo delle Probabilita (I) Esercizi di Calcolo delle Probabilita (I) 1. Si supponga di avere un urna con 15 palline di cui 5 rosse, 8 bianche e 2 nere. Immaginando di estrarre due palline con reimmissione, si dica con quale probabilità:

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

1 Applicazioni Lineari tra Spazi Vettoriali

1 Applicazioni Lineari tra Spazi Vettoriali 1 Applicazioni Lineari tra Spazi Vettoriali Definizione 1 (Applicazioni lineari) Si chiama applicazione lineare una applicazione tra uno spazio vettoriale ed uno spazio vettoriale sul campo tale che "!$%!

Dettagli

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S

Teoria delle code. Sistemi stazionari: M/M/1 M/M/1/K M/M/S Teoria delle code Sistemi stazionari: M/M/1 M/M/1/K M/M/S Fabio Giammarinaro 04/03/2008 Sommario INTRODUZIONE... 3 Formule generali di e... 3 Leggi di Little... 3 Cosa cerchiamo... 3 Legame tra N e le

Dettagli

Proof. Dimostrazione per assurdo. Consideriamo l insieme complementare di P nell insieme

Proof. Dimostrazione per assurdo. Consideriamo l insieme complementare di P nell insieme G Pareschi Principio di induzione Il Principio di Induzione (che dovreste anche avere incontrato nel Corso di Analisi I) consente di dimostrare Proposizioni il cui enunciato è in funzione di un numero

Dettagli

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI Abbiamo studiato successioni e serie numeriche, ora vogliamo studiare successioni e serie di funzioni. Dato un insieme A R, chiamiamo successione di funzioni

Dettagli

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita? Viene lanciata una moneta. Se esce testa vinco 00 euro, se esce croce non vinco niente. Quale è il valore della mia vincita? Osserviamo che il valore della vincita dipende dal risultato dell esperimento

Dettagli

Calcolo delle Probabilità

Calcolo delle Probabilità Calcolo delle Probabilità Il calcolo delle probabilità studia i modelli matematici delle cosidette situazioni di incertezza. Molte situazioni concrete sono caratterizzate a priori da incertezza su quello

Dettagli

Ottimizzazione Multi Obiettivo

Ottimizzazione Multi Obiettivo Ottimizzazione Multi Obiettivo 1 Ottimizzazione Multi Obiettivo I problemi affrontati fino ad ora erano caratterizzati da una unica (e ben definita) funzione obiettivo. I problemi di ottimizzazione reali

Dettagli

Cosa dobbiamo già conoscere?

Cosa dobbiamo già conoscere? Cosa dobbiamo già conoscere? Insiemistica (operazioni, diagrammi...). Insiemi finiti/numerabili/non numerabili. Perché la probabilità? In molti esperimenti l esito non è noto a priori tuttavia si sa dire

Dettagli

Modelli stocastici a valori discreti

Modelli stocastici a valori discreti Modelli stocastici a valori discreti Note del corso di CP per la L.M. in Informatica A.Calzolari 1 Indice 1 Catene di Markov a tempo discreto 4 1.1 Richiami sull indipendenza stocastica per eventi e variabili

Dettagli

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni Analisi dei Dati 1/13 Esercizi proposti 3 soluzioni 0.1 Un urna contiene 6 palline rosse e 8 palline nere. Si estraggono simultaneamente due palline. Qual è la probabilità di estrarle entrambe rosse? (6

Dettagli

Test statistici di verifica di ipotesi

Test statistici di verifica di ipotesi Test e verifica di ipotesi Test e verifica di ipotesi Il test delle ipotesi consente di verificare se, e quanto, una determinata ipotesi (di carattere biologico, medico, economico,...) è supportata dall

Dettagli

Ottimizazione vincolata

Ottimizazione vincolata Ottimizazione vincolata Ricordiamo alcuni risultati provati nella scheda sulla Teoria di Dini per una funzione F : R N+M R M di classe C 1 con (x 0, y 0 ) F 1 (a), a = (a 1,, a M ), punto in cui vale l

Dettagli

Probabilità discreta

Probabilità discreta Probabilità discreta Daniele A. Gewurz 1 Che probabilità c è che succeda...? Una delle applicazioni della combinatoria è nel calcolo di probabilità discrete. Quando abbiamo a che fare con un fenomeno che

Dettagli

Note su quicksort per ASD 2010-11 (DRAFT)

Note su quicksort per ASD 2010-11 (DRAFT) Note su quicksort per ASD 010-11 (DRAFT) Nicola Rebagliati 7 dicembre 010 1 Quicksort L algoritmo di quicksort è uno degli algoritmi più veloci in pratica per il riordinamento basato su confronti. L idea

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

15 febbraio 2010 - Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a. 2009-2010 COGNOME... NOME... N. MATRICOLA...

15 febbraio 2010 - Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a. 2009-2010 COGNOME... NOME... N. MATRICOLA... 15 febbraio 010 - Soluzione esame di geometria - 1 crediti Ingegneria gestionale - a.a. 009-010 COGNOME.......................... NOME.......................... N. MATRICOLA............. La prova dura

Dettagli

Applicazioni lineari

Applicazioni lineari Applicazioni lineari Esempi di applicazioni lineari Definizione. Se V e W sono spazi vettoriali, una applicazione lineare è una funzione f: V W tale che, per ogni v, w V e per ogni a, b R si abbia f(av

Dettagli

Indice. 1 Introduzione alle Equazioni Differenziali 1 1.1 Esempio introduttivo... 1 1.2 Nomenclatura e Teoremi di Esistenza ed Unicità...

Indice. 1 Introduzione alle Equazioni Differenziali 1 1.1 Esempio introduttivo... 1 1.2 Nomenclatura e Teoremi di Esistenza ed Unicità... Indice 1 Introduzione alle Equazioni Differenziali 1 1.1 Esempio introduttivo............................. 1 1.2 Nomenclatura e Teoremi di Esistenza ed Unicità.............. 5 i Capitolo 1 Introduzione

Dettagli

x u v(p(x, fx) q(u, v)), e poi

x u v(p(x, fx) q(u, v)), e poi 0.1. Skolemizzazione. Ogni enunciato F (o insieme di enunciati Γ) è equisoddisfacibile ad un enunciato universale (o insieme di enunciati universali) in un linguaggio estensione del linguaggio di F (di

Dettagli

Introduzione al MATLAB c Parte 2

Introduzione al MATLAB c Parte 2 Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione

Dettagli

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano Capitolo 4: Ottimizzazione non lineare non vincolata parte II E. Amaldi DEIB, Politecnico di Milano 4.3 Algoritmi iterativi e convergenza Programma non lineare (PNL): min f(x) s.v. g i (x) 0 1 i m x S

Dettagli

Capitolo 4 Probabilità

Capitolo 4 Probabilità Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 4 Probabilità Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.

Dettagli

Luigi Piroddi piroddi@elet.polimi.it

Luigi Piroddi piroddi@elet.polimi.it Automazione industriale dispense del corso 10. Reti di Petri: analisi strutturale Luigi Piroddi piroddi@elet.polimi.it Analisi strutturale Un alternativa all analisi esaustiva basata sul grafo di raggiungibilità,

Dettagli

RETI DI TELECOMUNICAZIONE

RETI DI TELECOMUNICAZIONE RETI DI TELECOMUNICAZIONE SISTEMI M/G/1 e M/D/1 Sistemi M/G/1 Nei sistemi M/G/1: i clienti arrivano secondo un processo di Poisson con parametro λ i tempi di servizio hanno una distribuzione generale della

Dettagli

5. La teoria astratta della misura.

5. La teoria astratta della misura. 5. La teoria astratta della misura. 5.1. σ-algebre. 5.1.1. σ-algebre e loro proprietà. Sia Ω un insieme non vuoto. Indichiamo con P(Ω la famiglia di tutti i sottoinsiemi di Ω. Inoltre, per ogni insieme

Dettagli

Probabilità II Variabili casuali discrete

Probabilità II Variabili casuali discrete Probabilità II Variabili casuali discrete Definizioni principali. Valore atteso e Varianza. Teorema di Bienaymé - Čebičev. V.C. Notevoli: Bernoulli e Binomiale. Concetto di variabile casuale Cos'è una

Dettagli

Massimi e minimi vincolati

Massimi e minimi vincolati Massimi e minimi vincolati In problemi di massimo e minimo vincolato viene richiesto di ricercare massimi e minimi di una funzione non definita su tutto R n, ma su un suo sottoinsieme proprio. Esempio:

Dettagli

Corso di Analisi Matematica Serie numeriche

Corso di Analisi Matematica Serie numeriche Corso di Analisi Matematica Serie numeriche Laurea in Informatica e Comunicazione Digitale A.A. 2013/2014 Università di Bari ICD (Bari) Analisi Matematica 1 / 25 1 Definizione e primi esempi 2 Serie a

Dettagli

SUCCESSIONI NUMERICHE

SUCCESSIONI NUMERICHE SUCCESSIONI NUMERICHE Una funzione reale di una variabile reale f di dominio A è una legge che ad ogni x A associa un numero reale che denotiamo con f(x). Se A = N, la f è detta successione di numeri reali.

Dettagli

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione Capitolo 2 MATRICI Fra tutte le applicazioni su uno spazio vettoriale interessa esaminare quelle che mantengono la struttura di spazio vettoriale e che, per questo, vengono dette lineari La loro importanza

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

CRITERI DI CONVERGENZA PER LE SERIE. lim a n = 0. (1) s n+1 = s n + a n+1. (2) CRITERI PER LE SERIE A TERMINI NON NEGATIVI

CRITERI DI CONVERGENZA PER LE SERIE. lim a n = 0. (1) s n+1 = s n + a n+1. (2) CRITERI PER LE SERIE A TERMINI NON NEGATIVI Il criterio più semplice è il seguente. CRITERI DI CONVERGENZA PER LE SERIE Teorema(condizione necessaria per la convergenza). Sia a 0, a 1, a 2,... una successione di numeri reali. Se la serie a k è convergente,

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

2 CERTAMEN NAZIONALE DI PROBABILITA E STATISTICA FELICE FUSATO Fase di Istituto 15 febbraio 2011

2 CERTAMEN NAZIONALE DI PROBABILITA E STATISTICA FELICE FUSATO Fase di Istituto 15 febbraio 2011 2 CERTAMEN NAZIONALE DI PROBABILITA E STATISTICA FELICE FUSATO Fase di Istituto 15 febbraio 2011 1) Non sfogliare questo fascicolo finché l insegnante non ti dice di farlo. 2) E ammesso l utilizzo di calcolatrici

Dettagli

3 GRAFICI DI FUNZIONI

3 GRAFICI DI FUNZIONI 3 GRAFICI DI FUNZIONI Particolari sottoinsiemi di R che noi studieremo sono i grafici di funzioni. Il grafico di una funzione f (se non è specificato il dominio di definizione) è dato da {(x, y) : x dom

Dettagli

INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI

INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI Prima di riuscire a scrivere un programma, abbiamo bisogno di conoscere un metodo risolutivo, cioè un metodo che a partire dai dati di ingresso fornisce i risultati attesi.

Dettagli

Primi esercizi per gli studenti del corso di Statistica ed Elementi di Probabilita

Primi esercizi per gli studenti del corso di Statistica ed Elementi di Probabilita Primi esercizi per gli studenti del corso di Statistica ed Elementi di Probabilita NOTA 1 Gli esercizi sono presi da compiti degli scorsi appelli, oppure da testi o dispense di colleghi. A questi ultimi

Dettagli

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme

Per lo svolgimento del corso risulta particolarmente utile considerare l insieme 1. L insieme R. Per lo svolgimento del corso risulta particolarmente utile considerare l insieme R = R {, + }, detto anche retta reale estesa, che si ottiene aggiungendo all insieme dei numeri reali R

Dettagli

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0 LEZIONE 23 231 Diagonalizzazione di matrici Abbiamo visto nella precedente lezione che, in generale, non è immediato che, data una matrice A k n,n con k = R, C, esista sempre una base costituita da suoi

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

Macchine a stati finiti G. MARSELLA UNIVERSITÀ DEL SALENTO

Macchine a stati finiti G. MARSELLA UNIVERSITÀ DEL SALENTO Macchine a stati finiti 1 G. MARSELLA UNIVERSITÀ DEL SALENTO Introduzione Al più alto livello di astrazione il progetto logico impiega un modello, la cosiddetta macchina a stati finiti, per descrivere

Dettagli

10. Insiemi non misurabili secondo Lebesgue.

10. Insiemi non misurabili secondo Lebesgue. 10. Insiemi non misurabili secondo Lebesgue. Lo scopo principale di questo capitolo è quello di far vedere che esistono sottoinsiemi di R h che non sono misurabili secondo Lebesgue. La costruzione di insiemi

Dettagli

Parte 6. Applicazioni lineari

Parte 6. Applicazioni lineari Parte 6 Applicazioni lineari A Savo Appunti del Corso di Geometria 203-4 Indice delle sezioni Applicazioni fra insiemi, 2 Applicazioni lineari tra spazi vettoriali, 2 3 Applicazioni lineari da R n a R

Dettagli

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1) Transitori Analisi nel dominio del tempo Ricordiamo che si definisce transitorio il periodo di tempo che intercorre nel passaggio, di un sistema, da uno stato energetico ad un altro, non è comunque sempre

Dettagli

19. Inclusioni tra spazi L p.

19. Inclusioni tra spazi L p. 19. Inclusioni tra spazi L p. Nel n. 15.1 abbiamo provato (Teorema 15.1.1) che, se la misura µ è finita, allora tra i corispondenti spazi L p (µ) si hanno le seguenti inclusioni: ( ) p, r ]0, + [ : p

Dettagli

4. Operazioni elementari per righe e colonne

4. Operazioni elementari per righe e colonne 4. Operazioni elementari per righe e colonne Sia K un campo, e sia A una matrice m n a elementi in K. Una operazione elementare per righe sulla matrice A è una operazione di uno dei seguenti tre tipi:

Dettagli

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi In molte situazioni una raccolta di dati (=esiti di esperimenti aleatori) viene fatta per prendere delle decisioni sulla base di quei dati. Ad esempio sperimentazioni su un nuovo farmaco per decidere se

Dettagli

Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo

Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo L. De Giovanni G. Zambelli 1 Problema del flusso a costo minimo Il problema del flusso a costo minimo é definito

Dettagli

Un modello matematico di investimento ottimale

Un modello matematico di investimento ottimale Un modello matematico di investimento ottimale Tiziano Vargiolu 1 1 Università degli Studi di Padova Liceo Scientifico Benedetti Venezia, giovedì 30 marzo 2011 Outline 1 Investimento per un singolo agente

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

Prodotto libero di gruppi

Prodotto libero di gruppi Prodotto libero di gruppi 24 aprile 2014 Siano (A 1, +) e (A 2, +) gruppi abeliani. Sul prodotto cartesiano A 1 A 2 definiamo l operazione (x 1, y 1 ) + (x 2, y 2 ) := (x 1 + x 2, y 1 + y 2 ). Provvisto

Dettagli

1 Giochi a due, con informazione perfetta e somma zero

1 Giochi a due, con informazione perfetta e somma zero 1 Giochi a due, con informazione perfetta e somma zero Nel gioco del Nim, se semplificato all estremo, ci sono due giocatori I, II e una pila di 6 pedine identiche In ogni turno di gioco I rimuove una

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Metodi e Modelli Matematici di Probabilità per la Gestione

Metodi e Modelli Matematici di Probabilità per la Gestione Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta del 30/1/06 Esercizio 1 Una banca ha N correntisti. Indichiamo con N n il numero di correntisti esistenti il giorno n-esimo. Descriviamo

Dettagli

Equilibrio bayesiano perfetto. Giochi di segnalazione

Equilibrio bayesiano perfetto. Giochi di segnalazione Equilibrio bayesiano perfetto. Giochi di segnalazione Appunti a cura di Stefano Moretti, Silvia VILLA e Fioravante PATRONE versione del 26 maggio 2006 Indice 1 Equilibrio bayesiano perfetto 2 2 Giochi

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano

Dettagli

Per poter affrontare il problema abbiamo bisogno di parlare di probabilità (almeno in maniera intuitiva). Analizziamo alcune situazioni concrete.

Per poter affrontare il problema abbiamo bisogno di parlare di probabilità (almeno in maniera intuitiva). Analizziamo alcune situazioni concrete. Parliamo di probabilità. Supponiamo di avere un sacchetto con dentro una pallina rossa; posso aggiungere tante palline bianche quante voglio, per ogni pallina bianca che aggiungo devo pagare però un prezzo

Dettagli

OSSERVAZIONI TEORICHE Lezione n. 4

OSSERVAZIONI TEORICHE Lezione n. 4 OSSERVAZIONI TEORICHE Lezione n. 4 Finalità: Sistematizzare concetti e definizioni. Verificare l apprendimento. Metodo: Lettura delle OSSERVAZIONI e risoluzione della scheda di verifica delle conoscenze

Dettagli

Transitori del primo ordine

Transitori del primo ordine Università di Ferrara Corso di Elettrotecnica Transitori del primo ordine Si consideri il circuito in figura, composto da un generatore ideale di tensione, una resistenza ed una capacità. I tre bipoli

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

Macchine a stati finiti. Sommario. Sommario. M. Favalli. 5th June 2007

Macchine a stati finiti. Sommario. Sommario. M. Favalli. 5th June 2007 Sommario Macchine a stati finiti M. Favalli 5th June 27 4 Sommario () 5th June 27 / 35 () 5th June 27 2 / 35 4 Le macchine a stati si utilizzano per modellare di sistemi fisici caratterizzabili mediante:

Dettagli

2. Leggi finanziarie di capitalizzazione

2. Leggi finanziarie di capitalizzazione 2. Leggi finanziarie di capitalizzazione Si chiama legge finanziaria di capitalizzazione una funzione atta a definire il montante M(t accumulato al tempo generico t da un capitale C: M(t = F(C, t C t M

Dettagli

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora: Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora: G.C.D.( a d, b d ) = 1 Sono state introdotte a lezione due definizioni importanti che ricordiamo: Definizione

Dettagli

Complementi di Analisi per Informatica *** Capitolo 2. Numeri Complessi. e Circuiti Elettrici. a Corrente Alternata. Sergio Benenti 7 settembre 2013

Complementi di Analisi per Informatica *** Capitolo 2. Numeri Complessi. e Circuiti Elettrici. a Corrente Alternata. Sergio Benenti 7 settembre 2013 Complementi di Analisi per nformatica *** Capitolo 2 Numeri Complessi e Circuiti Elettrici a Corrente Alternata Sergio Benenti 7 settembre 2013? ndice 2 Circuiti elettrici a corrente alternata 1 21 Circuito

Dettagli

EQUAZIONI DIFFERENZIALI. 1. Trovare tutte le soluzioni delle equazioni differenziali: (a) x = x 2 log t (d) x = e t x log x (e) y = y2 5y+6

EQUAZIONI DIFFERENZIALI. 1. Trovare tutte le soluzioni delle equazioni differenziali: (a) x = x 2 log t (d) x = e t x log x (e) y = y2 5y+6 EQUAZIONI DIFFERENZIALI.. Trovare tutte le soluzioni delle equazioni differenziali: (a) x = x log t (d) x = e t x log x (e) y = y 5y+6 (f) y = ty +t t +y (g) y = y (h) xy = y (i) y y y = 0 (j) x = x (k)

Dettagli

Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2

Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2 Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2 [1] Metodo di Bisezione gli estremi a e b di un intervallo reale trovi uno zero della funzione f(x) nell intervallo [a, b] usando il metodo

Dettagli

1 Probabilità condizionata

1 Probabilità condizionata 1 Probabilità condizionata Accade spesso di voler calcolare delle probabilità quando si è in possesso di informazioni parziali sull esito di un esperimento, o di voler calcolare la probabilità di un evento

Dettagli

Fondamenti dei linguaggi di programmazione

Fondamenti dei linguaggi di programmazione Fondamenti dei linguaggi di programmazione Aniello Murano Università degli Studi di Napoli Federico II 1 Riassunto delle lezioni precedenti Prima Lezione: Introduzione e motivazioni del corso; Sintassi

Dettagli

Corrispondenze e funzioni

Corrispondenze e funzioni Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei

Dettagli

CALCOLO COMBINATORIO

CALCOLO COMBINATORIO CALCOLO COMBINATORIO 1 Modi di formare gruppi di k oggetti presi da n dati 11 disposizioni semplici, permutazioni Dati n oggetti distinti a 1,, a n si chiamano disposizioni semplici di questi oggetti,

Dettagli

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA Francesco Bottacin Padova, 24 febbraio 2012 Capitolo 1 Algebra Lineare 1.1 Spazi e sottospazi vettoriali Esercizio 1.1. Sia U il sottospazio di R 4 generato dai

Dettagli

Fondamenti e didattica di Matematica Finanziaria

Fondamenti e didattica di Matematica Finanziaria Fondamenti e didattica di Matematica Finanziaria Silvana Stefani Piazza dell Ateneo Nuovo 1-20126 MILANO U6-368 silvana.stefani@unimib.it 1 Unità 9 Contenuti della lezione Operazioni finanziarie, criterio

Dettagli

Esercizi su lineare indipendenza e generatori

Esercizi su lineare indipendenza e generatori Esercizi su lineare indipendenza e generatori Per tutto il seguito, se non specificato esplicitamente K indicherà un campo e V uno spazio vettoriale su K Cose da ricordare Definizione Dei vettori v,,v

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Processi stocastici. variabile casuale: funzione da uno spazio campione S a valori nello spazio E R X(t) : S E. spazio degli stati del processo

Processi stocastici. variabile casuale: funzione da uno spazio campione S a valori nello spazio E R X(t) : S E. spazio degli stati del processo Processi stocastici Processo stocastico: famiglia di variabili casuali {X(t) t T} definite su uno spazio di probabilità indiciate dal parametro t (tempo) X(t) variabile casuale: funzione da uno spazio

Dettagli

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete. Le equazioni Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete. Definizione e caratteristiche Chiamiamo equazione l uguaglianza tra due espressioni algebriche,

Dettagli

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010 elementi di teoria dei grafi anno acc. 2009/2010 Grafi semplici Un grafo semplice G è una coppia ordinata (V(G), L(G)), ove V(G) è un insieme finito e non vuoto di elementi detti vertici o nodi di G, mentre

Dettagli

Macchine a stati finiti. Sommario. Sommario. M. Favalli. Le macchine a stati si utilizzano per modellare di sistemi fisici caratterizzabili mediante:

Macchine a stati finiti. Sommario. Sommario. M. Favalli. Le macchine a stati si utilizzano per modellare di sistemi fisici caratterizzabili mediante: Sommario Macchine a stati finiti M. Favalli Engineering Department in Ferrara 4 Sommario (ENDIF) Analisiesintesideicircuitidigitali / 35 (ENDIF) Analisiesintesideicircuitidigitali 2 / 35 4 Le macchine

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

I sistemi di numerazione

I sistemi di numerazione I sistemi di numerazione 01-INFORMAZIONE E SUA RAPPRESENTAZIONE Sia dato un insieme finito di caratteri distinti, che chiameremo alfabeto. Utilizzando anche ripetutamente caratteri di un alfabeto, si possono

Dettagli

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Barriere assorbenti nelle catene di Markov e una loro applicazione al web Università Roma Tre Facoltà di Scienze M.F.N Corso di Laurea in Matematica a.a. 2001/2002 Barriere assorbenti nelle catene di Markov e una loro applicazione al web Giulio Simeone 1 Sommario Descrizione

Dettagli

Tabella 7. Dado truccato

Tabella 7. Dado truccato 0 ALBERTO SARACCO 4. Compiti a casa 7novembre 200 4.. Ordini di grandezza e calcolo approssimato. Esercizio 4.. Una valigia misura 5cm di larghezza, 70cm di lunghezza e 45cm di altezza. Quante palline

Dettagli

Algoritmo. I dati su cui opera un'istruzione sono forniti all'algoritmo dall'esterno oppure sono il risultato di istruzioni eseguite precedentemente.

Algoritmo. I dati su cui opera un'istruzione sono forniti all'algoritmo dall'esterno oppure sono il risultato di istruzioni eseguite precedentemente. Algoritmo Formalmente, per algoritmo si intende una successione finita di passi o istruzioni che definiscono le operazioni da eseguire su dei dati (=istanza del problema): in generale un algoritmo è definito

Dettagli

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni CARLO MANNINO Università di Roma La Sapienza Dipartimento di Informatica e Sistemistica

Dettagli

Un metodo per il rilevamento degli errori: la tecnica del Bit di Parità

Un metodo per il rilevamento degli errori: la tecnica del Bit di Parità Appunti: Tecniche di rilevazione e correzione degli errori 1 Tecniche di correzione degli errori Le tecniche di correzione degli errori sono catalogabili in: metodi per il rilevamento degli errori; metodi

Dettagli

Esercizi di Probabilità e Statistica

Esercizi di Probabilità e Statistica Esercizi di Probabilità e Statistica Samuel Rota Bulò 19 marzo 2007 Spazi di probabilità finiti e uniformi Esercizio 1 Un urna contiene due palle nere e una rossa. Una seconda urna ne contiene una bianca

Dettagli

LA MOLTIPLICAZIONE IN CLASSE SECONDA

LA MOLTIPLICAZIONE IN CLASSE SECONDA LA MOLTIPLICAZIONE IN CLASSE SECONDA Rossana Nencini, 2013 Le fasi del lavoro: 1. Proponiamo ai bambini una situazione reale di moltiplicazione: portiamo a scuola una scatola di biscotti (. ) e diamo la

Dettagli

APPUNTI DI MATEMATICA ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1)

APPUNTI DI MATEMATICA ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1) ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1) Un insieme è una collezione di oggetti. Il concetto di insieme è un concetto primitivo. Deve esistere un criterio chiaro, preciso, non ambiguo, inequivocabile,

Dettagli