Tesina: Catene di Markov in tempo discreto e Hidden Markov Models. Loris Bazzani, Diego Tosato e Davide Fasoli

Transcript

1 Tesina: Catene di Markov in tempo discreto e Hidden Markov Models Loris Bazzani, Diego Tosato e Davide Fasoli 3 maggio 7

2 Indice 1 Catena di Markov in tempo discreto 1.1 Catene di Markov Probabilità di transizione in n passi Decomposizione dello spazio degli stati Costruzione e simulazione di una Catena di Markov omogenea Probabilità limite Probabilità invariante Algoritmo di Metropolis, simulated annealing Simulated Annealling Catene di Markov a stati numerabili Classificazione degli stati di una catena di Markov omogenea Decomposizione Canonica Esistenza e costruzione di una probabilità invariante Hidden Markov Models 7.1 Esempi di HMM Caratterizzazione di un HMM Tre problemi fondamentali per gli HMM Soluzione al problema della valutazione Soluzione al problema della codifica Soluzione al problema dell addestramento Osservazioni con densità continua nei HMMs Comparazione di HMMs Applicazioni utilizzando i HMMs 4 1

3 Capitolo 1 Catena di Markov in tempo discreto In teoria della probabilità un processo stocastico è una generalizzazione dell idea di variabile casuale. I processi stocastici sono modelli matematici di fenomeni aleatori che evolvono nel tempo. Vediamo ora un esempio. Esempio 1. Due giocatori A e B hanno un capitale iniziale pari rispettivamente ad a e b unità e giocano una serie di partite in ciascune delle quali A cede a B un unità con probabilità p e ne riceve con una probabilità q = 1 p. Il gioco si ferma non appena uno dei due giocatori si trova a.in seguito si vedrà come costruire un buon modello per descrivere tale situazione. Una catena di Markov è un processo stocastico a tempo discreto che soddisfa la proprietà di Markov (che vedremo più avanti). Una catena di Markov è rappresentabile come una serie di stati ognuno dei quali rappresenta un evento fisico. Ad ogni istante (discreto) il sistema può cambiare stato: al tempo i saremo ad un certo stato, al tempo i + 1 si può passare ad un nuovo stato. Tale processo viene chiamato transizione ed viene regolato da una matrice di transizione associata alla catena di Markov. In questo capitolo vedremo meglio i concetti appena accennati ed esploreremo le proprietà e la potenza di tale modello. I modelli di tipo markoviano vengono anche utilizzati nel progetto di reti di telecomunicazioni; la teoria delle code che ne consegue trova applicazione in molti ambiti: dalla fila alle poste ai pacchetti in coda in un router. 1.1 Catene di Markov Definizione 1. Sia (Ω, F, P) uno spazio di probabilità, sia {X n } n= con X n : Ω E si dice Catena di Markov se j, i, i n 1,..., i E: P(X n+1 = j X n = i, X n 1 = i n 1,..., X = i ) = P(X n+1 = j X n = i) (1.1)

4 Dove E indica lo spazio degli stati della Catena di Markov. Dalla definizione si può intuire che: in generale le X n sono non indipendenti tra loro, per cui la conoscenza del valore assunto da X n dà delle informazioni sul possibile valore che avrà X n+1. Ma la conoscenza dei valori X n 1, X n,... non mi dà informazioni ulteriori. In altre parole una catena di Markov non ha memoria, in quanto la probabilità di essere in un certo stato al tempo n+1 dipende solamente dallo stato in cui era la catena al tempo n ed è indipendente dagli stati precedenti (n 1, n... ). Definizione. Una Catena di Markov si dice omogenea se {p ij } ij E tale che P(X n+1 = j X n = i) = p ij n =, 1,... i, j E Dalla definizione ricaviamo che una Catena di Markov è omogenea se: P(X n+1 = j X n = i) = p ij (1.) è indipendente da n, cioè indipendente dal tempo. Con P indichiamo la matrice di transizione della Catena di Markov, la quale gode delle seguenti proprietà: p ij 1 i, j E; j E p ij = 1; una matrice che soddisfa tali proprietà è detta stocastica, mentre con p ij indichiamo la probabilità di passare dallo stato i allo stato j. Esempio. Riprendendo l esempio precedente, vediamo come sia ragionevole utilizzare un modello che soddisfa la proprietà di Markov. Se indichiamo con {X n } n= il capitale del giocatore A risulta chiaro che tale valore dipende dal valore di X n 1, e la conoscenza di ciò che è successo prima di X n 1 è superfluo per la predizione di X n. Potremmo scegliere come spazio degli stati E = [, a + b]. Determiniamo ora la matrice di transizione, per i e i (a + b) sarà: q se i = j + 1 P(X n+1 = j X n = i) = p se i = j 1 altrimenti se invece i = o i = (a + b) avremo: P(X n+1 = j X n = i) = P(X n+1 = j X n = i) = { 1 se j = altrimenti { 1 se j = a + b altrimenti 3

5 da qui ricaviamo la matrice di transizione: P = 1... p q... p q p q... p q... 1 Facciamo ora una piccola digressione e vediamo le densità congiunte finite di un processo. Sia {X t } t un processo definito su uno spazio di probabilita dato (Ω, F, P). Si consideri un sottoinsieme finito di istanti temporali t 1 < t <... < t n. Si definiscono densità congiunte finite del processo le seguenti quantità: P (X t1 = y 1, X t = y,..., X tn = y n ) = {P t1,t,...,t n (y 1, y,..., y n )} } {{ } legge del processo t 1, t,..., t n y 1, y,..., y n E Nota P sono note tutte le densità congiunte finite del processo. Dato il concetto di densità congiunte, possiamo introdurre la proposizione: Proposizione 1. Sia {X n } n= una Catena di Markov omogenea con densità iniziale v = {v, v 1,...} e matrice di transizione {p ij } i,j E allora restano univocamente definite tutte le densità congiunte finite. Dimostrazione. Sia P(X = k) = v k k E N, con n = 1 si ha P(X = k, X 1 = j) = P(X 1 = j X = k) P(X = k) (1.3) Il passaggio 1.3 risulta dall applicazione della regola: = p kj v k (1.4) P(A, B) = P(A B) P(B) (1.5) mentre il passaggio 1.4 si esegue perchè P(X 1 = j X = k) = p kj e P(X = k) = v k. Con n = si ha P(X = k, X 1 = j 1, X = j ) = (1.6) = P(X = j X 1 = j 1, X = k) P(X = k, X 1 = j 1 ) (1.7) = P(X = j X 1 = j 1 ) P(X 1 = j 1 X = k) P(X = k) (1.8) = p kj1 p j1 j v k (1.9) 4

6 I passaggi 1.6 e 1.7 si effettuano applicando la regola 1.5, nel passaggio 1.7 utilizziamo anche la proprietà di Markov. Per induzione abbiamo che: P(X n = j n, X n 1 = j n 1,..., X 1 = j 1, X = k) = v k p kj1... p jn 1 j n = p(k, j 1,..., j n 1, j n ) Esempio 3 (Random Walk). Supponiamo di avere un processo stocastico che modella una passeggiata aleatoria in uno spazio monodimensionale. Sia {X i } i=1,,... i.i.d. definito come { +1 p passo avanti X i = 1 1 p passo indietro abbiamo {Y n } n= Y + Y n = Y n 1 n i=1 X i y n 1 {M, M} altrimenti Vogliamo vedere se è una catena di Markov: P(Y n+1 = j Y n = i n,..., Y = i ) = P(Y n+1 = j Y n = i n ) i, j {, ±1, ±,..., ±M} scriviamo la matrice di transizione, ma si mappa lo spazio degli stati da { M, +M} a {, M} per comodità P (M+1 M+1) = = p, p,1 p, p,3... p,m p 1, p 1,1 p 1, p 1,3... p 1,M p, p,1 p, p,3... p,m p M, p M, p M,M p p... 1 p p

7 1. Probabilità di transizione in n passi Definizione 3. La matrice di transizione in n passi la matrice è composta dai seguenti elementi: Esempio 4. p (n) ij = P(X n = j X = i) P(X n+m = j X m = i) (1.1) m =, 1,,... (1.11) p () ij = P(X = j X = i) (1.1) = P( X = j Ω X = i) (1.13) = P( X = j ( X 1 = k ) X = i) (1.14) k E = k E P( X = j X 1 = k X = i) (1.15) = k E P(X = j X 1 = k, X = i) P(X 1 = k X = i) (1.16) = k E P(X = j X 1 = k) P(X 1 = k X = i) (1.17) = k E p ik p kj = (P ) ij P = {p ij } ij E (1.18) Il passaggio 1.15 si esegue utilizzando la proprietà di σ-additività; nel passaggio 1.16 si utilizza la definizione di probabilità congiunta; mentre nel 1.17 si applica la proprietà di Markov. Per induzione: P(X n = j X = i) = (P n ) ij = p (n) ij (1.19) Teorema 1 (Equazione di Chapman-Kolmogorov). L equazione di Chapman-Kolmogorov è: p (n) ij = k E p (m) ik p (n m) kj (1.) Dimostrazione. Prendiamo tre istanti di tempo a < b < c con b a = n, c b = m e c a = n + m p (n+m) ij = P (X c = j X a = i) (1.1) p (n) ik = P (X b = k X a = i) (1.) p (m) kj = P (X c = j X b = k) = P (X c = j X b = k, X a = i) (1.3) 6

8 P (A) = k P (A X b = k)p (X b = k) (1.4) P i (A) = P (A X a = i) A = {X h = j} (1.5) P (X c = j X a = i) = P i (X c = j) (1.6) = k P (X c = j X b = k, X a = i)p i (X b = k) (1.7) = k P (X c = j X b = k)p i (X b = k) (1.8) k P (X c = j X b = k) P (X } {{ } b = k X a = i) } {{ } p (m) kj p (n) ik (1.9) p (n+m) ij = k p (n) ik p(m) kj (1.3) Nel passaggio 1.7 si applica la proprietà di Markov, il passaggio 1.9 si esegue utilizzando la Decomposizione dello spazio degli stati Prendiamo in considerazione una catena di Markov {X i } i=1, definita sullo spazio degli stati E e con matrice di transizione {p ij } ij E. Definizione 4. i, j E. Si dice che j è accessibile da i se n tale che p (n) ij >. Indichiamo tale relazione con la simbologia: i j. Definizione 5. i e j comunicano se i j e j i. Indichiamo tale relazione con il simbolo: i j. La relazione di comunicazione è una relazione di equivalenza, cioè soddisfa le seguenti proprietà: riflessiva: i i; Dimostrazione. prendiamo i i e i i allora n tale che p (n) ii > con n = abbiamo p () ii = 1. simmetrica: se i j allora j i; Dimostrazione. i j i j e j i j i. Il viceversa è analogo. 7

9 transitiva: se i j e j k allora i k; Dimostrazione. Se prendiamo i j e j k n e m tale che p (n) ij > e p (m) jk > per definizione di accessibilità. p n+m ik = r S p (n) ij }{{} > p (n) ir p(m) rk equazione di Chapman-Kolmogorov (1.31) p (m) jk }{{} > > (1.3) abbiamo che 1.31 è maggiore di 1.3 perchè il secondo è contenuto nella sommatoria del primo. Da qui ricavo che i k. Analogamente da k j e j i implica k i. In definitiva se: i j e j k i j, j k e k j, j i i k e k i i k E può essere decomposto esaustivamente in classi di equivalenza modulo la relazione ; la procedura utilizzata per decomporre lo spazio degli stati è la seguente: prendiamo i E costuisco C = {i i E i i}; prendiamo i 1 E \ C costuisco C 1 = {i i E \ C i 1 i}; si itera il procedimento sino al consumo di tutti gi stati. Su tale procedimento possiamo fare due semplici considerazioni: C i C j = i, j cioè tutte le classi sono disgiunte; i C i = E cioè l unione di tutte le classi mi da lo spazio degli stati. Esempio 5. Prendiamo la rovina del giocatore con p = 1 e E = {1,, 3, 4} P = prendiamo i = 1, C = {1};

10 prendiamo i 1 =, C 1 = {, 3}; prendiamo i = 4, C = {4}; Definizione 6. Se abbiamo un unica classe di equivalenza modulo allora abbiamo una Catene di Markov irriducibile. Cioè tutti gli stati della catena comunicano tra di loro. Esempio 6. Prendiamo la rovina del giocatore con barriere riflettenti, p = 1 e E = {1,, 3, 4} P = Prendendo i = 1, si ha C = {1,, 3, 4}. Dunque è irriducibile. 1.4 Costruzione e simulazione di una Catena di Markov omogenea Proposizione. Supponiamo di avere uno spazio di probabilità (Ω, F, P) e di avere definito: 1. X a valori in S = N ;. {U n } n=1 i.i.d uniformi in [, 1] indipendenti da X ; allora {X n } n= è una Catena di Markov omogenea tale che X n+1 = f(x n, U n+1 ) dove f : S [, 1] S. Dimostrazione. Costruiamo la catena in questo modo: X 1 = f(x, U 1 ) (1.33) X = f(x 1, U ) = f(f(x, U 1 ), U ) = F (X, U 1, U ) (1.34)... (1.35) X n = f(x n 1, U n ) = f(f(...)) = F n (X, U 1, U,..., U n ) (1.36) Vediamo se è una Catena di Markov: P(X n+1 = j X n = i, X n 1 = i n 1,..., X = i ) = (1.37) = P(f(X n, U n+1 ) = j X n = i, X n 1 = i n 1,..., X = i ) (1.38) = P(i, U n+1 ) = j F n (X, U 1,..., U n ),..., X = i ) (1.39) per l indipendenza di funzioni variabili aleatorie abbiamo: = P(f(i, U n+1 ) = j) = P(f(X n, U n+1 ) = j X n = i) (1.4) Quindi è una catena di Markov omogenea. 9

11 Problema. Data una Catena di Markov omogenea {X n } n= con S N, con densità iniziale v e matrice di transizione P, determinare una funzione f : S [, 1] S tale che X n+1 = f(x n, U n+1 ) con {U n } n=1 i.i.d indipendente da X. Soluzione. Per trovare la soluzione eseguiamo due passi: generiamo X con densità v, determiniamo f tale che P(f(i, U n+1 ) = k) = p ik. Partendo dal fatto che X è discreta (E x N) a = {a, a 1,...}, e sapendo che U è uniforme su [, 1] posso costruire una variabile aleatoria Y X tale che: Y := k ki P [ k 1 j= a j, P k j= a (U) (1.41) j] dalla quale conosciamo che: Concludiamo che X = Figura 1.1: Distribuzione uniforme U k 1 P (Y = k) = P (U [ a j, k= f(i, u) = j= k a j ]) = a k (1.4) j= ki [ P k 1 j= v j,p k j= v j ](U ) (1.43) k= ki P [ k 1 j= p ij, P k j= p (u) con u [, 1] (1.44) ij] 1

12 Dunque P(X n+1 = k X n = i) = P(f(X n, U n+1 ) = k X n = i) (1.45) Dove la 1.47 si ricava dalla = P(f(i, U n+1 ) = k) (1.46) k 1 k = P(U n+1 [ p ij, p ij ]) (1.47) j= j= = p ik (1.48) Teorema. {X n } n= con X n+1 = f(x n, V n+1 ) dove {V n } n=1 sono i.i.d random elements indipendenti da X allora è una Catena di Markov omogenea. I random elements sono per esempio variabili aleatorie, variabili aleatorie vettoriali e successioni di variabili aleatorie. Esempio 7 (Modello di inventario). Il problema si può formalizzare nel seguente modo: I(t) livello dell inventario al tempo t; T, T 1, T,... istanti di controllo; politica di stoccaggio: I(T n ) s I(T + n ) = S; I(T n ) (s, S] I(T + n ) = I(T n ) dove s =livello minimo e S =livello massimo; D n richiesta totale in [T n 1, T n ) con n = 1,,...; Definiamo X = I(T ) (s, S] { (Xn D X n+1 = n+1 ) se X n (s, S] (S D n+1 ) se X n s X n+1 = g(x n, D n+1 ),se {D n } n=1 i.i.d. allora {X n} n= è Markov; se D n non è equidistribuita la catena non è più omogenea. Esempio 8 (M/G/1). In questo esempio prendiamo in considerazione una coda con le seguenti caratteristiche, il flusso di arrivo è di tipo aleatorio Markoviamo, il flusso delle partenze è di tipo aleatorio generale e ha un unico canale: T, T 1, T,... istanti di compimento di un servizio (un cliente esce dalla coda); X n = X (T + n ) numero di clienti subito dopo che è uscito un cliente; 11

13 A n+1 = numero di arrivi in [T n, T n+1 ) X n+1 = (X n 1) + A n+1 = g(x n, A n+1 ) se {A n } n=1 i.i.d. allora {X n} n= è una Catena di Markov omogenea. Esempio 9 (G/M/1). In questo esempio prendiamo in considerazione una coda con le seguenti caratteristiche, il flusso di arrivo è di tipo aleatorio generale, il flusso delle partenze è di tipo aleatorio Markoviano e ha un unico canale: τ, τ 1, τ,... istanti di arrivo (un cliente entra nella coda); X n = X (τ n ) numero di clienti subito prima che arrivi un cliente. X n+1 = (X n + 1 S n+1 ) + = g(x n, S n+1 ) dove con S n+1 indichiamo i servizi potenziali che il server può erogare in [τ n, τ n+1 ) se {S n } n=1 i.i.d. allora Catena di Markov omogenea. 1.5 Probabilità limite Prendiamo in considerazione una catena di Markov omogenea {X n } n=1 con matrice di transizione P = {p ij } i,j E Definizione 7. π = {π j } j E, π j [, 1] e π j = 1 è una probabilità limite in {X n } se i E abbiamo che il: #E j= lim n p(n) ij = π j j E. (1.49) Un osservazione che si può fare è che se X ha densità a e π è una probabilità limite allora: ora proviamo tale osservazione: lim P (X n = j) = π j (1.5) n lim P (X n = j) = lim n n k E p (n) kj a k (1.51) = a k lim n p(n) kj (1.5) k E = π j a k = π j (1.53) come volevasi dimostrare. Dove nella 1.51 si applica la formula della probabilità totale. Al variare della densità a ( X ) possiamo ottenere Catene di Markov diverse con la stessa probabilità limite. 1 k E

14 1.6 Probabilità invariante Definizione 8. Data una Catena di Markov omogenea con matrice di transizione P = {p ij } ij E si dice che π = {π j } j E è una probabilità invariante (o stazionaria) se π = π P. Il significato di questa definizione va ricercato nel fatto che se X a e a = a P X n a n; proviamo ora la veridicità di tale significato: P(X n = j) = k E a k p (n) kj = k E a k (P n ) kj (1.54) a P n = a P n 1 = = a. (1.55) Definizione 9. Una Catena di Markov è detta stazionaria se tutte le densità congiunte finite sono invarianti per shift temporale ovvero: P(X n1 = i 1, X n = i,..., X nh = i h ) = (1.56) = P(X n1 +m = i 1, X n +m = i,..., X nh +m = i h ) (1.57) n 1, n,..., n h, m Esempio 1. Prendiamo una passeggiata aleatoria con barriere semiriflettenti con E = {, 1,, 3}; la matrice di transizione è così formata: P = la quale è una matrice bistocastica, cioè ha che: 3 3 p ij = p ij = 1 i= j= i, j E scegliamo ora come π = ( 1 4, 1 4, 1 4, 1 4 ) vediamo se π è una probabilità invariante: π = π P = ( 1 4, 1 4, 1 4, 1 4 ) = ( , , , ) = ( 1 4, 1 4, 1 4, 1 4 ) 13

15 Esempio 11. Prendiamo una passeggiata aleatoria con barriere riflettenti con E = {, 1,, 3}, la cui matrice di transizione è così definita: P = Calcoliamo π = (π, π 1, π, π 3 ) tale che sia una probabilità invariante, ovvero risolviamo il seguente sistema: π = (π, π 1, π, π 3 ) = (π, π 1, π, π 3 ) da questo si trovano le equazioni π = 1 π 1 π 1 = π + 1 π π = 1 π 1 + π 3 da cui ricaviamo che: da cui concludiamo che: π 3 = 1 π { π1 = 1 (π 1 + π ) π = 1 (π 1 + π ) π = k π 1 = k π = k π 3 = k π 1 = π sapendo che 6k = 1 k = 1 6 ricavo π = ( 1 6, 1 3, 1 3, 1 6 ) Proposizione 3. Una probabilità limite è anche invariante Dimostrazione. Vale per il caso a stati finiti. Prendiamo π probabilità limite π j = lim n p(n) ij i E (1.58) = lim p (n 1) ik p kj (1.59) n k E = k E = k E p kj lim n p(n 1) ik (1.6) p kj π k (1.61) 14

16 Il passaggio 1.59 lo possiamo fare per Chapman-Kolmogorov. L equazione 1.61 si può scrivere perché lim n p(n 1) ik = π k, perció π j = k E π k p kj π = π P Proposizione 4. Se una Catena di Markov è irriducibile allora esiste un unica probabilità invariante. Esempio 1. Prendiamo una Catena di Markov non irriducibile, dobbiamo trovare soluzioni di π = π P dove P = proviamo a prendere π 1 = (1,,, ): (1,,, ) = (1,,, ) } {{ } } {{ } π 1 π 1 proviamo a prendere π = (,,, 1): (,,, 1) = (,,, 1) } {{ } } {{ } π π } {{ 1 } P } {{ 1 } P = (1,,, ) } {{ } π 1 = (,,, 1) } {{ } π abbiamo più probabilità invariante. Se si prende la combinazione lineare di π 1 e π, ovvero π = α π 1 + β π con α, β [, 1] e α + β = 1, posso creare infinite probabilità invarianti π. Definizione 1. Una catena di Markov è regolare se n p (n) ij > i, j E. Un criterio pratico per vedere se una catena di Markov è regolare è controllare h E tale che p hh > ; come prerequisito la catena deve essere irriducibile. Se tale controllo fallisce si procede con il controllo che p (n) hh >. Questa relazione è più forte della proprietà di irriducibilità ed è indipendente da i, j. Teorema 3 (Markov). Se una catena di Markov con matrice di transizione P è a stati finiti e regolare allora esiste un unica probabilità invariante π ed è anche una probabilità limite lim n p (n) ij = π j. 15

17 1.7 Algoritmo di Metropolis, simulated annealing In questa sezione si propone l algoritmo di Metropolis e alcune applicazioni pratiche. È necessario dare a priori la seguenti definizioni: Definizione 11. Una probabilità π su E si dice reversibile se π i p ij = π j p ji per ogni i, j E. Definizione 1. Una catena di Markov è reversibile se: 1. irriducibile (ammette un unica probabilità invariante π).. π i p ij = π j p ji, (ovvero π è reversibile) allora π è invariante. Dimostriamo la seconda delle due condizioni dato che la prima è già stata trattata in precedenza. Proposizione 5. Se una probabilità π su E è reversibile allora è invariante. Dimostrazione. π i p ij = π j p ji = π j p ji = π j i E i E i E Con l algoritmo di Metropolis ci si propone di rispondere al seguente quesito: è possibile costruire una catena di Markov regolare a partire da: uno spazio degli stati E; una qualsiasi matrice di transizione Q simmetrica e irriducibile (e quindi bistocastica) su lo spazio degli stati E; e π una probabilità invariante su E tale che π i >. In altre parole si deve trovare una nuova matrice di transizione P tale che π = πp. Poniamo: π j π i, i j q ij p ij = q ij π j π i π j < π i, i j (1.6) 1 j i p ij j = i, Si nota subito che P = {p ij } ij è una matrice di transizione, dunque si può provare che P è simmetrica. Teorema 4. P è simmetrica. 16

18 Dimostrazione. Ricordiamo prima di iniziare la dimostrazione che Q è simmetrica π (q ij = q ji ). Supponiamo π j < π i allora p ij = q j ij π i da cui: π i p ij = π i q ij π j π i = π j q ij = π j q ji = π j p ji Supponiamo π j π i allora p ij = q ij da cui: π i p ij = π i q ij = π i q ji = π i p ji π j π i = π j p ji È facile osservare che anche la matrice P è irriducibile. Infatti se gli stati i, j E e i j sono tali che q ij > allora, per definizione, p ij >. Dalla dimostrazione si ottiene inoltre che: π i p ij = π j p ji (reversibilità) e quindi π è invariante per P. Corollario 1. Se π non è la distribuzione uniforme la catena di Markov associata alla matrice di transizione P, ha π come distribuzione reversibile ed è regolare Simulated Annealling Nell algoritmo di Metropolis supponiamo che la legge π sia della forma πi ε = e H(i) ε Z ε dove H è una funzione su E, ε > e Z ε una costante di normalizzazione scelta in modo che sia i E πε i = 1, cioè: Z ε = i E e H(i) ε. La regola di tansizione 1.6 diventa: q ij p ε ij = q ij e (H(j) H(i)) ε H(j) H(i), H(j) > H(i), (1.63) 1 j i pε ij j = i La regola di transizione è quindi la seguente: si sceglie il nuovo stato j secondo la matrice di transizione Q. Se H(j) H(i) si effettua la transizione in j; se invece H(j) > H(i) con probabilità e (H(j) H(i)) ε la transizione viene rifiutata e il processo resta in i. Per il teorema di Markov (teorema 3) a un tempo n grande la catena ha una distribuzione vicina a π ε. Ad uno sguardo più attento si nota che se ε è piccolo questa distribuzione si concentra sugli stati dove H è piccolo. Si può inoltre dimostrare che se i 1,..., i K sono gli stati che sono i punti di minimo assoluto per H, per ε la distribuzione π ε converge alla distribuzione uniforme su i 1,..., i K. 17

19 1.8 Catene di Markov a stati numerabili Ci occupiamo ora di analizzare le catene di Markov con uno spazio degli stati infinito ma numerabile per inferire dei risultati più generali. Definizione 13. Sia (Ω, F, P ) uno spazio di probabilità per una variabile aleatoria estesa X se: X : Ω R (1.64) misurabile su F, dove R = [, ]. Il cui significato è che P (X R) < 1. Nel caso discreto: Definizione 14. X : Ω N dove N = N {, }. Il cui significato è che P (X N ) < 1 o equivalentemente P (X = k) = a k. Allora può verificarsi che: a k < 1 dove N non assume e k N P (X = k) = k N Classificazione degli stati di una catena di Markov omogenea Sia {X n } n= una catena di Markov omogenea su (Ω, F, P ) e uno spazio degli stati E non finito ma numerabile. Definizione 15. Per ogni j E si definisce un tempo aleatorio: τ j (ω) = min {n > ; X n (ω) = j} (1.65) dove τ j (ω) è il primo istante in cui la catena visita lo stato j, naturalmente se assume valore significa che nello stato j non ci entrerà mai. Entriamo quindi nel merito della classificazione degli stati. Sia i E allora: Definizione 16. i è transiente se P i (τ i < ) < 1. Definizione 17. i è ricorrente se P i (τ i < ) = 1. Definizione 18. i è positivamente ricorrente se E i [τ i ] <. Si può dare una caratterizzazione alternativa più efficace di transienza e ricorrenza dopo aver definito la seguente quantità: Definizione 19. N i (ω) = numero di visite nello stato i (è una v.a. estesa). Da cui: Definizione. i è transiente se E i [N i ] <. 18

20 Definizione 1. i è ricorrente se E i [N i ] =. Diamo quindi le condizioni necessarie e sufficienti per transienza e ricorrenza: Teorema 5. Per ogni i, j sia p ij la matrice di transizione. E i [N i ] < E i [N i ] = n= n= p (n) ii < (1.66) p (n) ii = (1.67) Dimostrazione. Iniziamo col dimostrare la doppia implicazione in 1.66 dove E i [N i ] < e quindi vale che E i [N k i ] E i[n i ] < dove k è un numero fissato di passi. Dunque: E i [N k i ] = E i [ = = = k I [Xn=i]] (1.68) n= k E i [I [Xn=i]] (1.69) n= k P i (X n = i) (1.7) n= k n= p (n) ii (1.71) k E i [N k i ] = lim k n= k k n= n= p (n) ii E i [N i ] < (1.7) p (n) ii < (1.73) p (n) ii <. (1.74) Si dimostra la condizione 1.67 analogamente alla prima dato che è il suo complementare. Nota. I è una variabile aleatoria indicatrice e in quanto tale il suo comportamento è quello di una Bernoulli(p), dunque: E[I A ] = 1 P (I A = 1) + P (I A = ) = P (A). Proposizione 6. Se E è finito almeno uno stato ricorrente. 19

21 Dimostrazione. Dire che esiste almeno uno stato ricorrente equivale a dire che non tutti gli stati possono essere transienti. Per definizione: j E è transiente E j [N j ] < E i [N j ] < n= p (n) ij < Dunque per ogni i E e per ogni stato transiente j E la serie n= p(n) ij (dove i termini p ij per definizione) è convergente. Il che implica che al limite: Se E = m con m finito, per definizione: e quindi al limite n lim n p(n) ij = (1.75) lim m j=1 m n j=1 m lim p (n) ij = 1 n p(n) j=1 p (n) ij = 1 ij = 1 significa che per almeno un j, p (n) ij non tende a per n in contaddizione con la 1.75 = da cui j non è transiente. n= p (n) jj Si può dare un risultato ancora più forte di transienza e ricorrenza, ovvero che queste sono proprietà di classe modulo grazie al teorema di solidarietà. Teorema 6 (Solidarietà). Transienza e ricorrenza sono proprietà di classe modulo. Dimostrazione. Supponiamo che i j e i ricorrente. Dato che i j esiste n tale che p (n) ij >. Viceversa, dato che j i esiste m tale che p (m) ji >. Ora consideriamo uno spazio degli stati S e p (n+m+k) jj, per la Chapman - Kolmogorov (usata volte) = p (n+m+k) jj α,β S p (m) jα p(k) αβ p(n) βj p (m) ji p (k) ii p (n) ij = (p (m) ji p (n) ij ) } {{ } c p (k) ii

22 c > infatti per ipotesi p (n) ij > p (m) ij >. Inoltre dato che i è ricorrente si ha che k= p(k) ii = e dunque: l= p (l) jj c k= k= p (m+n+k) jj (1.76) p (k) ii (1.77) = (1.78) e quindi dalla definizione di stato ricorrente si ha che j è ricorrente. Il ragionamento è simmetrico in i e j, quindi se (per ipotesi) i j i è ricorrente j è ricorrente. Dato che la ricorrenza e complementare alla transienza, si ha che se i j allora i è transiente j è transiente. Nota. Nella 1.76 si ha l uguaglianza se m + n =. Definizione. Una classe C è chiusa se: i, j C j è accessibile da i Sulla base di quanto appena dimostrato enunciamo la seguente proposizione importante: Proposizione 7. Se una classe è ricorrente (composta di stati tutti ricorrenti per solidarietà) allora è una classe chiusa. Dimostrazione. Supponiamo che j k e j ricorrente. Se j k allora esiste m tale che p (m) jk > e se j è ricorrente allora: P j (X l j l m) = ovvero dopo m o più passi torno sicuramente in j. = P j (X l j l m) (1.79) P j (X l j l m, X m = k) (1.8) = p (m) jk P k(x l j l m) } {{ } =1 se k j (1.81) p (m) jk > assurdo. (1.8) La 1.8 deriva dal risulato più generale: P (A) P (A B). Mentre la 1.81 si ha per Markovianità. 1

23 1.9 Decomposizione Canonica È possibile decomporre lo spazio degli stati di una catena di Markov nel seguente modo: E = T C 1 C... dove T è l insieme degli stati transienti e C 1 C... sono classi chiuse e disgiunte di stati ricorrenti. Quindi la procedura per decomporre lo spazio degli stati è la seguente: 1. metto in T tutti gli stati transienti;. scelgo uno stato a caso i E \ T ; 3. si costruisce la corrispondente classe ricorrente (e chiusa) C 1 ; 4. scelgo uno stato a caso i 1 E \ (T C 1 ); 5. si costruisce la corrispondente classe ricorrente (e chiusa) C ; 6. ecc. Quindi posso riordinare E in base alle classi di cui è composto: E E = {{... }, {... }, {... },... } } {{ } } {{ } } {{ } T C 1 C da cui la forma canonica di P è: Q 1 Q Q 3... Q n P 1... P P = P P n dove P i è la matrice di transizione della sottocatena corrispondente alla classe C i contenente solo stati ricorrenti. Gli elementi restanti (Q i ) sono stati transienti. Si può notare che per costruzione della matrice che da uno stato transiente è possibile passare a un altro qualsiasi stato, mentre da uno stato ricorrente i è possibile passare solo ad un altro stato della medesima classe di i. 1.1 Esistenza e costruzione di una probabilità invariante (per una C.d.M. a stati numerabili) Per una catena di Markov con un infinità numerabile di stati, non sempre esiste una distribuzione invariante (o stazionaria).

24 Nota. Riprendiamo brevemente il concetto di distribuzione invariante (o stazionaria) per poi dare la definizione di misura invariante. Una probabilità su E è assegnata da una famiglia v = {v i } i E di numeri v i tali che i E v i = 1. Una distribuzione invariante per una catena di Markov su E, di funzione di transizione P, è una probabilità v su E tale che i E si abbia v i = j E v j p ji. (1.83) Esattamente come nel caso di un numero finito di stati si può verificare per ricorrenza che v i = j E v j p (n) ji (1.84) e dunque che se X ha come legge una distribuzione invariante v allora anche X 1, X,... hanno distribuzione v. Osserviamo che se π = πp vale anche a π = a πp dove a R. Definizione 3. Dato un vettore ν = {ν j } j E, esso è una misura invariante per P se ν = ν P con ν j (1.85) Se lo spazio degli stati E è finito allora una misura invariante ν determina univocamente una probabilità (o distribuzione) invariante π infatti ν π = j E ν j (1.86) Proposizione 8. Siano i uno stato ricorrente e ν j il numero atteso di visite in j in un i-ciclo, ovvero ν j = E i [N j ], allora: Dimostrazione. ν = {ν j } j E è una misura invariante. (1.87) i ricorrente P i [τ i < ] = 1 (1.88) τ i ν j = E i [ I [Xn=j]] (1.89) n=1 = E i [ I [Xn=j,n τi ]] (1.9) = = n=1 E i [I [Xn=j,n τi ]] (1.91) n=1 P i (X n = j, n τ i ) (= ν j ) (1.9) n=1 3

25 = p ij + P i (X n = j, n τ i ) (1.93) n= = p ij + P i (X n 1 = k, X n = j, n τ i ) } {{ } n= k i p kj P i (X n 1 =k,n τ i )) (1.94) = p ij + p kj P i (X m = k, m + 1 τ i ) (1.95) = p ij + k i m=1 k i p kj m=1 E i [I [Xm=k,m+1 τ i ]] (1.96) = p ij + k i p kj E i [num. visite in k in un i-ciclo] (1.97) = p ij + k i p kj ν k (1.98) = ν i p ij + k i p kj ν k (1.99) = k E p kj ν k (1.1) (ν 1, ν,..., 1,... ) = ν è invariante. (1.11) Se ν i = 1 ν = ν P ν è una misura invariante. La 1.88 deriva direttamente dalla definizione di ricorrenza. Nella 1.89 la v.a. indicatrice conta quante volte la catena attraversa j. La 1.9 è esattamente uguale alla precedente per il semplice fatto che se n supera τ i l indicatrice I =. E la 1.9 si ottiene sapendo che I è una Bernoulli(p). La 1.94 si ottiene applicando l equazione di Chapman-Kolmogorov, spezzando il cammino da i a j con stato intermedio k. Si ottiene la 1.95 facendo il seguente assegnamento: m = n 1. E nella 1.96 si è portata dentro la seconda sommatoria la prima sommatoria. La 1.99 è vera se e solo se ν i = 1. Corollario. È sufficiente avere uno stato ricorrente per trovare una misura invariante. Per effetto del teorema di solidarietà (teorema 6) se tutti gli stati di una catena comunicano tra di loro, essi sono tutti ricorrenti o tutto transienti. Diciamo che una catena irriducibile (nella quale tutti gli stati comunicano) è transiente o ricorrente a seconda che tutti i sui stati siano transienti o ricorrenti. Una catena irriducibile con un numero finito di stati è certamente ricorrente poichè abbiamo provato che possiede almeno uno stato ricorrente. Se invece gli stati sono un infinità numerabile allora essa può essere transitoria o ricorrente e determinare quale delle due opzioni si verifica è un problema interessante per le applicazioni. Nota. Se lo spazio degli stati E è finito allora esiste una probabilità invariante. 4

26 Teorema 7 (Teorema ergodico o delle medie temporali). Sia {X n } n= una catena di Markov omogenea irriducibile, positivamente ricorrente e tale che i E i [τ i ] < dove S è lo spazio degli stati. Detta π la sua unica probabilità invariante, si ha: lim N per ogni f : E R, f. 1 N N n= f(x n ) = j S f(j)π j (1.1) Nota. Se X π n X n π perché la distribuzione è invariante. f(j)π j = E(f(X n )) = f(j) P (X n = j) } {{ } j S j S π j Esempio 13. Se poniamo f(j) := δ ij = { i j, 1 j = i (1.13) 1 allora lim N N N n= f(x 1 n) = lim N N N n= δ ix n dove δ ixn è la frequenza relativa con cui la catena visita i, e risulta: lim N 1 N n= ergodicità { }} { N 1 N f(x n ) = lim δ ixn = δ ij π j = π i N N n= j S il che significa che con un unica realizzazione del processo posso calcolare la probabilità invariante. E viceversa, si può calcolare il valore atteso del processo, se ci conosce la probabilità invariante. Ci chiediamo ora cosa si può dire in merito al comportamento della catena a regime, ovvero cosa è possibile dire sulla probabilità limite. Teorema 8. Sia M una catena di Markov omogenea ergodica (ovvero irriducibile, positivamente ricorrente e regolare) allora esiste un unica probabilità invariante π che è anche una probabilità limite, ovvero: Dimostrazione. Omessa. lim n p(n) ij = π j Nota. Condizione sufficiente per la regolarità è che la catena sia aperiodica. Definizione 4 (Periodo). Si definisce periodo di uno stato i Uno stato i è detto: d i = MCD{n N : p (n) ii > } (1.14) 5

27 periodico se d i > 1 aperiodico se d i = 1 Proposizione 9. Il periodo è una proprietà di classe modulo. Dimostrazione. Supponiamo che i j e che i abbia periodo d i e j abbia periodo d j. Calcoliamo: p (n+m+k) jj = α,β S p (m) jα p(k) αβ p(n) βi p (m) ji p (n) ij } {{ } c> p (k) ii = cp (k) ii. Dato che p () ii = 1 allora p (m+n) jj >. Dunque possiamo definire n + m = k 1 d j per qualche k 1. Per ogni k > tale che p (k) ii > si ha che p (m+k+n) jj cp (k) ii > perciò: m + k + n = k d j per qualche k intero positivo. Ora, per k tale che p (k) ii > abbiamo: k = (m + k + n) (n + m) = k d j k 1 d j = (k k 1 )d j dunque d j è divisore di {n 1 : p (n) ii > }. Dato che per definizione il massimo comun divisore dell insieme precedente è per definizione d i, possiamo affermare alla luce dei fatti precedenti che d j è un divisore di d i, quindi d i d j. Per simmetria del ragionamento possiamo affermare che d i è divisore di d j e quindi che d j d i. Concludiamo che d j = d i. Estendendo il ragionamento a ogni coppia di stati (i, j) che comunicano tra loro otteniamo che il periodo è una proprietà di classe modulo. 6

28 Capitolo Hidden Markov Models Le catene di Markov viste nel capitolo precedente fanno parte dei modelli di Markov osservabili; in particolare questo significa che gli stati sono visibili direttamente da un osservatore esterno e che ad ogni stato corrisponde un evento fisico. Tali modelli sono restrittivi in molte applicazioni per la risoluzioni di problemi di interesse. Perciò si sono estesi i modelli di Markov per includere i casi in cui l osservazione è una funzione probabilistica di uno stato. In altre parole, non si vede l evento fisico che genera l osservazione, ma si riceve solo il risultato dell evento. Il modello risultante, chiamato modello nascosto di Markov (Hidden Markov Model o HMM), è un processo stocastico non osservabile. Questo non significa che non può essere osservato; infatti si modella attraverso un altro insieme di processi stocastici i quali producono la sequenza delle osservazioni. I modelli nascosti di Markov sono conosciuti particolarmente per le loro applicazioni nel riconoscimento del parlato, della scrittura a mano, nel riconoscimento di textures e nella bioinformatica. In seguito si presentano alcuni esempi di modelli nascosti di Markov per capire meglio il loro funzionamento, poi si presenta la trattazione matematica formale delle catene nascoste di Markov in cui le osservazioni sono discrete e nel caso in cui sono segnali continui (cenni)..1 Esempi di HMM Ora si trattano due esempi per introdurre i HMM: il modello del lancio della moneta (Coin Toss Model); il modello delle palline nell urna (The Urn and Ball Model). Esempio 14 (Coin Toss Model). Si assume che un individuo sia in una stanza in cui vi è una barriera e non può vedere cosa succede dall altra parte. Dall altra parte vi è una persona che effettua un esperimento di lancio di monete. Questa persona dice solo il risultato di ogni lancio della moneta all altro individuo. Quindi la persona riceve una serie di osservazioni di teste e croci; tale sequenza viene rappresentata 7

29 come O = (O 1, O,..., O T ) = (H, H, T, T, T,..., H) per esempio dove T è il simbolo per la testa e H è il simbolo per la croce. Come costruire un HMM che modella la sequenza osservata di teste e croci? Il primo problema è decidere quali e quanti stati del modello creare. Esistono diverse possibilità per risolvere tale problema. Una prima ipotesi è quella di realizzare un modello a due stati, ognuno dei quali rappresenta un lato della moneta (fig..1(a)). In questo caso si è generato un modello di Markov osservabile. Una seconda forma di HMM potrebbe essere un modello a due stati, ognuno dei quali corrisponde a una differente moneta truccata lanciata (fig..1(b)). Ogni stato è caratterizzato dalla probabilità di avere testa o croce. Una terza forma di HMM potrebbe essere quella di considerare un modello a tre stati, che corrispondono a tre monete truccate (fig..1(c)). (a) Modello 1 lancio (b) Modello lanci (c) Modello 3 lanci Figura.1: Tre possibili modelli di Markov per l esempio: lancio della moneta. Vediamo ora una situazione un po più complicata. Esempio 15 (The Urn and Ball Model). Si assuma di avere N urne di vetro in una stanza, ognuna delle quali contiene un numero grande di palline colorate. Si assuma che ci siano M colori distinti. Una persona sceglie un urna iniziale, secondo una qualche legge di un processo casuale. Da questa urna estrae casualmente una pallina; il suo colore rappresenta un osservazione. La pallina è reinserita nell urna da dove è stata estratta. Tale procedimento si itera generando una sequenza finita di osservazioni di colori, così da poter modellare tali osservazioni con un HMM. Il modello più semplice che descrive tale processo è quello in cui ogni stato corrisponde ad un urna specifica e per ogni stato è definita una probabilità di estrarre 8

30 un determinato colore (fig..). La scelta delle urne viene specificato dalla matrice di transizione del HMM. Figura.: Esempio delle palline nell urna. Caratterizzazione di un HMM In questa sezione si definiscono formalmente gli elementi di un HMM e si spiega come il modello genera le sequenze osservate. Un HMM è caratterizzata nel seguente modo: S = {S 1, S,..., S N }: è l insieme degli stati nel modello. Sebbene gli stati siano nascosti, per molte applicazioni pratiche spesso c è qualche significato fisico associato agli stati o ad insiemi di stati. Generalmente gli stati sono interconnessi in modo tale che ogni stato possa essere raggiunto da ogni altro stato (ad esempio un modello ergodico). N è il numero totale degli stati del modello e denotiamo con q t lo stato al tempo t. V = {v 1, v,..., v M }: è l insieme dei simboli osservabili, i quali corrispondono all output fisico del sistema che si sta modellando. Tale insieme identifica l alfabeto del sistema ed M rappresenta il numero di simboli distinti osservabili per stato. A = {a ij }: è la matrice di transizione 1, dove: a ij = P (q t+1 = S j q t = S i ), 1 i, j N (.1) che rappresenta la probabilità di transizione dallo stato S i allo stato S j. In particolare se uno stato può raggiungere qualsiasi altro stato in un singolo passo, si ha che a ij > i, j. Per altri tipi di HMM si avranno a ij = per una o più coppie (i, j). 1 La matrice A ha dimensione NxN 9

31 B = {b j (k)}: è la matrice delle emissioni, dove b j (k) = P (v k al tempo t q t = S j ), 1 j N, 1 k M (.) che è la probabilità di emettere il simbolo v k all istante t dato che il sistema si trova nello stato S j. π = {π i }: è la distribuzione di probabilità iniziale, dove π i = P (q 1 = S i ), 1 i N (.3) che è la probabilità che il sistema sia nello stato i al primo istante. Dati dei valori appropriati di N, M, A, B e π, il HMM può essere usato come un generatore per produrre una sequenza di osservazioni: O = (O 1, O,..., O T ) (.4) dove ogni osservazione O t è un simbolo di V e T è il numero di osservazioni della sequenza. La sequenza O viene generata con il seguente procedimento: (1) Scegliere uno stato iniziale q 1 = S i secondo la distribuzione di probabilità iniziale π. () Inizializzare t = 1. (3) Scegliere O t = v k secondo la distribuzione di probabilità b i (k). (4) Transire in un nuovo stato q t+1 = S j trovando l elemento a ij nella matrice di transizione A. (5) Settare t = t + 1. Se t < T ritornare al passo (3), altrimenti terminare la procedura. Tale procedura può essere usata come un generatore di osservazioni, ma anche come un modello per capire come una data sequenza di osservazioni è stata generata da un HMM appropriato. La sequenza (q 1, q,..., q t ) definisce gli stati che vengono attraversati durante la procedura, quindi indica l evoluzione della catena nascosta di Markov. Definizione 5. Un cammino Q è un insieme ordinato di stati Q = (q 1, q,..., q t ) che vengono percorsi in sequenza. Nota. Per convenienza si usa la notazione compatta λ = (A, B, π) per indicare l insieme di parametri del modello. La matrice B ha dimensione NxM 3

32 .3 Tre problemi fondamentali per gli HMM Dato un HMM λ = (A, B, π) vi sono tre problemi fondamentali di interesse che devono essere risolti per rendere il modello vantaggioso e utile nelle applicazioni reali. Tali problemi vengono descritti in seguito: Problema 1: Data la sequenza di osservazioni O = (O 1, O,..., O T ) e il modello λ = (A, B, π), come computare efficientemente P (O λ)? P (O λ) è la probabilità di avere la sequenza di osservazioni O dato il modello. Problema : Data la sequenza di osservazioni O = (O 1, O,..., O T ) e il modello λ = (A, B, π), come scegliere un cammino Q = (q 1, q,..., q t ) che è ottimale secondo qualche criterio significativo? Problema 3: Come adattare e aggiustare i parametri del modello λ = (A, B, π) al fine di massimizzare P (O λ)? Il Problema 1 viene detto anche problema della valutazione, ovvero dato un modello e una sequenza di osservazioni, come computare la probabilità che la sequenza osservata sia prodotta dal modello. Questo problema può essere visto come il problema di dire in che modo un dato modello si adatta alla sequenza di osservazioni data. Nel Problema, noto come problema della codifica, si tenta di scoprire le parti nascoste del modello, ovvero si cerca la sequenza di stati corretta. Il concetto di correttezza di una sequenza di stati risulta essere un po vago, questo perchè solitamente non si ha la certezza che la sequenza sia corretta. Infatti nelle situazioni pratiche, si usa un criterio di ottimalità per risolvere il problema nel modo migliore possibile. Sfortunatamente ci sono molti criteri di ottimalità ragionevoli che possono essere adottati e quindi la scelta del criterio risulta essere un compito duro. Nel Problema 3, detto anche problema dell addestramento, si tenta di ottimizzare i parametri del modello. Tramite le osservazioni si cerca di rendere il HMM più verosimile possibile alla situazione reale osservata. Perciò la sequenza osservata viene usata per aggiustare i parametri del modello; tale osservazione prende il nome di sequenza di training, perchè viene usata per addestrare il HMM. Ora si analizzano le soluzioni dei problemi descritti sopra..3.1 Soluzione al problema della valutazione Si desidera calcolare la probabilità di osservare la sequenza O = (O 1, O,..., O T ) dato un modello λ, ovvero P (O λ). Un metodo diretto per risolvere tale problema è attraverso l enumerazione di tutte le sequenze di stati possibili di lunghezza T. Si consideri la seguente sequenza di stati Q = (q 1, q,..., q t ) (.5) 31

33 dove q 1 è lo stato iniziale. La probabilità dell osservazione di O data la sequenza di stati Q è T P (O Q, λ) = P (O t q t, λ) (.6) t=1 naturalmente l uguaglianza vale se e solo se si assume l indipendenza statistica delle osservazioni. Tale probabilità si può riscrivere come P (O Q, λ) = b q1 (O 1 ) b q (O )... b qt (O T ). (.7) La probabilità di avere una certa sequenza di stati può essere scritta come P (Q λ) = π q1 a q1 q a q q 3... a qt 1 q T. (.8) La probabilità congiunta di O e Q è il prodotto di.7 e.8, cioè P (O, Q λ) = P (O Q, λ)p (Q λ). (.9) La probabilità di O si ottiene sommando la probabilità congiunta su tutte le sequenze di stati possibili: P (O λ) = P (O Q, λ)p (Q λ) (.1) tutti Q = q 1,q,...,q T π q1 b q1 (O 1 ) a q1 q b q (O )... a qt 1 q T b qt (O T ) (.11) Questa equazione viene interpretata nel seguente modo: al tempo t = 1 la catena si trova nello stato q 1 con probabilità π q1 e genera il simbolo O 1 con probabilità b q1 (O 1 ). Quando il clock cambia dal tempo t al tempo t + 1 (t = ) si effettua la transizione dallo stato q 1 allo stato q con probabilità a q1 q e si genera il simbolo O con probabilità b q (O ). Questo processo continua in questo modo fino al tempo T, dove si effettua la transizione dallo stato q T 1 allo stato q T con probabilità a qt 1 q T e si genera il simbolo O T con probabilità b qt (O T ). Nota. Si può osservare che tale procedura effettua numero di operazioni che è dell ordine di T N T, dove N T rappresenta tutte le possibili sequenze di stati di lunghezza T e T è il numero di operazioni richiesto per ogni termine della somma. Evidentemente tale calcolo è computazionalmente improponibile. Viene introdotta la Procedura Forward-Backward per calcolare P (O λ) in modo efficiente. Procedura Forward-Backward Tale procedura si struttura in due parti: forward e backward. Per ciascuna delle due parti si definiscono due variabili ausiliarie che identificano rispettivamente la probabilità forward e la probabilità backward. 3

34 Definizione 6. La probabilità forward α t (i) = P (O 1, O,..., O t, q t = S i λ) (.1) indica la probabilità di avere la sequenza (parziale) osservata fino al tempo t e di essere nello stato S i al tempo t, dato il modello λ. La probabilità forward si calcola induttivamente nel seguente modo: (1) Inizializzazione (base dell induzione): α 1 (i) = π i b i (O 1 ), 1 i N (.13) () Induzione: ( N ) α t+1 (j) = α t (i) a ij b j (O t+1 ), 1 t T 1 1 j N (.14) i=1 (3) Terminazione: P (O λ) = N α T (i) (.15) i=1 Al primo passo si inizializza la probabilità forward come la probabilità congiunta di essere nello stato S i e di avere l osservazione iniziale O 1. Il passo di induzione viene illustrato in figura.3(a). La figura mostra come lo stato S j è raggiunto da (a) (b) Figura.3: Illustrazione della sequenza di operazioni per il calcolo della probabilità forward α t+1 (i) e della struttura a traliccio per computare α t (i). N possibili stati S i al tempo t + 1. Dato che α t (i) è la probabilità congiunta di osservare (O 1, O,..., O t ) e che lo stato al tempo t sia S i, il prodotto di α t (i)a ij è la probabilità congiunta di ossevare (O 1, O,..., O t ) e che lo stato S j sia raggiunto 33

35 al tempo t + 1 dallo stato S i al tempo t. Sommando questo prodotto su tutti gli N stati S i (1 i N) al tempo t si ottiene la probabilità di essere nello stato S j al tempo t + 1 osservando (O 1, O,..., O t ). Una volta fatto questo si conosce S j ; α t+1 (j) è ottenuto moltiplicando la somma per la probabilità b j (O t+1 ). La computazione di.14 viene effettuata su tutti i stati 1 j N per un dato t; la computazione si itera per t = 1,,..., T 1. Infine si ottiene il valore di P (O λ). Nota. Si può osservare che la parte forward della procedura effettua numero di operazioni che è dell ordine di T N, nettamente inferiore alla complessità dell approccio diretto (T N T ). Il calcolo della probabilità forward è basata su una struttura a traliccio riportato in figura.3(b). Dato che ci sono solo N stati, tutte le possibili sequenze di stati saranno riunite in questi N nodi. Al tempo t = 1 si deve calcolare α 1 (i); ai tempi t =, 3,..., T si calcola il valore di α t (i), utilizzando gli N valori di α t 1 (i) calcolati precedentemente, questo perchè ogni punto della griglia è raggiunto dagli stessi N punti del periodo di tempo precedente. Si è appena visto come calcolare la probabilità forward. Viene utilizzata un idea analoga per il calcolo della probabilità backward. Definizione 7. La probabilità backward β t (i) = P (O t+1, O t+,..., O T q t = S i, λ) (.16) rappresenta la probabilità di avere la sequenza (parziale) osservata dal tempo t + 1 fino alla fine (T ), dato che lo stato sia S i al tempo t e dato il modello λ. Anche la probabilità backward si calcola induttivamente nel seguente modo: (1) Inizializzazione (base dell induzione): () Induzione: β t (i) = β T (i) = 1, 1 i N (.17) N a ij b j (O t+1 ) β t+1 (j) (.18) j=1 con t = T 1, T,..., 1 e 1 i N L inizializzazione definisce β T (i) = 1 per ogni i. Il passo di induzione, che viene schematizzato in figura.4, mostra che per essere nello stato S i al tempo t ed avere la sequenza di osservazioni dal tempo t+1 in poi, si devono valutare tutti i possibili stati S j al tempo t + 1 considerando: la probabilità di passare dallo stato S i allo stato S j, cioè il termine a ij ; la probabilità di avere l osservazione O t+1 nello stato S j, cioè il temine b j (O t+1 ); 34

36 le sequenze parziali delle osservazioni dal tempo t + 1 in poi, cioè il termine β t+1 (j). La parte backward della procedura sopra descritta viene usata per risolvere i problemi della codifica e dell addestramento descritti nelle sezioni successive. Invece la parte forward della procedura da la soluzione del problema della valutazione (calcola P (O λ)). Una volta costruito il modello λ basato sul HMM, P (O λ) rappresenta la probabilità di avere una certa osservazione. Figura.4: Illustrazione della sequenza di operazioni per il calcolo della probabilità backward β t (i). Nota. Anche la parte backward della procedura, come quella forward, effettua numero di operazioni che è dell ordine di T N, dunque risulta molto efficiente l approccio combinato forward-backward..3. Soluzione al problema della codifica Tale problema non ammette soluzione esatta come il problema della valutazione, ma si possono trovare diverse possibili metodi per risolverlo. Il problema della codifica chiede di trovare una sequenza di stati ottimale associata ad una particolare sequenza di ossevazioni data. La difficoltà della risoluzione di tale problema sta nella definizione di cosa si intende per ottimale ; infatti ci sono svariati criteri di ottimalità. Per esempio, un criterio di ottimalità ragionevole potrebbe essere quello di scegliere lo stato q t che è singolarmente più probabile. Questo criterio massimizza il numero atteso di stati singoli corretti. Per implementare tale criterio si definisce la variabile γ t (i) = P (q t = S i O, λ) (.19) che è la probabilità di essere nello stato S i al tempo t, data la sequenza osservata O e il modello λ. L equazione.19 può essere espressa in termini delle probabilità 35

37 forward-backward, cioè γ t (i) = α t(i) β t (i) P (O λ) = α t(i) β t (i) N α t (i) β t (i) i=1 (.) dove α t (i) considera la sequenza parziale (O 1, O,..., O t ), mentre β t (i) tiene conto della parte della sequenza rimanente (O t+1, O t+,..., O T ), dato che al tempo t si ha lo stato S i. Inoltre si può notare il fattore P (O λ) a denominatore, questo per normalizzare α t (i)β t (i) in modo tale da avere una misura di probabilità. Di conseguenza si ha che N i=1 γ t(i) = 1. Usando γ t (i), si può trovare lo stato che è singolarmente più probabile al tempo t nel seguente modo q t = argmax [γ t (i)], 1 t T. (.1) 1 i N L equazione.1 massimizza il numero atteso di stati corretti, però ci potrebbero essere alcuni problemi con la sequenza di stati risultante. Per esempio, quando il HMM ha transizioni la cui probabilità è uguale a zero (a ij = ), la sequenza di stati ottimale potrebbe non essere mai una sequenza valida. Questo è dovuto al fatto che la soluzione di.1 determina semplicemente lo stato più probabile ad ogni istante, senza considerare la probabilità di occorrenza delle sequenze degli stati; in altre parole non si valuta la possibilità che gli stati con probabilità basse siano ripetuti molte volte. Per risolvere tale problema si potrebbero utilizzare diversi criteri di ottimalità. Il criterio più usato e più ragionevole per molte applicazioni pratiche è quello di trovare la sequenza singola di stati migliore. Perciò l idea è quella di massimizzare P (Q O, λ) la quale si traduce nel massimizzare P (Q, O λ). Una tecnica formale per trovare la sequenza singola di stati migliore è l Algoritmo di Viterbi. Algoritmo di Viterbi Al fine di trovare la sequenza singola di stati migliore Q = (q 1, q,..., q T ) per una data osservazione O = (O 1, O,..., O T ), si definisce: Definizione 8. La più alta probabilità lungo un singolo cammino al tempo t, che considera le prime t osservazioni e termina nello stato S j è definita come δ t (i) = per induzione si ha max P (q 1, q,..., q t = S i, O 1, O,..., O t λ); (.) q 1,q,...,q t 1 ( ) δ t+1 (j) = max δ t (i) a ij b j (O t+1 ). (.3) i Si necessita di tenere traccia degli argomenti che massimizzano.3 per ogni t e j; di conseguenza si tiene in memoria l array ψ t (j). La procedura completa per la determinazione della sequenza di stati singola migliore si riporta in seguito: 36

38 (1) Inizializzazione: δ 1 (i) = π i b i (O 1 ), 1 i N (.4) ψ 1 (i) =. (.5) () Ricorsione: ( ) δ t (j) = max δ t 1(i) a ij b j (O t ), 1 j N t T (.6) 1 i N ψ t (j) = argmax δ t 1 (i) a ij 1 j N t T (.7) 1 i N (3) Terminazione: P = max 1 i N δ T (i) (.8) qt = argmax δ T (i) (.9) 1 i N (4) Backtracking del percorso: q t = ψ t+1 (q t+1), t = T 1, T, (.3) Si può notare che tale algoritmo è molto simile all implementazione della parte forward della procedura forward-backward..3.3 Soluzione al problema dell addestramento Il problema è di determinare un metodo per adattare i parametri del modello (A,B e π) in modo da massimizzare la probabilità di osservare una certa sequenza. Non si conosce un metodo analitico per risolvere tale problema; infatti data una qualsiasi osservazione di training, non c è un modo ottimale per stimare i parametri del modello. Di conseguenza si sceglie il modello λ tale che P (O λ) viene massimizzato localmente usando una procedura iterativa come metodo di Baum-Welch, o tecniche basate sul gradiente. Al fine di descrivere la procedura, basata sul metodo di Baum-Welch, per la ristima dei parametri del HMM si definisce una nuova variabile. Definizione 9. La variabile ξ t (i, j) rappresenta la probabilità di partire dallo stato S i al tempo t e di andare nello stato S j al tempo t + 1, dato il modello e l osservazione O; cioè ξ t (i, j) = P (q t = S i, q t+1 = S j O, λ). (.31) 37

39 La variabile ξ t (i, j) può essere riscritta in termini delle probabilità forward e backward: ξ t (i, j) = α t(i) a ij b j (O t+1 ) β t+1 (j) P (O λ) α t (i) a ij b j (O t+1 ) β t+1 (j) = N N α t (i) a ij b j (O t+1 ) β t+1 (j) i=1 j=1 (.3) (.33) dove il numeratore è P (q t = S i, q t+1 = S j, O λ) e si normalizza dividendo per P (O λ) così da dare una misura di probabilità (dalla definizione di probabilità congiunta). Percedentemente si è definita la probabilità γ t (i); questa si può mettere in relazione con ξ t (i, j) sommandolo su tutti i j γ t (i) = N ξ t (i, j). (.34) j=1 Se sommiamo γ t (i) su tutti i t si ha il numero atteso di volte che lo stato S i è stato visitato, o in altre parole si ha il numero atteso di transizioni fatte dallo stato S i. Similarmente se sommiamo ξ t (i, j) su tutti i t si trova il numero atteso di transizioni dallo stato S i allo stato S j. Riassumendo: T 1 γ t (i) = numero atteso di visite in S i, (.35) t=1 T 1 ξ t (i, j) = numero atteso di transizioni da S i a S j. (.36) t=1 Usando le formule sopra si può dare un metodo per la ristima dei parametri di un HMM. Le espressioni per la ristima di π, A e B sono π i = numero atteso di visite in S i al tempo (t = 1) = γ 1 (i) (.37) a ij = numero atteso di transizioni da S i a S j numero atteso di visite in S i = T 1 ξ t (i, j) t=1 T 1 γ t (i) t=1 (.38) 38

40 b j (k) = numero atteso di visite in S j con osservazione di v k (.39) numero atteso di visite in S j T γ t (j) t=1 e O t=v = k (.4) T γ t (j) t=1 Se si ha un modello λ = (A, B, π) tramite queste formule si può ristimare il modello come λ = (A, B, π). Baum ha dimostrato che vi sono due casi: il modello iniziale λ definisce un punto critico per la funzione di verosomiglianza, in questo caso si ha λ = λ; il modello λ è più verosimile del modello λ nel senso che P (O λ) > P (O λ), ovvero si è trovato un nuovo modello λ in cui è più probabile produrre la sequenza osservata O. Ci si può basare sulla procedura appena descritta per effettuare una ristima sistematica dei paramentri. In altre parole, una volta trovato λ che è la stima di λ, si pone λ = λ e si itera il procedimento effettuando una ristima di λ. In questo modo si migliora la probabilità che O sia osservata dal modello; il procedimento termina quando si è raggiunto un punto limite, in cui non si hanno più miglioramenti. Il risultato finale di tale procedura viene chiamato stima di massima verosimiglianza (o meglio maximum likelihood estimate) del HMM. La formula per la ristima dei parametri può essere derivata direttamente massimizzando la funzione ausiliaria di Baum. Definizione 3. Si definisce la funzione ausiliaria di Baum come la somma su tutte le sequenze di stati Q della probabilità di avere Q data l osservazione O e il modello λ moltiplicata per il logaritmo della probabilità congiunta tra O e Q dato il modello ristimato λ. Più formalmente Q(λ, λ) = Q P (Q O, λ) log P (O, Q λ). (.41) La massimizzazione di.41 incrementa la verosimiglianza max Q(λ, λ) P (O λ) P (O λ). (.4) λ Infine, iterando il procedimento, la funzione di verosimiglianza converge ad un punto critico (limite). Nota. Un aspetto importante della procedura di ristima è che i parametri del HMM 39

41 hanno vincoli stocastici; formalmente N π i = 1 (.43) i=1 N a ij = 1, 1 i N (.44) j=1 N b j (k) = 1, 1 j N (.45) k=1 e sono automaticamente soddisfatti ad ogni iterazione della procedura. Un strada alternativa per risolvere il problema dell addestramento è utilizzare una tecnica basata sul gradiente. In questo caso si utilizza una metodo meglio noto in letteratura come tecnica dei moltiplicatori di Lagrange. Può essere utilizzata per massimizzare P (O λ) che ha come vincoli le equazioni.43,.44 e.45. Si ottengono così i paramentri ottimali del modello. Sono state testate dai ricercatori entrambe le procedure e hanno dimostrato che producono soluzioni comparabili alle procedure standard di ristima..4 Osservazioni con densità continua nei HMMs Fino a questo punto si è considerato solo il caso in cui le osservazioni sono caratterizzate da simboli discreti scelti da un alfabeto finito. In molte applicazioni le osservazioni sono segnali continui. Sebbene sia possibile effettuare una quantizzazione per renderli discreti, questa potrebbe causare degradazioni del segnale originale. Per questo motivo è necessario introdurre i HMMs che considerano le osservazioni con densità continua. Per utilizzare tali HMMs si devono aggiungere delle restrizioni tramite una funzione di densità di probabilità (pdf), così che si possano ristimare i parametri in modo consistente. La forma più generale di questa funzione è una mistura della forma seguente M b j (O) = c jm G(O, µ jm, U jm ), 1 j N, (.46) m=1 dove O è l osservazione con densità continua, c jm è il coefficiente di mistura per l m-esima mistura riferita allo stato S j e G è una densità di probabilità logaritmica concava o ellittica simmetrica, dove µ jm è la media e U jm è la matrice di covarianza. Solitamente viene usata una Gaussiana per G. Il coefficiente c jm soddisfa il vincolo M c jm = 1, 1 j N (.47) m=1 c jm, 1 j N, 1 m M (.48) 4

42 così la funzione di densità di probabilità è normalizzata b j (x) dx = 1, 1 j N. (.49) In questo modo si possono ristimare i parametri in modo consistente. Le formule per a ij e per π i sono identiche a quelle usate per le osservazioni con densità discreta. Ristimare il parametro b j (O), si traduce nella ristima dei parametri c jm, µ jm e U jm. La formula di ristima per c ik è la frazione tra il numero atteso di transizioni in S j della k-esima mistura e il numero atteso di visite in S j. Mentre nella ristima di µ jk si pesa il numero atteso di transizioni in S j della k-esima mistura con l osservazione; dunque da il valore atteso della porzione di osservazione considerando la k-esima mistura. Infine nel calcolo di U jk si pesa il numero atteso di transizioni in S j della k-esima mistura con la covarianza dell osservazione rispetto la media..5 Comparazione di HMMs Dati due HMMs, λ 1 e λ, ci si può domandare: quanto simili sono i due modelli? Questo concetto viene detto criterio di similarità. Definizione 31. La misura di distanza tra due modelli di Markov λ 1 e λ si definisce come D(λ 1, λ ) = 1 ( ) log P (O () λ 1 ) log P (O () λ ) (.5) T dove O () = (O 1, O,..., O T ) è la sequenza di osservazioni generata dal modello λ. L equazione.5 da una misura di quanto bene λ 1 modella l osservazione generata λ, relativa a quanto bene λ modella l osservazione generata dallo stesso. L equazione.5 non è simmetrica; per renderla simmetrica si usa la seguente formula: D s (λ 1, λ ) = D(λ 1, λ ) + D(λ, λ 1 ). (.51) Ora si hanno tutti gli strumenti necessari per provare ad utilizzare i HMMs per qualche applicazione nell ambito scientifico-tecnologico. A tal fine nel prossimo capitolo si analizza una particolare applicazione di tali modelli nell ambito della Pattern Recognition. 41

43 Capitolo 3 Applicazioni utilizzando i HMMs In questo capitolo si analizzano 3 applicazioni utilizzando gli Hidden Markov Model nell ambito della riconiscimento di gesti e nell ambito della quantizzazione di segnali. In particolare, si analizzano 3 problemi diversi per vedere i limiti e i punti di forza dei modelli di Markov a stati nascosti. Il primo è il problema della quantizzazione dei livelli di grigio di una sequenza video (avi non compresso). Il secondo è volto al confronto tra modelli di aree diverse dello stesso video segmentato (foreground-background). Infine nel terzo si hanno filmati segmentati di movimenti differenti, e lo scopo è quello di classificare e dunque di riconoscere i video. Questi esempi sono riportati in seguito. Esempio 16. (Davide Fasoli) Consideriamo tre sequenze video differenti, una che rappresenta una persona che batte le mani (clapping), una persona che corre (run), ed infine una persona che saluta (waving). Lo scopo di tale esempio è di addestrare una HMM per pixel, al fine di quantizzare i livelli di grigio. Affronteremo nell esempio il problema dell addestramento ottimizzando i parametri della HMM utilizzando il metodo di Baum-Welch, risolvendo poi il problema della codifica dove tenteremo di scoprire le parti nascoste, cercando la sequenza di stati corretta, attraverso l algoritmo di viterbi. Per fare ciò inizializziamo una HMM continua la quale è formata da 4 stati (che essenzialmente saranno 4 livelli di grigio), che viene addestrata durante il processo, infine tramite Viterbi troviamo la più alta probabilità lungo un singolo cammino attraverso gli stati della HMM. L associazione tra lo stato e il giusto livello di grigio viene effettuato considerando la media della gaussiana del modello. In questo modo si ha una stima abbastanza verosimile, perchè nelle zone che non variano tanto lungo la sequenza, la media sarà costante e quindi si assegna un valore simile a tutti gli stati di quel particolare modello. Applicando questa procedura abbiamo una versione quantizzata del video iniziale. Le immagini osservate così non hanno senso, andrebbero osservate in sequenza. La presenza di pixel neri può essere data dal fatto che il numero di iterazioni scelte per l addestramento della HMM non sono sufficienti. 4

44 (a) Frame di partenza del video (b) Frame ottenuto con l addestramento Figura 3.1: Confronto tra un immagine della sequenza iniziale e un immagine della sequenza addestrata (a) Frame di partenza del video (b) Frame ottenuto con l addestramento Figura 3.: Confronto tra un immagine della sequenza iniziale e un immagine della sequenza addestrata (a) Frame di partenza del video (b) Frame ottenuto con l addestramento Figura 3.3: Confronto tra un immagine della sequenza iniziale e un immagine della sequenza addestrata 43

45 Esempio 17. (Diego Tosato) Vogliamo ora vedere il comportamento delle sequenze video considerando delle macro - regioni che compongono il flusso video. Ovvero, considerando un singolo frame che compone la sequnza del flusso video esso viene splittato in 16 quadranti. Per ognuno di questi quadranti addestriamo una hmm con la procedura iterativa spiegata nel capitolo. Vogliamo quindi valutare la distanza tra i diversi modelli addestrati. Il fine di tale confronto è quello di capire se ci sono modelli che si adattano a più reguioni del video. Il che implicherebbe che in quadranti diversi del video vengono eseguiti movimenti simili. Entriamo nel dettaglio dei dati che vengono analizzati in questo esempio che sono nettamente diversi dal caso precedente. In questo caso le sequenze video per ogni tipo di gesto sono di tipo logico. Ovvero si i pixels che compongono ogni singolo frame della sequenza possono assumere solo i valori i{, 1}. Il che significa che i video sono segmentati tra figura e sfondo. I gesti contenuti nelle sequenze video sono tali e quli ai precedenti: applauso, corsa e saluto. Introduciamo la formula della distanza adottata per valutare la somiglianza tra i modelli: D(λ 1, λ ) = P (O 1 λ ) + P (O λ 1 ). Dalla quale si vede immediatamente che per essere calcolata è necessario risolvere il problema della valutazione trattato nel capitolo precedente che in generale vuole trovare un modo efficiente per calcolare la probabilità che una data sequenza di osservazioni O appartenga a un ben preciso modello λ: P (O λ). Inolrte si nota anche la formula adottata è simmetrica. Ora esponiamo bervemente la sequenza di passi che ci ha portato alla risoluzione di quest esempio. Nella prima fase abbiamo costruito i modelli delle hmm per ogni quadrante costruendo le matrici A, B e quindi ottenendo λ i = (A i, B i, π i ) con 1 i 16. Per ogni λ i il vettore delle osservazioni O i contiene i dati proprio di ogni quadranti opportunamente linearizzati e tali che O i = (O i1, O i,..., O it ) dove T è il numero totale di frame per sequenza video. A priori abbiamo scelto la cardinalità degli stati nascosti, posta uguale a 3. In una seconda fase tramite la procedura di Baum - Welch ristimiamo i parametri del modello per trovare il modello ottimale per ogni quadrante. Per evitare che la procedura diverga fissiamo un limite al numero di iterazioni pari a 1 (il limite viene posto anche perché un numero di iterazioni elevato può causare overfitting). La procedura di ristima, dunque massimizza la funzione di likehood propria al metodo di Baum - Welch. Calcoliamo tramite la procedura forwards P (O λ) (terza fase). Per eseguire tale calcolo usiamo i modelli che sono il risultato del passo di ottimizzazione precedente. Come detto inizialmente viene fatto per tutte le possibili combinazioni di modelli e di osservazioni: P (O i λ j ) 1 i, j 16 In fine si calcola la distanza tra tutte le possibili coppie di modelli con la formula introdotta sopra Dunque dato che la distanza è simmetrica si ottiene una matrice 44

46 simmetrica che contiene una misura di quanto bene un modello addestrato su una data regione del video si adatta alle altre regioni e viceversa. Il range di valori che la distanza D può assumere è [, ]. In particolare più ci si avvicina allo più i modelli sono simili. Con i casi con D = quindi i modelli sono uguali e D = quindi i modelli sono diversi. I test effettuati sui tre diversi tipi di sequenze confermano le ipotesi. Le sequenze dove il soggetto in foreground applaude o saluta evidenziano che le hmm dei quadranti dove è eseguito il gesto sono molto simili in termini di distanza tra i modelli. E quindi nella matrice finale si notano delle zone dove la distanza è vicina allo. Tutt altra situazione quella che si ricava dal video dove il soggetto in foreground corre da una parte all altra della scena ripresa. In questo caso I modelli non localizzano alcuna zona dove i modelli sono nettamente diversi. E quindi non è possibile riconoscere dove avvenga il gesto. Presentiamo ora la parte sperimentale evidenziando esempi significativi per tipologia di gesto. Sono state fatte diverse prove per individuare un numero di stati adeguato per le hmm e dato che non si possiede una procedura automatica per la selezione del numero di stati ottimale per i modelli abbiamo fissato il numero a 8. Nel dettaglio: griglia utilizzando un modello a 8 stati per il gesto applauso; griglia 4 4 utilizzando un modello a 8 stati per il gesto applauso; griglia utilizzando un modello a 8 stati per il gesto corsa; griglia 4 4 utilizzando un modello a 8 stati per il gesto corsa; griglia utilizzando un modello a 8 stati per il gesto saluto; griglia 4 4 utilizzando un modello a 8 stati per il gesto saluto; Per tutti questi esperimenti si evidenzia un miglioramento qualitativo dei risultati nel caso in cui la griglia sia divisa più dettagliatamente ovvero in 16 quadranti. Quindi ci aspettiamo che all aumentare del numero di quadranti i risultati siano sempre più accurati. In particolare la localizzazione spaziale delle zone dove i modelli sono simili è molto più precisa. In tutti i grafici presentati in questo esempio sia nell asse delle ascisse che in quello delle ordinate sono indicizzati i modelli. Essendo rappresentata la distanza formulata im modo simmetrico, tutte le matrici sono simmetriche. E quindi quindi sulla diagonale si hanno i valori di distanza più vicini allo dato che si valuta la distanza tra due modelli uguali. Vediamo quindi cosa accade nel caso il gesto in considerazione sia l applauso nelle figure 3.4. Si evidenziano chiaramente delle zone dell immagine nettamente differenti (quelle da dove avviene il festo da quelle dove non avviene) in blu. Viceversa si evidenziano delle zone molto simili fuori dalla diagonale dove verosimilmente avviene l applauso in rosso. Come detto in precedenza l localizzione è molto piì precisa quando la griglia è divisa in 16 blocchi. Vediamo nella figura 3.5 come si comportano le hmm modellate nel caso della corsa. In questo caso il gesto della corsa non 45

47 è efficacemente modellabile infatti nella matrice delle distanza non si evidenzia alcuna area dove avviene la corsa. Infatti questo gesto convolge quasi tutta la scena e non si distinguono dei blocchi della matrice dove le distanze sono elevate. Per ultimo il gesto del saluto in figura 3.6 che, come nel primo caso, tornano a essere efficaci nel riconoscimento del gesto. Infatti si evidenziano le zone dove avviene il saluto nettamente distinte dallo sfondo in blu anche in questo caso. (a) griglia (b) griglia 4 4 Figura 3.4: Risultati del confronto tra modelli: applauso. (a) griglia (b) griglia 4 4 Figura 3.5: Risultati del confronto tra modelli: corsa. 46

48 (a) griglia (b) griglia 4 4 Figura 3.6: Risultati del confronto tra modelli: saluto. Esempio 18. (Loris Bazzani) Si considerino quindici sequenze video differenti, le quali sono suddivise in tre categorie: 5 sequenze contenenti una persona che batte le mani (clapping); 5 sequenze contenenti una persona che corre (running); 5 sequenze contenenti una persona che saluta (waving). Lo scopo di tale esempio è quello di addestrare un HMM multidimensionale per ogni filmato. Dopo aver creato il modello lo si ottimizza e si confronta con gli altri modelli. Prima di fare ciò, ai video si è stata applicata una fase di preprocessing, al fine di estrapolare una sorta di segmentazione tra background e foreground. Dopo tale fase ogni frame del filmato è una matrice che contiene solo valori logici ( che rappresenta il nero e 1 che rappresenta il bianco). Per ricavare l osservazione O, prima si suddivide ogni frame del filmato in N quadranti. Per ogni quadrante si calcola il numero di 1 presenti. Quindi l informazione ora è cambiata: non si ha più un filmato, ma si ha una sequenza {O i } T i=1 dove ogni O i contiene N elementi. Perciò si parla di osservazione multidimensionale: O = (O 1, O,..., O T ). In altre parole, al termine di tale procedimento si ha una nuova sequenza i cui frame avranno dimensione N. Tali passaggi vengono schematizzati in figura 3.7. Fatto questo, si ha l osservazione O; il passo successivo è quello di risolvere il problema della valutazione e quello dall addestramento descritti nel capitolo precedente. In particolare prima di tutto si inizializza il HMM dandogli in input l osservazione multidimensionale e il numero di stati del modello (che viene scelto a priori). Poi si addestra il modello, ovvero si effettua la ristima dei parametri in modo da ottimizzare la funzione di verosimiglianza (maximum likelihood estimate) attraverso il metodo di Baum-Welch. Infine si calcola la probabilità P (O λ) del modello ottimizzato tramite la procedura forward. Il calcolo di P (O λ) viene effettuato per ogni O, ovvero per ogni filmato dato il modello che stiamo considerando. Tale procedura si itera sistematicamente su tutti le sequenze video. 47

49 Figura 3.7: Schema per la realizzazione di un osservazione Alla fine si ottiene una matrice P (O i λ j ), che ci dice come un dato modello si adatta ad una osservazione generata da altri modelli. Per un problema di precisione di macchina P (O i λ j ) viene espesso in forma logaritmica (log P (O i λ j )). Per confrontare i vari modelli calcoliamo la seguente distanza D: D(λ i, λ j ) = P (O i λ j ) + P (O j λ i ). Si effettua una media tra le due probabilità in modo da rendere simmetrica D. Tale distanza ci dice se il modello λ i è migliore del modello λ j. Ogni elemento di tale matrice ha un valore nell intervallo [, ], dove indica che i modelli sono nettamente differenti, mentre indica che i modelli sono uguali. Perciò un valore di D vicino a indica che i modelli sono simile, mentre se è distante da si deduce che i due modelli sono differenti. Da questa osservazione si può intuire che dato un modello di una certa sequenza (per esempio running) se confrontato con sequenze simili si hanno valori che tendono a, mentre se confrontato con sequenze diverse (ad esempio clapping) i valori tenderanno a. Questo ragionamento ci suggerisce una tecnica di riconoscimento dei gesti. Al contrario degli altri esempi si utilizza un osservazione multidimensionale. Con tale tipo di osservazione si genera un modello i cui parametri sono multidimensionali. Sono stati effettuati diversi esperimenti variando sul numero di quadranti con cui si è suddiviso i filmati (N) e sul numero di stati. In seguito si presentano le seguenti prove: 48

50 griglia utilizzando un modello a 4 stati; griglia utilizzando un modello a 8 stati; griglia 4 4 utilizzando un modello a 4 stati; griglia 4 4 utilizzando un modello a 8 stati. I risultati vengono riportati in forma grafica nelle figure 3.8, 3.9, 3.1 e L immagine di sinistra rappresenta le distanze D(λ i, λ j ), mentre quella di destra rappresenta la likelihood P (O i, λ j ). I colori tendenti al rosso indicano valori vicini allo zero, mentre il blu indica valori vicini a. I modelli indicati nelle figure sono in sequenza quelli relativi ai filmati elencati sopra; in particolare i primi 5 sono i clapping, poi seguono i 5 di running ed infine i rimanenti di waving. I grafici delle distanze tra i diversi modelli D ci indicano che i alcuni modelli delle diverse osservazioni sono simili tra loro, mentre altri sono diversi. Ci si aspettavano delle matrici delle distanze simmetriche diagonali a blocchi, ovvero con valori tendenti a per i modelli della stessa classe e valori tendenti a per il resto. Questo perchè i modelli della stessa classe di movimenti dovrebbero essere simili. L esperimento che più rappresenta tale situazione è quello con una griglia e 8 stati (figura 3.9(a)). Si nota che aumentando il numero di stati la situazione si avvicina di più alla situazione ideale. Però se si aumenta la dimensione della griglia si hanno delle distanze poco verosimili, infatti nelle figure 3.1(a) e 3.11(a) si nota le distanze più vicine allo si hanno se si confronta un modello con se stesso (la diagonale della matrice). Naturalmente si potrebbero provare delle situazioni intermedie variando sulla dimensione della griglia e sul numeri di stati per trovare dei modelli più generali e più utili per il riconoscimento dei movimenti. Bisogna però porre attenzione e non incorrere nel problema dell overfitting, ovvero si crea un modello con troppi gradi di libertà così da rendere il modello troppo generale e quindi non in grado di adattarsi alla situazione in esame. Al fine di effettuare il riconoscimento dei filmati e quindi di classificarli in una delle classi dei movimenti, consideriamo le figure delle likelihood: 3.8(b), 3.9(b), 3.1(b) e 3.11(b). Anche in questo caso la situazione ideale è una matrice diagonale a blocchi. Si nota che in nessuna delle figure si ha tale situazione; perciò si può dedurre che la classificazione dei movimenti non va a buon fine. Anche nella likelihood si può notare che all aumentare dei stati (figure 3.1(b) e 3.11(b)) vi è overfitting. Riassumendo si è visto che non si riesce a fare riconoscimento in modo accurato. Per migliorare tale situazione si potrebbe aggiungere uno step preliminare di model selection ; tale fase serve per determinare preventivamente il numero di stati che deve avere un HMM. Infatti la scarsa accuratezza nella classificazione è dovuta prevalentemete alla scelta errata del numero di stati. 49

51 (a) Distanza tra i modelli (b) Likelihood Figura 3.8: Risultati del modello a 4 stati con una griglia (a) Distanza tra i modelli (b) Likelihood Figura 3.9: Risultati del modello a 8 stati con una griglia (a) Distanza tra i modelli (b) Likelihood Figura 3.1: Risultati del modello a 4 stati con una griglia 4 4 5

52 (a) Distanza tra i modelli (b) Likelihood Figura 3.11: Risultati del modello a 8 stati con una griglia 4 4 Concludendo si è visto che il primo esempio ha avuto successo, ovvero i filmati analizzati sono stati quantizzati in modo abbastanza affidabile e verosimile. Nel secondo esempio si è visto che alcune aree dei filmati i modelli creati sono molto differenti; in particolare nel caso della corsa si nota che le HMM sono abbastanza simili tra loro. Infine nell ultimo esempio si nota che vi è il riconoscimento dei filmati della stessa classe, ma si inferisce la classe sbagliata in alcuni casi. 51

Vedere altro