Implementazione in Nu-Tech di un VAD in tempo reale basato sulle statistiche di ordine superiore e sull algoritmo EM Online

Transcript

1 UNIVERSITÀ POLITECNICA DELLE MARCHE FACOLTÀ DI INGEGNERIA Corso di Laurea Specialistica in Ingegneria delle Telecomunicazioni Algoritmi per Applicazioni Multimediali Implementazione in Nu-Tech di un VAD in tempo reale basato sulle statistiche di ordine superiore e sull algoritmo EM Online Titolare del corso: Chiar.mo Prof. FRANCESCO PIAZZA Tesina di: Giovanni Pelliccioni Marco Malatesta Relatore: Prof. STEFANO SQUARTINI Anno Accademico 28-29

2 Abstract In questo lavoro è stato studiato e implementato un nuovo metodo per la realizzazione di un Rilevatore di Attività Vocale (Voice Activity Detection, VAD) in tempo reale. Il lavoro deriva dall analisi proposta nell articolo Voice Activity Detection Based on High Order Statistics and Online EM Algorithm [] il quale viene presentato, integrato con nozioni teoriche e ampliato nella parte riguardante la decisione nel capitolo e 2. Il metodo proposto è basato su un parametro denominato caratteristica (feature), ricavato dalle Statistiche di Ordine Superiore (High Order Statistics, HOS) e, per migliorare la sua robustezza ai rumori non gaussiani, dai picchi di autocorrelazione normalizzata. La caratteristica è anche finalizzata alla distinzione tra il segnale vocale in campo lontano e in campo vicino, ovvero il parlatore situato rispettivamente lontano e vicino al microfono. A differenza dei classici approcci VAD, questo non si basa esclusivamente sul livello di energia. La classificazione tra segnale vocale e ciò che è considerato rumore, tra cui il parlato in campo lontano, è incentrata su una modifica dell algoritmo EM affinché sia utilizzabile in tempo reale (EM Online). È stato aggiunto un criterio di decisione per integrare lo studio presentato dagli autori dell articolo al fine di ottenere un implementazione del VAD più efficiente. Vengono forniti e confrontati in MATLAB e in C, sfruttando la piattaforma Nu- Tech, i risultati ottenuti dalle implementazioni dell algoritmo.

3 Indice INDICE... 3 CAPITOLO... 5 INTRODUZIONE RILEVATORE DI ATTIVITÀ VOCALE PRESENTAZIONE DEL METODO... 6 CAPITOLO STRUTTURA DEL VAD BASATO SULLE STATISTICHE DI ORDINE SUPERIORE E SULL EM ONLINE ANALISI LPC E CALCOLO DEL RESIDUO Linear Predictive Coding Calcolo del residuo LPC ESTRAZIONE DEL PICCO DI AUTOCORRELAZIONE STATISTICHE DI ORDINE SUPERIORE PER LA RILEVAZIONE DEL PARLATO: LA KURTOSI Proprietà del segnale vocale nei casi vicino e lontano dal microfono Definizione delle Statistiche di Ordine Superiore (HOS) La kurtosi e la forma della distribuzione Calcolo della feature EM ONLINE Apprendimento con variabili nascoste: l algoritmo EM Approccio teorico all EM Online: apprendimento non controllato Realizzazione real time dell algoritmo EM: l EM Online RISULTATI SPERIMENTALI DELL ARTICOLO DI RIFERIMENTO Struttura di valutazione Valutazione su dati autoprodotti Valutazione sul database CENSREC IL CUORE DEL VAD: LA DECISIONE CAPITOLO RISULTATI SPERIMENTALI PARAMETRI E RISULTATI IN MATLAB RISULTATI SULLA PIATTAFORMA NU-TECH Risorse di calcolo impiegate dall algoritmo CONFRONTO TRA MATLAB E NU-TECH TEMPI DI CONVERGENZA DEI PARAMETRI DEL VAD PRESTAZIONI DELL ALGORITMO VAD PER DIVERSI SNR Ulteriore miglioramento dell algoritmo per bassi SNR... 9 CAPITOLO CONCLUSIONI APPENDICE LISTATI DELL ALGORITMO... 99

4 A. LISTATO IN MATLAB B. LISTATO IN C... 7 BIBLIOGRAFIA

5 Capitolo Introduzione. Rilevatore di attività vocale Il VAD (Voice Activity Detection) rileva automaticamente le parole dai segnali audio, è un problema classico nell elaborazione del segnale vocale. Ad esempio, è spesso usato come un interfaccia per il riconoscimento automatico delle parole (ASR) [2]. È stata data recentemente attenzione al problema perché l efficacia dell interfaccia VAD è cruciale per le prestazioni del riconoscitore vocale negli ambienti rumorosi; quando il rumore di sottofondo è alto, il numero degli errori di inserzione diventano maggiori [3], e avere un VAD immune ai rumori ambientali può significativamente ridurre il rate delle parole errate (WER: Word Error Rate). Il VAD è utile anche in altri impieghi come la codifica del parlato e il riconoscimento del parlatore. Il lavoro qui descritto tratta dell individuazione del parlato nel contesto di interazione uomo-uomo. Questa situazione pone molte sfide principalmente perché alcune delle assunzioni solitamente fatte per l ASR o per la codifica vocale, come il segnale che contiene parlato per la maggior parte del tempo, non sono verificate nell interazione uomo a uomo. Perciò un algoritmo VAD deve fare i conti con questa poca densità temporale (sparsity). Inoltre quando molte persone sono coinvolte dovrebbe essere in grado di distinguere i diversi parlatori. Una soluzione a questo problema è quella di usare un array di microfoni [4]. Se fosse possibile usare registrazioni fatte con microfoni vicino ai parlatori, la distinzione tra chi indossa il microfono e le altre persone sarebbe possibile qualora si trovasse una caratteristica il cui comportamento fosse diverso a

6 seconda che il parlato sia vicino o lontano al microfono. Il lavoro qui presentato segue proprio questo approccio. Infatti anche quando la registrazione del parlato da vicino è disponibile, la semplice strategia basata sull energia dà risultati insoddisfacenti [5], principalmente a causa della sovrapposizione di più voci nello stesso canale e della variazione delle condizioni di rumore..2 Presentazione del metodo Il metodo di cui si parla nell articolo [] alla base di questo lavoro contiene una nuova caratteristica incentrata sulle statistiche di alto ordine (HOS) per distinguere tra il parlato in campo lontano e in campo vicino, e uno schema di classificazione online non controllato basato sull algoritmo Online EM (Expectation Maximization) per far fronte alla variazione della condizione di rumore e il cambiamento della proporzione del parlato. Le HOS possono essere definite dai momenti di una variabile aleatoria, e danno l informazione che è assente dai più comuni momenti usati che sono media e varianza. L utilizzo delle HOS per il VAD è stato suggerito per esempio in [6], la cui strategia è stata raffinata in [7]. È stato mostrato in [6] che l HOS del residuo LPC è una funzione crescente del numero di armoniche nel segnale, usando un modello sinusoidale del parlato [8]. Siccome le HOS sono immuni al rumore gaussiano, possono essere usate per il VAD in alcuni ambienti rumorosi, come quelli gaussiani. Ad ogni modo le HOS sono sensibili ad altri tipi di rumori come i rumori transitori (i rumori che hanno un energia elevata e sono ben localizzati nel tempo, che possono capitare per esempio quando c è un contatto fisico con il microfono). Nell articolo [] le HOS sono combinate con un altra metrica, derivata dall autocorrelazione normalizzata, per migliorare la loro robustezza ai rumori di tipo non gaussiani. Delle HOS così migliorate sarà studiata l efficacia nel distinguere il parlato in campo vicino e in campo lontano. Verrà proposto anche un nuovo schema per la classificazione in tempo reale attraverso l uso dell EM online. Questo metodo ha il vantaggio di stimare in tempo reale il rumore e il livello del parlato contemporaneamente alla classificazione, senza dipendere da uno schema di stima del SNR indipendente come quello usato nel VAD G.729B [9]. La Figura visualizza lo schema a blocchi di principio presentato in []: come prima cosa 6

7 il segnale vocale viene suddiviso in frames i quali sono pre-processati e passano attraverso l analisi LPC, il residuo della quale è usato come ingresso al resto del metodo. La kurtosi e l autocorrelazione normalizzata, il cui picco principale viene estratto, sono calcolate, combinate tra loro e usate come ingresso dell algoritmo EM online, che fa la classificazione e l aggiornamento del modello simultaneamente. Speech signal LPC analysis Kurtosis Online EM Autocorrelation Peak Picking Result Figura. Schema dell algoritmo proposto nell articolo [] 7

8 Capitolo 2 Struttura del VAD basato sulle Statistiche di Ordine Superiore e sull EM Online In questo capitolo si entra nel merito della teoria e della procedura che permette la realizzazione del VAD in questione. In Figura 2 è visibile il suo schema a blocchi completo, cioè con la parte relativa alla decisione aggiunta con questo lavoro. Concettualmente il VAD può essere suddiviso in 5 grandi sezioni: l analisi LPC per il calcolo del residuo; l autocorrelazione del residuo LPC per l estrazione del picco; il calcolo della kurtosi del residuo LPC e la feature; l algoritmo EM Online; la decisione. Speech signal LPC analysis Kurtosis Online EM Autocorrelation Peak picking Decision Figura 2. Schema a blocchi completo del VAD. VAD

9 2. Analisi LPC e calcolo del residuo 2.. Linear Predictive Coding La codifica di predizione lineare (Linear Predictive Coding) è un efficiente e pratico metodo per ottenere voce artificiale. La sua efficienza è dovuta alla velocità dell algoritmo di analisi e al basso requisito di banda per i segnali codificati. La sua efficacia è legata all intelligibilità del segnale vocale decodificato. L'idea alla base dell'analisi predittiva è che un campione di parlato è rappresentabile come combinazione lineare dei campioni ad esso precedenti, ovvero: 2 dove rappresenta il campione vero all n-esima posizione, mentre rappresenta la sua stima, combinazione lineare dei campioni precedenti. Viene poi indicato con l errore di predizione corrispondente ad un predittore di ordine P e cioè realizzato con P coefficienti: La determinazione dei coefficienti viene fatta in modo ottimo, minimizzando il valore atteso del quadrato dell errore: 2 3 quindi basterà minimizzare rispetto ad essi il valore dell errore quadratico medio e dunque imporre che,, : Queste equazioni corrispondono alla condizione di ortogonalità. Se l errore di predizione è minimo, deve essere incorrelato con i dati utilizzati per calcolarlo; infatti, se ci fosse correlazione, si contraddirebbe l ipotesi che l errore sia minimo, in quanto i dati potrebbero essere utilizzati meglio per ridurre ancora di più l errore. Le equazioni (4) vengono dette equazioni di Yule-Walker, dai ricercatori che per primi le utilizzarono, e potrebbero essere riscritte in questo modo: 9

10 ,,, dove, ignorando l operatore di coniugio essendo reale, si ha che: 5 con,, 6 è l autocorrelazione del segnale. Le equazioni di Yule-Walker possono essere viste anche in forma matriciale, considerando la simmetria dell autocorrelazione di un segnale reale: Per risolvere questo sistema, si usa solitamente un algoritmo dai costi computazionali molto contenuti, l algoritmo di Levinson-Durbin [22]. L analisi spettrale autoregressiva fornisce un metodo per calcolare un filtro tutti poli che, applicato ad un rumore bianco, ne sagomi lo spettro in modo da riprodurre quello della sequenza esaminata. La predizione lineare non fa altro che applicare gli stessi metodi per il procedimento inverso, ovvero sbiancare il segnale tramite un filtro a media mobile. Quindi i parametri trovati conterranno l informazione spettrale del segnale in ingresso e, riprodotti in un filtro IIR alimentato da rumore gaussiano bianco, riporteranno al segnale precedente, a patto che l ordine della predizione sia sufficientemente alto. In Figura 3 viene mostrato questo ragionamento, si può dimostrare che, nel caso in cui, sarà statisticamente uguale e quindi l errore di predizione sarà bianco. È possibile quindi scrivere: dove è un segnale gaussiano bianco. Ora si può passare ad analizzare l implementazione della codifica vera e propria. Dall equazione (2) si nota che l errore di predizione è l uscita di un sistema la cui funzione di trasferimento è il seguente polinomio monico: 9 7 8

11 sequenza bianca s n sequenza colorata errore di predizione equazioni di Yule-Walker parametri del filtro Figura 3. Schema di predizione. Comparando l equazione (9) con la (8), è possibile affermare che se il segnale vocale obbedisce esattamente al modello dell equazione (8), allora. Così il filtro di predizione sarà un filtro inverso per il sistema di produzione del parlato, ad esempio: dove g è una costante moltiplicativa opportuna. L ipotesi principale per applicare l analisi LPC al parlato è il fatto che questo si mantenga all incirca stazionario per un periodo di tempo; si può dimostrare che, avendo in ingresso un segnale campionato a 8 KHz, la stazionarietà sarà mantenuta per circa campioni, ovvero 6-32 ms. Quindi, una volta segmentato il segnale in intervalli verrà applicata a ciascun frame un analisi di predizione lineare, con un numero di coefficienti solitamente variabile tra 8 e 4, lo standard LPC- ne utilizza poiché per il tratto vocale umano P= è una buona stima dei gradi di libertà che sono necessari per rappresentare la maggior parte delle espressioni Calcolo del residuo LPC Nella trattazione attuale, seguendo quanto fatto nell articolo [], viene utilizzato come segnale d ingresso al VAD un segnale vocale campionato a 8KHz. Come mostrato in Figura 4, questo viene elaborato in frames da 256 campioni (32 ms) con un

12 overlap del 5%. Su ogni frame si effettua l analisi LPC descritta in generale nel paragrafo precedente con N=P. Vengono restituiti i coefficienti che permettono di costituire il seguente filtro A (z) che sintetizza la voce:. Infatti per continuare con lo studio deve essere calcolato il residuo eseguendo la differenza tra il segnale originale e quello artificiale. Si ricostruisce il segnale sintetico ponendo in ingresso al filtro i 256 campioni del segnale originale; essi rappresentano la miglior eccitazione per il filtro di sintesi. frame vocale (256 campioni) frame ricostruito - + equazioni di Yule-Walker parametri del filtro residuo LPC Figura 4. Schema del blocco LPC analysis. 2.2 Estrazione del picco di autocorrelazione Il residuo LPC segue due percorsi paralleli, uno di questi è il calcolo della sua autocorrelazione normalizzata con in cascata l estrazione del picco. Infatti l autocorrelazione normalizzata,, fatta sui N=256 2 campioni di residuo, fornisce valori compresi tra - e, ove è il massimo ottenuto per un ritardo k nullo. 2

13 Ai fini dell algoritmo il picco significativo non è quello a ritardo nullo, ma quello più elevato tra tutti gli altri. Questo picco, denominato mx, verrà prelevato e successivamente abbinato ad un altro parametro del sistema per proseguire nello studio del VAD. 2.3 Statistiche di Ordine Superiore per la rilevazione del parlato: la kurtosi 2.3. Proprietà del segnale vocale nei casi vicino e lontano dal microfono Molte caratteristiche sono state proposte per il VAD, ad esempio l energia, l autocorrelazione, i picchi di cepstrum [], e MFCC [2]. L obiettivo è trovare una caratteristica la cui distribuzione fondamentale è diversa per il segnale vocale e per quello non vocale. Inoltre l obiettivo è quello di rilevare solamente il parlato in campo vicino perciò la caratteristica deve essere anche in grado di distinguere tra campo vicino e campo lontano. La proprietà più ovvia per individuare il parlato in campo vicino e in campo lontano sarebbe l energia, ma questa non si comporta come ci si aspetterebbe; le principali cause di deterioramento delle prestazioni negli algoritmi che si basano semplicemente sull energia si identificano [5] nella sovrapposizione vocale in un canale e nelle variazioni delle condizioni di rumore. Inoltre, come notato in [3], la normalizzazione della caratteristica per quanto riguarda l energia è molto importante per il VAD online. Per queste ragioni ci si concentra sulle caratteristiche indipendenti dall energia. Si riporta in Figura 5 il residuo LPC del parlato in campo vicino e in campo lontano, poiché è noto essere legato con l eccitazione glottale. Il segnale è stato registrato con due microfoni, uno in campo vicino e l altro in campo lontano, e viene mostrato l estratto da entrambi i microfoni sincronizzato nel tempo. In entrambi i casi, l inviluppo spettrale (colonna in mezzo) è simile, e gli impulsi corrispondenti alle variazioni del flusso d aria così come la loro periodicità sono visibili nel residuo LPC (colonna a destra). Ma nel caso del parlato in campo vicino, il residuo LPC non è 3

14 relativamente disturbato dal rumore e gli impulsi hanno un ampiezza molto più forte sulla media. Così, nel parlato in campo vicino, l ampiezza del segnale x(t) è o fuori il range [-σ, σ] o circa (ad esempio ). Nell altro caso, per il parlato in campo lontano, l ampiezza è più probabile che sia nell intorno di σ (ad esempio ). Figura 5. Paragone tra parlato lontano (in alto) e vicino (in basso). Le due registrazioni appartengono allo stesso segnale. La colonna a sinistra mostra lo spettrogramma di circa un secondo di segnale, quella in mezzo mostra lo spettro e quella a destra riporta il residuo LPC di un particolare estratto della registrazione. La linea tratteggiata rappresenta la deviazione standard del segnale. Ci sono diverse spiegazioni per questa differenza: primo perché l SNR è più basso per voci distanti e in quanto tale è incluso nel rumore, e inoltre, a causa della riverberazione, la distribuzione del suo residuo LPC è più somigliante ad una gaussiana. Un altra possibile spiegazione per questa differenza potrebbe essere l effetto di prossimità del microfono. La maggior parte dei microfoni per il campo vicino sono direzionali, e poiché quelli direzionali usano due diaframmi, ciò causa l effetto di prossimità di questi microfoni. Questo effetto aumenta lo spettro di bassa intensità del segnale ricevuto per i segnali vicini (pochi centimetri distanti dal microfono). In conclusione, la distribuzione del residuo LPC è più probabile che abbia valori estremi (lontani dalla media, o vicini alla media) nel caso di campo vicino piuttosto che nel caso di campo lontano. Seguendo questa proprietà, la distinzione tra parlato in campo vicino e in campo lontano si riduce alla distinzione tra una distribuzione con un picco e coda alta e una distribuzione con un elevato medio-range. La kurtosi, che è una delle HOS, è una statistica standard usata per questo intento. 4

15 2.3.2 Definizione delle Statistiche di Ordine Superiore (HOS) Come accennato nel paragrafo.2, per stimare la kurtosi, che è uno dei pilastri della procedura per la realizzazione del VAD, viene utilizzato il residuo LPC dal quale la si ricava attraverso media e varianza. Prima di approfondire l analisi della kurtosi però, viene definita la famiglia da cui deriva cioè le High Order Statistics. Le HOS, anche chiamate cumulanti, di variabili casuali X sono definite dalla funzione generatrice dei cumulanti Ψ: Φ t! 2 cioè, la funzione generatrice dei cumulanti è definita come il logaritmo della funzione generatrice dei momenti Φ, e il cumulante di ordine n, K n, è l n-esimo coefficiente dell espansione di Taylor diviso per n!. C è una relazione diretta tra i cumulanti di una variabile casuale X e i suoi momenti centrali. Per i primi quattro cumulanti queste relazioni sono: Il cumulante di ordine 2 è semplicemente la varianza. Le statistiche di alto ordine più comuni, la skewness s X e la kurtosi k X, sono definite come la versione normalizzata dei cumulanti rispettivamente di ordine 3 e 4, con il fattore di normalizzazione σ n, dove σ è la deviazione standard e n l ordine delle statistiche: Un motivo per questa definizione è la proprietà di additività per le variabili casuali indipendenti, che è una diretta conseguenza della proprietà della funzione generatrice dei momenti per le variabili casuali indipendenti. Un altra diretta conseguenza è che tutti i cumulanti di ordine n 3 sono per le variabili casuali gaussiane, poiché la funzione generatrice dei cumulanti di una variabile gaussiana è un polinomio di ordine 2. 5

16 2.3.3 La kurtosi e la forma della distribuzione La kurtosi è stata usata a lungo in letteratura statistica come una misura di nongaussianeità, come una misura di forma a picchi o a code per una variabile casuale [4], [5]. Infatti la kurtosi nel linguaggio della statistica indica un allontanamento dalla normalità distributiva, rispetto alla quale si verifica un andamento più piatto e a code ampie (distribuzione platicurtica) o un andamento più appuntito e con code piccole (distribuzione leptocurtica). Una distribuzione con la stessa kurtosi della distribuzione normale è chiamata mesocurtica. Si ricorda che la più nota misura della kurtosi è l'indice di Fisher (9), ottenuto facendo il rapporto tra il momento centrale di ordine 4 e la varianza al quadrato (o deviazione standard alla quarta). Il valore della kurtosi kx corrispondente alla distribuzione normale (gaussiana) è qualora si utilizzi, come nell articolo [] e di conseguenza anche in questo lavoro, la formula (2) in cui si sottrae 3 all indice di Fisher Schematicamente, se il coefficiente di kurtosi è: > la curva si definisce leptocurtica, cioè più "appuntita" di una normale. < la curva si definisce platicurtica, cioè più "piatta" di una normale. = la curva si definisce normocurtica o mesocurtica, cioè "piatta" come una normale. Un esempio grafico è dato dalla Figura 6 in cui sono rappresentate due distribuzioni con la stessa varianza, con approssimativamente la stessa asimmetria ma con differenze marcate nell'indice di kurtosi. Figura 6. Esempio grafico dei due tipi di distribuzione: leptocurtica e platicurtica. 6

17 Dato che il primo e il secondo momento di una variabile casuale X possono essere visti semplicemente come un parametro di traslazione e di scala, rispettivamente, le HOS contengono informazione sulla forma della distribuzione. La kurtosi misura sia il picco che la coda delle variabili casuali, e entrambe queste caratteristiche devono essere tenute in considerazione quando si confrontano due variabili casuali [4]. Più formalmente, per due variabili casuali simmetriche X e Y di uguale media e varianza, se ci sono a e b tali che,, 2 mentre,, 22 allora il momento di quarto ordine di X è più alto di quello di Y (vedi [5] per una dimostrazione). Presa una variabile casuale gaussiana come riferimento, un esempio di distribuzione che ha code più pesanti e che è più appuntita rispetto a una gaussiana è la distribuzione di Laplace, come raffigurato in Figura 7. Laddove una gaussiana ha una kurtosi uguale a, la distribuzione di Laplace ha una kurtosi uguale a 3 (sia la distribuzione di Laplace che la gaussiana hanno una kurtosi che è indipendente dai loro parametri). Figura 7. Paragone tra la distribuzione più appuntita e con coda più pesante (Laplace) rispetto alla gaussiana. Entrambe hanno stessa media() e varianza(), sono simmetriche, ma Laplace ha kurtosi 3 rispetto a della gaussiana. L area riempita sottolinea i ranges in cui i valori sono più probabili per Laplace. 7

18 2.3.4 Calcolo della feature Seguendo le discussioni sopra, ci si aspetta che la kurtosi sia un candidato in grado di distinguere tra parlato in campo vicino e in campo lontano. Per l esempio in Figura 5 la kurtosi è 5,4 per il parlato in campo vicino, e.4 per il parlato in campo lontano. Ad ogni modo, come già notato in [6], usare direttamente le HOS per il VAD non è efficace, per parecchie ragioni; gli stimatori standard per la kurtosi, basati su uno stimatore a campione di momenti, convergono lentamente sul vero valore e sono sensibili alle deviazioni estreme; inoltre, i rumori non-gaussiani potrebbero non avere un basso valore di kurtosi. Infatti, i rumori tipici in condizioni di campo vicino come i rumori di contatto, che sono di natura altamente transitoria, hanno una kurtosi grande. Figura 8. Campione di registrazione autoprodotta del segnale vocale con rumore naturale. Lo spettrogramma(in alto), l energia(la seconda), la log-kurtosi(la terza) e la caratteristica proposta(la quarta). Le aree evidenziate sono parlato che deve essere individuato. Questo è osservato in Figura 8 la quale rappresenta un estratto di 37 secondi registrati con un microfono in campo vicino: il segnale contiene per lo più parlato che inizia 8

19 attorno ai 7 secondi, ma tutto l inizio del segnale contiene voce di sottofondo, le cui basse linee spettrali di frequenza possono essere viste sullo spettrogramma. Lo spettrogramma contiene anche rumori transienti attorno ai 9- secondi, che sono visibili sia sullo spettrogramma che sul grafico dell energia. La Figura 8 mostra inoltre che la kurtosi si comporta in maniera differente per il parlato in campo lontano e quello in campo vicino: è principalmente a basso valore e stabile per il parlato lontano, invece ha alti valori per il parlato vicino. Comunque la kurtosi ha alcuni spikes, in particolare per i rumori transienti attorno ai 9 secondi. Per migliorare la proprietà sopra, viene proposto un metodo per potenziare la kurtosi contro i rumori transienti lasciando inalterato il suo comportamento desiderato per distinguere il parlato in campo lontano dal parlato in campo vicino; questa viene combinata con il picco di autocorrelazione normalizzata. L autocorrelazione è un buon segnale per indicare il tono, ed è abbastanza robusto ai rumori transitori; per queste ragioni è stato spesso usato per il VAD (per esempio in [6]). Per migliorare l immunità alla variazione dell energia del segnale si usa l autocorrelazione normalizzata a[k] per un frame X = (x t ) = {x,, x N- } data dalle seguente formula: 2 23 Per segnali periodici in T campioni l autocorrelazione ha massimi per ritardi multipli di T. Si rileva un picco se il suo valore è molto più grande dei suoi vicini più prossimi da entrambi i lati (scartando il primo picco a, che è sempre uguale a per definizione di autocorrelazione normalizzata). A causa del processo di normalizzazione, i picchi per rumori a bassa energia possono sembrare avere uno spettro marcato (un esempio di tale rumore è il rumore del motore). Inoltre non può essere usato da solo per rilevare le parole del parlatore principale dalle voci di sottofondo. Comunque, in questo studio, il motivo per cui si usa l autocorrelazione è che i suoi picchi hanno una bassa ampiezza per i rumori transitori, i quali sono i rumori più problematici quando si usano le HOS. Dunque la combinazione del picco di autocorrelazione mx con la kurtosi kx del residuo LPC permette di ottenere la nuova caratteristica (feature) fx come segue: log 24 9

20 Si impiega il logaritmo della kurtosi per dare un comportamento più gaussiano alla caratteristica, questo sarà più utile per la classificazione, e inoltre compensa alti valori che possono capitare per frames in campo vicino di voci forti. La kurtosi migliorata è mostrata in Figura 8, dove il miglioramento sulla kurtosi originale è evidente. Infatti ha ancora bassi valori per il parlato in campo lontano ed è più stabile per frames rumorosi. Un altro esempio, preso dal set di dati CENSREC-, è mostrato in Figura 9, dove è possibile osservare le stesse caratteristiche. In particolare si nota che la kurtosi migliorata è più robusta ai rumori che si manifestano nei primi 5 secondi (essi corrispondono a rumori di passi di qualcuno che cammina); il miglioramento confrontato con la kurtosi semplice è anche evidente sulla seconda e sulla quinta sezione del parlato. Figura 9. Campione di segnale vocale da CENSREC- (alto SNR). Lo spettrogramma(in alto), l energia(la seconda), la log-kurtosi(la terza) e la caratteristica proposta(la quarta). 2

21 2.4 EM Online 2.4. Apprendimento con variabili nascoste: l algoritmo EM Reti Bayesiane, variabili latenti, miscugli gaussiani, algoritmo EM Una rete bayesiana è un modo di rappresentare un problema attraverso ragionamenti probabilistici, essa modella relazioni tra i vari nodi della rete attraverso distribuzioni congiunte di probabilità. Molti problemi reali hanno variabili nascoste, talvolta chiamate anche variabili latenti, che non sono osservabili nei dati, ma si possono apprendere. Ad esempio, le cartelle mediche spesso includono i sintomi osservati, le terapie applicate e talvolta i risultati ottenuti, ma molto raramente è inclusa anche l osservazione diretta della malattia stessa Fumo Dieta Esercizio Fumo Dieta Esercizio Malattia Cardiaca Sintomo Sintomo2 Sintomo3 54 Sintomo Sintomo2 Sintomo (a) (b) Figura. Esempio di modello diagnostico immaginario per le malattie cardiache. Se la malattia non è osservabile, perché non costruire un modello che non tenga conto di essa? Si può fare il seguente esempio per chiarire il concetto: nella Figura viene riportato un piccolo modello diagnostico immaginario per le malattie cardiache. Ci sono tre fattori di predisposizione alla malattia osservabili e tre sintomi osservabili. Si suppone che ogni variabile possa assumere 3 possibili valori: nessuno, moderato e severo. Rimuovere la variabile nascosta dalla rete (a) dà come risultato la rete (b); 2

22 appare evidente che il numero di parametri aumenta drasticamente. Così le variabili latenti possono ridurre drasticamente il numero di parametri necessari per specificare una rete bayesiana. Questo a sua volta riduce drasticamente le quantità di dati necessari per apprendere i parametri. Le variabili nascoste sono importanti, ma effettivamente complicano l apprendimento. Nella Figura (a) ad esempio, non è chiaro come apprendere la distribuzione condizionata di Malattia Cardiaca dati i suoi genitori, perché non se ne conoscono i valori nei vari casi; lo stesso problema si ha per l apprendimento delle distribuzioni dei sintomi. L algoritmo Expectation - Maximization, o EM, risolve questo problema in un modo molto generale. Esso è usato in una grande varietà di problemi di apprendimento. Clustering non supervisionato: apprendere miscugli di gaussiane Il problema del clustering non supervisionato consiste nel discernere categorie multiple in una collezione di oggetti. Il problema è non supervisionato perché le etichette delle categorie non sono date. Ad esempio si può ipotizzare di registrare gli spettri di centomila stelle: è possibile chiedersi se tali spettri identificano tipi diversi di stelle, e se fosse così, quanti sono e quali sono le loro caratteristiche. Sono conosciuti da tutti i termini quali gigante rossa e nana bianca, ma le stelle non hanno un cartellino identificativo; per distinguere tali categorie gli astronomi hanno dovuto eseguire un clustering non supervisionato. Il clustering non supervisionato parte dai dati. Dall insieme di dati si deve cercare di capire quale distribuzione di probabilità potrebbe aver generato quei dati. Il clustering presume che i dati siano generati da una distribuzione miscuglio P. Tale distribuzione ha k componenti, ognuno dei quali è una distribuzione. Un dato si ottiene scegliendo per prima cosa uno dei componenti e quindi generando un campione da esso. Sia C la variabile casuale che denota il componente con valori,,k; la distribuzione miscuglio è data da 25 22

Vedere altro