4.3 CODIFICA PER ANALISI E SINTESI



Documenti analoghi
Compressione del Segnale (Audio)

Codifiche a lunghezza variabile

ARCHITETTURA DI RETE FOLEGNANI ANDREA

COMUNICAZIONI ELETTRICHE + TRASMISSIONE NUMERICA COMPITO 13/7/2005

Elementi di teoria dei segnali /b

Il concetto di valore medio in generale

IL RISPARMIO ENERGETICO E GLI AZIONAMENTI A VELOCITA VARIABILE L utilizzo dell inverter negli impianti frigoriferi.

Prova di Esame - Rete Internet (ing. Giovanni Neglia) Lunedì 24 Gennaio 2005, ore 15.00

La Videosorveglianza Criteri per il dimensionamento dello storage

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

RETI INTERNET MULTIMEDIALI. Esercitazione 2

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Corso di Fondamenti di Telecomunicazioni

Prova di Esame - Rete Internet (ing. Giovanni Neglia) Lunedì 24 Gennaio 2005, ore 15.00

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Pro e contro delle RNA

Informatica per la comunicazione" - lezione 7 -

Suono: aspetti fisici. Tutorial a cura di Aldo Torrebruno

Reti di Telecomunicazioni 1

01CXGBN Trasmissione numerica. parte 1: Introduzione ai sistemi di trasmissione numerica. Grandezze fondamentali.

La distribuzione Normale. La distribuzione Normale

Federico Laschi. Conclusioni

Introduzione all analisi dei segnali digitali.

DISCRETIZZAZIONE DI UN SEGNALE ANALOGICO:

Lezione 28 Maggio I Parte

Amplificatori Audio di Potenza

(Esercizi Tratti da Temi d esame degli ordinamenti precedenti)

Informatica. Rappresentazione binaria Per esempio diventa /10/2007. Introduzione ai sistemi informatici 1

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Trasmissione di dati al di fuori di un area locale avviene tramite la commutazione

Rete di accesso / Rete di trasporto

Esercizi Multiplazione TDM Accesso Multiplo TDMA

Analisi di Protocolli

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

MANUALE D'USO DEL PROGRAMMA IMMOBIPHONE

Introduzione alle reti di telecomunicazioni

Corso di. Dott.ssa Donatella Cocca

Sistema operativo: Gestione della memoria

Gestione della memoria centrale

RETI DI TELECOMUNICAZIONE

Università di Napoli Parthenope Facoltà di Ingegneria

RETI INTERNET MULTIMEDIALI. Esercitazione 4

Luigi Piroddi

REALIZZARE UN BUSINESS PLAN CON MICROSOFT EXCEL 2007

Reti di Telecomunicazione Lezione 8

Propagazione in fibra ottica

( x) ( x) 0. Equazioni irrazionali

CAMPIONAMENTO E RICOSTRUZIONE DI SEGNALI

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Capitolo 13: L offerta dell impresa e il surplus del produttore

L idea alla base del PID èdi avere un architettura standard per il controllo di processo

Il Campionameto dei segnali e la loro rappresentazione. 1 e prende il nome frequenza di

Rete Internet Prova in Itinere Mercoledì 23 Aprile 2008

Esercizi su: Ritardi di trasferimento Commutazione Sorgenti di Traffico

Comunicazione codifica dei dati. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

Transitori del primo ordine

Reti di Calcolatori. Il software

Introduzione al suono. 0Il suono arriva alle orecchie sotto forma di variazione periodica della pressione atmosferica

Fondamenti teorici dello SS

GUIDA ALL USO 4 STAR PRESENTA LA RUBRICA VOCALE UN SOLO NUMERO PER CHIAMARE CHI VUOI.

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

v in v out x c1 (t) Molt. di N.L. H(f) n

ISC. L indicatore sintetico di costo del conto corrente

GUIDA ALLE SOLUZIONI

la scienza della rappresentazione e della elaborazione dell informazione

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca. Parte II Lezione 5

Per gli audiofili più esigenti!

MotoTRBO: nuova System Release 2.3.!

ALLEGATO 1 Analisi delle serie storiche pluviometriche delle stazioni di Torre del Lago e di Viareggio.

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Corso di Fondamenti di Segnali e Trasmissione - Appello del 07 Settembre 2005

Reti di Telecomunicazioni 1

Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

e-dva - eni-depth Velocity Analysis

Circuiti amplificatori

VERIFICA DELLE IPOTESI

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

VideoStreaming su IP

COMUNE DI SOLBIATE ARNO

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

LE CARATTERISTICHE DEI PRODOTTI MULTIVARIANTE

Indagine sismica. MASW - Multichannel Analysis of Surface Waves

Prestito vitalizio ipotecario

Organizzazione della memoria

Il campionamento. La digitalizzazione. Teoria e pratica. La rappresentazione digitale delle immagini. La rappresentazione digitale delle immagini

Strutturazione logica dei dati: i file

Lo scenario: la definizione di Internet

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

Database. Si ringrazia Marco Bertini per le slides

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Rapporto dal Questionari Insegnanti

Introduzione al Campionamento e

Come visto precedentemente l equazione integro differenziale rappresentativa dell equilibrio elettrico di un circuito RLC è la seguente: 1 = (1)

ORGANIZZAZIONE PRODOTTI

wave a 44,1 khz, 16 bit, PCM, stereo (standard cd audio) L utilizzo di una risoluzione dipende anche dal supporto che la dovrà ospitare.

Guida Compilazione Piani di Studio on-line

Transcript:

4.3 CODIFICA PER ANALISI E SINTESI Gli schemi di codifica di analisi per sintesi presentano alcuni aspetti essenziali che hanno determinato il loro successo: l inserimento tra il modello dell eccitazione e quello del tratto vocale di un filtro di predizione a lungo termine il segnale di eccitazione è calcolato al trasmettitore utilizzando come criterio la minimizzazione dell errore del segnale vocale ricostruito, da cui il nome di analisi per sintesi. Questo elemento determina l esigenza di un decodificatore locale anche nel trasmettitore; la minimizzazione dell errore è realizzata considerando un modello percettivo, seppur semplificato. Tale modello consente di tenere in conto delle trasformazioni operate dall apparato uditivo. Gli schemi di codifica di analisi per sintesi si distinguono essenzialmente per il diverso modello adottato per la forma del segnale di eccitazione: Codifica RPE (Regular Pulse Excitation) in tal caso il segnale di eccitazione è costituito da un numero di impulsi regolari ricavati direttamente da una decimazione dal segnale residuo r(n); Codifica MPE (MultiPulse Excitation) - il segnale di eccitazione viene approssimato da una sequenza libera di impulsi di posizione e ampiezza opportune; per avere dei buoni fattori di compressione in genere il numero totale degli impulsi è circa il 10 % del numero di impulsi originali presenti nel residuo r(n). Codifica CELP (Codebook Excitation Linear Prediction) - Il segnale di eccitazione è selezionato da una collezione di possibili segnali memorizzati in una tabella chiamata codebook. Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 27

4.3.1 - CODIFICA RPE Consideriamo la più semplice tecnica di codifica RPE denominata RPE-LTP che è stata standardizzata nel 1989 per la codifica della voce nel sistema radiomobile GSM. Dopo aver applicato alla forma d onda originale il filtro di predizione a breve e a lungo termine, si ottiene il segnale eccitazione o residuo r(n). Nella codifica RPE-LTP si codifica l informazione del segnale eccitazione effettuando una decimazione del segnale r(n) di un fattore D (griglia d eccitazione pari a 3 o 4). Se R(n) fosse una sequenza di 9 campioni r(n) N.... T C = 125 ms, N = 160 1 2 3 4 5 6 7 8 9 n T C 3T C tale sequenza non viene trasmessa interamente ma viene quindi decimata di un fattore D pari a 3, scartando, regolarmente, due impulsi su tre (D=4 si scartano tre impulsi su quattro). In tal caso, in funzione della fase iniziale di decimazione, sono possibili tre sequenze (nell esempio: 1-4-7, 2-5-8, 3-6-9); tra queste, si sceglie sempre quella con contenuto energetico più elevato, ipotizzando che campioni con un elevato contenuto energetico abbiano un peso maggiore sulla qualità del segnale ricostruito. E necessario informare trama per trama quale sia la fase iniziale di decimazione e, considerando tre (o quattro) possibili sequenze, si devono quindi impiegare 2 bit per la trasmissione della fase. Nella codifica RPE-LTP, la tecnica di decimazione non viene effettuata su l intera trama di 160 campioni; per una migliore qualità del segnale ricostruito e rendere il sistema più flessibile, la trama è stata suddivisa in quattro sottotrame di 40 campioni (5 ms). La decimazione quindi viene effettuata su ogni sottotrama stimando, ogni 5 ms. Di contro, saranno necessari 8 bit (2 bit 4 fasi) per codificare le fasi per ogni singola trama. Il pacchetto finale per un sistema GSM è, quindi, così costituito: LAR coefficiente del predittore a breve termine i LAR sono un set equivalente di parametri LPC, per la loro stima sono necessari 36 bit per trama; b (Guadagno di pitch) guadagno del predittore a lungo termine anche questi parametri, ai fini di una maggiore qualità, vengono calcolati su ogni sottotrama di 40 campioni, per la loro stima sono necessari 8 bit (2 bit 4) per trama; Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 28

N valori del pitch stimati su ogni sottotrama per la loro stima sono necessari 28 bit (7 bit 4) per trama; D fasi di decimazione per la loro stima sono necesssari 8 bit (2 bit 4) per trama; X max guadagni del residuo informazione sull ampiezza media del residuo rispetto al quale vengono normalizzate tutte le ampiezze degli impulsi, per la loro stima sono necessari 24 bit (6 bit 4) per trama; x m ampiezze degli impulsi otto livelli di discretizzazione (3 bit) per 13 campioni (decimazione di una sottotrama di 40 campioni), per la loro stima sono necessari 156 bit (8 livelli 13 bit 4) per trama; Sommando si ottengono 260 bit per trama (20 ms), quindi un bit-rate di 13 kbit/s. Tenendo conto di 9.8 kbit/s utilizzati per la codifica di canale (protezione agli errori introdotti nel canale), il bit-rate finale per un sistema GSM è pari a 22.8 kbit/s. 4.3.2 - CODIFICA MPE A differenza dei metodi che si rifanno ai principi di funzionamento dei codificatori di sorgente (in cui il segnale di eccitazione del modello vocale a predizione lineare è un treno di impulsi regolari o rumore bianco, a seconda che si tratti di suoni sonori o sordi), nel multimpulso non si fa alcuna ipotesi sulla sequenza di eccitazione e si cerca di approssimare la stessa con un numero di impulsi dipendente dal bit-rate desiderato secondo la struttura ad anello chiuso tipica di uno schema di codifica per analisi e sintesi. Il principio di funzionamento del multimpulso è molto simile a quello dell RPE; la differenza principale consiste nella struttura di eccitazione che non è più una sequenza regolare di impulsi ricavata da quella originaria, ma una sequenza ridotta, con circa solo il 10% degli impulsi originali, di L impulsi distribuiti liberamente all interno della trama, le cui ampiezze e posizioni vengono calcolate attraverso una particolare procedura di ricerca che determina il segnale eccitazione minimizzando un opportuna funzione di errore. L idea di base è quella di rendere minimo, in step successivi, lo scarto quadratico medio tra il segnale originario e quello sintetico. Descrivendo il segnale con i parametri del modello del tratto vocale e con gli impulsi così estratti, è possibile realizzare un effettiva compressione con una riduzione del bit-rate dai 64 kbit/s standard PCM a 16 kbit/s, conservando una discreta riproduzione della voce e una certa complessità. Per la tecnica di codifica multimpulso è nata una versione, nello standard G.723.1 (ha due velocità di codifica: una a 6.3 Kbit/s, l altra a 5.3 kbit/s), a 6.3 kbit/s in un contesto applicativo di comunicazioni multimediali con qualità non telefonica, recentemente rivalutato nell ambito della voce su IP nello standard H.323. 4.3.2 - CODIFICA CELP Come già osservato, il residuo di predizione a lungo termine è un segnale scorrelato simile a rumore che, quindi, può essere modellato da un processo gaussiano a media nulla con spettro di potenza lentamente variabile. Nella tecnica CELP si modella il segnale di eccitazione proprio attraverso un vettore gaussiano scelto all interno di un vasto dizionario stocastico (codebook) in modo da minimizzare l errore pesato tra segnale originale e ricostruito. Una volta trovato il segmento d eccitazione ottimo, fra tutti quelli presenti nel codebook, si provvede alla trasmissione di un indice (un puntatore al segmento nel codebook) che individua il frammento d eccitazione univocamente. Il ricevitore, Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 29

possedendo un dizionario identico a quello impiegato in trasmissione, può così ricostruire la sequenza di eccitazione dalla quale, poi, si originerà il segnale vocale sintetizzato. Per rendersi conto dei vantaggi di questa strategia di codifica nella riduzione del bitrate, basti pensare che una trama di eccitazione di 5 ms (40 campioni) può essere codificata con soli 15 bit (10 bit per il puntatore ai 1024 elementi del codebook e 5 bit per il fattore di guadagno), mentre per il GSM RPE-LTP ne occorrevano 47. L aspetto negativo di questa tecnica risiede nel fatto che introduce una complessità eccessiva dovuta alla ricerca completa della sequenza ottima nel codebook. Oggi, tuttavia, si è pervenuti a soluzioni ed implementazioni sempre più semplificate con complessità che si aggirano attorno ai 20 MIPS e, quindi, realizzabili utilizzando un solo DSP. LD-CELP (Low Delay-CELP) Nel 1992 l ITU-T ha standardizzato attraverso la Raccomandazione G.728 un algoritmo di codifica Low-Delay CELP a 16 kbit/s che introduce un ritardo di soli 2 ms garantendo una qualità confrontabile con l ADPCM a 32 kbit/s (4.1 MOS) e con una complessità di circa 25 MIPS. Nell LD-CELP, il ritardo di codifica viene ridotto realizzando un predittore adattativo all indietro. Per questa ragione i coefficienti del predittore non sono derivati dai campioni della trama attuale del segnale vocale in ingresso, ma piuttosto dai precedenti campioni quantizzati del segnale vocale. Questi ultimi sono disponibili anche al decodificatore che può, quindi, derivare i coefficienti del predittore utilizzando le stesse procedure utilizzate nel codificatore. Pertanto, non è necessario trasmettere bit di informazione secondaria per specificare i coefficienti del predittore e non è necessario immagazzinare 20 ms di segnale vocale come richiesto dall analisi LPC adattativa in avanti. L unità base per il buffer diventa il vettore di eccitazione ed il ritardo di codifica viene ad essere notevolmente ridotto considerando che la dimensione del vettore è molto più piccola dei 20 ms necessari ad uno schema CELP convenzionale. Poiché il ritardo di codifica è circa tre volte la dimensione del vettore, per raggiungere un ritardo di codifica di 2 ms, la dimensione massima del vettore che può essere utilizzata è di 0.625 ms, cioè 5 campioni. Il predittore a lungo termine, che era presente nel CELP convenzionale, è stato eliminato ed è stato aumentato a 50 l ordine del predittore LPC. A differenza del CELP che trasmette diversi tipi di informazioni, l LP-CELP trasmette solo l indice (10 bit 2 10 =1024) al codebook relativo alla migliore eccitazione selezionata per ogni trama di 5 campioni. Pertanto il codec richiede (10/5) 2 bit/campione e, quindi, avendo 8000 campioni al secondo, un bit-rate totale di 16 kbit/s. CS-ACELP (Conjugate Structure-Algebraic CELP) a 8 kbit/s Nel 1995 è stato proposto un nuovo standard dall ITU-T nella Raccomandazione G.729 a 8 kbit/s che utilizza una tecnica di codifica che riduce la complessità sviluppando un nuovo approccio all organizzazione del codebook: una struttura algebrica del codebook. Il codebook fisso, o stocastico, contiene solo quattro campioni non nulli sul subframe da 40 campioni. Gli impulsi possono assumere i valori ±1. Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 30

Fig. 4.10 Schema del codificatore CS-ACELP Lo schema a blocchi di questo standard è del tipo in figura 4.10. Si osserva un codebook fisso (algebrico) ed uno adattativo, cioè un codebook che conserva le ultime sequenze di eccitazione utilizzate. Quindi, la sequenza di eccitazione nasce dalla somma di una sequenza memorizzata nel codebook fisso, pesata da un coefficiente α e di una sequenza memorizzata nel codebook fisso, pesata da un coefficiente β. L algoritmo di codifica CS-ACELP opera a 8 kbit/s, presenta un ritardo di 10 ms, una complessità di 15 MIPS ed una qualità MOS 3.9. Già da circa due anni è partita la gara di standardizzazione di un algoritmo di codifica vocale a 4 kbit/s che si chiuderà nei primi mesi del 2001. Anche lo standard G.729 è stato recentemente rivalutato nell ambito della voce su IP nello standard H.323. 5 CODIFICA AUDIO A BIT-RATE VARIABILE (VBR) Nel capitolo precedente si è parlato diffusamente di diverse tecniche di codifica vocale ipotizzando sempre un segnale d ingresso e uscita al codificatore a velocità di trasmissione costante. In realtà, da uno studio più approfondito sui codificatori vocali, è emerso che l informazione associata al segnale vocale necessita di un flusso trasmissivo che non è costante nel tempo. E nata, così, in contrasto ai codificatori CBR (Costant Bit Rate) finora analizzati, una famiglia di codificatori di tipo VBR (Variable Bit-Rate) che risultano più adatti ad gestiore dinamica della banda disponibile. Le tecniche VBR si possono classificare in quattro categorie: Codifica ON-OFF Codifica Multimodo Codifica Multi-Rate Codifica Scalabile Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 31

5.1 CODIFICA ON-OFF La codifica ON-OFF sfrutta le pause di silenzio tipiche all interno di una conversazione attraverso l inserimento di un Rivelatore di Attività Vocale (VAD). Una tipica conversazione telefonica può essere rappresentata sia da tratti di voce attiva (talkspurt - ON) sia da tratti di silenzio (OFF), quando uno dei due parlatori non parla ma ascolta (pause interparlatore). All interno dei tratti di ON si verificano delle pause intra-word tra una parola e l altra. A ON OFF INTRA-WORD SID B OFF ON Se consideriamo il fatto che, mediamente, il 40% di una conversazione telefonica è costituita da tratti di talkspurt ed il rimanente 60% di tratti di silenzio, e evidente che l informazione necessaria a rappresentare con buona qualità il silenzio, o il rumore ambientale, è decisamente minore di quella necessaria a rappresentare i tratti di voce attiva. Effettuando la cosiddetta multiplazione statistica degli utenti sul canale, è possibile sfruttare le risorse in modo tale da dimezzare il bit-rate. I tratti di silenzio possono essere descritti da pacchetti, a basso bit-rate (circa 1 kb/s), periodicamente trasmessi che contengono le informazioni minime utili a rappresentare il rumore ambientale (SID Silence Descriptor). In ricezione, ci sarà un blocco generatore di sintesi del rumore ambientale (Comfort Noise Generator) che, a partire dai SID ricevuti riproduce, in maniera sintetica, il rumore ambientale nel contesto della comunicazione. E necessario, a questo punto l impiego di un blocco che discrimini i tratti di voce attiva da quelli di silenzio. L algoritmo impiegato per questa classificazione prende il nome di VAD (Voice Activity Detector). 5.1.1 IL VAD (Voice Activity Detector) Il sistema a cui è affidato il compito di discriminare tra attività vocale e rumore di fondo è il VAD. Esso si basa, generalmente, su algoritmi a soglia, ovvero, i criteri di decisione fanno uso di valori che possono essere fissi, o variabili, in funzione dell andamento locale del segnale; si parla, quindi, rispettivamente, di soglie fisse o adattative. Infine, un informazione di tipo binario (flag) restituirà il risultato di tale decisione in termini di presenza o assenza del segnale vocale. Il VAD è fondamentale per tutte le tecniche VBR perché consente la riduzione del bitrate codificando ad alto bit-rate i tratti di attività vocale e a bassissimo bit-rate (o nullo) per i tratti di silenzio. Anche il sistema GSM utilizza un VAD con il duplice obiettivo della riduzione del consumo delle batterie degli apparati mobili (cellulare) e dell interferenza co-canale (incremento del numero di utenti) Il VAD, operando delle misure in termini di energia, riesce bene a discriminare i tratti di attività vocale di una conversazione in un ambiente non rumoroso (clean), ma quando la conversazione è in un ambiente rumoroso diventa difficile, da semplici misure di energia, discriminare i tratti ON. Quindi, il VAD è un dispositivo che può introdurre degli errori che hanno peso sulla qualità del segnale ricostruito. Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 32

Activity Inactivity VAD Decision FEC MSC OVER NDS Rispetto ad un VAD impiegato in condizioni ideali, si possono definire quattro tipi di errore introdotti dal VAD: FEC (Front End Clipping) tagli (qualche trama) introdotti nel passaggio da rumore ad attività vocale MSC (Mide Speech Clipping) tagli dovuti a tratti a bassa energia in cui si innesca il comfort noise perdendo in qualità OVER (Hangover) il flag del VAD va oltre in un passaggio dall attività vocale al rumore NDS (Noise Detected Speech) piccoli burst di rumore interpretati come tratti vocali L istogramma in figura mostra come è più probabile avere dei tagli di breve durata piuttosto che tagli di lunga durata. In ogni caso, nonostante apparenti passaggi da uno stato di attività ad uno stato di inattività, il VAD mantiene il flag sull attività vocale (Hangover) per una durata di 5 trame (100 ms) proprio per evitare miss-classificazioni, ossia tagli inopportuni. 5.2 CODIFICA MULTI-MODE I codificatori a bit-rate variabile possono essere classificati, essenzialmente in due categorie: a) codificatori controllati dalla sorgente, i quali determinano il rate sfruttando la variabilità nel tempo delle caratteristiche locali del segnale vocale b) codificatori controllati dalla rete, dove un segnale di controllo, seleziona il rate tra un insieme predefinito di rate possibili. I codificatori muti-mode a bit-rate variabile appartengono alla classe a e sono impiegati, generalmente, per le applicazioni di memorizzazione di archivi vocali (es. segreterie telefoniche digitali). Una particolare implementazione di codifica a velocità variabile è quella che impiega il codificatore CELP come algoritmo di codifica a diverse velocità di trasmissione (fino a 8 diversi rate) in funzione di particolari classi fonetiche. Il segnale vocale in ingresso viene analizzato e classificato in accordo ad alcune regole stabilite a priori. Questa classificazione determina in modo aprioristico una particolare classe fonetica e, quindi, quei parametri che meglio si adattano a rappresentare l attuale segnale in ingresso. A questo punto, si sviluppano tanti modelli di codifica, a diverso bit-rate, per ogni classe fonetica (la selezione nasce dalla sorgente). Secondo questo approccio Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 33

metodologico, sono stati considerati otto diverse classi fonetiche, ed è proprio il classificatore fonetico a decidere, trama per trama, a quale classe fonetica appartiene il segnale in ingresso. 5.3 CODIFICA MULTI-RATE Anche in questa tecnica di codifica si utilizza un codec a bit-rate variabile con un certo numero di modalità di codifica, ma, a differenza della tecnica multi-modo nella quale si hanno tanti modelli di codifica per ogni classe fonetica, nella tecnica multi-rate si utilizzano codec a diverse velocità indipendentemente dal tipo di segnale in ingresso. Naturalmente, i vari codec a diversa velocità sono supportati da un unica architettura di codifica; in genere i codec si basano sulla stessa tecnica di codifica, es. CELP, utilizzano gli stessi parametri LPC, impiegando, però, un numero di bit diverso. La selezione del rate viene effettuata dalla rete mediante procedure che determinano lo schema che permette di ottenere il grado di qualità desiderato. Il rate può essere controllato in funzione delle esigenze dell utente, delle condizioni del canale o della rete. Il sistema UMTS (Universal Mobile Telecommunication Systems) rappresenta il cosiddetto sistema di 3 a generazione. Il suo standard è stato ufficializzato dall ETSI nel febbraio del 1999 con la nomenclatura AMR (Adaptive Multi-Rate); utilizza una tecnica di codifica ACELP, una dimensione per la trama di analisi di 20 ms, un rivelatore di attività vocale VAD e particolari procedure per la gestione delle trame perse o corrotte. Il codec multi-rate presenta otto modalità di funzionamento (otto velocità). La parte superiore della Tabella 5.1 riporta le diverse modalità per la codifica di sorgente (considerando una codifica di tipo Full-Rate). Il bit-rate più alto è pari a 12.2 kbit/s, compatibile con il sistema GSM EFR (l attuale standard per la telefonia cellulare); c è la modalità a 7.4 kbit/s, compatibile con lo standard americano TIA/EIA IS-641, fino alla modalità a più basso bit-rate pari a 4.75 kbit/s. Channel TCH/AFS (22.8 kbit/s) TCH/AHS (11.4 kbit/s) Source codec bit-rate 12.2 kbit/s (GSM EFR) 10.2 kbit/s 7.95 kbit/s 7.40 kbit/s (IS-641) 6.70 kbit/s 5.90 kbit/s 5.15 kbit/s 4.75 kbit/s 7.95 kbit/s 7.40 kbit/s (IS-641) 6.70 kbit/s 5.90 kbit/s 5.15 kbit/s 4.75 kbit/s Tab. 5.1 Modalità per la codifica di sorgente di un codec multi-rate per i canali TCH/AFS e TCH/AHS Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 34

E stata prevista anche una versione di tipo Half-Rate, per cui, dal set di otto modalità di codifica, si ricava un set di sei modalità per la codifica di sorgente mostrato in tabella. Nel sistema GSM la banda assegnata ad ogni utente in termini di bit-rate è di 22.8 kbit/s di cui 13 kbit/s utilizzati per la codifica di sorgente ed i rimanenti 9.8 kbit/s per la codifica di canale. Nel nuovo sistema GSM-UMTS, considerando la possibilità di scelta tra otto diverse modalità per la codifica di sorgente, è possibile adattare dinamicamente la soglia di transizione tra porzione di codifica di sorgente e porzione di codifica di canale. Pertanto, tramite una procedura on-line che misura le condizioni del canale, è possibile utilizzare una modalità di codifica di sorgente a bit-rate elevato quando il canale non è degradato, mantenendo minima la porzione di codifica relativa alla protezione dell informazione. Viceversa, in quei momenti in cui il canale è degradato, è preferibile utilizzare un basso bit-rate per la codifica di sorgente e, quindi, una minore qualità per il segnale vocale, ed un alto bit-rate per la codifica di canale, garantendo, così, una elevata protezione per l informazione. In tal modo, è stato risolto in maniera brillante, il problema della robustezza della trasmissione attraverso il canale radio. Associati alle modalità di codifica di sorgente, sono previsti anche quattro livelli di Comfort Noise e altri quattro livelli di codifica in funzione della qualità del segnale che si vuole ottenere; in tal modo, per tali sistemi, si raggiunge una complessità pari a 20 MIPS. La struttura di una frame AMR prevede: 4 bit per l Header necessari per codificare 16 diversi livelli di codifica di sorgente dal 12 a 14 bit per futuri sviluppi il 15 -.. La figura seguente mostra l andamento della curva del MOS in funzione del Carrierto-Interference (C/I), ovvero della degradazione del canale. In condizioni di canale ideale, il sistema presenta un MOS pari a 4.0 (c.ca); fino a una degradazione pari a 13 db la qualità, in termini di MOS è, praticamente, invariata, mentre per degradazioni crescenti diventa significativa la differenza tra la qualità del segnale con una tecnica di codifica AMR e quella con una tecnica di codifica EFR. MOS 5.0 Experiment 1a - Test Results 4.0 3.0 2.0 1.0 Sel. Requir. AMR-FR EFR Conditions No Errors C/I=16 db C/I=13 db C/I=10 db C/I= 7 db C/I= 4 db C/I= 1 db Sel. Requir. 4.01 4.01 4.01 3.65 AMR-FR 4.06 4.06 4.13 4.08 3.96 3.59 2.66 EFR 4.01 4.01 3.65 3.05 1.53 Fig. 5.X Curva di performance AMR Full-Rate per segnali vocali clean Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 35

5.4 CODIFICA SCALABILE Un ulteriore evoluzione alle tecniche di codifica è rappresentata dalla famiglia delle tecniche di codifica scalabile. Un codec scalabile è ancora un codec che restituisce un bitrate variabile attraverso una struttura scalabile del pacchetto dati compresso restituito. Vediamo la struttura del pacchetto: Enh. Enh. Core N 1 2 kbit/s 2 kbit/s 2 kbit/s Si ha un elemento base di codifica detto Core a bit-rate molto basso (2 kbit/s) più una serie di stadi di enhancement anch essi a basso bit-rate (2 kbit/s). Pertanto, si parte da un algoritmo che codifica la voce a 2 kbit/s più altre informazioni a 2 kbit/s che servono a migliorare la qualità dello stadio precedente. La struttura del pacchetto è detta, appunto, scalabile in quanto, in presenza di congestione in qualunque nodo della rete, si può fare a meno di una sua parte (e non dell intero pacchetto, come avveniva per il sistema EFR), ossia di alcuni stadi di enhancement mantenendo, comunque, un certo di livello di qualità del segnale (real-time). E possibile realizzare la scalabilità in un codec CELP sul codebook. I pacchetti di enhancement si possono realizzare parzializzando il codebook, in termini di codeword (generalmente 1024); ad esempio, i primi 256 codeword saranno dedicati al core, i successivi 256 per il primo stadio di enhancement e così via. Saranno trasmessi tanti indici del codebook quanti sono i tratti in cui esso è stato parzializzato. 256 CORE 256 1 Stadio Enhanc. 256 2 Stadio Enhanc. 256 3 Stadio Enhanc. Fig. 5.X Codebook CELP 6 CODIFICA OBJECT-ORIENTED DEL SEGNALE AUDIO Nei precedenti capitoli sono state analizzate le principali tecniche di codifica del segnale vocale, quindi relative alla codifica di un segnale nella banda telefonica 0 4000 Hz. Più in generale, i segnali acustici possono essere raggruppati in classi (in base alle varie aree applicative) secondo le diverse bande di frequenza che li caratterizzano. Il codificatore dei segnali audio gestisce sia segnali vocali che segnali musicali; ha un classificatore a monte, che riesce a discriminare le codifiche per classi quali voce, silenzio, rumore ambientale, musica, toni di segnalazione, ecc.. Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 36

Una volta riconosciuta la classe, come avviene nella codifica multi-mode, si seleziona il modello di codifica più appropriato. Ogni classe avrà delle sottoclassi per le quali, verranno selezionati ulteriori modelli di codifica. segnale audio musica rumore voce tono cord steady state onset state steady wind transient decay percussion silence periodic aperiodic Fig. 6.1 - Albero di classificazione La suddivisione in classi fatta per il segnale audio è la seguente: musica è una classe astratta molto ampia e può essere, ulteriormente suddivisa in sottoclassi di suoni (come i suoni prodotti da un insieme di strumenti musicali o anche suoni sintetizzati) rumore questa classe comprende tutti quei segnali che rappresentano un disturbo (il rumore di fondo può essere di vario tipo: d ufficio, di automobile, di traffico, di canale, ecc.) voce questa classe, chiaramente, comprende tutti i segnali prodotti dall uomo tono questa classe tiene conto dei vari toni di segnalazione che si incontrano in una rete di trasmissione e che coprono un range di frequenze da 385 Hz a 2000 Hz. Dunque, la generica sorgente da codificare può essere considerata come una combinazione di segnali differenti che si riferiscono alle classi specifiche suddette. Questi segnali combinati costituiscono la cosiddetta scena audio. Ing. F. BERITELLI - Tecniche di codifica del segnale vocale 37