Tecnologie del parlato La sintesi del parlato Il riconoscimento del parlato 1 La sintesi del parlato (speech synthesis) Text-to-Speech (TTS) programmi in grado di produrre e pronunziare frasi allo scopo di far interagire linguisticamente in modo naturale la macchina con l uomo a metà degli anni 80, l uso dei segnali digitali che per natura sono più adattabili alla manipolabilità e meglio gestibili dei segnali analogici. 2 1
Modelli TTS 1) modello articolatorio, secondo cui si procede a una simulazione dell apparato fonoarticolatorio umano; 2) modello acustico, secondo cui si cerca di produrre un segnale che riproduca alcuni degli aspetti più rilevanti dell onda sonora (periodicità, forma dello spettro, transizioni delle formanti); 3) modello concatenativo, secondo cui si tenta di combinare porzioni di segnale di parlato umano in maniera da produrre un effetto quanto più naturale e spontaneo. 3 TTS è un applicazione che riceve in input un testo in forma elettronica, lo elabora e in output produce un onda sonora parlata corrispondente al testo inserito. Le odierne applicazioni TTS presentano solitamente un modello seriale, in cui vi sono una serie di livelli di trattamento dell informazione linguistica che sono successivamente sottoposti a diverse fasi di lavorazione (cfr. Dutoit e Stylianou, 2003: 323-338) 4 2
5 fasi 1. pre-trattamento, 2. analisi morfo-sintattica, 3. fonetizzazione, 4. generazione prosodica e 5. sintesi del segnale 5 6 3
Gli usi della sintesi del parlato sviluppo di sistemi di dialogo uomo-macchina (soprattutto nelle telecomunicazioni, ad esempio per richiedere e ricevere servizi di informazioni al telefono, ma anche su uno schermo interattivo parlante). utenti disabili che possono produrre parlato usando una tastiera o un mouse, o ottenere versioni parlate di testi scritti nel caso di utenti non vedenti. L astrofisico Stephen Hawking, colpito da sclerosi laterale amiotrofica, tiene regolarmente lezioni e seminari usando un sintetizzatore vocale che riesce a migliorare sensibilmente le sue interazioni comunicative rendendo possibili attività che altrimenti sarebbero notevolmente limitate educazione linguistica per la predisposizione di strumenti per l apprendimento di una seconda lingua e altre applicazioni sono già presenti in giochi, videogiochi, e nell elaborazione di audio-libri. 7 Il parlato multimodale Il parlato è sempre accompagnato da differenti espressioni del viso, da manifestazioni di emozione nella voce, da movimenti della bocca dei quali ci serviamo per aiutarci a comprendere anche la catena sonora che viene prodotta. teste parlanti animazioni in tre dimensioni 8 4
Holger 9 Il riconoscimento del parlato (speech recognition) applicazioni in grado di identificare le sequenze linguistiche del parlato spontaneo, convertirle in testo elettronico e permettere l interazione con programmi e servizi usando la voce. Tre sono le principali funzioni per le quali il riconoscimento del parlato viene utilizzato: 1) la dettatura di testi, 2) il comando vocale; 3) i sistemi di dialogo uomo-macchina. 10 5
4 fasi input (inserimento del materiale parlato nel sistema), una fase di addestramento (in cui il sistema è sottoposto all esposizione a materiale vocale controllato prodotto dall individuo che sarà il principale utente del sistema), una fase di riconoscimento effettivo (in cui il sistema è sottoposto a input nuovo ed elabora una o più ipotesi di riconoscimento) e l output (costituito dal testo scritto in formato elettronico). L input viene trattato in molti modi diversi. 11 Modello SR INPUT Onda sonora parlata I FASE Addestramento II FASE Riconoscimento OUTPUT testo Elaborazione del segnale Modellizzazione acustica Modellizzazione linguistica 12 6
Problemi per il SR 1) l estrema variabilità individuale delle caratteristiche vocali (legate al genere, alle caratteristiche dell apparato fono-articolatorio, ma anche e soprattutto alle peculiarità di pronunzia del singolo parlante); 2) i fattori di ipoarticolazione tipici del parlato spontaneo (ellissi, esitazioni, caduta di foni e sillabe, coarticolazione, pause piene ecc.); 3) la gestione di diverse tipologie testuali. 13 Gli errori Il tasso di errore oggi risulta, per la lingua inglese, pari a 0,3% per la dettatura di numeri (al telefono per esempio), tra 3-8% circa per il parlato letto (dettato) e spontaneo, molto più alto per la trascrizione di trasmissioni radio o televisive e soprattutto per il parlato dialogico in condizioni spontanee (più del 20-30%). 14 7
Applicazioni 1) telecomunicazioni 2) navigazione vocale online e offline evitando l uso del mouse e della tastiera (utile soprattutto con i cellulari, si pensi al voice-dial, e con dispositivi portatili oltre che nei casi di disabilità); 3) inserimento vocale di dati 4) dettatura ed editing di testi; 5) una varietà di strumenti di scrittura per disabili; 6) lo sviluppo di giochi e videogiochi; 7) in glottodidattica per le applicazioni di apprendimento e verifica. 15 Frontiere del riconoscimento vocale Sistemi multiutente senza addestramento (indipendenti dal parlante); Sistemi multilingue che permettano la dettatura di testi in cui siano presenti lingue diverse; Una maggiore accuratezza nella trascrizione del parlato spontaneo. 16 8