L espressione fonico-acustica IL PARLATO E I SISTEMI TO-SPEECH. Struttura dell apparato fonatorio. Rachele Sprugnoli



Documenti analoghi
Tecnologie del parlato

La comunicazione e il linguaggio

FONETICA: LA PRODUZIONE DEI SUONI

Il SOFTWARE DI BASE (o SOFTWARE DI SISTEMA)

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

Università degli Studi di Foggia Dipartimento Sistemi Informativi ed Innovazione Tecnologica. Presentazione Portale Vocale Rete di Accesso Wi-Fi

Psicologia dei processi simbolici

A.A INDIRIZZO LA96 Analisi e intervento psicologico per l età adulta. Prof. Claudia Casadio

Manuale Utente Albo Pretorio GA

Introduzione al Foglio Elettronico

Dispensa di Informatica I.1

Guida alla registrazione on-line di un DataLogger

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Il calcolatore - Applicazioni

Dislessia e mappe semantiche

TECNOLOGIE INFORMATICHE DELLA COMUNICAZIONE ORE SETTIMANALI 2 TIPO DI PROVA PER GIUDIZIO SOSPESO PROVA DI LABORATORIO

Innovazione e accessibilità: applicazioni vocali e mobile accessibility. Presentazione del software Active Reader

Architetture Informatiche. Dal Mainframe al Personal Computer

Come costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali

Lavorare con PowerPoint

ARTE E IMMAGINE CLASSE PRIMA

INGLESE - CLASSE PRIMA

Suono: aspetti fisici. Tutorial a cura di Aldo Torrebruno

capitolo 8 LA CHECKLIST PER LA VALUTV ALUTAZIONEAZIONE TECNOLOGICA

Guida rapida all uso di Moodle per gli studenti

Architetture Informatiche. Dal Mainframe al Personal Computer

Plextalk Pocket PTP1

Laboratorio di Informatica

Le L z e ione n e d i d V isu s a u l B asi s c Prof.ssa Paola Goi 1

SVILUPPO DEL LINGUAGGIO NEL BAMBINO L.Carretti-logopedista-HSA Como 1

Introduzione ai Web Services Alberto Polzonetti

LINEE DI COLLEGAMENTO CON IL POF. PROGETTI A.Tu.Ba Bantù. IL COMPRENSIVO MONDO DEI SEGNI : NATURA, SPORT, MUSICA Area Scientifico-Ambientale

Introduzione alla Linguistica Computazionale

Linguaggi e Paradigmi di Programmazione

Modulo 3 - Elaborazione Testi 3.5 Stampa unione

SymCAD/C.A.T.S. modulo Canali Schema

Regione Piemonte Portale Rilevazioni Crediti EELL Manuale Utente

OSSIF WEB. Manuale query builder

Manuale Utente Amministrazione Trasparente GA

Guida rapida all uso di Moodle per gli studenti

Multimodal IVR. Multimodalità e Linguaggio Naturale. Customer Service Automation. 30 maggio2013

Struttura di Missione per il Centenario della Prima Guerra Mondiale MIUR Ministero dell Istruzione, dell Università e della Ricerca

INFORMATICA, IT e ICT

Al giorno d oggi, i sistemi per la gestione di database

Innanzitutto la tipologia merceologica : packaging piccolo o molto piccolo.

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

WoWords. Guida all uso: creare ed utilizzare le frasi. In questa guida è descritto come creare ed utilizzare le frasi nel software WoWords.

introduzione I MICROCONTROLLORI

LA DISLESSIA. Lucia Papalia

E possibile modificare la lingua dei testi dell interfaccia utente, se in inglese o in italiano, dal menu [Tools

Laboratorio Matematico Informatico 2

Manuale tastiera braille bluetooth bbreak

03. Il Modello Gestionale per Processi

PowerPoint 2007 Le funzioni

ALGEBRA DELLE PROPOSIZIONI

SISTEMI OPERATIVI. Prof. Enrico Terrone A. S: 2008/09

Disprassia verbale. DVE CAS Valutazione e trattamento Corso di alta formazione

Programmi e Oggetti Software

TECNOLOGIE INFORMATICHE DELLA COMUNICAZIONE ORE SETTIMANALI 2 TIPO DI PROVA PER GIUDIZIO SOSPESO PROVA DI LABORATORIO

Architettura hardware

Sviluppo del linguaggio. Le fasi dello sviluppo del linguaggio

Direzione Centrale per le Politiche dell Immigrazione e dell Asilo

CONCORSO EDUCATIVO Al fronte e nelle retrovie, l Italia durante la Prima Guerra Mondiale

YOUR EASY SOLUTION FOR COSTING

Centro Elettronico di Documentazione Corte di Cassazione - Sistema ItalgiureWeb

SCUOLA PRIMARIA I.C. di CRESPELLANO PROGRAMMAZIONE ANNUALE ITALIANO

IL CURRICOLO DI SCUOLA ARTE E IMMAGINE

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

In un modello a strati il SO si pone come un guscio (shell) tra la macchina reale (HW) e le applicazioni 1 :

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Metodologie Informatiche Applicate al Turismo

Realizzazione siti web. I suoni

SOFTWARE PER LA GESTIONE DELLA MENSA TIME & MEAL

Cercare documenti Web

Log. Marzia Lorenzini. S. Giorgio di Mantova 09 Dicembre 2013

IRSplit. Istruzioni d uso 07/10-01 PC

Calcolatori Elettronici A a.a. 2008/2009

Strumenti e metodi di ausilio didattico per i dislessici

Registratori di Cassa

Alfabetizzazione Informatica. Prof. Giuseppe Patti

Informazione tecnica SUNNY CENTRAL COMMUNICATION CONTROLLER

SOMMARIO Introduzione Caratteristiche generali della piattaforma Amministrazione degli utenti 5

WEBGIS 1.0. Guida per l utente

Indice. Introduzione...6. Capitolo 1: Realtà virtuale e computer vision..10. Capitolo 2: Riconoscimento facciale..34

BENVENUTO AL CORSO ONLINE. POSitivitiES Psicologia Positiva nelle Scuole Europee GUIDA DEL CORSO

Dall Algoritmo al Programma. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

RAPPRESENTAZIONE GRAFICA DEGLI ALGORITMI

Elettronica dei Sistemi Programmabili

Centro Acquisti per la Pubblica Amministrazione EmPULIA. Linee guida per gli Enti Aderenti. Procedure Negoziate: Richiesta di Preventivo. Versione 2.

PIANO BIENNALE PER I DIRITTI DELLE PERSONE CON DISABILITÀ

La realizzazione del software didattico

Panasonic. Centrali KX-TDA 15/30 NE Ver.2.x Programmazione e prestazioni Scheda KX-TDA3192 (SVM) (Funzionamento Caselle Vocali)

FONORISORSAFONORISORSAFONO

Tesi di Laurea di Mauro Brazzo

Dipartimento per le Libertà Civili e l Immigrazione

Creazione di percorsi su Colline Veronesi

Le fattispecie di riuso

Alternanza scuola lavoro: che cosa significa

ABILITA. Memoria. Abilità linguistiche. Decifrazione. Classificare e ordinare. Comprensione. Analisi. Anticipazione. Progettazione.

Transcript:

IL PARLATO E I SISTEMI TEXT-TO TO-SPEECH L espressione fonico-acustica Risultato di una complessa storia evolutiva. Circa 250.000 anni fa: discesa della laringe verso il basso; sistema a due canne. Rachele Sprugnoli Struttura dell apparato fonatorio NB. Fonazione come FUNZIONE SECONDARIA installata su un insieme di organi inizialmente disegnato per la respirazione, l alimentazione e la percezione degli odori. Fonazione come SCELTA tra le possibili modalità espressive (ad es. gestualità, mimica, produzione di manufatti) per ragioni di EFFICIENZA SEMIOTICA 1

Vantaggi della fonazione Simultanea ad altri comportamenti; Può essere eseguita e ricevuta in condizioni ambientali difficili; Ha una larga modulabilità; Può essere ricevuta da più riceventi contemporaneamente; Può essere prodotta in modo continuo; È portatile ; È rapida. Come si forma un suono I. I polmoni si espandono e si contraggono immettendo ed espellendo aria; II. III. Se le corde vocali sono chiuse, l aria esercita una pressione su di esse l aria esce sotto forma di sbuffo; Si forma il cosiddetto TONO LARINGEO; IV. Il tono laringeo viene modificato dai diaframmi che incontra si originano i suoni linguistici come li percepiamo uditivamente. NB. Vocali vs. Consonanti Grafemi, foni, fonemi Vari modi in cui si possono descrivere i suoni di una lingua: PRONUNCIA grafemi, digrammi, trigrammi FONETICA foni FONEMATICA (o fonologia) fonemi Fenomeni che riguardano l enunciato (1) Fenomeni SOPRASEGMENTALI (funzione distintiva) grafema = segno che costituisce l'unità grafica minima; fono = suono di una lingua considerato in base alle sue caratteristiche fisiche (articolatorie, acustiche, percettive); fonema = suono di una lingua considerato in base alla funzione distintiva che ha in un determinato sistema linguistico. Unità minima di una parola, non dotata di significato. Accento soprasegmentale di parola ES. prìncipi VS. princìpi Intonazione soprasegmentale di enunciato ES. Chiudi la porta! VS. Chiudi la porta? 2

Fenomeni che riguardano l enunciato (2) Fenomeni PARALINGUISTICI Caratteristiche del parlante: sesso età Il concetto di prosodia Emozioni: rabbia gioia tristezza Significato della frase: domanda imperativo pause volume esitazioni velocità PROSODIA (prosody) Intonazione, accento, lunghezza sillabe, pause, volume Cos è un sistema Text-To-Speech Input: TEXT Text Analyzer The automatic production of speech, through a grapheme-tophoneme transcription of the sentences to utter. (Thierry Dutoit) NB. TTS vs. mangianastri o lettori CD TTS vs. Voice Response System Grapheme-Phoneme Conversion Prosodic Modelling Digital Signal Processing Module Schema di un sistema TTS Output: SPEECH 3

Input: TEXT Input: TEXT Text Analyzer Grapheme-Phoneme Conversion Prosodic Modelling Digital Signal Processing Module Converte il testo dato in input in una sequenza di elementi machine-readable pre-processing module morphological analysis module contextual analysis module syntactic parser Text Analyzer Grapheme-Phoneme Conversion Prosodic Modelling Digital Signal Processing Module Converte il risultato della fase di text processing in sequenze di fonemi. Due metodi: 1. dictionary-based 2. rule-based La terza alternativa è una strategia ibrida: set di regole Output: SPEECH Output: SPEECH exception lexicon Input: TEXT Text Analyzer Grapheme-Phoneme Conversion Prosodic Modelling Digital Signal Processing Module Output: SPEECH Combina la stringa di fonemi ottenuta nella fase precedente, con le informazioni che riguardano la durata delle singole unità linguistiche e l intonazione delle frasi. durata: metodo Klatt ( inhdur min dur) prcnt dur = min dur + 100 intensità: modello Fujisaki Modello Fujisaki 4

Input: TEXT Text Analyzer Grapheme-Phoneme Conversion Prosodic Modelling Digital Signal Processing Module Output: SPEECH Viene tenuto conto delle caratteristiche articolatorie del tratto vocale per fare in modo che l output vocale finale corrisponda all input testuale iniziale. La transizione tra un fonema e l altro può essere resa in due modi: sintesi rule-based sintesi concatenativa Sintesi rule-based Formant Synthesis FORMANTS = frequenze caratteristiche del parlato grazie alle quali i vari suoni vengono identificati dall ascoltatore. Vengono simulate le caratteristiche spettrografiche dei diversi suoni tramite composizioni di vari risonatori, ciascuno accordato su frequenze specifiche di formanti diversi. Le posizioni dei formanti nei diversi fonemi e le loro variazioni nel passaggio da un fonema al successivo sono descritte da specifiche regole. Sintesi concatenativa I sistemi più recenti utilizzano la concatenazione di difoni. DIFONI = segnale che connette la seconda metà di un fonema con la prima metà del fonema successivo. unità fonetiche che realizzano la transizione tra fonemi Sintesi articolatoria In teoria è il metodo migliore per generare il parlato in maniera artificiale in quanto punta a riprodurre il sistema fonatorio umano usando modelli computazionali biomeccanici. Nella pratica 2 difficoltà: ottenere modelli tridimensionali del tratto vocale; modellare il sistema con un insieme limitato di parametri utilizzandoli si risolve il problema della distorsione causata dalla dispersione nei punti di concatenazione. richiede una notevole capacità di elaborazione 5

VISUAL TTS Esempi Visual TTS is the synchronization of a facial image, or talking head, with synthesized speech. incremento dell intelligibilità del sistema aggiunta di informazioni nel processo comunicativo tra utente e sistema 1972, Parke crea il primo modello facciale 3D 1974, Parke sviluppa il primo modello parametrico in 3D August varie espressioni Lucia: tristezza Lucia: gioia Valutazione dei sistemi TTS Qualità del parlato ottenuto in output da un sistema TTS rispetto ai parametri di naturalezza e di intelligibilità: più livelli di analisi più metodi per testare proprietà diverse: Segmental evaluation methods; Comprehension tests; Prosody evaluation; Field tests Applicazioni servizi di telecomunicazione; insegnamento delle lingue; aiuto ad ipo-vedenti e non-vedenti; strumenti per la logopedia; libri e giocattoli parlanti; monitoraggio vocale; interfacce hands-free ; ricerca 6

Linguaggi di markup (1): SSML Speech Synthesis Markup Language Sviluppato dal Centre for Speech Technology Research (CSTR) dell Università di Edinburgo nel 1995. ES. <ssml> <define word= "edinburgh" pro="eh1 D AH0 N B ER2 OW0" format= "cmudict.1.0"> <phrase> I saw the man in the park <phrase> with the telescope </phrase> <phrase> I saw the man <phrase> in the park with the telescope </phrase> <phrase> The train is now standing on platform <emph> A </emph> <language="italian"> <phrase> continua in italiano </phrase> </ssml> Linguaggi di markup (2): VoiceXML Voice extensible Markup Language È un dialog markup language (definizione del W3C), basato sulla sintassi XML, usato per sviluppare applicazioni in cui la comunicazione uomo-computer non si realizza solo per mezzo di un interfaccia grafica (ad es. link e bottoni accessibili attraverso tastiera e mouse) ma anche e soprattutto mediante un interfaccia vocale. IBM SpeechML Ancora VoiceXML AT&T PML Un po di storia Lucent PML VoiceXML www.voicexml.org Motorola VoxML W3C: Marzo 2000: Recommendation versione 1.0; 16 Marzo 2004: Recommendation versione 2.0; 23 Marzo 2004: primo Working Draft della versione 2.1 e ancora Dal punto di vista tecnico Per l accesso vocale sono necessari due moduli lato-server: 1. uno per il riconoscimento vocale (Speech Recognition); 2. uno per la traduzione del testo in voce (TTS). Dal punto di vista pratico Un documento VoiceXML è costituito da una serie di dialoghi. Ne vengono definiti 2 tipi: form, per l output e l input vocale; menu, presenta una selezione di voci tra cui scegliere. 7

VoiceXML, esempio ES. <?xml version="1.0"?> <vxml version="2.0"> <menu> <prompt>scegli una sezione<enumerate/> </prompt> <choice next="http://www.sports.example/start.vxml"> Sport </choice> <choice next="http://www.weather.example/intro.vxml"> Tempo </choice> <choice next="http://www.news.example/news.vxml"> News </choice> <noinput>per favore scegli una sezione <enumerate/></noinput> </menu> </vxml> VoiceXML, portali vocali Offrono accesso vocale a vari servizi quali titoli di borsa, liste di spettacoli teatrali e cinema, notizie del giorno, lettura e scrittura di e-mail usando la voce: TellMe www.tellme.com Quack www.quack.com BeVocal www.bevocal.com Hey Anita www.heyanita.com Linguaggi di markup (3): SALT Speech Application Language Tags SALT extends existing web markup languages to enable multimodal and telephony access to the web (SALTforum) Consente agli sviluppatori di inserire comandi vocali all interno di pagine HTML, XML o XHTML già esistenti. Linguaggi di markup (4): (X+V) XHTML + VoiceXML Ideato da IBM, OPERA e Motorola W3C: Novembre 2001: versione 1.0 Gennaio 2003: versione 1.1 le applicazioni vocali possono convivere parallelamente ai mezzi tradizionali di input/output Integra XHTML con VoiceXML 2.0 per realizzare l interazione vocale 8

Bibliografia ragionata (1) Studi di linguistica: Simone R., Fondamenti di linguistica, Roma-Bari, Laterza, 1990 Muliačić Ž., Fonologia generale e fonologia della lingua italiana, Bologna, il Mulino, 1971 Sobrero A.A., Introduzione all italiano contemporaneo: le strutture, Roma-Bari, Laterza, 1999 Bibliografia ragionata (2) Informazioni generali sui sistemi TTS e sulla sintesi vocale: Tutorial per un sistema TTS: http://www.ias.et.tudresden.de/sprache/lehre/multimedia/tutorial/index.html Speech synthesis: http://www.fact-index.com/s/sp/speech_synthesis.html A Text-to-Speech Primer: http://www.portset.co.uk/text_to_speech_primer.htm A Short Introduction to Text-to-Speech Synthesis: http://tcts.fpms.ac.be/synthesis/introtts.html Review of Speech Synthesis Technology: http://www.acoustics.hut.fi/~slemmett/dippa/ Bibliografia ragionata (3) Bilotta E., Interfacce multimodali ed aspetti psicologici dell interazione uomo-computer: http://galileo.cincom.unical.it/pubblicazioni/editoria/libri/hci -ele/coper.html Klatt D.H., Review of text-to-speech conversion for English: http://www.mindspring.com/~ssshp/ssshp_cd/dk_737a.htm Ibarra I.O. Curatelli F., A Brief Introduction to Speech Analysis and Recognition, An Internet Tutorial: http://www.mor.itesm.mx/~omayora/tutorial/tutorial.html VoiceXML: Bibliografia ragionata (4) Guida del W3C: http://www.w3.org/voice/guide/ Kleis Communication Technologies: http://www.kleis.it/portali-vocali/1#1 Community italiana di VoiceXML: http://www.vxmlitalia.com/ ITportal: http://www.itportal.it/special/internet/voicexml/default.asp 9

SALT: SSML: Bibliografia ragionata (5) SALT Forum: http://www.saltforum.org/ Speech Synthesis Markup Language Version 1.0 http://www.w3.org/tr/speech-synthesis/ XHTML + VoiceXML: XHTML+Voice Profile 1.0 http://www.w3.org/tr/xhtml+voice/ Bibliografia ragionata (6) Linguaggi di markup per le applicazioni vocali: Standard per applicazioni multimodali http://www.vxmlitalia.com/baggia.pdf Rivista on-line: Speech Technology Magazine: http://www.speechtechmag.com/ Pagina di riferimenti on-line: Home pages related to phonetics and speech sciences: http://fonsg3.let.uva.nl/other_pages.html 10