Laboratorio CAT Corso di Laurea Magistrale in: Traduzione Tecnico-Scientifica e Interpretariato a.a. 2015-2016

Documenti analoghi
Traduzione e computer (3) Cris%na Bosco Informa%ca applicata alla comunicazione mul%mediale

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Appunti sulla Macchina di Turing. Macchina di Turing

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

UNIVERSITA DEGLI STUDI DI BRESCIA Facoltà di Ingegneria

Al termine del lavoro ad uno dei componenti del gruppo verrà affidato l incarico di relazionare a nome di tutto il gruppo.

Linguaggi e Paradigmi di Programmazione

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

CASO D USO: MICRORACCOLTA. 21 aprile

Fondamenti di Informatica. Docenti: Prof. Luisa Gargano Prof. Adele Rescigno BENVENUTI!

Linee guida per il Comitato Tecnico Operativo 1

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

CONSIGLI PER POTENZIARE L APPRENDIMENTO DELLA LINGUA

PROGETTO REGIONALE MISURAZIONE E VALUTAZIONE DELLE BIBLIOTECHE VENETE

STAMPA DI UNA PAGINA SEMPLICE

PROGRAMMAZIONE E GESTIONE DI UN PROGETTO DI SERVIZIO SOCIALE


CRITERI DI VALUTAZIONE SCUOLA PRIMARIA SCUOLA PRIMARIA

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

WG-TRANSLATE Manuale Utente WG TRANSLATE. Pagina 1 di 15

E se l'errore fosse «Parola non compresa»? Leggibilità e qualità del lessico nei siti web

Corso di Informatica

FINESTRE INTERCULTURALI

Generazione Automatica di Asserzioni da Modelli di Specifica

Il corso di italiano on-line: presentazione

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

La Metodologia adottata nel Corso

Archivio WebQuest I Grafi e le Reti

Architetture Applicative

Organizzazione degli archivi

Guida al Sondaggio AITI 2013

Informatica per le discipline umanistiche 2 lezione 14

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

EXPLOit Content Management Data Base per documenti SGML/XML

Metodologie Informatiche Applicate al Turismo

Il nuovo browser italiano dedicato alla navigazione e comunicazione sicura in internet per bambini

Cosa è un foglio elettronico

CURRICOLO DISCIPLINARE DI ITALIANO ASCOLTO E PARLATO. Traguardi per lo sviluppo delle competenze. Obiettivi di apprendimento( conoscenze e

Preventivo a parola, a cartella: aspetti da considerare nella valutazione

CitySoftware PROTOCOLLO. Info-Mark srl

Istruzioni per leggere bene. Istruzioni per leggere bene

SPC e distribuzione normale con Access

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

Realizzazione di una chat su protocollo HTTP

Lezione 8. La macchina universale

I Problemi e la loro Soluzione. Il Concetto Intuitivo di Calcolatore. Risoluzione di un Problema. Esempio

ALGEBRA DELLE PROPOSIZIONI

Report di valutazione Fiona Clark_Live

Strutturazione logica dei dati: i file

FINESTRE INTERCULTURALI

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

Dispensa di Informatica I.1

Novità di Access 2010

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Alla ricerca dell algoritmo. Scoprire e formalizzare algoritmi.

1. BASI DI DATI: GENERALITÀ

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

Workflow grafico. Daniele Fortarel La stampa digitale Materiale tratto da: brochure tecniche (Xerox Docucolor 7002/8002) TAGA doc 12 - Stampa digitale

Il processo traduttivo

Piano di gestione della qualità

Achab Learning & Presentation System Il progetto di Achab, per lo sviluppo e la pubblicazione di presentazioni e corsi di formazione online

Sistemi Informativi e Sistemi ERP

DATABASE. nozioni di base

Più processori uguale più velocità?

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

Università degli Studi di Messina

Uff. I. - OLIMPIADI DI PROBLEM SOLVING - Informatica e pensiero algoritmico nella scuola dell'obbligo

Concetti di base di ingegneria del software

MANUALE DELLA QUALITÀ Pag. 1 di 6

OpenPsy: OpenSource nella Psicologia. Presentazione del progetto in occasione dell edizione 2004 del Webbit (Padova)

Come scrivere una proposta progettuale

Stampe in rete Implementazione corretta

Nuove Tecnologie per la Traduzione

ESERCITAZIONE POPOLAMENTO DI

Valutare gli esiti di una consultazione online

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

Istituto Centrale per il Catalogo Unico delle Biblioteche Italiane. e per le Informazioni bibliografiche. Manuali utente per SBN WEB. Versione 1.

Introduzione alla Virtualizzazione

Progettaz. e sviluppo Data Base

ARCHIVI E DATABASE (prof. Ivaldi Giuliano)

Introduzione al sistema operativo Il file system: file, directory,...

CHE COS È L INFORMATICA

Dipartimento di Lettere e Filosofia LAUREE TRIENNALI. Beni culturali Filosofia Studi storici e filologico-letterari

L uso della Balanced Scorecard nel processo di Business Planning

Project Cycle Management

Nuove Tecnologie per la Traduzione

NeoAtlas Traducciones, S.L. Francisca Torres Catalán, Madrid (Spagna) Tel.: +(34) Fax: +(34)

Limiti della gestione tradizionale degli archivi. Prof. Francesco Accarino IIS Altiero Spinelli

INGLESE COMUNICAZIONE NELLE LINGUE STRANIERE. b. Utilizza la lingua inglese nell uso delle tecnologie dell informazione e della comunicazione

Informazione e dato. Gabriella Trucco

I modelli di qualità come spinta allo sviluppo

CONTROLLO DI GESTIONE DELLO STUDIO

Introduzione alla programmazione in C

FACOLTÀ DI AGRARIA REGOLAMENTO PER L ACCERTAMENTO DELLA CONOSCENZA DELLA LINGUA INGLESE

IL MARKETING E QUELLA FUNZIONE D IMPRESA CHE:

La comunicazione e il linguaggio

Come archiviare i dati per le scienze sociali

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca. Parte II Lezione 5

Transcript:

Laboratorio CAT Corso di Laurea Magistrale in: Traduzione Tecnico-Scientifica e Interpretariato a.a. 2015-2016 Traduzione e computer: un po di storia Ing. Alberto Bucciero, Ing. Marco Zappatore Università del Salento

Contenu' della lezione Il memorandum di Weaver Cri0ografia e decri0azione I primi sistemi di MT L'esperimento di Georgetown La survey di Bar-Hillel Il rapporto ALPAC Sistemi MT (classificazione) Approcci alla MT Sistemi CAT Le memorie di traduzione 2

Il memorandum di Weaver - 1949 Pochi anni dopo la comparsa dei primi computer e la fine della II guerra mondiale, Warren Weaver pubblica un memorandum in cui descrive in modo molto ojmiskco i progej di MT in corso e i possibili sviluppi. Il suo ojmismo dipende dal successo o0enuto nella decri8azione e dalle teorie sulla comunicazione elaborate in quel periodo. 3

Cri8ografia e decri8azione Già a parkre dall ankchità sono state applicate tecniche di cri0ografia. In modo più o meno sofiskcato le tecniche di cri0ografia comportano una riscri0ura di un documento sulla base di una chiave di interpretazione. Cri0ografare un messaggio significa renderlo illeggibile a chi non possiede la chiave. 4

Cri8ografia e decri8azione Esempio di messaggio cri0ografato: Il cane mangia Lm dbof nbohlb 12 3456 745814 5

Cri8ografia e decri8azione Esempio di messaggio cri0ografato: CHIAVE: Il cane mangia Lm dbof nbohlb i = l ; l = m ; c = d ; a = b ; n = o ; e = f ; m = n ; g = h (sosktuzione di ogni le0era con quella seguente nell alfabeto) 6

Cri8ografia e decri8azione Esempio di messaggio cri0ografato: Il cane mangia 12 3456 745814 CHIAVE: i = 1 ; l = 2 ; c = 3 ; a = 4 ; n = 5 ; e = 6 ; m = 7 ; g = 8 (sosktuzione di ogni le0era con un numero) 7

Cri8ografia e decri8azione Le tecniche di decri0azione sono tentakvi di ricostruire la chiave di interpretazione sulla base di esempi di messaggi cri0ografak. Alla base di tali tecniche ci sono i dak stakskci relakvi alla frequenza delle le0ere e delle parole nel linguaggio ogge0o di cri0ografia. 8

Cri8ografia e decri8azione Tecniche di decri0azione in senso lato sono quelle uklizzate nello studio di linguaggi ankchi la stele di Rose0a il lineare B Come nella decri0azione di messaggi a chiave, si rileva la presenza ricorrente di determinate sequenze di simboli, riconosciute le quali si può formulare una interpretazione del linguaggio. Stele di Rosetta 9

Cri8ografia e decri8azione Tecniche di cri0ografia sono state applicate in modo sistemakco per scopi bellici, fin dall ankchità, ma sopra0u0o durante la II guerra mondiale. Alcuni storici a0ribuiscono il successo degli alleak all ajvità di decri0azione svolta dal gruppo di scienziak di Bletchley Park. Durante la II guerra mondiale i tedeschi costruirono sofiskcate macchine (Enigma) per cri0ografare e decri0are i messaggi di importanza strategica. Una di queste macchine cadde però nelle mani dell esercito inglese. AL TERMINE DI QUESTA LEZIONE (slide n 79 e successive) UTILIZZEREMO UN SIMULATORE DI ENIGMA 10

Cri8ografia e decri8azione Gli inglesi costruirono macchine per la decri0azione in grado di provare in tempi relakvamente brevi molte possibili chiavi sui messaggi interce0ak. E ovviamente trassero vantaggio dalla macchina Enigma rubata ai tedeschi. Tra gli scienziak di Bletchley Park, c era anche Alan Turing, oggi considerato come uno dei pionieri dell informakca. Bletchley Park Alan Turing 11 Colossus

Cri8ografia e decri8azione oggi Oggi la cri0ografia e la decri0azione sono uklizzate sopra0u0o per rendere sicure la transazioni economiche che si svolgono su Internet. Ad esempio, le informazioni fornite per abilitare pagamenk tramite carta di credito sulla rete viaggiano tu0e in forma cri0ata. 12

I primi sistemi I primi sistemi di MT, di cui parla Weaver, sono ampi dizionari bilingui le cui entry lessicali nel linguaggio sorgente (LS) contenevano uno o più termini equivalenk nel linguaggio target (LT). Si tra0ava di traduzione parola per parola. L idea della MT nasce prima dell avvento dei computer. Si ricordano in parkcolare due precursori della MT: George Artsouni Petr Trojanskiy 13

I precursori Nel 1933, Georges Artsouni ideò un cervello meccanico, un dispositivo per trattare (archiviare, consultare e stampare) informazioni, creato per scopi di crittografia, ma utilizzabile per la traduzione e basato sulla traduzione diretta parola per parola (senza nessuna analisi linguistica sottostante) 14

I precursori Nel 1933, Petr Petrovic Trojanskij breve0a un modello più evoluto di macchina per la traduzione che prevede la trasformazione del testo in forma logica universale (esperanto) prima di passare alla lingua di desknazione e uklizza forme di analisi morfologica e sintajca Trojanskij s translating machine 15

I precursori L importanza dei precursori sta nel fa0o di aver proposto i due modelli di traduzione che nella storia della MT verranno costantemente riproposk. 16

I primi sistemi Fu presto chiaro che erano necessarie anche regole per manipolare l ordine delle parole che poteva variare nella LT rispe0o alla LS. Ma le regole che servivano in abbinamento al dizionario erano troppe e quasi sempre ad hoc. La soluzione era lavorare ad un altro livello di astrazione, cioè fare analisi sintajca del testo. Si sviluppano sistemi ispirak a varie teorie linguiskche, Chomskiane basate su cosktuenk e trasformazioni, basate su dipendenze. 17

L esperimento di Georgetown Sulla scia dell ojmismo di Weaver si svolse quello che è rimasto noto come l esperimento di Georgetown. Nel 1954 l IBM organizza con successo un esperimento che consisteva nel tradurre dal russo all inglese 49 frasi (accuratamente preparate) uklizzando 6 regole grammakcali e 250 item lessicali 18

La survey di Bar-Hillel Ma all inizio degli anni 60 l ojmismo cala grazie ad analisi sempre più oggejve sullo stato dell arte della MT. Nel 1960 Joshua Bar-Hillel pubblica un survey dove dimostra che, con gli strumenk disponibili a quel tempo, non è possibile la traduzione completamente automakca di alta qualità. Bar-Hillel uklizza in parkcolare un argomento per dimostrare che la MT non era possibile: è impossibile tradurre senza avere conoscenza contestuale e semankca (enciclopedica), e un sistema di MT non può avere questo Kpo di conoscenza. 19

La survey di Bar-Hillel (cont.) La sua dimostrazione si basa sulla frase The box was in the pen 20

La survey di Bar-Hillel (cont.) La sua dimostrazione si basa sulla frase The box was in the pen (un essere umano, ma non un sistema di MT, è in grado di selezionare per la parola PEN il significato gabbia per animali invece che ogge0o per scrivere perché ha conoscenza delle dimensioni di scatole e penne) 21

Il rapporto ALPAC Nel 1966, il governo statunitense promuove uno studio sistemakco della ajvità legate alla MT nel mondo accademico e industriale. Il risultato è la pubblicazione del rapporto ALPAC (AutomaKc Language Processing Advisory Commi0ee) che dimostra i limik della MT e mokva la limitazione di fondi dedicak alla MT del decennio successivo. 22

Il rapporto ALPAC Il Ktolo: Language and machines: computers in transla4on and linguis4cs Il rapporto intendeva inveskgare non solo la MT ma tu0a l area della linguiskca computazionale Ma, in quel momento storico, la maggior parte dell ajvità nell ambito della linguiskca computazionale era dedicata alla MT 23

Il rapporto ALPAC Perché conknuare a lavorare nella MT? Per ALPAC l impegno nella MT poteva essere giuskficato solo se la ricerca e sviluppo correlak alla MT fossero stak in grado di produrre, in breve tempo, una riduzione di spesa o una buona prestazione o la soddisfazione di una necessità opera'va. 24

Il rapporto ALPAC Le domande a cui il rapporto tenta di rispondere sono: La MT può costare meno dei tradu0ori umani impiegak dal governo? La MT può offrire traduzioni di qualità analoga a quella offerta dai tradu0ori umani? Quanto del materiale trado0o è realmente necessario tradurre? 25

Il rapporto ALPAC La prospejva nel rispondere a queste domande è fortemente orientata a: Basarsi sulle necessità del governo e dell esercito americano Prendere in considerazione solo l inglese e il russo Non considerare le necessità di altri potenziali utenk della MT e di altre lingue 26

Il rapporto ALPAC I dak mostrak nel rapporto: Il 76% della produzione scienkfica era in lingua inglese, il 14% in russo Una conoscenza della lingua russa poteva essere o0enuta in circa 200 ore I tradu0ori professionisk avevano un salario molto inferiore a quello degli scienziak impegnak nella MT e c era ampia disponibilità di tradu0ori professionisk 27

Il rapporto ALPAC I dak mostrak nel rapporto: Erano ogge0o di traduzione molk tesk inukli (meno del 30% degli arkcoli scienkfici tradoj da russo a inglese erano acce0ak per la pubblicazione su riviste americane) L utenza dei servizi di traduzione era estremamente limitata (scienziak prevalentemente) 28

Il rapporto ALPAC Non c era quindi nessuna emergenza su ampia scala a cui la MT dovesse fare fronte. The problem is not to meet some nonexistent need through nonexistent machine transla4on. There are, however, several crucial problems of transla4on. These are quality, speed and cost. 29

Il rapporto ALPAC Quale era la qualità della MT? Non esisteva un modo di valutarla Viene proposto un esperimento da cui risulta che la qualità anche della traduzione umana era variabile, ma comunque più elevata di quella offerta dalla MT 30

Il rapporto ALPAC Quale era la velocità della MT? Il sistema di MT più rapido traduceva 50 pagine in 15 giorni, tenendo conto della necessità di post-edikng 31

Il rapporto ALPAC Quale era il costo della MT? La le0ura di un documento D trado0o da MT richiedeva il doppio del tempo di D trado0o da un tradu0ore; se D aveva più di 20 le0ori, la traduzione umana era meno costosa di MT Era meglio spendere per apprendere il russo o per pagare meglio i tradu0ori che per la MT 20 milioni di dollari erano stak inveskk nella MT negli ulkmi 10 anni 32

Il rapporto ALPAC In conclusione lo stato della MT: La MT deve essere un mezzo per passare da un testo in LS a uno in LT senza intervento umano Non esisteva ne sarebbe esiskto entro breve tempo un simile sistema di MT Il post-edikng richiesto dai sistemi di MT, secondo la valutazione dei tradu0ori, era lungo quanto una traduzione ex novo 33

Il rapporto ALPAC Si auspicava pertanto: Lo sviluppo di sistemi di machine-aided (e non human-aided) transla4on, più economici e ukli della MT Si riconosceva il contributo della MT allo sviluppo della linguiskca computazionale, ma era quest ulkma che doveva essere supportata, non la MT 34

Problemi linguis'ci nella MT Il rapporto ALPAC era influenzato da interessi molteplici e le valutazioni in esso contenute non sono del tu0o vere. Tu0avia la fotografia della MT contenuta nel rapporto corrisponde al vero. 35

Problemi linguis'ci nella MT Ma perché la MT non riusciva a produrre traduzioni acce0abili? A causa dei problemi linguiskci essenzialmente dovuk alla presenza di ambiguità nel linguaggio naturale di 4 Kpi: Lessicali Stru0urali Contestuali PragmaKco-situazionali 36

Tipi di sistemi e soluzioni Assumendo che le tecniche di MT note non fossero in grado di risolvere i problemi, si proposero soluzioni per rendere uklizzabile la MT e non sprecare il lavoro fa0o. Il Kpo di soluzione proposta varia però a seconda del Kpo di sistema di MT 37

Tipi di sistemi Fino alla metà degli anni 90 esistono solo due Kpi di sistemi di MT: Sistemi su mainframe di grandi compagnie Sistemi su personal computer A parkre dalla metà degli anni 90: Tradu0ori tascabili Souware di traduzione per telefonia mobile Servizi di MT su Internet 38

Sistemi su mainframe I sistemi di MT che giravano su mainframe di grandi compagnie erano uklizzak per produrre una grande quanktà di traduzioni di qualità tale da essere pubblicabili, quindi era necessario che l output di quesk sistemi fosse migliorato. Per questo mokvo furono applicate tecniche di soluzione finalizzate a migliorare la qualità e a limitare l intervento umano 39

Soluzioni (applicate nei mainframe) Le seguenk soluzioni possono aumentare la qualità dell output dei sistemi di MT: Impiego di revisori umani nel post-edikng Sistemi interajvi Vincolare la varietà del linguaggio di input Acce0azione dei limik della MT 40

Soluzioni (applicate nei mainframe) L impiego di revisori umani (esperk del LS e del LT) nel postedikng è proposto come soluzione per aumentare la qualità delle traduzioni prodo0e da MT fin dai primi sistemi. Progressivamente si svilupparono strumenk per il post-edikng specializzak nell evidenziare errori frequenk e sistemakci dei sistemi di MT 41

Soluzioni (applicate nei mainframe) Vengono sviluppak sistemi di MT che non richiedono postedikng, ma interagiscono con l utente durante il processo di traduzione, ad es. nel caso di ambiguità di Kpo lessicale o sintajco 42

Soluzioni (applicate nei mainframe) Vincolando la varietà del linguaggio di input si limita la difficoltà della traduzione. In due modi: Il sistema viene costruito per tra0are un certo Kpo di linguaggio (es. quello dei bollejni metereologici) Il testo da tradurre viene scri0o uklizzando un dizionario ristre0o e una stru0ura sintajca semplificata 43

Mainframe e localizzazione È nel contesto dei sistemi su mainframe per grandi compagnie che si sviluppa l applicazione della MT al problema della localizzazione. Localizzazione significa ada0amento di prodoj e della relakva documentazione a parkcolari condizioni culturali che possono variare dal corre0o modo di esprimere date, numeri, tempi, indirizzi ed abbreviazioni a modificazioni più complesse del testo per renderlo corrispondente alle aspe0akve del cliente. 44

Mainframe e localizzazione La localizzazione nasce come effe0o dell immissione sul mercato di prodoj per vari paesi in contemporanea o quasi. Nasce sopra0u0o in relazione al souware, quindi ad un genere testuale (manuali) cara0erizzato da ripekkvità e da piccole differenze tra uno e l altro, tra un edizione e l altra. 45

Sistemi su PC I sistemi che giravano su personal computer non è chiaro per quali scopi fossero uklizzak, ne da chi prevalentemente per avere traduzioni sommarie di tesk diversamente inaccessibili, senza parkcolare interesse per la pubblicazione del risultato della traduzione 46

Tradu8ori tascabili Sono la versione ele0ronica dei dizionari tascabili e hanno una analoga diffusione. Vengono diffusi prevalentemente sul mercato del turismo e dei viaggi Vengono prodoj per molte lingue Nelle versioni più recenk sono in grado di produrre output vocali 47

Software di traduzione per telefonia mobile Sono una estensione delle funzioni dei telefoni cellulari Riguardano i linguaggi commercialmente dominank Nelle versioni più recenk fanno riferimento a database su server 48

Servizi di traduzione su Internet Inizialmente non sono ad accesso libero e simultanei Sono la versione web dei primi sistemi di MT e sono basak su regole, solo recentemente è comparso Google Translate che applica un approccio stakskco 49

Servizi di traduzione su Internet La MT è nuova per la maggior parte degli utenk che scoprono i servizi di traduzione online. MolK testano i servizi proponendo la traduzione di espressioni idiomakche e tentano di valutare il servizio con una doppia traduzione. Il risultato è deludente. 50

Servizi di traduzione su Internet Non si hanno dak su chi usa i servizi di traduzione online e per quale scopo. Sorprendentemente sono poco uklizzak (15%) per lo scopo che parrebbe più ovvio, la traduzione di pagine web. Nel 50% dei casi vengono so0omesse 1-2 parole, nel restante 50%, vengono so0omesse delle frasi lunghe mediamente 20 parole 51

Servizi di traduzione su Internet Sembrerebbe quindi che siano usak come dizionari, nonostante l ampia disponibilità di dizionari online Prevalentemente da persone che conoscono la lingua in cui traducono Tu0avia l uklizzo di quesk servizi cresce costantemente in modo esponenziale A parkre dal 2000 sono stak sviluppak anche sistemi per la localizzazione di pagine web 52

Limi' della traduzione e della LC Ulteriori limik della MT sono stak messi in evidenza in relazione alla geskone di linguaggi colloquiali, cioè cara0erizzak da frequenk ellissi e irregolarità. Ne sono un esempio: Messaggi di email SMS sui cellulari Messaggi su social network 53

Limi' della traduzione e della LC A parkre dal 1990 il crescente uklizzo di telecomunicazioni ha portato allo sviluppo di sistemi di traduzioni di messaggi di email e pagine di informazione. L importanza per studi polikci e sociali dei social network ha evidenziato l urgenza di tra0are tesk che vengono prodoj in Facebook e Twi0er. 54

Limi' della traduzione e della LC Anche se cresce il numero di sistemi in grado di produrre output in forma vocale, la traduzione del linguaggio orale è ancora una delle aree più problemakche. Non solo per i problemi legak all analisi e sintesi del parlato, ma anche per la forma parkcolare dei dialoghi, la massiccia presenza di ellissi e la forte dipendenza dal contesto. 55

Limi' della traduzione e della LC Esistono progej non commerciali per lo sviluppo di sistemi di dialogo e traduzione su domini limitak, come comunicazioni di affari e prenotazioni alberghiere. Un area in via di sviluppo riguarda la comunicazione medicopaziente con possibili applicazioni in contesk in cui sono presenk minoranze linguiskche. 56

MT per quali lingue? La MT si è orientata ai suoi esordi alla coppia inglese-russo e successivamente alle lingue commercialmente interessank (giapponese, tedesco, spagnolo, francese, cinese ). Pochissima a0enzione è stata prestata agli altri linguaggi 57

MT per quali lingue? Da un punto di vista globale, i linguaggi minori sono quelli non significakvi per le transazioni commerciali L immigrazione però fa sì che linguaggi minori siano parlak ovunque. 58

MT per quali lingue? Il problema dei linguaggi delle minoranze è dovuto anche alla mancanza di risorse dedicate a tali linguaggi (dizionari, spellchecker corpora). E ci sono anche linguaggi di minoranze non di Kpo etnico e geografico, come i sordi 59

MT per quali lingue? Negli ulkmi anni sono stak sviluppak progej per la traduzione nel linguaggio dei sordi ad es. per l italiano E progej per la traduzione di so0oktoli di programmi televisivi 60

Approcci alla MT In che modo il sistema acquisisce la conoscenza linguiskca necessaria a tradurre? Se è un sistema rule-based accede a conoscenza in forma stru0urata (grammakca, lessico ) nei suoi database Se è un sistema corpus-based apprende la conoscenza da corpora di dak dove la conoscenza non è stru0urata 61

Approcci alla MT La conoscenza in forma strutturata (grammatica, lessico ) utilizzata da un sistema rule-based è solitamente memorizzata all interno del sistema, ma potrebbe anche essere accessibile all esterno In ogni caso il sistema è costruito per lavorare con determinata conoscenza e deve essere riprogrammato se la conoscenza cambia (ad es. per un altra lingua) 62

Approcci alla MT La conoscenza in forma non strutturata (corpus) utilizzata da un sistema corpus-based è memorizzata all interno del corpus di riferimento del sistema e viene acquisita dal sistema tramite apprendimento statistico Il sistema è costruito per lavorare con la conoscenza che trova nel corpus, indipendentemente dal fatto che la conoscenza possa cambiare (ad es. per un altra lingua) 63

Approcci alla MT I primi sistemi sono tuj rule-based. Successivamente si sono sviluppak sistemi corpus-based. Oggi prevale l approccio corpus-based, ma la maggior parte dei sistemi segue un approccio ibrido in cui alcune park di conoscenza sono inglobate nelle regole, ed altre sono invece apprese da corpora 64

Approcci alla MT In che modo il sistema elabora i dak di input per produrre l output? Storicamente sono stak proposk 3 approcci: Dire0o Interlingua Transfer 65

Approccio dire8o L approccio dire8o è stato ado0ato dalla maggior parte dei primi sistemi. I sistemi sono costruik facendo riferimento ad una ben precisa coppia di lingue. L analisi lessicale e sintajca è limitata a quello che serve per risolvere ambiguità e a idenkficare gli equivalenk in LT generando un ordine corre0o delle parole. Es. il sistema di Georgetown 66

Approccio dire8o 1. ogni unità testuale viene analizzata per trovare il suo corrispondente diretto nella lingua di arrivo 2. Si usa un modulo morfologico per la lingua di partenza che analizza la forma della parola da tradurre per individuare le eventuali informazioni fornite dalla flessione 3. verifica degli omonimi e degli omografi 4. Individuazione del traducente 5. Applicazione del modulo morfologico per la lingua d arrivo 67

Approccio dire8o 68

Approccio interlingua L approccio interlingua assume la possibilità di converkre i tesk in LS in una rappresentazione semankca comune a più lingue naturali. A parkre da questa interlingua (ad es. esperanto) è possibile generare il testo il LT. Pertanto l analisi di LS e la sintesi di LT sono processi monolingui, mentre l interlingua è proge0ata per essere indipendente da tu0e le lingue naturali. 69

Approccio interlingua 70

Approccio transfer L approccio transfer opera in tre stadi: Conversione del testo in LS in una rappresentazione astra0a R-LS orientata alle cara0eriskche di LS Conversione da R-LS ad un equivalente orientato a LT, R-LT Conversione da R-LT a LT 71

Approccio transfer 72

L approccio corpus based L idea su cui si fonda è piuttosto semplice, ma incredibilmente produttiva: se noi disponiamo di una grande raccolta di testi in originale e in traduzione per una coppia di lingue (il cosiddetto corpus parallelo) possiamo estrarre in modo automatico le corrispondenze più frequenti tra pezzettini o segmenti di frasi. Insieme alle corrispondenze o equivalenze estrarremo anche la probabilità che un dato segmento in certi contesti venga tradotto in un modo piuttosto che un altro. 73

Ieri e oggi la MT Oggi la tendenza è verso lo sviluppo di moduli di traduzione integrak in sistemi che svolgono varie funzioni e meno di sistemi dedicak unicamente alla MT Oltre alla MT, si lavora su altri task mulklingue come InformaKon Retrieval e InformaKon ExtracKon: la traduzione non è un ajvità isolata 74

Ieri e oggi la MT Dal punto di vista sociale il mondo è cambiato e di conseguenza la richiesta di MT proviene da utenk diversi e per task diversi rispe0o al passato. Anche le aspe0akve sono oggi diverse e i risultak posikvi riguardano task e domini limitak. La ricerca della traduzione perfe0a non ha più senso. 75

Sistemi per la traduzione assistita da computer 76

Sistemi per la traduzione assistita da computer Si possono considerare di ausilio alla traduzione, in senso lato, tutti gli strumenti informatici che in qualche modo elaborano il linguaggio umano: elaboratori di testi, software OCR (Optical Character Recognition), strumenti per il riconoscimento e la sintesi vocale, strumenti per la ricerca e sostituzione di testo, database testuali (glossari, dizionari). Tuttavia, quando si parla di sistemi informatici per la traduzione, ci si riferisce in particolare a quei sistemi progettati appositamente per l'ambito traduttivo: da quelli che pretendono di sostituire il traduttore (traduttori automatici), a quelli che forniscono al traduttore strumenti per lo svolgimento di attività tradizionalmente svolte manualmente, quali vari tipi di analisi sul testo di partenza e/o di arrivo, la creazione, gestione e consultazione di glossari, le ricerche in corpora linguistici e la produzione del testo di arrivo. 77

Sistemi per la traduzione assistita da computer A tali applicazioni si fa riferimento collettivamente con il nome di CAT (Computer Aided Translation o Computer Assisted Translation, traduzione assistita da computer). Tuttavia, nell'uso comune, dall'insieme degli strumenti CAT viene solitamente esclusa la traduzione automatica (MT, Machine Translation), anche nella sua varietà assistita (HAMT, Human Aided Machine Translation), e il termine CAT si identifica quindi con quella che è più propriamente, anche se meno comunemente, detta MAHT (Machine Aided Human Translation). 78

Strumenti CAT/TM I sistemi per la traduzione assistita (MAHT) attualmente più diffusi forniscono al traduttore professionista diversi strumenti, ma il ruolo centrale è svolto in essi dalla memoria di traduzione (TM, Translation Memory), tanto che il termine "strumento TM" viene spesso, sebbene in modo impreciso, usato interscambiabilmente con il termine "strumento CAT". 79

Una memoria di traduzione è un archivio elettronico in cui i testi di partenza in una lingua e i corrispondenti testi di arrivo in una o più lingue sono memorizzati in modo parallelo. I testi sono segmentati in unità minime di senso compiuto (frasi) e tali segmenti sono allineati in modo che a un segmento nella lingua di partenza corrisponda il proprio traducente in ciascuna delle lingue di arrivo. La memoria di traduzione 80

Creazione di una memoria di traduzione Gli strumenti per la traduzione assistita consentono di creare una memoria di traduzione vuota e di alimentarla nel corso stesso della traduzione: le traduzioni prodotte sono infatti archiviate (in genere in modo automatico) nella memoria di traduzione. È anche possibile alimentare una memoria di traduzione da testi preesistenti mediante una procedura detta allineamento, a condizione che siano disponibili, in formato elettronico, sia il testo nella lingua di partenza, sia il corrispondente testo nella lingua di arrivo. L'allineamento consiste nella segmentazione dei testi di partenza e di arrivo, nella definizione delle corrispondenze tra i segmenti nelle due lingue (con interventi manuali più o meno estesi a seconda che lo strumento utilizzato implementi o meno algoritmi "intelligenti" per l'allineamento) e nell'inserimento di tali segmenti allineati nel database di memoria. 81

Utilizzo della memoria di traduzione Quando si traduce utilizzando uno strumento CAT, lo strumento segmenta il testo da tradurre e per ogni segmento controlla se esistono corrispondenze nella memoria di traduzione. Se trova un segmento uguale (exact match, corrispondenza esatta) o simile (fuzzy match, corrispondenza parziale) nella lingua di partenza, presenta al traduttore il segmento corrispondente nella lingua di arrivo. Il traduttore potrà accettare la traduzione suggerita ed eventualmente correggerla come necessario, oppure ignorarla e inserire una traduzione ex-novo. 82

Utilizzo della memoria di traduzione Ricerca di termini in memoria La maggior parte degli strumenti CAT consente inoltre di cercare nella memoria di traduzione singoli termini o espressioni: anche se un termine non è presente nei glossari disponibili, sarà quindi possibile verificare come è stato tradotto in precedenza. Utilità della memoria di traduzione Una memoria di traduzione è uno strumento potente per la gestione di testi ripetitivi (documentazione tecnica in primo luogo, ma anche testi legali e commerciali), garantendo coerenza stilistica e terminologica e tempi di traduzione ridotti. 83

La gestione della terminologia A differenza delle memorie di traduzione, le risorse terminologiche non sono un concetto introdotto con l'applicazione della tecnologia informatica al campo della traduzione. I traduttori hanno sempre utilizzato tali risorse, sotto forma di dizionari e glossari cartacei. È quindi ovvio che, con l'avvento della rivoluzione informatica, i primi strumenti concepiti quale ausilio per i traduttori siano stati strumenti di gestione della terminologia. I computer hanno facilitato tale gestione, che in precedenza avveniva mediante liste o schede, grazie all'utilizzo di applicazioni generiche di gestione di basi di dati o di applicazioni progettate in modo specifico per la gestione della terminologia. 84

Vantaggi della gestione informatizzata Pressoché tutti gli strumenti CAT/TM comprendono componenti specifici per la gestione della terminologia. L'innovazione di maggior rilievo è costituita dal riconoscimento terminologico automatico: durante la traduzione, i termini presenti sia nel testo da tradurre, sia nel glossario o nei glossari associati al progetto, sono individuati in modo automatico e i traducenti sono presentati sullo schermo in tempo reale. Alcuni strumenti inseriscono automaticamente tali termini nella traduzione; tutti mettono a disposizione metodi rapidi per la loro selezione e inserimento nel testo, riducendo i tempi di digitazione e le possibilità di refusi. 85

Deja Vu X La versione più recente di Déjà Vu (Déjà Vu X) integra tutti gli strumenti, compresa la gestione della terminologia, in un'interfaccia unificata. Anche in Déjà Vu la terminologia è organizzata per concetti, con la possibilità di gestire più lingue nello stesso database e di definire attributi personalizzati. 86

Trados Multiterm Lo strumento di gestione della terminologia di Trados è MultiTerm. Nelle versioni più recenti è stato introdotto MultiTerm ix, un nuovo strumento che, se da una parte rende possibili alcune operazioni, quali l'inserimento interattivo di termini durante la traduzione, in precedenza non possibili con MultiTerm, d'altra parte aumenta la complessità di uno strumento che già non aveva la facilità d'uso tra i suoi punti di forza. Punti di forza di MultiTerm sono la capacità di gestione di più lingue, la strutturazione in concetti e l'ampia configurabilità degli attributi. 87

Approcci alla MT In che modo un sistema di MT opera per tradurre? Occorre disknguere tra due aspej: In che modo il sistema acquisisce la conoscenza In che modo il sistema elabora i dak di input per produrre l output 88

Approcci alla MT In che modo il sistema acquisisce la conoscenza linguiskca necessaria a tradurre? Se è un sistema rule-based accede a conoscenza in forma stru0urata (grammakca, lessico ) nei suoi database Se è un sistema corpus-based apprende la conoscenza da corpora di dak dove la conoscenza non è stru0urata 89

Approcci alla MT La conoscenza in forma strutturata (grammatica, lessico ) utilizzata da un sistema rule-based è solitamente memorizzata all interno del sistema, ma potrebbe anche essere accessibile all esterno In ogni caso il sistema è costruito per lavorare con determinata conoscenza e deve essere riprogrammato se la conoscenza cambia (ad es. per un altra lingua) 90

Approcci alla MT La conoscenza in forma non strutturata (corpus) utilizzata da un sistema corpus-based è memorizzata all interno del corpus di riferimento del sistema e viene acquisita dal sistema tramite apprendimento statistico Il sistema è costruito per lavorare con la conoscenza che trova nel corpus, indipendentemente dal fatto che la conoscenza possa cambiare (ad es. per un altra lingua) 91