Traduco un ambiente Web collaborativo per la traduzione assistita di testi antichi Andrea Bellandi
Sommario Genesi del Sistema Presentazione delle varie release del Sistema, sino alla sua versione finale Gamma. Servizi e Utenti Descrizione del Sistema rispetto ai profili di utenza e i relativi servizi offerti. Panoramica del Sistema Scelte progettuali e aspetti innovativi. Supporto alla Traduzione Descrizione e valutazione del servizio di supporto alla traduzione. Informazione contestuale Annotazione di porzioni di testo, creazione di glossari e note. Analisi della lingua Problematiche linguistiche e possibili scenari di soluzioni per l analisi automatica delle lingue (Italiano, Ebraico). Lavori in corso Prossimi passi nello sviluppo del sistema. 23 Luglio, 23 Luglio, 2015-2015 ILC Spring - ILC Spring Seminars Seminars 2015
Traduco Genesi del Sistema
Progetto Traduzione del Talmud Babilonese Sviluppare un sistema Web-based che risponda a tre esigenze: 1. supportare il processo di traduzione del Talmud Babilonese in lingua italiana; 2. produrre una edizione a stampa del Talmud tradotto; 3. permettere la consultazione dell opera in versione digitale. Il Talmud babilonese: testo fondamentale del Giudaismo Rabbinico, costituito da trentasei trattati, riunisce e commenta la Legge Orale rivelata al Popolo Ebraico insieme alla Torah ( Legge Scritta ); composizione molto articolata, che ha attraversato un processo di trasmissione prima orale e poi scritto, venendo rielaborata ed ampliata nel corso dei secoli prima della sua redazione finale; testo religioso, giuridico, letterario e folklorico; testo fondamentale per lo studio linguistico dell ebraico rabbinico e dell aramaico babilonese.
Genesi del Sistema Traduco inizio analisi dei requisiti utente: maggio 2012 inizio sviluppo Sistema Talmud versione "Alfa": luglio 2012 rilascio versione "Alfa": settembre 2012 rilascio versione "Beta": settembre 2013 rilascio versione "Gamma": novembre 2014 analisi, progettazione e sviluppo del Sistema Talmud condotti in stretta collaborazione con gli utenti
Il Sistema Traduco versione "Alfa" (novembre 2012 settembre 2013)
Il Sistema Traduco versione "Beta" (settembre 2013 ottobre 2014)
Il Sistema Traduco versione "Gamma" (novembre 2014 oggi)
Traduco Servizi e Utenti
Servizi e Utenti traduttore Modulo TAL: Trattamento automatico del linguaggio (italiano, ebraico) Modulo CAT: Computer Assisted Translation Traduco Modulo Semantico: Rappresentazione formale della conoscenza Modulo Stampa: Preparazione traduzioni alla stampa ed esportazione revisore editore Stampa di lavoro della Esportazione della Servizio alla Traduzione Ricerca sulla Moduli del sistema studiosi e ricercatori Tipologia di utenza Servizi forniti dal sistema
Traduco Panoramica del Sistema
Caratteristiche (1) Consultabile via Web Il Web costituisce l ambiente di lavoro ideale per attività editoriali; a differenza delle applicazioni desktop, che richiedono installazioni di specifici programmi client sui computer di lavoro, le applicazioni cosiddette Web-based richiedono il solo utilizzo di un browser (e.g. Firefox, Safari, Chrome, ecc.) attraverso il quale l utente può collegarsi al sistema in esecuzione su una macchina server remota; Collaborativo L ambiente Web, unitamente alla robustezza dell impianto tecnologico adottato, consentono a un team di utenti (traduttori e revisori) di poter lavorare sugli stessi dati in modo collaborativo (circa 40 utenti sul Talmud); Predisposto per il trattamento della lingua e della conoscenza tecniche per il supporto alla traduzione, il trattamento automatico della lingua e l estrazione della conoscenza codificata nei testi;
Caratteristiche (2) Tecnologie open-source Lo sviluppo di software basato su tecnologie open-source e incoraggiato dalla comunità scientifica. Java costituisce una delle piattaforme tecnologiche più robuste, testate e documentate per l integrazione di sistemi mission critical che necessitano di un accesso distribuito, transazionalità delle sessioni, gestione della persistenza e ricche librerie di componenti di interfaccia; Adattabile a lingue diverse Le componenti di analisi e trattamento della lingua in fase di sviluppo saranno adattabili a lingue differenti in virtù della loro natura stocastica; Adattabile alla traduzione di altri testi Il sistema sarà utilizzabile per la traduzione di altri testi con adattamenti minimi.
Traduco Supporto alla traduzione
La traduzione Nella traduzione di un testo: ogni traduzione, in generale, comporta una interpretazione del testo originario; una traduzione letterale non è, in genere, sufficiente a veicolare il significato originario di un testo; in alcuni casi (come per la traduzione del Talmud), una traduzione letterale può addirittura risultare del tutto incomprensibile. Per una traduzione accurata di un testo può rendersi necessario conoscere molto bene i due contesti culturali: quello nel quale il testo originario è stato redatto e quello di appartenenza del lettore del testo tradotto. Un sistema di supporto alla traduzione di testi antichi deve: tenere di conto che, oltre al problema della velocità di traduzione, possono sussistere particolari difficoltà nella traduzione di certi passaggi (e.g. importanza di suggerire anche traduzioni non esatte); fornire al traduttore una serie di strumenti per la rappresentazione di informazioni contestuali che possano aiutare nella riproduzione del significato del testo originario nella lingua contemporanea.
Tecnologie di supporto alla traduzione Computer Assisted Translation (CAT) vs. Machine Translation (MT) CAT è una strategia di traduzione in base alla quale i traduttori utilizzano programmi per computer per compiere parte del processo traduttivo; MT è un'area della linguistica computazionale della scienza della traduzione che studia la traduzione di testi da un linguaggio naturale a un altro mediante programmi informatici; Se per MT si intende un sistema di traduzione completamente automatico, che prevede un intervento umano molto limitato, nella CAT il software aiuta semplicemente il traduttore a velocizzare il CAT processo traduttivo. Utilizzata quando è presente coerenza fraseologica (la stessa idea e la stessa azione sono spesso descritte in modo identico), e quando il testo è composto da frasi semplici e brevi, così che aumenta la probabilità di ripetizione e diminuiscono i casi di ambiguità. MT trattati contengono strutture linguistiche ricorrenti; intere frasi si ripetono; il lessico utilizzato e relativamente povero statistica: richiede corpora bilingue paralleli molto grandi; basata su regole: richiede la scrittura di grandi quantità di regole.
Traduzione Assistita: Esempio Componente di supporto alla traduzione traduttore Trattati Talmud אדם משקלקלו הבייתוסים התקינו שלא יהו מקבלין אלא מן המכירין ( Da quando i Baitosei provocarono degli errori, i Maestri stabilirono che non si accettasse la testimonianza se non da persone conosciute ) Fuzzy Algorithm Translation Memory (~100.000 stringhe) ( In quel momento stabilirono anche che non si accettasse la testimonianza se non da persone conosciute )
Misura di similarità - Edit distance tra S i e S j, ED(S i,s j ), applicata alle parole: algoritmo basato sulla programmazione dinamica; sensibile all ordine delle parole; complessità O( S i, S j ); ottimizzazione che sfrutta la monotonicità crescente della diagolnale della matrice; - Il numero di errori massimo consentito è legato alla lunghezza della stringa di cui si cerca un suggerimento alla traduzione: ED(S i,s j ) round( S i * k) k=0,7 - k è stato sperimentalmente posto a 0,7 in accordo con i traduttori - Miglioramenti: inclusione di una lista di stopwords ; scelta dei tipi di suggerimenti (solo proprie traduzioni, solo traduzioni autorevoli ); lista di parole con peso maggiore. continua...
- Miglioramenti: Misura di similarità (2) allineamento a livello di parole con parti di traduzioni letterali ; similarità tra sottostringhe; pesi di similarità basati su relazioni paradigmatiche (sinonimia, iper/iponimia) Esempio di estrazioni di relazioni di sinonimia con tecniche distribuzionali Esempio di estrazione candidati sinonimi dal trattato Rosh Hashanà con finestra ampia 5 tokens.
Performance (media della lunghezza di una stringa in ebraico = 7 tokens) % stringhe con suggerimenti nov. 2012 in corso: valutare l utilità del suggeritore misurando il tempo impiegato nel salvataggio di traduzioni supportate dal suggeritore le modifiche apportate alla stringa italiana suggerita mag. 2015
Performance (2) Translation Memory indice invertito id stringa lunghezza posizione token id_stringa stringhe candidate id stringa Applicazione algoritmo di similarità ottimizzato solo sul set di candidati
Utilizzo dei suggerimenti a supporto del processo di revisione Il sistema permette di visualizzare, per ogni stringa origine, tutte le traduzioni in italiano ad essa riconducibili, permettendo così ai revisori di segnalare eventuali disomogeneità e richiamare, quando necessario, i traduttori per creare una traduzione più uniforme
Ripetitività del testo - Esempi di strutture ricorrenti: Rav disse: Secondo quanto abbiamo studiato I Maestri hanno insegnato E stato insegnato in una baraytà Come è insegnato nella Mishnà...
Traduco Informazione contestuale
Annotazioni e note note gli utenti possono inserire note, commenti, riferimenti bibliografici annotazioni gli utenti, in qualità di esperti di dominio, possono annotare specifiche porzioni del testo sulla base di classi semantiche predeterminate (nomi propri, piante, misure, concetti, ecc.)
Glossari
Traduco Analisi della lingua Traduco4Talmud
Analisi della lingua (Italiana): interfaccia nel Sistema Al momento del salvataggio di una traduzione, il Sistema la analizza dal punto di vista linguistico attribuendo una categoria grammaticale (ed eventualmente i tratti morfologici) e un lemma ad ogni parola Il traduttore/revisore può accedere a tale analisi tramite un apposita interfaccia e correggere ove necessario re-training?
Analisi della lingua (Ebraica): le lingue del Talmud Babilonese (TB) Gemarah (Aramaic) Mishnah (Mishnaic Hebrew) Mishnaic Hebrew (Mishnah) Biblical Hebrew (Quotations from the Bible) Loanword from Ancient Greek Mishnaic Hebrew (Baraytah) Babylonian Aramaic (Gemarah)
Analisi della lingua (Ebraico): stato dell arte Software come MILA 1 e HebMorph 2 sono stati realizzati solo per l analisi linguistica dell ebraico moderno e risultano, pertanto, inadatti per l analisi linguistica di testi ebraici più antichi, come il TB, caratterizzati da un alto numero di varianti arcaiche; MILA e HebMorph, inoltre, non sono stati implementati per l analisi linguistica di altre lingue semitiche e non riconoscono per esempio l aramaico, lingua che invece figura in maniera significativa nel TB. La complessità linguistica del TB, inoltre, richiede un software di analisi linguistica in grado di distinguere le diverse fasi linguistiche dell ebraico e le varianti dialettali dell aramaico. 1 Technion Faculty of Computer Science, Technion City, Haifa, http://www.cs. technion.ac.il/~winter/corpus-project/project-description.html 2 http://code972.com/hebmorph
Traduco Lavori in corso
In cantiere... Sperimentazione di Traduco nella traduzione di altri testi e con altre lingue (a partire dalla Bibbia) Potenziamento del suggeritore Genera+ (traduzione semi-automatica) Sperimentazione di tecniche per l annotazione lessico-semantica automatica Integrazione dell analizzatore LinguA (ItaliaNLP Lab) per l italiano Adattamento di MILA all analisi dell ebraico mishnico Costruzione di una base di conoscenza talmudica
Focus on: dall annotazione alle ontologie Ontologia del testo talmudico strutturazione formale dei concetti e delle entità citate e descritte all interno del Talmud Babilonese
Focus on: dalle ontologie al contenuto del testo Esempio di navigazione del testo, costruito sul TB, Trattato Berakhot, Capitolo IX, 55a-57b, Sughia: Il trattato dei sogni (discussione rabbinica sulla natura dei sogni, sulle pratiche rituali legate ai sogni e manuale di interpretazione dei sogni) Sogno: il naso è caduto Quale è l interpretazione del sogno sul naso fatto da Bar Qappara? Interpretazione: tutte le paure sono scomparse
Produzione scientifica 1. D. Albanesi, A. Bellandi, G. Benotto, G. Di Segni, E. Giovannetti. 2015. When Translation Requires Interpretation: Collaborative Computer Assisted Translation of Ancient Texts. To Appear in Proceedings of the 9 th Workshop on Language Technology for Cultural Heritage, Social Sciences (ACL Special Interest Group on Language Technologies for the Socio-Economic Sciences and Humanities). Beijing, China, July 26 31. 2. D. Albanesi, A. Bellandi, G. Benotto, E. Giovannetti. 2015. Translation, Annotation and Knowledge Modelling of the Babylonian Talmud: the Talmud System. To Appear in Proceedings of the Digital Humanities Conference 2015 (DH 2015). Sydney, Australia, 29 June 3 July 2015. 3. A. Bellandi, A. Bellusci. 2015. Towards a Translation Platform as a Bridge Between Ancient and Modern Languages. In A. Bozzi (ed.), Digital Texts, Translations, Lexicons in the Web, Leo Olschki editore, Firenze (in preparazione). 4. A. Bellandi, A. Bellusci, A. Cappelli, E. Giovannetti. 2014. Graphic Visualization in Literary Text Interpretation. In Proceedings of the IEEE 18 th International Conference on Information Visualisation, Paris, France, July 16-18, 2014, pp. 392-397. 5. A. Bellandi, A. Bellusci, E. Giovannetti. 2014. Computer Assisted Translation of Ancient Texts: the Babylonian Talmud Case Study. In Proceedings of the 11 th International Workshop on Natural Language Processing and Cognitive Science (NLPCS), Venice, 27-29 October 2014. 6. A. Bellandi, D. Albanesi, A. Bellusci, A. Bozzi, E. Giovannetti. 2014. The Talmud System: a Collaborative Web Application for the Translation of the Babylonian Talmud Into Italian. In Proceedings of the 1 st Italian Conference on Computational Linguistics (Clicit), Pisa, 9-10 Decembre 2014. 7. A. Bellandi, A. Bellusci, E. Carniani, E. Giovannetti. 2014. Content Elicitation: Towards a New Paradigm for the Analysis and Interpretation of Text. In Proceedings of the 13 th IASTED International Conference on Software Engineering, Innsbruck.