Traduco un ambiente Web collaborativo per la traduzione assistita di testi antichi



Documenti analoghi
Linguaggi di programmazione

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Linguaggi e Paradigmi di Programmazione

Introduzione all Information Retrieval

REALIZZAZIONE DI UN LABORATORIO REMOTO PER ESPERIENZE DI ROBOTICA EDUCATIVA: LATO CLIENT

Istituto Comprensivo di Pralboino Curricolo Verticale

È evidente dunque l'abbattimento dei costi che le soluzioni ASP permettono in quanto:

11. Evoluzione del Software

LA SOLUZIONE. EVOLUTION, con la E LA TECNOLOGIA TRASPARENTE IL SOFTWARE INVISIBILE INVISIBILE ANCHE NEL PREZZO R.O.I. IMMEDIATO OFFERTA IN PROVA

La progettazione centrata sull utente nei bandi di gara

INGEGNERIA DEL SOFTWARE. Prof. Paolo Salvaneschi

La Metodologia adottata nel Corso

Titolo. Verso il nuovo sito Istat: opportunità e innovazioni per potenziare l informazione sul web FORUM PA Maurizio Firmani Giulia Mottura

Guida al sistema. Dott. Enea Belloni

Esercitazione di Basi di Dati

Relazione illustrativa degli Obiettivi di accessibilità

Appunti del corso di Informatica 1 (IN110 Fondamenti) 4 Linguaggi di programmazione

Come archiviare i dati per le scienze sociali

12. Evoluzione del Software

EXPLOit Content Management Data Base per documenti SGML/XML

Rapporto Tecnico su installazione del dimostratore

MService La soluzione per ottimizzare le prestazioni dell impianto

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

Rapporto conclusivo di accessibilità

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

INDICAZIONI GENERALI

lem logic enterprise manager

Siti Web e Information Architecture: organizzare i contenuti e strutturare le informazioni

Sistema Gestionale FIPRO. Dott. Enea Belloni Ing. Andrea Montagnani

Istituto Tecnico Industriale Minerario Giorgio Asproni

SOMMARIO Gruppo 4 - All right reserved 1

Mac Application Manager 1.3 (SOLO PER TIGER)

1. BASI DI DATI: GENERALITÀ

BDX 3D-EDITOR (autore: Marco Bedulli) Scopo del software. Caratteristiche fondamentali. Linguaggi utilizzati. Navigazione 3D

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

THEME Matrice di Competenza - Meccatronica

4.5 CONTROLLO DEI DOCUMENTI E DEI DATI

Guida alla fruizione del percorso di validazione Trad Lab:Struttura la tua idea di BIC Lazio

Modulo InWEB di InFarmaClick. Specifiche tecniche per l interfacciamento con i software gestionali di farmacia. Livello API 2005.

Generazione Automatica di Asserzioni da Modelli di Specifica

L INDICIZZAZIONE SEMANTICA

leaders in engineering excellence

Rapporto conclusivo di accessibilità

Ministero dell istruzione, dell università e della ricerca. Liceo Tecnologico. Indirizzo Informatico, Grafico e Comunicazione

I.Ri.Fo.R. Regionale Toscano Onlus. Analisi dei fabbisogni per la formazione di Trascrittori testi in braille, ingranditi ed elettronici

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

PROTOS GESTIONE DELLA CORRISPONDENZA AZIENDALE IN AMBIENTE INTRANET. Open System s.r.l.

Manuale d uso Software di parcellazione per commercialisti Ver [05/01/2015]

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

MANUALE DI RIFERIMENTO

RISORSE E STRUMENTI LINGUISTICI BILINGUI PER L'ITALIANO E L'ARABO

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

GHPPEditor è un software realizzato per produrre in modo rapido e guidato un part program per controlli numerici Heidenhain.

MAGIC DS Modulo Produzione per confezioni in genere INFORMAZIONI GENERALI

Ore settimanali di lezione: 3 h di cui 2 in compresenza con l insegnante di Lab. di Informatica prof.ssa De Gasperi Emanuela

WG-TRANSLATE Manuale Utente WG TRANSLATE. Pagina 1 di 15

Programma 1 WP7: Il portale di Allenza

Cosa è un foglio elettronico

Installazione di GFI WebMonitor

Technical Document Release Version 1.0. Product Sheet. MediaList. Creazione e gestione palinsesto giornaliero

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Sicurezza dei file Le protezioni nei programmi

Manuale di Aggiornamento BOLLETTINO. Rel H2. DATALOG Soluzioni Integrate a 32 Bit

REFERENZIAZIONI 2001) NUP

Database. Si ringrazia Marco Bertini per le slides

PROCEDURA ON-LINE PER L INSERIMENTO E/O LA CONFERMA DEI PERCORSI FORMATIVI PER L APPRENDISTATO PROFESSIONALIZZANTE

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

Cookie Policy per

Sistema per scambi/cessioni di Gas al Punto di Scambio Virtuale

PRESENTAZIONE. Chi è B-Bright

Programmi e Oggetti Software

Gestione Iter Manuale Sistemista. Gestione Iter Manuale Sistemista

ProSky Progettare una facciata continua non è mai stato così semplice.

LABORATORIO GRAFICA. U.D.A. n.1 Regole compositive con software digitali per la grafica

IL Simposio presenta - LivePubb

Il Gruppo di lavoro ha articolato l operazione in fasi:

Cup HiWeb. Integrazione dei servizi del CUP Marche in applicativi di terze parti

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

Dispensa di database Access

uadro Soluzione software e hardware Per le rilevazione presenze Gestione Aziendale Fa quadrato attorno alla tua azienda

Stimare il WCET Metodo classico e applicazione di un algoritmo genetico

Tecnologie del linguaggio e integrazione linguistico-culturale nella scuola

Guida alla registrazione on-line di un DataLogger

Analisi e catalogazione automatica dei Curriculum Vitae

I WEBQUEST SCIENZE DELLA FORMAZIONE PRIMARIA UNIVERSITÀ DEGLI STUDI DI PALERMO. Palermo 9 novembre 2011

Realizzazione di una chat su protocollo HTTP

PHOTOSHOP BREVE TUTORIAL

Concetti di base di ingegneria del software

Rappresentazione della Conoscenza. Lezione 10. Rappresentazione della conoscenza, D. Nardi, 2004, Lezione 10 0

Capitolato per la selezione di una cooperativa sociale di tipo b per la realizzazione di attività relative all ambito disabilità e protezione civile

POSTECERT POST CERTIFICATA GUIDA ALL USO DELLA WEBMAIL

SOFTWARE. Aprendo il SW la prima schermata che appare è la seguente:

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Volumi di riferimento

Rapporto conclusivo di accessibilità

IL SISTEMA INFORMATIVO

Audit & Sicurezza Informatica. Linee di servizio

ALBO PRETORIO WEB MANUALE DELLA PROCEDURA SOMMARIO. Uso del manuale. Informazioni generali. Interfaccia grafica. Guida di riferimento

CRITERI DI VALUTAZIONE SCUOLA PRIMARIA SCUOLA PRIMARIA

Transcript:

Traduco un ambiente Web collaborativo per la traduzione assistita di testi antichi Andrea Bellandi

Sommario Genesi del Sistema Presentazione delle varie release del Sistema, sino alla sua versione finale Gamma. Servizi e Utenti Descrizione del Sistema rispetto ai profili di utenza e i relativi servizi offerti. Panoramica del Sistema Scelte progettuali e aspetti innovativi. Supporto alla Traduzione Descrizione e valutazione del servizio di supporto alla traduzione. Informazione contestuale Annotazione di porzioni di testo, creazione di glossari e note. Analisi della lingua Problematiche linguistiche e possibili scenari di soluzioni per l analisi automatica delle lingue (Italiano, Ebraico). Lavori in corso Prossimi passi nello sviluppo del sistema. 23 Luglio, 23 Luglio, 2015-2015 ILC Spring - ILC Spring Seminars Seminars 2015

Traduco Genesi del Sistema

Progetto Traduzione del Talmud Babilonese Sviluppare un sistema Web-based che risponda a tre esigenze: 1. supportare il processo di traduzione del Talmud Babilonese in lingua italiana; 2. produrre una edizione a stampa del Talmud tradotto; 3. permettere la consultazione dell opera in versione digitale. Il Talmud babilonese: testo fondamentale del Giudaismo Rabbinico, costituito da trentasei trattati, riunisce e commenta la Legge Orale rivelata al Popolo Ebraico insieme alla Torah ( Legge Scritta ); composizione molto articolata, che ha attraversato un processo di trasmissione prima orale e poi scritto, venendo rielaborata ed ampliata nel corso dei secoli prima della sua redazione finale; testo religioso, giuridico, letterario e folklorico; testo fondamentale per lo studio linguistico dell ebraico rabbinico e dell aramaico babilonese.

Genesi del Sistema Traduco inizio analisi dei requisiti utente: maggio 2012 inizio sviluppo Sistema Talmud versione "Alfa": luglio 2012 rilascio versione "Alfa": settembre 2012 rilascio versione "Beta": settembre 2013 rilascio versione "Gamma": novembre 2014 analisi, progettazione e sviluppo del Sistema Talmud condotti in stretta collaborazione con gli utenti

Il Sistema Traduco versione "Alfa" (novembre 2012 settembre 2013)

Il Sistema Traduco versione "Beta" (settembre 2013 ottobre 2014)

Il Sistema Traduco versione "Gamma" (novembre 2014 oggi)

Traduco Servizi e Utenti

Servizi e Utenti traduttore Modulo TAL: Trattamento automatico del linguaggio (italiano, ebraico) Modulo CAT: Computer Assisted Translation Traduco Modulo Semantico: Rappresentazione formale della conoscenza Modulo Stampa: Preparazione traduzioni alla stampa ed esportazione revisore editore Stampa di lavoro della Esportazione della Servizio alla Traduzione Ricerca sulla Moduli del sistema studiosi e ricercatori Tipologia di utenza Servizi forniti dal sistema

Traduco Panoramica del Sistema

Caratteristiche (1) Consultabile via Web Il Web costituisce l ambiente di lavoro ideale per attività editoriali; a differenza delle applicazioni desktop, che richiedono installazioni di specifici programmi client sui computer di lavoro, le applicazioni cosiddette Web-based richiedono il solo utilizzo di un browser (e.g. Firefox, Safari, Chrome, ecc.) attraverso il quale l utente può collegarsi al sistema in esecuzione su una macchina server remota; Collaborativo L ambiente Web, unitamente alla robustezza dell impianto tecnologico adottato, consentono a un team di utenti (traduttori e revisori) di poter lavorare sugli stessi dati in modo collaborativo (circa 40 utenti sul Talmud); Predisposto per il trattamento della lingua e della conoscenza tecniche per il supporto alla traduzione, il trattamento automatico della lingua e l estrazione della conoscenza codificata nei testi;

Caratteristiche (2) Tecnologie open-source Lo sviluppo di software basato su tecnologie open-source e incoraggiato dalla comunità scientifica. Java costituisce una delle piattaforme tecnologiche più robuste, testate e documentate per l integrazione di sistemi mission critical che necessitano di un accesso distribuito, transazionalità delle sessioni, gestione della persistenza e ricche librerie di componenti di interfaccia; Adattabile a lingue diverse Le componenti di analisi e trattamento della lingua in fase di sviluppo saranno adattabili a lingue differenti in virtù della loro natura stocastica; Adattabile alla traduzione di altri testi Il sistema sarà utilizzabile per la traduzione di altri testi con adattamenti minimi.

Traduco Supporto alla traduzione

La traduzione Nella traduzione di un testo: ogni traduzione, in generale, comporta una interpretazione del testo originario; una traduzione letterale non è, in genere, sufficiente a veicolare il significato originario di un testo; in alcuni casi (come per la traduzione del Talmud), una traduzione letterale può addirittura risultare del tutto incomprensibile. Per una traduzione accurata di un testo può rendersi necessario conoscere molto bene i due contesti culturali: quello nel quale il testo originario è stato redatto e quello di appartenenza del lettore del testo tradotto. Un sistema di supporto alla traduzione di testi antichi deve: tenere di conto che, oltre al problema della velocità di traduzione, possono sussistere particolari difficoltà nella traduzione di certi passaggi (e.g. importanza di suggerire anche traduzioni non esatte); fornire al traduttore una serie di strumenti per la rappresentazione di informazioni contestuali che possano aiutare nella riproduzione del significato del testo originario nella lingua contemporanea.

Tecnologie di supporto alla traduzione Computer Assisted Translation (CAT) vs. Machine Translation (MT) CAT è una strategia di traduzione in base alla quale i traduttori utilizzano programmi per computer per compiere parte del processo traduttivo; MT è un'area della linguistica computazionale della scienza della traduzione che studia la traduzione di testi da un linguaggio naturale a un altro mediante programmi informatici; Se per MT si intende un sistema di traduzione completamente automatico, che prevede un intervento umano molto limitato, nella CAT il software aiuta semplicemente il traduttore a velocizzare il CAT processo traduttivo. Utilizzata quando è presente coerenza fraseologica (la stessa idea e la stessa azione sono spesso descritte in modo identico), e quando il testo è composto da frasi semplici e brevi, così che aumenta la probabilità di ripetizione e diminuiscono i casi di ambiguità. MT trattati contengono strutture linguistiche ricorrenti; intere frasi si ripetono; il lessico utilizzato e relativamente povero statistica: richiede corpora bilingue paralleli molto grandi; basata su regole: richiede la scrittura di grandi quantità di regole.

Traduzione Assistita: Esempio Componente di supporto alla traduzione traduttore Trattati Talmud אדם משקלקלו הבייתוסים התקינו שלא יהו מקבלין אלא מן המכירין ( Da quando i Baitosei provocarono degli errori, i Maestri stabilirono che non si accettasse la testimonianza se non da persone conosciute ) Fuzzy Algorithm Translation Memory (~100.000 stringhe) ( In quel momento stabilirono anche che non si accettasse la testimonianza se non da persone conosciute )

Misura di similarità - Edit distance tra S i e S j, ED(S i,s j ), applicata alle parole: algoritmo basato sulla programmazione dinamica; sensibile all ordine delle parole; complessità O( S i, S j ); ottimizzazione che sfrutta la monotonicità crescente della diagolnale della matrice; - Il numero di errori massimo consentito è legato alla lunghezza della stringa di cui si cerca un suggerimento alla traduzione: ED(S i,s j ) round( S i * k) k=0,7 - k è stato sperimentalmente posto a 0,7 in accordo con i traduttori - Miglioramenti: inclusione di una lista di stopwords ; scelta dei tipi di suggerimenti (solo proprie traduzioni, solo traduzioni autorevoli ); lista di parole con peso maggiore. continua...

- Miglioramenti: Misura di similarità (2) allineamento a livello di parole con parti di traduzioni letterali ; similarità tra sottostringhe; pesi di similarità basati su relazioni paradigmatiche (sinonimia, iper/iponimia) Esempio di estrazioni di relazioni di sinonimia con tecniche distribuzionali Esempio di estrazione candidati sinonimi dal trattato Rosh Hashanà con finestra ampia 5 tokens.

Performance (media della lunghezza di una stringa in ebraico = 7 tokens) % stringhe con suggerimenti nov. 2012 in corso: valutare l utilità del suggeritore misurando il tempo impiegato nel salvataggio di traduzioni supportate dal suggeritore le modifiche apportate alla stringa italiana suggerita mag. 2015

Performance (2) Translation Memory indice invertito id stringa lunghezza posizione token id_stringa stringhe candidate id stringa Applicazione algoritmo di similarità ottimizzato solo sul set di candidati

Utilizzo dei suggerimenti a supporto del processo di revisione Il sistema permette di visualizzare, per ogni stringa origine, tutte le traduzioni in italiano ad essa riconducibili, permettendo così ai revisori di segnalare eventuali disomogeneità e richiamare, quando necessario, i traduttori per creare una traduzione più uniforme

Ripetitività del testo - Esempi di strutture ricorrenti: Rav disse: Secondo quanto abbiamo studiato I Maestri hanno insegnato E stato insegnato in una baraytà Come è insegnato nella Mishnà...

Traduco Informazione contestuale

Annotazioni e note note gli utenti possono inserire note, commenti, riferimenti bibliografici annotazioni gli utenti, in qualità di esperti di dominio, possono annotare specifiche porzioni del testo sulla base di classi semantiche predeterminate (nomi propri, piante, misure, concetti, ecc.)

Glossari

Traduco Analisi della lingua Traduco4Talmud

Analisi della lingua (Italiana): interfaccia nel Sistema Al momento del salvataggio di una traduzione, il Sistema la analizza dal punto di vista linguistico attribuendo una categoria grammaticale (ed eventualmente i tratti morfologici) e un lemma ad ogni parola Il traduttore/revisore può accedere a tale analisi tramite un apposita interfaccia e correggere ove necessario re-training?

Analisi della lingua (Ebraica): le lingue del Talmud Babilonese (TB) Gemarah (Aramaic) Mishnah (Mishnaic Hebrew) Mishnaic Hebrew (Mishnah) Biblical Hebrew (Quotations from the Bible) Loanword from Ancient Greek Mishnaic Hebrew (Baraytah) Babylonian Aramaic (Gemarah)

Analisi della lingua (Ebraico): stato dell arte Software come MILA 1 e HebMorph 2 sono stati realizzati solo per l analisi linguistica dell ebraico moderno e risultano, pertanto, inadatti per l analisi linguistica di testi ebraici più antichi, come il TB, caratterizzati da un alto numero di varianti arcaiche; MILA e HebMorph, inoltre, non sono stati implementati per l analisi linguistica di altre lingue semitiche e non riconoscono per esempio l aramaico, lingua che invece figura in maniera significativa nel TB. La complessità linguistica del TB, inoltre, richiede un software di analisi linguistica in grado di distinguere le diverse fasi linguistiche dell ebraico e le varianti dialettali dell aramaico. 1 Technion Faculty of Computer Science, Technion City, Haifa, http://www.cs. technion.ac.il/~winter/corpus-project/project-description.html 2 http://code972.com/hebmorph

Traduco Lavori in corso

In cantiere... Sperimentazione di Traduco nella traduzione di altri testi e con altre lingue (a partire dalla Bibbia) Potenziamento del suggeritore Genera+ (traduzione semi-automatica) Sperimentazione di tecniche per l annotazione lessico-semantica automatica Integrazione dell analizzatore LinguA (ItaliaNLP Lab) per l italiano Adattamento di MILA all analisi dell ebraico mishnico Costruzione di una base di conoscenza talmudica

Focus on: dall annotazione alle ontologie Ontologia del testo talmudico strutturazione formale dei concetti e delle entità citate e descritte all interno del Talmud Babilonese

Focus on: dalle ontologie al contenuto del testo Esempio di navigazione del testo, costruito sul TB, Trattato Berakhot, Capitolo IX, 55a-57b, Sughia: Il trattato dei sogni (discussione rabbinica sulla natura dei sogni, sulle pratiche rituali legate ai sogni e manuale di interpretazione dei sogni) Sogno: il naso è caduto Quale è l interpretazione del sogno sul naso fatto da Bar Qappara? Interpretazione: tutte le paure sono scomparse

Produzione scientifica 1. D. Albanesi, A. Bellandi, G. Benotto, G. Di Segni, E. Giovannetti. 2015. When Translation Requires Interpretation: Collaborative Computer Assisted Translation of Ancient Texts. To Appear in Proceedings of the 9 th Workshop on Language Technology for Cultural Heritage, Social Sciences (ACL Special Interest Group on Language Technologies for the Socio-Economic Sciences and Humanities). Beijing, China, July 26 31. 2. D. Albanesi, A. Bellandi, G. Benotto, E. Giovannetti. 2015. Translation, Annotation and Knowledge Modelling of the Babylonian Talmud: the Talmud System. To Appear in Proceedings of the Digital Humanities Conference 2015 (DH 2015). Sydney, Australia, 29 June 3 July 2015. 3. A. Bellandi, A. Bellusci. 2015. Towards a Translation Platform as a Bridge Between Ancient and Modern Languages. In A. Bozzi (ed.), Digital Texts, Translations, Lexicons in the Web, Leo Olschki editore, Firenze (in preparazione). 4. A. Bellandi, A. Bellusci, A. Cappelli, E. Giovannetti. 2014. Graphic Visualization in Literary Text Interpretation. In Proceedings of the IEEE 18 th International Conference on Information Visualisation, Paris, France, July 16-18, 2014, pp. 392-397. 5. A. Bellandi, A. Bellusci, E. Giovannetti. 2014. Computer Assisted Translation of Ancient Texts: the Babylonian Talmud Case Study. In Proceedings of the 11 th International Workshop on Natural Language Processing and Cognitive Science (NLPCS), Venice, 27-29 October 2014. 6. A. Bellandi, D. Albanesi, A. Bellusci, A. Bozzi, E. Giovannetti. 2014. The Talmud System: a Collaborative Web Application for the Translation of the Babylonian Talmud Into Italian. In Proceedings of the 1 st Italian Conference on Computational Linguistics (Clicit), Pisa, 9-10 Decembre 2014. 7. A. Bellandi, A. Bellusci, E. Carniani, E. Giovannetti. 2014. Content Elicitation: Towards a New Paradigm for the Analysis and Interpretation of Text. In Proceedings of the 13 th IASTED International Conference on Software Engineering, Innsbruck.