Utilizzo della risorsa Treebank per il tuning di un sistema di traduzione

Utilizzo della risorsa Treebank per il tuning di un sistema di traduzione Francesca Fanciulli, Remo Raffaelli Synthema s.r.l. Lungarno Mediceo, 40 56100 Pisa - Italia {fanciulli, raffaelli}@synthema.it http://www.synthema.it Abstract. Le attività qui descritte esemplificano uno dei possibili usi di una Treebank. Le notazioni sintattiche e semantiche contenute nella risorsa Treebank sono state utilizzate per realizzare il tuning di un sistema di traduzione già esistente, nella versione italiano-inglese. Il lavoro si è articolato in una prima fase di estrazione delle informazioni dalla risorsa, in una di analisi e trasformazione di tali informazioni estratte, ed in una fase conclusiva di verifica e valutazione dello stato finale del sistema di traduzione. 1 Introduzione La valutazione della risorsa Treebank, nei suoi diversi livelli di annotazione, è stata condotta utilizzando PeTra per Word 2.0: il sistema applicativo di traduzione automatica sviluppato da Synthema. Verranno forniti: una descrizione del sistema di traduzione, gli interventi realizzati con le informazioni prelevate dalla TreeBank, le modalità della valutazione e l'analisi dei risultati ottenuti. 2 Descrizione del sistema di traduzione Il sistema di traduzione automatica realizzato da Synthema (PeTra per Word 2.0) è un'applicazione basata sul formalismo delle Slot Grammar, definito da Michael McCord (IBM T. J. Watson Research Center). E' un prodotto completo e funzionante, utilizzato con buoni risultati nella traduzione automatica in ambiente Windows. Il sistema include: un componente di analisi per la lingua Italiana un dizionario bilingue, con opportune funzionalità di disambiguazione lessicale ('transfer' lessicale); un componente per il 'transfer' ('transfer' sintattico), con relativa grammatica contrastiva Italiano Æ Inglese; un componente di generazione morfologica per la lingua inglese.

Analisi. L'Analizzatore morfologico si occupa di individuare i possibili Lemmi da cui derivano le forme flesse presenti nel testo sorgente. Siamo partiti da un dizionario composto da più di 20.000 lemmi, con informazioni relative alla POS ('Part Of Speech') e alle caratteristiche sintattiche in termini di Slot. Questi corrispondono ad argomenti logico-funzionali delle parole ed hanno anche una natura morfosintattica: le regole di analisi specificano le condizioni di riempimento degli Slot consentendo la costruzione di un albero per la rappresentazione della frase. Il parser procede tentando di applicare le regole di analisi; con esse costruisce i legami funzionali fra due elementi, dei quali uno va a riempire uno Slot dell'altro diventandone un modificatore; itera, poi, il procedimento applicando le regole alle teste dei sottoalberi creati, fino alla costruzione di un albero che rappresenti l'intera frase. Dizionario bilingue. Questo dizionario contiene la traduzione dei termini, talvolta ricavabile da opportuni test ('transfer' lessicale). La costruzione dell albero consente la scelta di una sola POS per ogni termine, mentre i legami funzionali consentono la disambiguazione sulla base delle condizioni specificate in termini di Slot: la traduzione di un verbo, ad esempio, può dipendere dal termine che ne riempie l oggetto. Transfer sintattico. La generazione di una frase inglese corretta richiede spesso trasformazioni strutturali. Le regole di 'transfer' gestiscono la corrispondenza delle diverse strutture. Queste trasformazioni sono sia di natura generale (ad esempio, soggetto espresso in inglese e soggetto sottinteso in italiano) che legate a particolari costruzioni di specifici lemmi. Per esempio, l'albero di "Gli piacciono questi libri" è: Syntactic analysis no.1 ------------------------------------------------------------- +--- iobj egli noun(pron(pers),[pers3,m,sg,dat pre]) o--- top piacere verb(fin([pers3 pl],pres,ind) +- ndet questo det([m,pl X4],demo) +- subj libro1 noun(cn,[m pl],x3) ------------------------------------------------------- ma, saltando i passaggi intermedi, diventerà: Restructured tree. ------------------------------------------------------- +--- subj he noun(pron(pers),nom,pers3-sg-m) o--- top like verb(ind:top,fin(pers3-sg-m,pres)) +- ndet this det(nom,pers3-pl-m,x3) +- obj book noun(cn,acc,pers3-pl-m,x3) ------------------------------------------------------- He likes these books.

3 Realizzazione delle modifiche al sistema di traduzione 3.1 Miglioramento della copertura La prima fase del raffinamento del sistema di traduzione si è focalizzata sul miglioramento della copertura, secondo tre linee principali: a. Inserimento delle parole sconosciute, realizzato a livello di dizionario All'interno dei file in input alla Treebank, sono state reperite le informazioni relative alla POS, alle caratteristiche morfologiche e sintattiche indispensabili all'utilizzo della parola da parte del sistema. b. Analisi delle espressioni polilessicali provenienti dall'annotazione morfologica Questa attività ha richiesto una particolare fase di analisi dei termini stessi: deve essere evitato il rischio di bloccare il riconoscimento di una sequenza di parole se questa viene utilizzata in contesti diversi da quello dell'espressione polilessicale. c. Analisi delle espressioni polilessicali provenienti dall'annotazione semantica Sono state individuate le forme aventi rilevanza ai fini della traduzione e quindi formalizzate all'interno del sistema, sempre seguendo i criteri descritti al punto precedente. 3.2 Miglioramento dell'analisi Per questa attività, che ha coinvolto numerosi componenti del sistema, è stato utilizzato sia ValTas, l'interfaccia grafica di consultazione della Treebank, sia le equivalenti informazioni rese disponibili in modo testuale. La nostra grammatica per la definizione dei legami sintattici si articola in due parti logiche distinte: una, codificata all'interno del dizionario nella parte di analisi relativa alla sintassi, che definisce le proprietà che caratterizzano i termini e le loro capacità di aggregarsi con altri componenti della frase; una, definita in un file opportuno in Prolog, che realizza la composizione degli elementi per la ricostruzione dell'albero sintattico di copertura. Le informazioni presenti nella Treebank sono state reperite secondo lo schema: 1. analisi degli alberi sintattici di copertura, a partire da una traduzione scorretta 2. individuazione della corrispondente annotazione all'interno della Treebank 3. estrazione di tutte le strutture analoghe 4. analisi delle informazioni recuperate e inserimento, dove opportuno, di nuove informazioni all'interno della grammatica. Tali attività sono state svolte sia singolarmente sui tre livelli di annotazione (funzionale, a costituenti, semantico), sia utilizzando la combinazione dei due livelli sintattici o dell'annotazione semantica con quella funzionale. Occorre precisare che per la realizzazione del punto 3. sono stati elaborati alcuni programmi in grado di accedere alla trascrizione testuale delle annotazioni. Questa modalità di accesso alle informazioni della Treebank è molto simile, a livello logico, alla modalità con cui sarà possibile accedere alla versione finale della Treebank

stessa, quando questa sarà disponibile in formato XML e quindi interrogabile con opportuni linguaggi. In seguito, le interrogazioni realizzate sull'annotazione funzionale (la più ricca di informazioni nella versione della trascrizione testuale) verranno descritte specificando solo i campi significativi ai fini dell'interrogazione. Per quanto riguarda le attività di modifica relative alla grammatica di PeTra, verrà illustrato il tipo di informazione inserito e se ne indicherà la finalità. In questa attività, anche la modifica più piccola comporta una serie di operazioni che non verranno descritte ad ogni passo, ma che sono indispensabili per non introdurre rumore sul lavoro già realizzato. Il formalismo della grammatica, infatti, si basa sull'applicazione di proprietà comuni a categorie di termini, richieste dalla modalità di funzionamento del nostro sistema linguistico e identificate per rispondere a specifiche esigenze della traduzione; non sempre tali categorie si ritrovano nella grammatica descrittiva tradizionale. Questo significa che la minima modifica alle informazioni introdotte può causare effetti collaterali a catena, per scongiurare i quali occorre realizzare numerose verifiche sia su frasi contenenti la tipologia su cui si sta lavorando, sia su frasi simili per le quali valgono regole diverse. La verifica conclusiva viene realizzata su porzioni di testo generico. Solo a questo punto è possibile passare alla fase successiva. Si può quindi dedurre la mole di lavoro che anche la modifica più banale comporta. Siamo intervenuti: sulla parte di analisi del dizionario, sulla grammatica e sul transfer. 3.2.1 Modifiche al dizionario Modifiche al dizionario derivanti dall'annotazione sintattica Reggenze: Una delle maggiori difficoltà in un sistema di traduzione è l'individuazione delle corrette dipendenze di gruppi nominali introdotti da preposizione, dipendenti sia da verbi (complementi indiretti) che da sostantivi. L'esplicitazione delle reggenze aiuta ad individuare la corretta dipendenza discriminando sia tra sostantivi e verbi (senza di esse vengono privilegiati i verbi) che tra verbi e verbi. Abbiamo quindi individuato nella Treebank le reggenze presenti, espresse sotto forma di introduttori, ed inserito nel nostro sistema quelle mancanti. Questa informazione risulta particolarmente importante in quanto compare difficilmente in dizionari tradizionali. Sono state individuate reggenze tipiche come incontro con o simposio su. Espressioni polilessicali: Il contesto ristretto dei testi selezionati comporta un uso dell'italiano costellato di espressioni tipiche o termini "specialistici". Il nostro sistema mal interpretava certe costruzioni o traduceva letteralmente sequenze aventi traduzioni specifiche. Abbiamo perciò realizzato un programma per l'estrazione delle terminologie presenti, a partire dalla trascrizione dell'annotazione funzionale. In PeTra sono considerate espressioni polilessicali le sequenze di termini che necessitano di una particolare traduzione o che occorre bloccare per evitare di interpretare male la costruzione dell'albero. Tali espressioni hanno diverse caratterizzazioni, ciascuna delle quali richiede un trattamento opportuno: a. espressioni polilessicali invariabili (es. made in Italy) b. espressioni polilessicali con sequenza costante, in cui i singoli componenti ammettono la flessione (es. bilanci/io provvisori/io)

c. espressioni polilessicali che possono presentarsi con dei modificatori, con il solo vincolo delle relazioni sintattiche (es. assestare [velocemente] i conti 1 ) Le tre situazioni vengono risolte in maniera diversa: a. inserendo una entrata specifica nel dizionario b. aggiungendo al termine reggente una nuova analisi, che scatti qualora il termine sia accompagnato dal resto della sequenza c. disambiguando l'analisi, sulla base del valore dei complementi Abbiamo estratto le dipendenze indirette con testa nominale e con testa verbale, e le dipendenze dirette con testa nominale e con testa verbale. Il programma che estrae l'elenco dei complementi indiretti retti da testa nominale o verbale cerca le annotazioni sintattiche funzionali caratterizzate dai seguenti tratti: Tipo relazione 2 : (Mod Arg) per i sostantivi (Obl Mod Ogg_i) per i verbi Testa : Dipendente nominale: POS: S V POS: S Introduttore: not"" e restituisce la sequenza: lemma_testa introduttore lemma_dipendente L'elenco ottenuto è stato poi esaminato manualmente: nella scelta ci siamo fatti guidare soprattutto dalla corrispondente traduzione. Sono state individuate situazioni come calo delle vendite o apertura del mercato. Per ciascun elemento rimasto è stato deciso l'intervento più opportuno (secondo quanto descritto ai punti a., b., c.). In questo modo: per calo delle vendite è stata aggiunta, all'entrata calo, un'analisi per bloccare la sequenza calo/i delle vendite; per apertura del mercato è stata inserita, all'entrata apertura, una specifica traduzione nel caso in cui il lemma abbia il complemento di specificazione riempito da mercato (o da una sua flessione) Per la dipendenza diretta con testa nominale o verbale è stata realizzata una interrogazione con i seguenti criteri: Tipo relazione 2 : not(cong) per i sostantivi (Ogg_d) per i verbi Testa: POS: S V Sfeat: V*T 3 per i verbi Dipendente nominale: POS: S Introduttore: "" Le coppie di sostantivi e le occorrenze dei complementi diretti sono stati scremati secondo il senso e la traduzione; il resto è stato inserito nel dizionario secondo i criteri 1 assestarsi si traduce genericamente con to settle in, mentre assestare i conti diventa to balance the account 2 Per le relazioni sono state adottate le abbreviazioni: Mod=modificatore, Arg=argomento, Obl=argomento obliquo, Ogg_i=oggetto indiretto, Cong=congiunzione, Ogg_d=oggetto diretto. Per ulteriori approfondimenti si rimanda a Pirrelli et al. in questo volume. 3 V*T: stringhe che iniziano con V, terminano con T, con zero o più caratteri compresi. Questo simbolismo evita di dover elencare le sigle VGT, VIRT,, relative a verbi transitivi.

descritti. Tra gli inserimenti abbiamo: forza lavoro e fine anno, o accogliere gli accantonamenti e accusare una difficoltà. Specifiche consultazioni: Oltre alle ricerche sistematiche appena descritte, sono state realizzate ricerche mirate alle singole costruzioni, tra cui due non previste a priori: l'impostazione dell'ausiliare in verbi intransitivi, e la molteplicità delle accezioni per una stessa variante grafica. In PeTra sono esplicitati, per i verbi intransitivi, gli ausiliari necessari alla costruzione dei tempi composti; per alcuni verbi, però, tale informazione non era corretta. Con un nuovo programma di interrogazione della trascrizione funzionale, sono stati estratti i verbi aventi il tratto Sfeat relativo ai verbi intransitivi e il tratto Ausiliare con il valore avere. Abbiamo quindi verificato le informazioni riportate nel nostro dizionario e apportato gli eventuali aggiustamenti. Questo esame imprevisto della Treebank ci ha permesso di reperire informazioni importanti: il suo uso si dimostra quindi versatile e aperto ad analisi inattese. Sempre analizzando le frasi tradotte, abbiamo rilevato che per alcuni lemmi mancavano delle accezioni. Ad esempio, romanzo era presente solo come sostantivo e non come aggettivo (filologia romanza), e proprio mancava come aggettivo possessivo. Per quest'ultimo, nella Treebank abbiamo estratto le relazioni Mod con testa nominale e dipendente caratterizzato da una POS con valore di aggettivo possessivo e lemma proprio. Modifiche al dizionario derivanti dall'annotazione semantica Inserimento dei semantic type disponibili: L'analisi dell'annotazione semantica ha causato l'inserimento di numerosi semantic type nel dizionario. In PeTra, i semantic type determinano la corretta traduzione di un termine se in relazione con un altro appartenente ad una particolare categoria. Ad esempio, versare si può tradurre to pour, ma se è seguito da un complemento oggetto di tipo money si traduce to deposit Il nostro lavoro si è articolato nei seguenti passi: individuazione dei termini annotati semanticamente nella Treebank individuazione del senso corrispondente all'interno di ItalWordNet individuazione del semantic type corrispondente in PeTra inserimento del semantic type nel dizionario, nella parte di analisi relativa al lemma verifica del rispetto della corretta traduzione in relazione ai termini in cui è utilizzato. Abbiamo inserito il semantic type ad un numero consistente di lemmi e, come ci si poteva aspettare sulla base del corpus selezionato, quello più utilizzato è stato money. Il lavoro effettuato ha portato, oltre all'inserimento dei semantic type già previsti, all'individuazione di un nuovo senso, il cui utilizzo, a partire dalle informazioni contenute in ItalWordNet, è stato mediato dalle necessità della traduzione. Il nuovo semantic type è in relazione al senso qualità di ItalWordNet, al quale siamo arrivati utilizzando la catena degli iperonimi di termini come coraggio, importanza, esperienza, che in italiano si legano al verbo avere (avere coraggio, avere importanza, ) ma che in inglese vengono retti dal verbo essere (to be brave, to be important). Tale semantic type è stato inserito nella gerarchia di PeTra e associato ai termini elencati; una nuova disambiguazione è stata aggiunta in corrispondenza dell'entrata avere se seguito da un termine di questa categoria.

C'è da osservare che non tutte le qualità verranno classificate con il nuovo semantic type: anche in questo caso le informazioni estratte vengono filtrate da criteri di necessità vincolati alla logica della traduzione. Ne segue che le qualità che non richiedono il to be non rientreranno in questa nostra categoria. Modifiche al dizionario derivanti dall'annotazione semantica combinata con la sintassi Partendo dall'annotazione semantica sono state individuate tutte le parole aventi più di un senso, ciascuno con una diversa traduzione dipendente dal significato. Ne sono state analizzate le annotazione sintattiche con ValTas per l'individuazione di costruzioni che caratterizzano la parola in relazione al significato. Ad esempio, la parola articolo quando è modificata da un numerale cardinale individua una parte di una legge. Le opportune disambiguazioni sono state inserite nel dizionario. 3.2.2 Modifiche alla grammatica. Gli interventi sulla grammatica sono qui suddivisi in base alla tipologia delle regole coinvolte. Tali regole, infatti, non sono tutte dello stesso tipo: alcune si occupano di costruire l'albero di copertura, altre di cancellare l'alternativa di un albero errato, ed altre ancora di attribuire una probabilità ad una costruzione individuata. Raffinamento delle regole per la costruzione dell'albero Interventi piuttosto consistenti sono stati realizzati in relazione ai participi interpretati come aggettivi. Nell'ottica di un sistema di traduzione automatica la distinzione tra aggettivi e participi passati omografi diventa rilevante solo quando le due traduzioni differiscono (es. pulito agg. clean, p.p. cleaned). In PeTra è stata adottata la strategia di inserire il lemma aggettivale solo per gli omografi aventi diversa traduzione, così da non duplicare inutilmente gli alberi di analisi. In questi casi, la grammatica individua l'analisi corretta con opportune regole di cancellazione. Ad esempio, in combinazione con gli ausiliari viene scelto il lemma verbale: la scelta si realizza "cancellando" l'alternativa del lemma aggettivale. Con un sostantivo, invece, prima della modifica, veniva scelto sempre il lemma aggettivale: questo provocava il mancato aggancio di alcuni tipi di modificatori. In presenza di complementi indiretti retti da una forma che può essere sia aggettivo che verbo, occorre quindi privilegiare il verbo tramite regole di cancellazione per l'aggettivo. Con altre annotazioni abbiamo individuato le modalità per le quali quanto, pronome relativo, si lega al participio passato. In questo caso la porzione di frase contenente il participio passato è annotata come frase participiale (SV3) nei costituenti, mentre nel funzionale quanto è la testa in una relazione Mod con il participio come dipendente verbale. Utilizzando ValTas abbiamo individuato la presenza di lo come predicato preposto: tale costruzione è stata aggiunta nella grammatica di PeTra. Per completare questa modifica sono state inserite delle regole di transfer, come vedremo in seguito. In PeTra non era previsto che un sostantivo venisse modificato da un aggettivo espresso come inciso (tra virgole) seguito da altri complementi indiretti, come in frasi: [ ] dopo il restyling del gruppo, necessario per [, ] Nel funzionale esiste una relazione Mod tra il sostantivo e l'aggettivo che regge l'inciso (parte sottolineata, nell'esempio), mentre nei costituenti l'inciso è denotato

come sintagma aggettivale (SA), al cui livello più alto è presente un aggettivo (il dipendente modificatore della relazione del funzionale), che con il sostantivo a cui si riferisce forma un sintagma nominale (SN). E' stata ampliata la regola che lega un determinatore (articolo, aggettivo dimostrativo, ) ad un sostantivo, al fine di generare anche il legame tra determinatore e aggettivo sostantivato, come nel caso di quest'ultimo. In PeTra, per convenzione, non viene inserita la classificazione di sostantivo per quei lemmi che sono essenzialmente aggettivi: l'uso come sostantivo viene riconosciuto e quindi generato in fase di analisi. Tale costruzione mancante è stata individuata nel funzionale tramite la relazione Mod(ultimo.POS=S, questo.pos=dd) in cui dipendente e testa hanno lo stesso genere e numero (Mfeat uguale). La sequenza prima ancora che non veniva individuata in PeTra. In frasi del tipo: [ ] era già stato concordato prima ancora che si svolgessero le elezioni non era riconosciuta come introduttore di una subordinata. Dall'esame di entrambe le annotazioni sintattiche si è compreso che l'introduttore della subordinata svolge un ruolo di comparazione temporale andando a modificare il verbo della reggente. Raffinamento delle regole di cancellazione Le regole di cancellazione eliminano particolari accezioni di un lemma in base alle informazioni morfosintattiche dell'elemento e di quelli adiacenti. Questo limita i tentativi effettuati nell'analisi. Per i sostantivi e i verbi omografi, sono state ridefinite le circostanze per la cancellazione del sottoalbero contenente il sostantivo. Dai risultati dell'interrogazione funzionale è emerso che i verbi aventi come tratto morfologico la prima persona dell'indicativo presente (S1IP), sia per le teste che per i dipendenti, sono scarsamente rappresentati. Ciò ha portato al riesame dei criteri che preferivano il verbo al sostantivo. La Treebank ci ha permesso di migliorare l'analisi di più. Dall'annotazione funzionale abbiamo estratto tutte le presenze di più ed il relativo contesto: sono scaturite una nuova regola di cancellazione ed una limitazione ad una regola di cancellazione esistente. E' risultato, infatti, che tutti i più che modificano un aggettivo sono avverbi: la nuova regola di cancellazione elimina più come preposizione se seguito da un aggettivo (la costruzione errata ricadeva nella più generale regola positiva per la quale una preposizione può precedere un aggettivo). Inoltre, più come preposizione non veniva cancellato nel caso in cui fosse seguito da un numerale: adesso non viene cancellato anche nel caso sia seguito da un determiner. Al come era attribuita l'etichetta di avverbio interrogativo e il soggetto posposto veniva interpretato come complemento oggetto, in frasi del tipo: Non si tratta di prendere decisioni affrettate, come paventa il ministro [ ]. Si è individuato: - nei costituenti, una frase (F) introdotta da come congiunzione (POS=Conj) e, - nel funzionale, un verbo transitivo di modo finito che svolge il ruolo di testa in una relazione soggetto (Sogg), con soggetto posposto, e sprovvisto della relazione di oggetto diretto (Ogg_d). Il problema era causato da una regola di cancellazione per l'eliminazione dei sottoalberi relativi a frasi non interrogative, prive (apparentemente!) di soggetto. Tale regola è stata inibita nel caso in cui F dipenda da come in qualità di congiunzione.

Modifica delle preferenze e delle restrizioni Il terzo tipo di regole assegna le penalità: in caso di ambiguità si costruiscono tutti gli alberi possibili, ma non tutti con lo stesso valore di probabilità. Se, procedendo nella costruzione dell'albero, le ambiguità non scompaiono, i sottoalberi con maggiore penalizzazione vengono eliminati. Con le annotazioni funzionali sono state ridefinite alcune situazioni: sono: mancavano informazioni per la scelta tra i due omografi. La prima persona dell'indicativo presente è risultata scarsamente presente nel corpus, richiedendo così una penalità: al momento della costruzione dell'albero, in caso di completa ambiguità, viene data la preferenza alla terza persona plurale. ieri: gli avverbi di tempo compaiono spesso come teste in relazioni di tipo Mod. Nell'annotazione a costituenti, il modificatore può essere: una congiunzione (anche ieri) o un avverbio (proprio ieri) in unione con i quali si genera un sintagma avverbiale (SAVV); un sostantivo (ieri pomeriggio) con il quale genera un SN. In questo secondo caso la costruzione non può essere ammessa con tutti i sostantivi, in particolare deve essere evitata con i nomi propri. In situazioni come: "[...] ha spiegato ieri Mandela [ ]", ieri e Mandela generavano un sostantivo composto. Nella Treebank non sono state individuate tali situazioni, ma solo quelle dei tre tipi sopra descritti. E' stata perciò implementata la restrizione sul tipo di nomi che possono modificare un avverbio di tempo. dopo: il sistema non ne individuava correttamente l'uso come preposizione o avverbio. Nei costituenti, la preposizione induce l'attribuzione di sintagma preposizionale (SP) a tutto il gruppo che regge. Nel funzionale abbiamo osservato che dopo non può essere avverbio quando è immediatamente seguito da un sostantivo con ruolo di modificatore di un verbo, per il quale la relazione di soggetto sia già stata saturata. Ad esempio, nella frase: [ ] dopo la libertà politica venga davvero anche l'eguaglianza [ ] abbiamo le seguenti annotazioni funzionali: Mod(venire, libertà) Sogg(venire, eguaglianza) E' quindi stata modificata la regola che prende dopo come avverbio se: è seguito da un sintagma nominale, con il quale crea un gruppo preposizionale il verbo da cui dipende il gruppo preposizionale ha lo slot soggetto già saturato La modifica comporta una penalizzazione sulla scelta di dopo come avverbio se la verifica delle due condizioni dà esito positivo. 3.2.3 Modifiche al transfer. Gli interventi descritti hanno permesso di riconoscere nuove strutture, per le quali è stato necessario scrivere anche regole di transfer strutturale per assicurare una corretta traduzione dell'intera frase. Vediamo alcui esempi: lo: la traduzione di lo identificato come predicato preposto ha richiesto una nuova regola di transfer per la trasformazione di non lo è in it is not. Essa cancella il nodo predicato e aggiunge il soggetto espresso calcolato sulla flessione del verbo. milioni/miliardi di : nel corpus sono molto frequenti le espressioni composte da un numerale seguito da "milioni/miliardi" seguito ancora da un complemento di specificazione che esprime l'unità di misura. L'espressione italiana due miliardi di sterline deve però diventare two billion pounds. Una nuova regola di transfer cancella la preposizione di nei contesti descritti. Il buon funzionamento di questa regola non

può, però, prescindere dal corretto uso del semantic type relativo alle unità di misura. Le informazioni semantiche inserite hanno avuto effetti positivi anche in questo contesto. 3.2.4 Ricerche infruttuose In italiano alcuni introduttori richiedono, nella proposizione che segue, un preciso modo verbale. Sull'annotazione funzionale è stata realizzata un'interrogazione per individuare tali introduttori mediante l'estrazione di relazioni Arg tra proposizioni, in cui la dipendente ha sia il verbo al congiuntivo che l'introduttore espresso. Purtroppo nella porzione di corpus selezionata abbiamo riscontrato pochissimi casi del tipo descritto e tutti già previsti. Risulta evidente, quindi, come i risultati raggiunti siano strettamente legati al corpus esaminato e alle tipologie di frasi in esso presenti, oltre che alle specifiche di annotazione. 4 Valutazione delle modifiche 4.1 Analisi del lavoro svolto Sin qui, la validità della Treebank come sorgente di informazione sembra indubbia, avendo consentito di estrarre un gran numero di informazioni. La valutazione dei risultati è stata compiuta manualmente confrontando tutte le frasi italiane con le due traduzioni ottenute (con il sistema originale e con il sistema modificato), e di ciascuna è stato definito il livello di correttezza. Tale attività è stata compiuta da una sola persona per la maggior uniformità di giudizio possibile. 4.2 Risultati Ottenuti Per ogni frase, le traduzioni sono state classificate e divise in quattro categorie: corrette: non necessitano di particolari aggiustamenti imprecise: richiedono qualche aggiustamento, ma il significato è comprensibile errate: non possono essere considerate valide non tradotte: il sistema non è riuscito a tradurle. Accade quando il sistema genera un alto numero di sottoalberi, senza riuscire ad individuare quello corretto. Abbiamo cercato di utilizzare più criteri di valutazione poiché ciascuno di quelli adottati ci è sembrato utile per la comprensione di un particolare aspetto ma non per la totalità delle osservazioni formulabili. Il primo criterio, immediato sia nel calcolo che nel tipo di risultato, è la variazione percentuale del numero di frasi appartenenti alle quattro categorie. Il calcolo è stato realizzato per i due momenti della traduzione: prima e dopo le modifiche. E' stata rilevata una variazione percentuale positiva in relazione alle prime due categorie (frasi corrette e imprecise) compresa tra il 20% e il 30%; la variazione delle altre due è stata invece negativa superiore al 60% per le frasi errate e al 300% per

quelle non tradotte. Si deduce quindi un netto miglioramento del livello di correttezza, dovuto ad un consistente spostamento delle frasi verso le prime due categorie. Un altro tipo di valutazione è stato compiuto "pesando" la categoria di appartenenza di una frase in relazione al tempo necessario per ottenere una buona traduzione. Ci siamo posti nell'ottica dell'utilizzatore del sistema di traduzione che al termine del lavoro deve consegnare un prodotto "corretto". Abbiamo quindi associato dei pesi a ciascuna categoria secondo lo schema: 1 Frasi non tradotte Il traduttore deve realizzare lui la traduzione 2 Frasi errate Il traduttore deve riconoscere l'errore, comprendere che non è rimediabile, ed eseguire manualmente la traduzione, con un aumento del tempo impiegato 0,75 Frasi imprecise Il traduttore trova la frase già tradotta, per la quale deve realizzare solo dei piccoli aggiustamenti. Per far ciò impiega del tempo, ma in misura inferiore rispetto al dover effettuare manualmente la traduzione 0,25 Frasi corrette Il traduttore deve ricontrollare la frase per verificarne la correttezza, con un minimo dispendio di tempo Sulla base di questi pesi abbiamo applicato sia alla totalità delle frasi che a ciascun documento tradotto, prima e dopo la modifica, la formula: 1 * NT + 2 * E + 0,75 * I +0,25 * C (1) dove: NT è il numero di frasi Non Tradotte E è il numero di frasi Errate I è il numero di frasi Imprecise C è il numero di frasi Corrette I due valori ottenuti dal sistema originale e da quello modificato sono stati confrontati per ottenere, anche in questo caso, la percentuale di variazione che, nel caso della totalità delle frasi, individua un calo del tempo di poco inferiore al 20%. La stessa analisi condotta documento per documento dà risultati analoghi anche se più articolati. La maggior parte dei documenti infatti ha avuto una riduzione della stima dei tempi che ruota attorno al 20%, con rare punte superiori a 40% ed un ugual numero per i quali si è avuto un, seppur minimo, peggioramento. Dall'esame di questi dati scaturisce la validità della TreeBank come fonte per il reperimento dell'ampia gamma di informazioni utili ad un sistema linguistico applicativo come l'ambiente di traduzione. Riferimenti McCord, M.C.: Slot Grammars. Computational Linguistics, (1980) vol 6, pp 31-43. McCord, M.C.: Design of LMT: A Prolog-based Machine Translation System Computational Linguistics, (1989) vol 15, pp. 33-52.