Web-based Selection of Optimal Translations of Short Queries

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Web-based Selection of Optimal Translations of Short Queries"

Transcript

1 UNIVERSITÀ DEGLI STUDI DI GENOVA Facoltà di Scienze Matematiche, Fisiche e Naturali Dipartimento di Informatica e Scienze dell Informazione Tesi di laurea Web-based Selection of Optimal Translations of Short Queries Relatore: prof. Stefano Rovetta Correlatori: prof. Paolo Rosso, Universidad Politécnica de Valencia Davide Buscaldi, Ph.D. Student, Universidad Politécnica de Valencia Candidato: Matteo Iskra Anno Accademico 2008/2009

2

3 Indice Introduzione Information Retrieval Question Answering Cross-Language Question Answering Cross-Language Evaluation Forum Machine Translation Breve storia Modelli di sistemi di traduzione automatica Sistemi di traduzione automatica on-line Problematiche di traduzione Valutazione di sistemi di traduzione automatica Metodologia adottata Scopo del lavoro Metodi e tecniche Traduzioni automatiche on-line Ricerca nel Web Valutazione traduttori automatici Risultati ottenuti Analisi comparativa...18 Conclusioni e sviluppi futuri...20 i

4 A The Future of Web Search - Yahoo! Research workshop...21 B Cross-Language Information Processing workshop...28 C Sociedad Española para el Procesamiento del Lenguaje Natural...35 Bibliografia...40 ii

5 Prefazione Ho iniziato questo progetto durante il mio soggiorno Erasmus a Valencia (Spagna), collaborando con il professor Paolo Rosso, docente presso il Departamento de Sistemas Informáticos y Computación dell'universidad Politécnica de Valencia e Davide Buscaldi Ph.D. student del gruppo di ricerca RFIA (Reconocimiento de Formas e Inteligencia Artificial), presso la stessa università. Il lavoro è proseguito anche dopo il mio ritorno in Italia, grazie al professor Stefano Rovetta, docente presso il DISI (Dipartimento di Informatica e Scienze dell Informazione) dell'università degli Studi di Genova. Il lavoro intrapreso è il prosieguo della tesi di laurea di Sabatino Larosa, studente del DISI, sul tema dei Sistemi di Question Answering Multilingue: L importante Ruolo della Traduzione. I miei studi hanno portato come risultato un articolo inviato al Journal "Sociedad Española para el Procesamiento del Lenguaje Natural" e due presentazioni a conferenze internazionali: nel maggio del 2006, a Barcellona, in Spagna al workshop "The Future of Web Search" organizzato da Yahoo! Research e nel settembre dello stesso anno, a Genova al workshop "Cross-Language Information Processing" organizzato nel contesto del progetto europeo "ICT for EU-India Cross-Cultural Dissemination". iii

6

7 Introduzione Oggigiorno nel Web possiamo trovare svariati sistemi di traduzione automatica (Machine Translation, MT) specializzati nelle traduzioni di frasi semplici e brevi. Questi strumenti possono essere utili nel campo del Question Answering (QA) ed in particolare nel campo del Cross-Language Question Answering (CLQA). Infatti, in quest ultimi, gioca un ruolo importante la traduzione di domande concise e brevi per ottenere una traduzione accettabile da una lingua sorgente ad una di destinazione. L obiettivo di questo lavoro è fornire ai sistemi QA la migliore traduzione possibile da un insieme di sistemi di traduzione automatica sfruttando la ridondanza del Web. In pratica il Web viene utilizzato come un archivio di corrette sequenze di parole da confrontare con le traduzioni ottenute. La scelta della miglior traduzione sarà effettuata usando tecniche implementate con basi statistiche e perciò indipendenti dal linguaggio. In particolare vogliamo valutare le traduzioni dall Inglese allo Spagnolo lingue per le quali abbiamo un vasto numero di documenti a disposizione e comparare i risultati ottenuti dal Web e da una collezione statica di documenti. 1

8 Capitolo 1 Information Retrieval Attualmente il Web fornisce una grande quantità di documenti in formato digitale in constante crescita che possono soddisfare quasi ogni tipo di richiesta di informazioni, ma senza adeguati strumenti che aiutino l utente a trovare le informazioni richieste tutti questi documenti sarebbero inutili. Per risolvere questo problema sono nati diversi approcci per il recupero di informazioni (Information Retrieval, IR) [1]. Un sistema di IR affronta il problema associato al recupero di documenti da una collezione in risposta ad una interrogazione dell utente. L obiettivo è cercare in una raccolta di testi e restituire un sottoinsieme di documenti pertinenti alla richiesta dell utente. Un esempio lampante di sistemi di IR sono gli attuali motori di ricerca Google 1 e Yahoo 2 su tutti però incapaci di fornire una risposta precisa ad una specifica richiesta di informazione posta in linguaggio naturale. 1.1 Question Answering L alternativa ai motori di ricerca per risolvere una specifica richiesta di informazione sono i sistemi di Question Answering (QA); data una collezione di documenti questi sistemi sono in grado di recuperare risposte a domande poste in linguaggio naturale. Per esempio a una domanda del tipo: Chi ha vinto lo Scudetto 1991? il sistema di QA risponderebbe Sampdoria, anziché fornire una lunga serie di documenti correlati all'u.c. Sampdoria 3. 1 Google, Inc. 2 Yahoo! Co. 3 U.C. Sampdoria 2

9 3 Tipicamente un sistema di QA è composto da tre moduli: 1. question analysis, trasforma la domanda in una serie di keyword-query; 2. document processing, estrapola da una collezione di documenti degli snippets, cioè porzioni di documento che contengono le keyword dell interrogazione; 3. answer extraction, estrae le risposte a partire dai snippets selezionati e sceglie la risposta migliore in base a un ranking. Figura 1: Architettura tipica di un sistema QA Recentemente sono stati sviluppati strumenti web che si basano su sistemi di QA come True Knowledge 4 e Walfram Alpha Cross-Language Question Answering Esistono anche sistemi di QA che permettono all utente di formulare la domanda in una lingua differente da quella della collezione di documenti usata per la ricerca della risposta. Questi sistemi sono chiamati Cross-Language Question Answering (CLQA)[2]. I sistemi CLQA sfruttano la ridondanza dei documenti nel Web per le loro ricerche. Infatti, cercando la stessa informazione in un insieme di documenti scritti in una lingua più comune si incrementano le possibilità di ottenere la risposta esatta. Attualmente la maggioranza dei sistemi usa traduttori disponibili on-line ma la qualità delle traduzioni non è delle migliori e ciò ha un impatto negativo sull efficienza del sistema di QA. Un sistema di questo tipo, QUASAR[3], è stato sviluppato presso il Laboratorio di Ingegneria del Linguaggio Naturale del gruppo di Pattern Recognition and Artificial Intelligence dell Universidad Politécnica de Valencia. 4 True Knowledge 5 Wolfram Alpha

10 1.3 Cross-Language Evaluation Forum Il CLEF 6 (Cross-Language Evaluation Forum) è un consorzio europeo che, dal 2000, organizza ogni anno una competizione a livello internazionale riguardante sistemi di Information Retrieval, operanti su lingue europee in ambito monolingua e multilingua. Il principale obiettivo del CLEF è di fornire una struttura dove i ricercatori possano scambiarsi idee e risultati. A questo scopo l organizzazione definisce alcuni tasks che dipendono dalla lingua, dalla sorgente di informazione e dal formato dell informazione. Tra questi troviamo anche quello riguardante il Multiple Language Question Answering, chiamato Da alcuni anni anche l Universidad Politécnica de Valencia partecipa alla competizione e nel 2005 prese parte alla gara con il sistema QUASAR. La Tabella 1.1 mostra la precisione ottenuta da differenti sistemi in Spagnolo presentati alla gara. Il sistema con maggiore precisione (inao051eses) risulta essere quello sviluppato presso il Laboratorio di Tecnologie del Linguaggio dell'inaoe, Mexico[4]. Il sistema QUASAR (upv051eses), sviluppato ex novo, non diede grandi risultati ma integrandolo al sistema dell'inaoe si ottennero risultati desiderabili (tova051eses)[5]. 4 sistema precisione inao051eses 42.00% tova051eses 41.00% upv051eses 33.50% alia051eses 33.00% Tabella 1.1: Risultati statistici di alcuni sistemi in Spagnolo partecipanti al CLEF CLEF

11 Capitolo 2 Machine Translation Un aspetto fondamentale per un sistema CLQA è la traduzione delle domande da una lingua all altra. Attualmente esistono sistemi di traduzione automatica (Machine Translation, MT), disponibili anche on-line, che traducono decentemente frasi semplici e brevi. Le difficoltà che incontrano questi sistemi risiedono nella complessità del linguaggio umano, pieno di eccezioni e ambiguità. Alcune traduzioni risulteranno quindi incorrette perché questi sistemi sono incapaci di riconoscere le caratteristiche linguistiche. Allo stato attuale i sistemi MT offrono un valido aiuto nel lavoro di traduzione ma resta comunque imprescindibile la supervisione umana. 2.1 Breve storia La traduzione automatica fu proposta all'inizio come via d'aiuto alla comunicazione nel 17 secolo. Fu pensato un dizionario meccanico come risposta alle barriere linguistiche, che sia Cartesio che Leibniz considerarono realizzabile. Solo a metà del secolo scorso i meccanismi di traduzione furono effettivamente tentati. Il primo di questi tentativi fu nel 1937, un dizionario a schede perforate chiamato cerveau mécanique, progettato da Georges B. Artsrouni che era in grado di tradurre in automatico parole di quattro lingue diverse in francese [6]. Quasi vent'anni più tardi, nel gennaio 1954, la collaborazione tra la Georgetown University e IBM diede vita alla prima dimostrazione pubblica di un sistema di traduzione automatica. Un campione di frasi russe è stato tradotto in inglese. Tuttavia il testo sorgente fu selezionato accuratamente e il vocabolario consisteva solo di 250 parole e solo 6 regole grammaticali. Nel 1966, visti gli scarsi risultati ottenuti, l'automatic Language Processing Advisory Committee (ALPAC) tagliò i fondi alla ricerca. Il resoconto 5

12 6 della commissione concludeva che i sistemi MT erano inutili, costosi e imprecisi. Ciò nonostante le ricerche continuarono in Europa e in Canada, sviluppando rispettivamente Eurotra e Météo. In piena Guerra Fredda e sulla scia degli esperimenti della Georgetown, nel 1968 grazie a Peter Toma, nasce Systran 7 un sistema di traduzione diretta dal russo all inglese, commissionato dall'aeronautica degli Stati Uniti. Negli anni settanta questo sistema si occupò anche delle traduzioni Franco-Inglesi della Commissione Europea, oltre che essere impiegato presso la NATO e varie aziende commerciali, come XEROX, General Motors, etc. Systran divenne da subito uno dei più noti e popolari sistemi di traduzione automatica [6]. Negli anni ottanta lo sviluppo dell intelligenza artificiale e del Natural Language Processing (NLP) hanno permesso di integrare ai modelli primitivi di MT componenti di analisi morfologica e sintattica e disambiguatori semantici. In concorrenza a Systran nascono sistemi commerciali come METAL, Globalink, Tovna ed entra sul mercato la ricerca e il prodotto giapponese, in particolare per le grandi industrie dell'elettronica di massa. L'avvento del Web negli anni novanta porta i sistemi MT on-line. Nel 1997 la collaborazione tra Systran e AltaVista 8 (dal 2004 acquisita da Yahoo!) danno vita a Babelfish 9, il primo sistema di traduzione gratuito on-line che offre ben diciotto coppie di traduzione. Oggi seguendo questo esempio molti portali offrono servizi di traduzione gratuita on-line portando gli utenti a una vasta scelta di possibilità. 2.2 Modelli di sistemi di traduzione automatica Dietro il processo di traduzione, apparentemente semplice, si cela una complessa operazione cognitiva. Per decodificare il significato del testo di partenza nella sua interezza, il traduttore deve interpretare e analizzare tutte le caratteristiche del testo, un processo che richiede una conoscenza approfondita della grammatica, della semantica, della sintassi, ecc... della lingua di partenza, così come la cultura dei suoi parlanti. Il traduttore ha bisogno della stessa conoscenza approfondita per ricodificare il significato nella lingua di destinazione. 7 Systran Language Translation Technologies 8 Overture Service, Inc. 9 Babelfish

13 7 Questa è la sfida dei moderni sistemi MT: come sviluppare un sistema che comprenda un testo come fa una persona e che generi un nuovo testo nella lingua di destinazione che suoni come se fosse stato scritto da una persona. Questo problema può essere affrontato in diversi modi. I principali paradigmi MT sono: sistemi basati su regole (ruled-based MT) sistemi statistici (statistical MT) sistemi ibridi (hybrid MT) Nei sistemi MT basati su regole vengono identificate e formalizzate alcune regole organizzate in moduli diversi che interagiscono a diversi livelli. A seconda del livello abbiamo una traduzione: diretta, il sistema riduce al minimo le informazioni linguistiche da analizzare, prendendo in considerazione solo le caratteristiche della lingua di partenza e di quella di arrivo, necessarie per il procedimento della trasformazione. sintattica, questi sistemi sono fondati su modelli sintattici di grammatica formale e centrati sull uso di strumenti propri del NLP. Tra i sistemi basati sulle regole, quelli sintattici sono i maggiormente usati e i migliori in termini di performance. a interlingua, questi sistemi sono caratterizzati da una rappresentazione intermedia, alla quale si arriva tramite una serie di livelli astratti di rappresentazione morfologica, sintattica e semantica. Una comoda rappresentazione di questi tre approcci è quella del triangolo di Vauquois (Figura 2), in cui si nota come la profondità di analisi cresce salendo verso il vertice mentre la quantità di conoscenza richiesta decresce.

14 8 Nei sistemi statistici si fa ricorso a parametri statistici per l attribuzione dell ordine delle parole e del migliore candidato per la traduzione. Non vengono utilizzate regole grammaticali, ma si usano le probabilità di occorrenza e di frequenza delle parole. I risultati dei sistemi di impronta statistica si sono rilevati migliori rispetto a quelli che fanno ricorso a regole. Gli attuali sistemi di traduzione automatica sono spesso ibridi, e tentano di arricchire per composizione le metodologie basate su regole con quelle statistiche. Il vantaggio è di poter sviluppare diverse strategie di risoluzione a seconda dello specifico problema traduttivo da affrontare. 2.3 Sistemi di traduzione automatica on-line Esistono diversi sistemi di traduzione gratuita disponibili on-line, Google Translate 10 è forse il più conosciuto, ma ne esistono molti altri come Systran, Promt 11, FreeTranslation 12, Linguatec 13, Reverso 14 e Worldlingo 15. Le loro traduzioni sono basate su approcci diversi e a seconda delle coppie di traduzione fanno uso di sistemi non proprietari, ma si appoggiano ad altri sistemi con un alto grado di affidabilità. Per esempio Systran è il miglior strumento per le traduzioni in Russo ed è condiviso da molti traduttori automatici. 10 Google Translate 11 Promt Translation Software and Dictionaries 12 SDL Enterprise Translation Server 13 Linguatec Personal Translator 14 Softissimo 15 WorldLingo

15 2.4 Problematiche di traduzione Nello studiare il linguaggio umano ci avviciniamo a quello che qualcuno potrebbe chiamare l' essenza umana ovvero le peculiari qualità della mente che sono conosciute finora come uniche dell'uomo.[7] Essendo il linguaggio una capacità unica dell'essere umano, solo costui è in grado di comprendere e costruire un linguaggio secondo una grammatica complessa come la nostra. Esistono molte diverse regole dentro una grammatica che una macchina deve imparare allo scopo di saper tradurre da una lingua all'altra. Questi problemi linguistici sono numerosi e sono una costante sfida alla progettazione di sistemi di traduzione automatica. Nonostante tutto questi sistemi soffrono di alcuni difetti; i più comuni sono legati ai nomi propri che vengono tradotti erroneamente (es. FIAT diventa SALSA DE CARNE 13 o MANDATO 8, AUTORIZACIÓN 6 ), oppure per la mancanza di significato delle frasi a causa di ambiguità, omonimia (fenomeno per cui due parole, di etimo e significato diverso, hanno uguale suono o grafia) e polisemia (pluralità di significati in una stessa parola). Per esempio alla domanda Chi ha vinto lo Scudetto 1991?, è chiaro il riferimento allo scudetto del campionato italiano di calcio ma l ambiguità della parola scudetto porta a errori del tipo Who has gained badge 1991? o Who has won the small shield 1991? mentre la forma corretta sarebbe Who won the championship 1991?. Se vogliamo disambiguare la domanda potremmo riformularla in maniera diversa: Chi ha vinto il campionato italiano di calcio nel 1991?. Purtroppo per il fatto che la parola calcio ha diversi significati (polisemia), le traduzioni risulteranno molto diverse da quella reale. Per esempio Who has gained the Italian championship of soccer in 1991? oppure Who has won the Italian championship of football in 1991? o ancora Who has won the Italian championship of kick in 1991? invece delle forma corretta Who won the Italian soccer Championship in 1991?. Non dimentichiamo anche della possibile presenza di errori grammaticali. Questo si nota benissimo negli esempi precedenti nelle forme verbali scorrette has won invece di won. 2.5 Valutazione di sistemi di traduzione automatica Per avere una ragionevole valutazione qualitativa, oggettiva e seria delle tecnologie MT abbiamo bisogno di strumenti automatici che indichino il grado di affidabilità delle 9

16 10 traduzioni. Per effettuare questi calcoli introduciamo il concetto matematico di metrica o funzione distanza, cioè la funzione che definisce la lontananza tra due elementi di un insieme. Nel campo dei sistemi MT la distanza tra due traduzioni è somiglianza che le due hanno. La metrica più popolare è chiamata BLEU 16 (BiLingual Evaluation Understudy) [8] che fornisce una rapida panoramica sulle prestazioni di un sistema MT confrontando la sua traduzione con la traduzione di riferimento eseguita dall'uomo. Seguendo lo sviluppo di BLEU, il National Institute of Standars and Technology (NIST) ha sviluppato un altro strumento di valutazione basato sempre su BLUE, chiamato metrica NIST 17. La principale differenza tra i due è che BLEU si concentra più sulla padronanza delle lingue, mentre NIST si concentra più sulla precisione lessicale. Entrambi basano la comparazione su una serie di parole (n-grammi) così come METEOR 18 che invece usa singoli grammi. Mentre altri si basano sulla comparazione di stringhe come WER 19. Effettuare una valutazione automatica su un vasto numero di sistemi è importante per conoscere non solo il migliore, in tempi ragionevoli, ma anche per acquisire una chiara visuale dello stato dell'industria ai giorni nostri. 16 BLEU Papineni et al., NIST Doddington et al., METEOR (Metric for Evaluation of Translation with Explicit ORdering) - Lavie et al., WER (Word Error Rate) - Nieben et al., 2000

17 Capitolo 3 Metodologia adottata Un primo studio alla ricerca della miglior traduzione tra un insieme di traduttori è stato effettuato utilizzando applicazioni software di traduzione automatica contro traduttori automatici on-line per tradurre domande dall Italiano allo Spagnolo [9][10]. Lo studio si basava su due metodi: quello Word-Count e quello Double-Translation. Il primo metodo sfrutta la ridondanza delle parole in tutte le traduzioni ovvero la traduzione con il maggior numero di parole in comune viene scelta. Se una parola ha un alta frequenza si avranno maggiori possibilità che la parola originale sia tradotta correttamente. Il secondo metodo sfrutta la doppia traduzione cioè, una domanda viene tradotta dall Italiano allo Spagnolo e nuovamente dallo Spagnolo all Italiano. La traduzione che sarà più simile alla domanda originale verrà scelta. Entrambe le metodologie adottate, per la scelta della traduzione ottimale, si basano solo sull'insieme delle domande da tradurre e da quelle tradotte. Uno sviluppo successivo è quello di utilizzare un vocabolario di parole esatte da confrontare con le domande tradotte per estrapolare quella più corretta. 3.1 Scopo del lavoro Lo scopo di questo lavoro è sfruttare la ridondanza del Web per ottenere un archivio di sequenze di parole, più o meno esatte, da confrontare con le traduzioni dei traduttori automatici. Il lavoro si basa solo sulla prima fase di un sistemi di CLQA, cioè sulla traduzione dalla lingua sorgente a quella di destinazione. 11

18 3.2 Metodi e tecniche I vari problemi che affliggono i traduttori on-line ne impediscono l uso di uno in particolare. Quindi si è scelto di utilizzarne un insieme per poi scegliere la traduzione che si avvicina di più a quella corretta. La scelta è caduta su quei traduttori che non hanno vincoli sulla quantità di caratteri per la traduzione e quelli che utilizzano lo stesso sistema di traduzione per la coppia di lingue che nel nostro caso sono l'inglese e lo Spagnolo. I sistemi di traduzione automatica on-line utilizzati sono cinque: Systran, FreeTranslation, Promt, Reverso e Linguatec. Questo permetterà di vedere le differenze su un gran numero di sistemi e perciò di ottenere un ampia varietà di risultati. Per la ricerca nel Web si è deciso di prendere in considerazione più motori di ricerca, diversi tra loro, per far notare eventuali differenze di ricerca. I motori di ricerca usati sono Google, Yahoo!, Ask 20 e Lucene 21 una libreria che permette di avere in Java un motore di ricerca full text. I dati gestiti da Lucene sono rappresentati da una quantità personalizzabile di documenti testuali dai quali estrarre le informazioni richieste. Per lo sviluppo degli esperimenti è stato utilizzato come linguaggio di programmazione Python Traduzioni automatiche on-line Per prima cosa forniamo ai traduttori automatici on-line la domanda in Inglese ottenendo così cinque possibili traduzioni in Spagnolo Ricerca nel Web Un n-gramma è una sequenza di n parole di una frase [11], per ogni traduzione creiamo una catena di trigrammi (una sequenza di tre parole) ottenuta nel seguente modo: data la sequenza di parole della traduzione otteniamo l'insieme di trigrammi w = (w 1,...,w n ) T = {(w 1,w 2,w 3 ), (w 2,w 3,w 4 ),... (w n 2,w n 1,w n )} 20 IAC Search & Media 21 Lucene 22 Python Software Foundation

19 13 Esempio Quién es el Presidente del Comité Nobel noruego? w=( Quién, es, el, Presidente, del, Comité, Nobel, noruego) T={(Quién es el), (es el Presidente), (el Presidente del), (Presidente del Comité), (del Comité Nobel), (Comité Nobel noruego)} Dopodiché ogni trigramma t T viene inviato ai motori di ricerca nella forma: w i w i+1 w i+2, ottenendo c(t i ), cioè il numero di pagine che contengono quel trigramma. Ottenendo il numero di occorrenze nella collezione, in altre parole, abbiamo la probabilità di trovare un corretto trigramma nella collezione. Nella Tabella 3.1 si presentano i risultati ottenuti dai quattro motori di ricerca per l'esempio precedente. Esempio Quién es el Presidente del Comité Nobel noruego? trigrammi Ask Google Lucene Yahoo Quién es el es el Presidente el Presidente del Presidente del Comité del Comité Nobel Comité Nobel noruego Tabella 3.1: Risultati dei numeri di pagine trovate da ogni motore di ricerca per ogni trigramma

20 Formula di Shannon Il peso di ogni catena di trigrammi (e dunque della corrispondente traduzione) si ottiene a partire dalla Formula dell Entropia di Shannon (3.1), che misura la quantità di informazioni rappresentate dalla traduzione [12]. n H ( X ) = K p( i)log p( i) i= 0 (3.1) dove K è una costante arbitraria (dipendente dal problema), e p(i) è la probabilità dell i-esimo frammento del messaggio. Nel nostro caso abbiamo deciso di calcolare la probabilità di ogni trigramma mediante il numero di pagine web. Denotiamo con c(t i ) la funzione che restituisce il numero di pagine web che contengono il trigramma t i e ridefiniamo i-esimo frammento come t i =(w i,w i+1,w i+2 ) e b i =(w i,w i+1 ). La probabilità sarà stimata come ) c( ti ) p( ti ) = c( b ) i (3.2) dove la stima di un certo trigramma t i è data dal numero di volte c(t i ) in cui appare nella collezione diviso il numero di volte in cui appare il suo bigramma radice c(b i ) (3.2). Usiamo quindi la ricerca nel Web come modello probabilistico del linguaggio.[13] Se sostituiamo questa stima (3.2) nella Formula di Shannon (3.1) otteniamo n c( ti ) H ( X ) = K ( c( ti ) c( bi )) c( b ) i= 0 i (3.3) Inoltre abbiamo utilizzato una scala logaritmica per il conteggio delle pagine, dovuto al fatto che nel Web usualmente c(b i )>>c(t i ), e un fattore lineare di normalizzazione come K.

21 Dopo queste osservazioni la formula ottenuta per calcolare l'entropia di una traduzione X sarà: 15 n 1 log c( ti ) H ( X ) = (log c( ti ) log c( bi )) n log c( b ) i= 0 i (3.4) Ora pesiamo ognuna delle cinque traduzioni e scegliamo quella con il più alto peso, cioè quella con maggior probabilità corretta. In caso di pesi uguali verrà scelta quella del traduttore base (Promt). Nella Tabella 3.2 si presentano i risultati ottenuti utilizzando la Formula di Shannon applicata all'esempio precedente con in evidenza i valori massimi per ogni motore di ricerca. Esempio Who is the Chairman of the Norwegian Nobel Committee? MT Systems H(X) Ask H(X) Google H(X) Lucene H(X) Yahoo Systran FreeTrans Linguatec Promt Reverso Tabella 3.2: Risultati della Formula di Shannon per ogni traduttore utilizzando diversi motori di ricerca Valutazione traduttori automatici Per controllare la correttezza di questi risultati abbiamo scelto di utilizzare il metodo BLEU, il cui principale scopo è quello di comparare il numero di n-grammi trovati nella traduzione candidata con il numero di quelli nella traduzione di riferimento corretta. La formula usata per calcolare la precisione degli n-grammi è semplice. Le parole della traduzione candidata che combaciano con le parole della traduzione di riferimento sono conteggiate e poi divise per il numero di parole della traduzione candidata.

22 L attuale formula usata per calcolare il punteggio, da 0 a 1, raggiunto da una traduzione è la seguente: 16 * N L ref Score= exp wn log( pn) max 1, 0 n= 1 L sys (3.5) dove p n = i the number of n-grams in segment i, in the translation being evaluated, with a matching reference cooccurence in segment i the number of n-grams in segment i, in the translation being evaluated i e w n = N -1 N = 4 L ref = the number of words in the reference trans that is closest in length to the translation being scored L sys = the number of words in the translation being scored Nel nostro caso i testi da confrontare saranno le domande del corpus. Esempio - domanda da tradurre: Who is the Chairman of the Norwegian Nobel Committee? - domanda realmente corretta: Quién es el Presidente del Comité Nobel noruego? MT System Traduzione BLEU Score Systran Quién es el presidente del comité noruego Nobel? FreeTrans Quién es el Presidente del Comité noruego de Nóbel? Linguatec Quién es el Presidente del Comité de Nobel noruego? Promt Quién es el Presidente del Comité Nobel noruego? Reverso Quién es el Presidente del Comité noruego nóbel? Tabella 3.3: Risultati di BLEU per ogni sistema di traduzione automatica.

23 3.3 Risultati ottenuti Gli esperimenti sono stati effettuati utilizzando il corpus di 200 domande derivanti dalla gara del CLEF Utilizzando l'algoritmo BLUE per valutare ogni sistema di traduzione automatica otteniamo i risultati della seguente tabella: 17 BLUE Score Systran FreeTrans Linguatec Promt Reverso Tabella 3.4: Risultati per ogni sistema di traduzione automatica su 200 domande Successivamente usando la Formula di Shannon, scegliamo le migliori traduzioni per ogni motore di ricerca, confrontando poi i risultati con la selezione ideale fatta manualmente: BLUE Score Ask Google Lucene Yahoo! manuale Tabella 3.5: Risultati per ogni motore di ricerca Si è considerata inoltre la possibilità di confrontare questa metodologia di lavoro utilizzando il corpus di domande DISEQuA 24 della gara del CLEF I risultati di BLUE per ogni sistema di traduzione automatica sono i seguenti: BLUE Score Systran FreeTrans Linguatec Promt Reverso Tabella 3.6: Risultati per ogni sistema di traduzione automatica su 450 domande La peculiarità di questo corpus è quella che le 450 domande sono suddivise in categorie. Sono considerati sette tipi di domande: persone, luoghi, misure, date, organizzazioni, oggetti, e altro (che non rientra nelle precedenti categorie). L'obiettivo di questa suddivisione è quello di creare un corpus bilanciato, con una buona copertura per DISEQuA - Dutch, Italian, Spanish and English collection of Questions and Answers 25 Cross-language Question Answering: The Key Role of Translation

24 18 tutte le categorie. I risultati con le domande suddivise in categorie: categoria n Systran FreeTrans Linguatec Promt Reverso date location measure object organization other person Tabella 3.7: Risultati di ogni sistema di traduzione automatica per ogni categoria Utilizzando la Formula di Shannon otteniamo questi risultati: BLUE Score Ask Google Lucene Yahoo! Tabella 3.8: Risultati per ogni motore di ricerca Sempre utilizzando la formula di Shannon ecco i risultati per ogni motore di ricerca con le domande suddivise in categorie: categoria n Ask Google Lucene Yahoo! date 64 0,2612 0,2398 0,2639 0,2413 location 85 0,3080 0,3161 0,3410 0,2992 measure 103 0,2814 0,2867 0,3056 0,2699 object 12 0,1521 0,1735 0,2416 0,1767 organization 41 0,2582 0,2549 0,2679 0,2425 other 54 0,3191 0,3301 0,3208 0,2813 person 91 0,4682 0,4924 0,4928 0,4719 Tabella 3.9: Risultati di ogni sistema di traduzione automatica per ogni categoria 3.4 Analisi comparativa Come si può vedere dai risultati del punteggio BLEU, il miglior sistema tra tutti è senz'altro Promt capace di tradurre correttamente, o molto vicino alla forma corretta, circa il 42% del corpus CLEF2005 e circa il 36% del corpus CLEF03 (Tabella 3.10).

Università degli Studi di Genova. Dipartimento di Informatica e Scienze dell Informazione. Tesi

Università degli Studi di Genova. Dipartimento di Informatica e Scienze dell Informazione. Tesi Università degli Studi di Genova Facoltà di Scienze Matematiche, Fisiche e Naturali Dipartimento di Informatica e Scienze dell Informazione Tesi Sistemi di Question Answerng Multilingue: L importante Ruolo

Dettagli

Introduzione alla Linguistica Computazionale

Introduzione alla Linguistica Computazionale Introduzione alla Linguistica Computazionale Salvatore Sorce Dipartimento di Ingegneria Chimica, Gestionale, Informatica e Meccanica Ludici Adattati da Alessandro Lenci Dipartimento di Linguistica T. Bolelli

Dettagli

Nuove Tecnologie per la Traduzione

Nuove Tecnologie per la Traduzione Nuove Tecnologie per la Traduzione Roma, Tor Vergata,LINFO Giuseppe Forte María Lozano Zahonero Sandra Petroni Contenuti del seminario TEORIA 1. Dalla traduzione automatica alla traduzione assistita 2.

Dettagli

Sommario. Sistemi di machine translation- 1/2. Sistemi di machine translation- 2/2. Metodi di valutazione per sistemi di traduzione automatica

Sommario. Sistemi di machine translation- 1/2. Sistemi di machine translation- 2/2. Metodi di valutazione per sistemi di traduzione automatica Metodi di valutazione per sistemi di traduzione automatica Corso di Elaborazione del linguaggio naturale di francesca bonin Anno accademico 2005-2006 Sommario Cenni agli MT system Problematiche legate

Dettagli

Question Answering e semantica Tecnologie emergenti per le imprese. IKL 08 - Intercultural Knowledge Landscapes

Question Answering e semantica Tecnologie emergenti per le imprese. IKL 08 - Intercultural Knowledge Landscapes Question Answering e semantica Tecnologie emergenti per le imprese Cos è QuestIT? QuestIT nasce nell ambito di attività di ricerca in Intelligenza Artificiale presso il Dipartimento di Ingegneria dell

Dettagli

La traduzione automatica e la sua integrazione negli strumenti per la traduzione assistita

La traduzione automatica e la sua integrazione negli strumenti per la traduzione assistita Tendenze evolutive dei servizi linguistici in Europa: nuove (e vecchie) sfide viste da prospettive diverse UNINT Placement La traduzione automatica e la sua integrazione negli strumenti per la traduzione

Dettagli

Questo documento riporta informazioni generali sul progetto europeo QALL-ME. Il pubblico al quale si rivolge è ampio e generico e il suo scopo

Questo documento riporta informazioni generali sul progetto europeo QALL-ME. Il pubblico al quale si rivolge è ampio e generico e il suo scopo QALL-ME EXECUTIVE SUMMARY Autore: Bernardo Magnini Presso: ITC-irst, Trento, Italia Introduzione Questo documento riporta informazioni generali sul progetto europeo QALL-ME. Il pubblico al quale si rivolge

Dettagli

Fondamenti di Informatica 7. Linguaggi di programmazione

Fondamenti di Informatica 7. Linguaggi di programmazione I linguaggi di alto livello Fondamenti di Informatica 7. Linguaggi di programmazione Introduzione alla programmazione Caratteristiche dei linguaggi di programmazione I linguaggi di programmazione di alto

Dettagli

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011

Uno sguardo a Lucene. Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Uno sguardo a Lucene Diego De Cao, Roberto Basili Web Mining and Information Retrieval a.a. 2010/2011 Outline Uno sguardo a Lucene Descrizione delle principali caratteristiche Realizzazione di un semplice

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Traduzione automatica

Traduzione automatica Traduzione automatica 1 Argomenti trattati nella lezione: INTRODUZIONE COMPLESSITÀ MODELLI APPLICAZIONI COMMERCIALI Introduzione La Machine Translation (MT) opera una traduzione automatica di un testo

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Richiami di informatica e programmazione

Richiami di informatica e programmazione Richiami di informatica e programmazione Il calcolatore E una macchina usata per Analizzare Elaborare Collezionare precisamente e velocemente una grande quantità di informazioni. Non è creativo Occorre

Dettagli

Introduzione. è uguale a 0, spostamento di dati da una parte della memoria del calcolatore ad un altra.

Introduzione. è uguale a 0, spostamento di dati da una parte della memoria del calcolatore ad un altra. Appunti di Calcolatori Elettronici Modello di macchina multilivello Introduzione... 1 Linguaggi, livelli e macchine virtuali... 3 La struttura a livelli delle macchine odierne... 4 Evoluzione delle macchine

Dettagli

Claude Shannon. La teoria dell informazione. La comunicazione 22/02/2012. La base dei modelli comunicativi. Claude Shannon e Warren Weaver

Claude Shannon. La teoria dell informazione. La comunicazione 22/02/2012. La base dei modelli comunicativi. Claude Shannon e Warren Weaver Lez. 2 La teoria dell informazione La culla dell informatica La base dei modelli comunicativi Alla base di tutti i modelli della comunicazione ci sono 2 differenti impianti: Shannon e Weaver Roman Jakobson

Dettagli

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - 1 CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - Corsi di Laurea in Informatica, Ing. Informatica, Ing. di Internet (a.a. 2015-2016) Roberto Basili 2 Overview WM&R: Motivazioni e prospettive

Dettagli

KNOWLEDGE MANAGEMENT. Knowledge Management. Knowledge: : cos è. Dispense del corso di Gestione della Conoscenza d Impresa

KNOWLEDGE MANAGEMENT. Knowledge Management. Knowledge: : cos è. Dispense del corso di Gestione della Conoscenza d Impresa KNOWLEDGE MANAGEMENT Pasquale Lops Giovanni Semeraro Dispense del corso di Gestione della Conoscenza d Impresa 1/23 Knowledge Management La complessità crescente della società, l esubero di informazioni

Dettagli

Corso di Informatica Generale 1 IN1. Linguaggio SQL

Corso di Informatica Generale 1 IN1. Linguaggio SQL Università Roma Tre Facoltà di Scienze M.F.N. di Laurea in Matematica di Informatica Generale 1 Linguaggio SQL Marco (liverani@mat.uniroma3.it) Sommario Prima parte: le basi dati relazionali Basi di dati:

Dettagli

Software. Definizione, tipologie, progettazione

Software. Definizione, tipologie, progettazione Software Definizione, tipologie, progettazione Definizione di software Dopo l hardware analizziamo l altra componente fondamentale di un sistema di elaborazione. La macchina come insieme di componenti

Dettagli

FONDAMENTI di INFORMATICA Prof. Lorenzo Mezzalira

FONDAMENTI di INFORMATICA Prof. Lorenzo Mezzalira FONDAMENTI di INFORMATICA Prof. Lorenzo Mezzalira Appunti del corso 1 Introduzione all informatica: algoritmi, linguaggi e programmi Indice 1. Introduzione 2. Risoluzione automatica di problemi - Algoritmi

Dettagli

LA VALUTAZIONE AUTOMATICA DELL USABILITA DI SITI WEB

LA VALUTAZIONE AUTOMATICA DELL USABILITA DI SITI WEB LA VALUTAZIONE AUTOMATICA DELL USABILITA DI SITI WEB L.Paganelli, F.Paternò, M.Pizzolati CNUCE-C.N.R. Via G.Moruzzi 1, Pisa L'usabilità dei siti web si sta affermando come un elemento determinante per

Dettagli

Sistemi Informativi Multimediali 1 - Introduzione

Sistemi Informativi Multimediali 1 - Introduzione Che cos è un sistema informativo multimediale? Sistemi Informativi li 1 - Introduzione Augusto Celentano Università Ca Foscari di Venezia Un sistema informativo multimediale (MMDBMS) è un framework che

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Corso di Web Mining & Retrieval Introduzione all Information Retrieval (a.a. 2008-2009) Roberto Basili 1 Outline Accesso e Ricerca delle informazioni distribuite Il processo di base dell IR Rilevanza Applicazioni

Dettagli

Venexia. Fammi la tua domanda...

Venexia. Fammi la tua domanda... Venexia Fammi la tua domanda... Venexia chi sei? Risposta: Io sono Venexia e appartengo alla settima generazione d intelligenze artificiali sviluppate dagli ilabs. Domande collegate: puoi raccontarmi la

Dettagli

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - 1 CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - Corsi di Laurea in Informatica, Ing. Informatica, Ing. di Internet (a.a. 2013-2014) Roberto Basili 2 Overview WM&R: Motivazioni e prospettive

Dettagli

Il Pattern PROXY. Ex presentazione realizzata dallo studente Paolo Melchiori (matricola 65734) nell a.a. 2007-2008

Il Pattern PROXY. Ex presentazione realizzata dallo studente Paolo Melchiori (matricola 65734) nell a.a. 2007-2008 UNIVERSITÀ DEGLI STUDI DI BRESCIA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA DIPARTIMENTO DI ELETTRONICA PER L'AUTOMAZIONE Il Pattern PROXY Ex presentazione realizzata

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Introduzione al Semantic Web

Introduzione al Semantic Web Corso di Laurea Specialistica in Ingegneria Gestionale Corso di Sistemi Informativi Modulo II A. A. 2013-2014 Giuseppe Loseto Dal Web al Semantic Web 2 Dal Web al Semantic Web: Motivazioni Il Web dovrebbe

Dettagli

Ennis, Ireland CORSO C.L.I.L. Clare Language Centre 4-15 Aprile 2011

Ennis, Ireland CORSO C.L.I.L. Clare Language Centre 4-15 Aprile 2011 CORSO C.L.I.L. Clare Language Centre 4-15 Aprile 2011 Sommario Formazione Europea Comenius e Grundtvig Corso C.L.I.L. al Clare Language Centre Conclusioni e Sitografia CLIL 2 Comenius e Grundtvig Corsi

Dettagli

Liceo Marie Curie (Meda) Scientifico Classico Linguistico

Liceo Marie Curie (Meda) Scientifico Classico Linguistico Liceo Marie Curie (Meda) Scientifico Classico Linguistico PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE a.s. 2015/16 CLASSE 1AC Indirizzo di studio Liceo Classico Docente Disciplina Tiziana Soressi Latino

Dettagli

IT Questionario per insegnanti di lingue Analisi dei dati

IT Questionario per insegnanti di lingue Analisi dei dati IT Questionario per insegnanti di lingue Analisi dei dati Tu 1. Hanno risposto 32 insegnanti: 15 insegnano nella scuola secondaria inferiore, 17 in quella superiore. 2. Di questo campione, 23 insegnano

Dettagli

Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009. Prof. Raffaele Nicolussi

Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009. Prof. Raffaele Nicolussi Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009 Prof. Raffaele Nicolussi FUB - Fondazione Ugo Bordoni Via B. Castiglione 59-00142 Roma Docente Raffaele Nicolussi rnicolussi@fub.it Lezioni

Dettagli

Deliverable D6.1: Scelta della piattaforma software e progetto dell'organizzazione interna del portale (Documento)

Deliverable D6.1: Scelta della piattaforma software e progetto dell'organizzazione interna del portale (Documento) PARLI Deliverable D6.1 1 Progetto PRIN 2008: Portale per l Accesso alle Risorse Linguistiche per l Italiano Cristina Bosco (Unità 1, Università di Torino) Deliverable D6.1: Scelta della piattaforma software

Dettagli

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria sede di Modena Corso di Laurea VOD in Ingegneria Informatica

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria sede di Modena Corso di Laurea VOD in Ingegneria Informatica Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria sede di Modena Corso di Laurea VOD in Ingegneria Informatica PROGETTO E REALIZZAZIONE DELL ALGORITMO DI ANNOTAZIONE AUTOMATICA TUCUXI

Dettagli

Il reference digitale: l intermediazione e le risorse multimediali

Il reference digitale: l intermediazione e le risorse multimediali Università di RomaTre Stato attuale delle metodologie di gestione e diffusione dell informazione multimediale Roma, venerdì 3 dicembre 2004 Il reference digitale: l intermediazione e le risorse multimediali

Dettagli

Materiale didattico. Laboratorio di Informatica a.a. 2007-08. I) Introduzione all Informatica. Definizione di Informatica. Definizione di Informatica

Materiale didattico. Laboratorio di Informatica a.a. 2007-08. I) Introduzione all Informatica. Definizione di Informatica. Definizione di Informatica Corso di Laurea Triennale in Storia, Scienze e Tecniche dell Industria Culturale sede di Brindisi Laboratorio di Informatica a.a. 2007-08 Materiale didattico Testo adottato D.P. Curtin, K. Foley, K. Suen,

Dettagli

Il web come corpus. Il world wide web può essere considerato un corpus? Quali sono i suoi limiti? E le sue potenzialità?

Il web come corpus. Il world wide web può essere considerato un corpus? Quali sono i suoi limiti? E le sue potenzialità? Il web come corpus Il world wide web può essere considerato un corpus? Quali sono i suoi limiti? E le sue potenzialità? WWW Enorme deposito di materiale testuale accessibile, gratuito, variato negli stili,

Dettagli

Introduzione all informatica (cosa è, di cosa si occupa) 9/2/2015 Informatica applicata alla comunicazione multimediale Cristina Bosco

Introduzione all informatica (cosa è, di cosa si occupa) 9/2/2015 Informatica applicata alla comunicazione multimediale Cristina Bosco Introduzione all informatica (cosa è, di cosa si occupa) 9/2/2015 Informatica applicata alla comunicazione multimediale Cristina Bosco Indice - Di cosa si occupa l informatica? - Cosa sono gli algoritmi?

Dettagli

Documentazione Demo online

Documentazione Demo online READ-IT Documentazione Demo online ILC-CNR ItaliaNLP Lab Sommario 1 MISURAZIONE DELLA LEGGIBILITÀ DI UN TESTO 2 1.1 Analisi globale della leggibilità 3 1.1.1 Valutazione globale della leggibilità del documento

Dettagli

Sistemi di biblioteche digitali per la ricerca e la didattica: l esperienza del CNR-ISTI

Sistemi di biblioteche digitali per la ricerca e la didattica: l esperienza del CNR-ISTI Sistemi di biblioteche digitali per la ricerca e la didattica: l esperienza del CNR-ISTI Stefania Biagioni e Donatella Castelli Istituto di Scienza e Tecnologie dell Informazione A Faedo CNR stefania.biagioni@isti.cnr.it

Dettagli

Pubblicazione di Linked Data in e-commerce: Progettazione e Sperimentazione (Riassunto)

Pubblicazione di Linked Data in e-commerce: Progettazione e Sperimentazione (Riassunto) Universitá degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea in Informatica Pubblicazione di Linked Data in e-commerce: Progettazione e Sperimentazione

Dettagli

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali

Sommario [1/2] Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Introduzione alle Biblioteche Digitali Sommario [1/2] Cenni storici Vannevar Bush Dalle Biblioteche ai Cataloghi Automatizzati Gli OPAC accessibili via Web Le Biblioteche Digitali Cos è una Biblioteca

Dettagli

Linguaggi di programmazione

Linguaggi di programmazione Linguaggi di programmazione Programmazione L attività con cui si predispone l elaboratore ad eseguire un particolare insieme di azioni su particolari dati, allo scopo di risolvere un problema Dati Input

Dettagli

Linguaggi di Programmazione

Linguaggi di Programmazione Linguaggi di Programmazione Linguaggi di Programmazione Sintassi e semantica Compilatori, interpreti e il linker Introduzione al C La funzione main del C 2 Definizione 1 Un linguaggio è un insieme di parole

Dettagli

Introduzione. Informatica B. Daniele Loiacono

Introduzione. Informatica B. Daniele Loiacono Introduzione Informatica B Perchè studiare l informatica? Perchè ha a che fare con quasi tutto quello con cui abbiamo a che fare ogni giorno Perché è uno strumento fondamentale per progettare l innovazione

Dettagli

PROGRAMMAZIONE DIDATTICA EDUCATIVA DI AREA LATINO TRIENNIO a.s. 2007 2008

PROGRAMMAZIONE DIDATTICA EDUCATIVA DI AREA LATINO TRIENNIO a.s. 2007 2008 LICEO SCIENTIFICO F. LUSSANA BERGAMO PROGRAMMAZIONE DIDATTICA EDUCATIVA DI AREA LATINO TRIENNIO a.s. 2007 2008 PREMESSA Questa programmazione si ispira ai seguenti criteri: 1. riconsiderare il ruolo dello

Dettagli

Linguaggi e Traduttori: Introduzione al corso

Linguaggi e Traduttori: Introduzione al corso Linguaggi e Traduttori: Introduzione al corso Armando Tacchella Sistemi e Tecnologie per il Ragionamento Automatico (STAR-Lab) Dipartimento di Informatica Sistemistica e Telematica (DIST) Università di

Dettagli

Agent and Object Technology Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Fondamenti di Informatica

Agent and Object Technology Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma. Fondamenti di Informatica Agent and Object Technology Lab Dipartimento di Ingegneria dell Informazione Università degli Studi di Parma Fondamenti di Informatica Linguaggi di Programmazione Michele Tomaiuolo Linguaggi macchina I

Dettagli

Introduzione alla Programmazione

Introduzione alla Programmazione Programmazione 1: Introduzione alla Programmazione Michele Nappi, Ph.D Dipartimento di Matematica e Informatica Università degli Studi di Salerno mnappi@unisa.it www.dmi.unisa.it/people/nappi it/people/nappi

Dettagli

Paolo Perlasca. Istruzione e formazione. Esperienza professionale. Attività di ricerca. Attività didattica

Paolo Perlasca. Istruzione e formazione. Esperienza professionale. Attività di ricerca. Attività didattica Paolo Perlasca Dipartimento di Informatica, Indirizzo: via Comelico 39/41, 20135 Milano Telefono: 02-503-16322 Email: paolo.perlasca@unimi.it Paolo Perlasca è ricercatore universitario confermato presso

Dettagli

Introduzione alla codifica XML per i testi umanistici

Introduzione alla codifica XML per i testi umanistici Introduzione alla codifica XML per i testi umanistici Daniele Silvi, Domenico Fiormonte, Fabio Ciotti fiormont@uniroma3.it - silvi@lettere.uniroma2.it - ciotti@lettere.uniroma2.it 1 La digitalizzazione

Dettagli

Linguaggi e Paradigmi di Programmazione

Linguaggi e Paradigmi di Programmazione Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una

Dettagli

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse

Navigazione. per associazione. ipertesti/ipermedia. l utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval per associazione Navigazione ipertesti/ipermedia l utente naviga nello spazio

Dettagli

LA STEREO FOTOMETRIA, OLTRE L IMMAGINAZIONE

LA STEREO FOTOMETRIA, OLTRE L IMMAGINAZIONE MADD-SPOT, 2, 2013 LA STEREO FOTOMETRIA, OLTRE L IMMAGINAZIONE DI ROBERTO MECCA Il mercato dell animazione 3D è in forte crescita in questi anni. Stampanti tridimensionali, nuovi strumenti per l analisi

Dettagli

Tra Scuola e Impresa:il modello Montani

Tra Scuola e Impresa:il modello Montani Tra Scuola e Impresa:il modello Montani Prof.ssa Margherita Bonanni ( D.S. ITT Montani Fermo ) Congresso nazionale AICA 1 Ottobre - Camerino L' Istituto Montani Fondato nel 1854 Oltre 1600 studenti Punto

Dettagli

Automatic Text Processing

Automatic Text Processing Automatic Text Processing Ing. Leonardo Rigutini Dipartimento di Ingegneria dell Informazione Università di Siena Via Roma 53 53100 SIENA ITALY rigutini@dii.unisi.it Outlines L era dell informazione Information

Dettagli

Appunti del corso di Informatica 1 (IN110 Fondamenti) 4 Linguaggi di programmazione

Appunti del corso di Informatica 1 (IN110 Fondamenti) 4 Linguaggi di programmazione Università Roma Tre Dipartimento di Matematica e Fisica Corso di Laurea in Matematica Appunti del corso di Informatica 1 (IN110 Fondamenti) 4 Linguaggi di programmazione Marco Liverani (liverani@mat.uniroma3.it)

Dettagli

Realizzazione di Web Service per l estrazione di informazioni da siti web enciclopedici

Realizzazione di Web Service per l estrazione di informazioni da siti web enciclopedici tesi di laurea Realizzazione di Web Service per l estrazione di informazioni da siti web enciclopedici Anno Accademico 2008/2009 relatore Ch.mo prof. Porfirio Tramontana Ch.mo prof. Annarita Fasolino candidato

Dettagli

Accademia G. Aliprandi - F. Rodriguez Sessione Culturale - Firenze, 2 marzo 2014. La filiera della multimedialità della comunicazione

Accademia G. Aliprandi - F. Rodriguez Sessione Culturale - Firenze, 2 marzo 2014. La filiera della multimedialità della comunicazione Accademia G. Aliprandi - F. Rodriguez Sessione Culturale - Firenze, 2 marzo 2014 La filiera della multimedialità della comunicazione La filiera della tecnologia della traduzione Federico Gaspari fgaspari@sslmit.unibo.it

Dettagli

F O R M A T O E U R O P E O P E R I L C U R R I C U L U M V I T A E INFORMAZIONI PERSONALI PASQUALE D'ANDRETI. Nome

F O R M A T O E U R O P E O P E R I L C U R R I C U L U M V I T A E INFORMAZIONI PERSONALI PASQUALE D'ANDRETI. Nome F O R M A T O E U R O P E O P E R I L C U R R I C U L U M V I T A E INFORMAZIONI PERSONALI Nome PASQUALE D'ANDRETI Telefono +39-0776-2993348 Fax +39-0776-299-3908 E-mail dandreti@unicas.it Nazionalità

Dettagli

TRADUZIONI TECNICHE E SICUREZZA

TRADUZIONI TECNICHE E SICUREZZA TRADUZIONI TECNICHE E SICUREZZA Localizzazione ed utilizzo della terminologia di settore nel processo di corretta redazione della documentazione tecnica. Dott.ssa Carlotta Aristei Sales Manager Divisione

Dettagli

Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane

Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane Tracce di approfondimento per il capitolo 6 La ricerca di informazioni per le scienze umane Vantaggi e limiti delle folksonomie (difficoltà: *) Nel paragrafo 7.4 è stato introdotto il concetto di social

Dettagli

DIZIONARI E CORSI DI LINGUE

DIZIONARI E CORSI DI LINGUE CATALOGO 2016 DIZIONARI E CORSI DI LINGUE EDITORE 3 MOTIVI PER IMPARARE LE LINGUE CON I CORSI DI LINGUA DIGITAL PUBLISHING Corso 1 inglese 59,00 Contenuto: cd-rom libro di testo cuffia-microfono NUOVA

Dettagli

Vito Di Gioia Il sito web come strumento di promo commercializzazione del prodotto turistico

Vito Di Gioia Il sito web come strumento di promo commercializzazione del prodotto turistico DIRITTO DI STAMPA 61 DIRITTO DI STAMPA Il diritto di stampa era quello che, nell università di un tempo, veniva a meritare l elaborato scritto di uno studente, anzitutto la tesi di laurea, di cui fosse

Dettagli

PIANO DI LAVORO (a.s. 2014/2015) Prof.ssa Andrea Luppichini Prof. Marco Fiorentini DISCIPLINA Informatica

PIANO DI LAVORO (a.s. 2014/2015) Prof.ssa Andrea Luppichini Prof. Marco Fiorentini DISCIPLINA Informatica lllo Istituto Tecnico Commerciale Statale e per Geometri E. Fermi Pontedera (Pi) Via Firenze, 51 - Tel. 0587/213400 - Fax 0587/52742 http://www.itcgfermi.it E-mail: mail@itcgfermi.it PIANO DI LAVORO (a.s.

Dettagli

Laboratorio di Progettazione di Sistemi Software Introduzione

Laboratorio di Progettazione di Sistemi Software Introduzione Laboratorio di Progettazione di Sistemi Software Introduzione Valentina Presutti (A-L) Riccardo Solmi (M-Z) Indice degli argomenti Introduzione all Ingegneria del Software UML Design Patterns Refactoring

Dettagli

Metodologie di programmazione in Fortran 90

Metodologie di programmazione in Fortran 90 Metodologie di programmazione in Fortran 90 Ing. Luca De Santis DIS - Dipartimento di informatica e sistemistica Anno accademico 2007/2008 Fortran 90: Metodologie di programmazione DIS - Dipartimento di

Dettagli

aided content analysis)

aided content analysis) T-Lab Stefano Nobile L analisi del contenuto computerizzata (computer aided content analysis) I software in commercio per l analisi l del contenuto computerassistita possono essere distinti in due grandi

Dettagli

Nuove Tecnologie per la Traduzione

Nuove Tecnologie per la Traduzione Nuove Tecnologie per la Traduzione 2. I corpora, le basi di dati terminologiche e testuali, le memorie di traduzione e il processo traduttivo 05-04 09:00-11:00 T12B Roma, Tor Vergata,LINFO Giuseppe Forte

Dettagli

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE

MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE MANUALE UTENTE DELLA BIBLIOTECA VIRTUALE Il sistema di ricerca della biblioteca virtuale permette di accedere in maniera rapida ai materiali didattici di interesse degli studenti presenti all interno del

Dettagli

La ISA nasce nel 1994 DIGITAL SOLUTION

La ISA nasce nel 1994 DIGITAL SOLUTION La ISA nasce nel 1994 Si pone sul mercato come network indipendente di servizi di consulenza ICT alle organizzazioni nell'ottica di migliorare la qualità e il valore dei servizi IT attraverso l'impiego

Dettagli

INVALSI English Language Test

INVALSI English Language Test INVALSI English Language Test Rapporto scuola Scuola secondaria di primo grado Settembrini - Roma Pretest 2012 APPENDICE 1. Risultati dei singoli studenti Introduzione Questo rapporto presenta i risultati

Dettagli

ANALISTA PROGRAMMATRICE e PROGRAMMATORE

ANALISTA PROGRAMMATRICE e PROGRAMMATORE Aggiornato il 9 luglio 2009 ANALISTA PROGRAMMATRICE e PROGRAMMATORE 1. CARTA D IDENTITÀ... 2 2. CHE COSA FA... 3 3. DOVE LAVORA... 4 4. CONDIZIONI DI LAVORO... 5 5. COMPETENZE... 6 Quali competenze sono

Dettagli

Programmazione Didattica del Dipartimento di Lingua e civiltà spagnola

Programmazione Didattica del Dipartimento di Lingua e civiltà spagnola Programmazione Didattica del Dipartimento di Lingua e civiltà spagnola A.S. 2015/2016 CLASSE: PRIMA INDIRIZZO DI STUDI: LINGUISTICO COMPETENZE LINGUISTICHE Alla fine del primo anno di studio della lingua

Dettagli

RISORSE E STRUMENTI LINGUISTICI BILINGUI PER L'ITALIANO E L'ARABO

RISORSE E STRUMENTI LINGUISTICI BILINGUI PER L'ITALIANO E L'ARABO RISORSE E STRUMENTI LINGUISTICI BILINGUI PER L'ITALIANO E L'ARABO EUGENIO PICCHI Istituto di Linguistica Computazionale Consiglio Nazionale delle Ricerche All'interno del progetto "Linguistica Computazionale:

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 1 - Introduzione generale Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Linguistica Computazionale. Tokenizzazione

Linguistica Computazionale. Tokenizzazione Linguistica Computazionale Tokenizzazione Sai Tokenizzare (~contare : )) iniziamo giocando poi lavoriamo Quanti token (~parole) nella frase C era una volta un pezzo di legno. Sai Tokenizzare (~contare

Dettagli

Sistemi Distribuiti. Il corso: informazioni utili AA 2006/2007. Riferimenti del docente: Ricevimento: Materiale Didattico:

Sistemi Distribuiti. Il corso: informazioni utili AA 2006/2007. Riferimenti del docente: Ricevimento: Materiale Didattico: Sistemi Distribuiti Corso di Laurea Specialistica in Telecomunicazioni AA 2006/2007 Slides del corso Sara Tucci Piergiovanni Il corso: informazioni utili Riferimenti del docente: - sito web: www.dis.uniroma1.it/

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 5 Tecniche OCR Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Internet of Things, Big Data e Intelligenza Artificiale.

Internet of Things, Big Data e Intelligenza Artificiale. Oracle Ticino Day Lugano 26 Marzo 2015 Internet of Things, Big Data e Intelligenza Artificiale. Prof. Luca Maria Gambardella direttore IDSIA, istituto USI-SUPSI, Manno Le nuove sfide La società globale

Dettagli

STEPHEN FEW SHOW ME THE NUMBERS. Progettazione di Tabelle e Grafici ROMA 12 MAGGIO 2008 DATA VISUALIZATION FOR DISCOVERY AND ANALYSIS

STEPHEN FEW SHOW ME THE NUMBERS. Progettazione di Tabelle e Grafici ROMA 12 MAGGIO 2008 DATA VISUALIZATION FOR DISCOVERY AND ANALYSIS LA TECHNOLOGY TRANSFER PRESENTA STEPHEN FEW SHOW ME THE NUMBERS Progettazione di Tabelle e Grafici ROMA 12 MAGGIO 2008 DATA VISUALIZATION FOR DISCOVERY AND ANALYSIS Semplici tecniche per analizzare dati

Dettagli

COS È IL FORUM COMPOSIZIONE DEL FORUM

COS È IL FORUM COMPOSIZIONE DEL FORUM www.forumtal.it COS È IL TAL La codifica della voce, alla base della tecnologia Umts, il riconoscimento vocale, che permette di effettuare una chiamata senza comporre il numero e l automa che facilita

Dettagli

Curriculum Vitae di Andrea Ribichini

Curriculum Vitae di Andrea Ribichini Dati Anagrafici Nome: Andrea Cognome: Ribichini Data e luogo di nascita: 14/01/1973, Roma Cittadinanza: italiana Titoli di Studio Conseguiti 29/02/2008 Titolo di Dottore di Ricerca in Ingegneria Informatica

Dettagli

Copyright Università degli Studi di Torino, Progetto Atlante delle Professioni 2009 IT PROCESS EXPERT

Copyright Università degli Studi di Torino, Progetto Atlante delle Professioni 2009 IT PROCESS EXPERT IT PROCESS EXPERT 1. CARTA D IDENTITÀ... 2 2. CHE COSA FA... 3 3. DOVE LAVORA... 4 4. CONDIZIONI DI LAVORO... 5 5. COMPETENZE... 6 Quali competenze sono necessarie... 6 Conoscenze... 8 Abilità... 9 Comportamenti

Dettagli

LABORATORIO di INFORMATICA

LABORATORIO di INFORMATICA Università degli Studi di Cagliari Corso di Laurea Magistrale in Ingegneria per l Ambiente ed il Territorio LABORATORIO di INFORMATICA A.A. 2010/2011 Prof. Giorgio Giacinto INTRODUZIONE AI SISTEMI DI BASI

Dettagli

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici

I MOTORI DI RICERCA motori di ricerca. motori di ricerca per termini motori di ricerca sistematici I MOTORI DI RICERCA Il numero di siti Internet è infinito e ormai ha raggiunto una crescita esponenziale; inoltre, ogni sito è costituito da diverse pagine, alcune volte centinaia, e individuare un informazione

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Guida all uso della Banca Dati

Guida all uso della Banca Dati Guida all uso della Banca Dati Introduzione Questa guida dell utente intende presentare il contenuto del database sulle traduzioni economiche incluse nel portale del progetto EE-T, nonché a fornire alcuni

Dettagli

LICEO STATALE C. TENCA MILANO Dipartimento di Lingue PROGRAMMAZIONE DISCIPLINARE DI LINGUE E CULTURE STRANIERE

LICEO STATALE C. TENCA MILANO Dipartimento di Lingue PROGRAMMAZIONE DISCIPLINARE DI LINGUE E CULTURE STRANIERE MILANO PROGRAMMAZIONE DISCIPLINARE DI LINGUE E CULTURE STRANIERE STRUTTURA DELLA DISCIPLINA 2 Riflessione sulla lingua Dimensione comunicativa-funzionale Dimensione letteraria 3 Articolazione della disciplina

Dettagli

LICEO SCIENTIFICO STATALE A. VALLISNERI

LICEO SCIENTIFICO STATALE A. VALLISNERI LICEO SCIENTIFICO STATALE A. VALLISNERI Via delle Rose, 68 LUCCA - Tel. 0583/58211 Fax 0583/418619 E-mail: info@liceovallisneri.it Sito Internet: http://www.liceovallisneri.it A. S. 2014/2015 PROGRAMMAZIONE

Dettagli

Information Retrieval

Information Retrieval Information Retrieval Dario Rigolin Comperio srl CTO dario.rigolin@comperio.it Bologna 22 Maggio 2009 Master in Tecnologie OpenSource Agenda Presentazioni di rito Piccola introduzione sull'ir Cosa offre

Dettagli

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video

@Giusi Castagnetta tutti i diritti riservati. Seo e contenuti video @Giusi Castagnetta tutti i diritti riservati Seo e contenuti video SEO facile Quando cerchiamo qualcosa sui motori di ricerca, ci aspettiamo di trovare per primi i risultati migliori, cioè quelli più pertinenti

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

DATA WAREHOUSING CON JASPERSOFT BI SUITE

DATA WAREHOUSING CON JASPERSOFT BI SUITE UNIVERSITÁ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Ingegneria di Enzo Ferrari Corso di Laurea Magistrale in Ingegneria Informatica (270/04) DATA WAREHOUSING CON JASPERSOFT BI SUITE Relatore

Dettagli

DIZIONARI E CORSI DI LINGUE

DIZIONARI E CORSI DI LINGUE CATALOGO 2015 DIZIONARI E CORSI DI LINGUE EDITORE 3 MOTIVI PER IMPARARE LE LINGUE CON I CORSI DI LINGUA DIGITAL PUBLISHING Corso 1 inglese 59,00 Contenuto: cd-rom libro di testo cuffia-microfono NUOVA

Dettagli

La Progettazione Concettuale

La Progettazione Concettuale La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio

Dettagli

INGEGNERIA DEL SOFTWARE. Prof. Paolo Salvaneschi

INGEGNERIA DEL SOFTWARE. Prof. Paolo Salvaneschi Università di Bergamo Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica INGEGNERIA DEL SOFTWARE Prof. Paolo Salvaneschi 1 Obiettivi Scopi del corso: - Fornire gli elementi di base della disciplina,

Dettagli

Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo 2014. Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved.

Quick Introduction T-LAB 9.1. Strumenti per l Analisi dei Testi. Marzo 2014. Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved. T-LAB 9.1 Marzo 2014 Quick Introduction Strumenti per l Analisi dei Testi Copyright 2001-2014 T-LAB by Franco Lancia All rights reserved. Website: http://www.tlab.it/ E-mail: info@tlab.it T-LAB is a registered

Dettagli

Piattaforma ilearn di Hiteco. Presentazione Piattaforma ilearn

Piattaforma ilearn di Hiteco. Presentazione Piattaforma ilearn Presentazione Piattaforma ilearn 1 Sommario 1. Introduzione alla Piattaforma Hiteco ilearn...3 1.1. Che cos è...3 1.2. A chi è rivolta...4 1.3. Vantaggi nell utilizzo...4 2. Caratteristiche della Piattaforma

Dettagli