Dizionari elettronici



Похожие документы
Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

Testi, linguistica e ingegneria della lingua

Linguistica Computazionale. 22 settembre 2014

014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria

Per salvaguardare la vista, si consiglia al traduttore di munirsi di un monitor con schermo lucido.

Le aree dell informatica

Natural Language Processing

La certificazione delle competenze nelle. lingue classiche secondo obiettivi graduali. Silvana Rocca Mariella Tixi Università degli Studi di Genova

Basi di Dati e Sistemi Informativi su Web

FRANCESE - SCUOLA SECONDARIA DI PRIMO GRADO Classe 1 a

QUADRO DI RIFERIMENTO DI ITALIANO PROVE INVALSI 2009

APPRENDIMENTO E NEUROSCIENZE

Corso di Web Mining e Retrieval. - Introduzione al Corso -

APPRENDIMENTO LETTURA E SCRITTURA

Applicazioni:la traduzione automatica

PROGRAMMAZIONE DI ITALIANO

ISTITUTO LEONARDO DA VINCI

PIANO DIDATTICO PERSONALIZZATO

Comunicare intervenendo con pertinenza e con rispetto dei tempi. Distinguere un testo in prosa da un testo poetico.

NUCLEO FONDANTE CONOSCENZE ABILITA' COMPETENZE

WordNet & wordnets. Dott.ssa Gloria Gagliardi

Verso un lessico computazionale aperto per la lingua italiana

PIANO DIDATTICO. Si fa riferimento alla programmazione educativa depositata in segreteria NUCLEI TEMATICI

ANNO SCOLASTICO 2017/2018. Triennio Seconda Lingua (LIVELLO B1) Francese

PROGRAMMAZIONE DISCIPLNARE DI LATINO LICEO LINGUISTICO

ITALIANO classe quarta

Obiettivi Specifici di apprendimento (OSA, Indicazioni i i Nazionali per il curricolo, Ricerche internazionali (IEA PIRLS 2006, OCSE PISA 2006).

Scrivere in italiano accademico

Programmazione didattico-educativa di classe SCUOLA SECONDARIA - CLASSE 1^ FILONE N 1: COMUNICAZIONE IN LINGUA ITALIANA (PRODUZIONE E COMPRENSIONE)

Modulo 1. Concetti base della Tecnologia dell informazione. Prof. Nicolello Cristiano. Modulo 1

CURRICOLO DISCIPLINARE di LATINO

Programma del corso di Lingua inglese

Guida alla compilazione del Piano Glottodidattico Personalizzato Michele Daloiso

RIM RELAZIONI IINTERNAZIONALI PER IL MARKETING

COMPETENZA CHIAVE COMUNICAZIONE NELLA MADRELINGUA

ASCOLTARE E PARLARE OBIETTIVI DI APPRENDIMENTO CONTENUTI

L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora

Fondamenti di Linguistica Semantica e Lessico Lezione 4: Polisemia, Lessico e Dizionari

ITALIANO classe 3 Anno scolastico Competenze Abilità/capacità Conoscenze Metodo Contenuti Verifiche IMPARARE AD IMPARARE

Programmazione didattico-educativa d Istituto SCUOLA SECONDARIA

LA PROVA INVALSI D INGLESE PER LA TERZA SECONDARIA DI PRIMO GRADO A.S LE CARATTERISTICHE DELLA PROVA E IL SUO SVOLGIMENTO

Vocabolario della lingua italiana di Nicola Zingarelli

Транскрипт:

Dizionari elettronici Dizionari elettronici e dizionari macchina Applicazioni della lessicografia computazionale Dizionari informatizzati I dizionari basati su corpora 1 lessicografia computazionale Patrick Hanks (2003: 49) nell Oxford Handbook of Computational Linguistics, la lessicografia computazionale ha due compiti: 1. la ristrutturazione e lo sfruttamento dei dizionari tradizionali a fini computazionali; 2. l uso di tecniche computazionali per compilare nuovi dizionari. 2 1

Problemi terminologici Il termine dizionario elettronico viene oggi usato in una molteplicità di sensi diversi. il termine dizionario-macchina che sottolinea la relazione stretta tra repertorio lessicale e applicazioni computazionali che svolgono operazioni facendo ricorso a tale repertorio. sottospecie di dizionario-macchina è il lessico di frequenza Lexical Databases o Resources I dizionari informatizzati sono ad esempio cd-rom distribuiti insieme al proprio corrispondente cartaceo dizionari che possiamo consultare o scaricare su internet Computer-Aided Traditional Lexicography dizionari basati su corpora 3 I dizionari-macchina nella ricerca linguistica machine-readable dictionary è un repertorio di lemmi o forme flesse di una lingua associate a una serie di informazioni linguistiche supplementari di vario tipo, i cui dati sono resi disponibili all accesso di una o più applicazioni computazionali. i dizionari-macchina servono ad altre applicazioni quali ad esempio il riconoscimento e la sintesi vocale, la correzione ortografica, il tagging e il parsing sintattico o la traduzione automatica. 4 2

Esempio agli, aglio. N: mp agli, allo. PAA: mp (da Vietri, 2005: 441) Agnelli, Agnelli. NPR agnelli, agnello. N: mp ai, ai. ESC ai, aio. N+Um: mp ai, al. PAA: mp aiutano, aiutare. V+RSI:X3p aiutare, aiutare. V+RSI: I 5 Applicazioni della lessicografia computazionale Applicazioni di Natural Language Processing. Dizionari-macchina di tipo morfo-sintattico servono per la costruzione di applicazioni di parsing sintattico, tagging grammaticale, correzione ortografica e grammaticale, sillabazione di documenti Applicazioni delle tecnologie del parlato. Dizionari macchina dotati di informazioni sia fonetiche (acustiche e uditive) che morfo-sintattiche sono associati ai sistemi di sintesi del parlato (TTS), di riconoscimento vocale e di dialogo uomo-macchina 6 3

Ontologie e basi di conoscenza. Con l ausilio di dizionari elettronici a base semantica (come WordNet) sono strutturati motori per l estrazione di rappresentazioni astratte delle nostre conoscenze (knowledge bases, da cui deriviamo inferenze e sviluppiamo attese) da testi di vario tipo. Lo sviluppo di ontologie, ossia di sistemi che rappresentano la struttura delle nostre conoscenze, a sua volta viene integrato in applicazioni di NLP come la correzione ortografica (per esempio per la disambiguazione delle omografie) o grammaticale, il riconoscimento del parlato, ma anche nella disambiguazione semantica, nel reperimento di informazioni nei documenti (text mining) e nell estrazione di parole chiave e riassunti da un testo (summarization). 7 Traduzione automatica. Dizionari-macchina con informazioni lessicali e sintattiche (oltre che statistiche) sono indispensabili per i sistemi di traduzione assistita sia di tipo basato su regole che probabilistico Information retrieval ed information extraction. I dizionari-macchina sono inoltre essenziali per una serie di motori di cui si fa uso comunemente per selezionare documenti che presentino determinate caratteristiche (come alcuni motori di ricerca sul web) e per estrarre specifiche informazioni rilevanti dagli stessi documenti o da database strutturati. 8 4

Un esempio Wordnet http://wordnet.princeton.edu/ elaborato al Cognitive Science Laboratory dell Università di Princeton e ideato dallo psicolinguista americano G. A. Miller. repertorio lessicale della lingua inglese organizzato per insiemi semantici in modo da rappresentare il modo con il quale immagazziniamo nella nostra mente le parole secondo i gruppi di significati e delle gerarchie semantiche. 9 A cosa serve? WordNet è implementato in diverse forme in applicazioni per l identificazione delle accezioni delle parole, nell information retrieval, nell identificazione delle collocazioni, nella gestione di terminologie, nella disambiguazione semantica, nello sviluppo di ontologie. 10 5

MultiWordNet (http://multiwordnet.itc.it/) tratta anche la lingua italiana e che permette l accesso a ricerche per famiglie lessicali, relazioni e campi semantici, traducenti in inglese, sinonimi, iponimi ed iperonimi per ciascuna accezione di una parola e anche l accesso ad esempi autentici, nel formato di concordanze, tratti da corpora di riferimento. il dizionario è essenzialmente fondato sulle relazioni di sinonimia, che permettono di costruire insiemi sinonimici, detti synsets, del tipo {elaboratore, computer, cervello_elettronico, calcolatore}. MultiWordNet ad oggi ha censito 58.000 sensi della lingua italiana, e individuato 32.700 synsets. 11 Esempio di voce calcolatore has_hypernym {macchina} has_hyponym {calcolatore_analogico}, {calcolatore_digitale}, etc. has_part {microchip, chip}, etc. {elaboratore, computer, cervello_elettronico, calcolatore} corrisponde a {computer, data_processor, electronic_computer, information_processing_system} 12 6

Il dizionario informatizzato convenienti nella consultazione perché occupano poco spazio possono contenere una mole di informazione paragonabile a diversi volumi su carta. la ricerca di un lemma specifico è condotta nel giro di pochi secondi un dizionario informatizzato fornisce una vasta moltitudine di strumenti di studio e comprensione del lessico impossibili da estrarre da un dizionario cartaceo. si possono compiere delle ricerche avanzate per parti di parola (inizio, centro, fine), categoria grammaticale, data di attestazione, etimologia, marca d uso, ecc. 13 Il progetto L informatizzazione ha infatti rivoluzionato non solo il prodotto e le sue fruizioni, ma anche e soprattutto il lavoro di costruzione delle risorse linguistiche vere e proprie: l acquisizione del materiale, la redazione delle voci, l annotazione, la rappresentazione e il trattamento delle informazioni linguistiche che vengono processate. Il dizionario informatizzato diviene così un database lessicale standardizzato. 14 7

I dizionari basati su corpora Il ricorso a materiale desunto da corpora per l esemplificazione ma anche per la strutturazione del dizionario e per le analisi linguistiche che sono necessarie per tali presentazioni è ancora relativamente nuovo. Al momento solamente la lingua inglese dispone di dizionari basati su corpora di carattere generale 15 Il progetto Cobuild Collins Cobuild English Dictionary for Advanced Learners (2001) associato alla Bank of English diretta da John Sinclair, sin dalla fine degli anni Ottanta ha lavorato alla elaborazione di dizionari corpus-based 16 8

L uso dei corpora criteri di selezione e presentazione del materiale l ordinamento delle accezioni canoni di definizione dei lemmi L accesso diretto a corpora di riferimento serve inoltre per il disegno vero e proprio della voce, per raccogliere i poli di senso e individuare le principali accezioni. 17 Definizioni Lemma Cobuild, 2001 American Heritage, 2000 Blue Something that is blue is the colour of the sky on a sunny day The hue of that portion of the visible spectrum lying between green and indigo, evoked in the human observer by radiant energy with wavelengths of approximately 420 to 490 nanometers; any of a group of colors that may vary in lightness and saturation, whose hue is that of a clear daytime sky; one of the additive or light primaries; one of the psychological primary hues Qualcosa di blu ha il colore del cielo in una giornata di sole La tonalità di quella parte dello spettro visibile tra il verde e l'indaco, richiamata nell'osservatore umano da energia radiante di lunghezza d'onda di circa 420-490 nanometri; una serie di colori che possono variare nella luminosità e saturazione, la cui tonalità è quella di un cielo sereno di giorno; uno dei colori additivi primari; uno delle tonalità psicologiche primarie Blues If you have got the blues, you feel sad and depressed Se hai il blues sei triste e depresso A state of depression or melancholy Stato di depressione e melanconia 18 9