TRATTAMENTO DI TESTI ITALIANI: STRUMENTI, RISORSE E PROBLEMI



Похожие документы
Testi, linguistica e ingegneria della lingua

E se l'errore fosse «Parola non compresa»? Leggibilità e qualità del lessico nei siti web

4, 5 ANNO DELLA SCUOLA PRIMARIA

Aprire, preparare un documento da utilizzare come documento principale per una stampa unione.

L esplorazione e l analisi dei corpora. Metodi di indagine e di interrogazione

CURRICOLO VERTICALE D ISTITUTO ITALIANO

Modulo: I. Mi presento Livello: Alto

Linguistica Computazionale. Tokenizzazione

Modulo 3 - Elaborazione Testi 3.6 Preparazione stampa

SCUOLA PRIMARIA CURRICOLO DI ITALIANO SECONDO BIENNIO

CURRICOLO di ITALIANO classe seconda

Asse linguistico Propedeutico al 1 livello 1 periodo

PORTALE CLIENTI Manuale utente

CURRICOLO DI ITALIANO CLASSE PRIMA

CONTROLLO ORTOGRAFICO E GRAMMATICALE

3.6 Preparazione stampa

CURRICOLO DISCIPLINARE DI ITALIANO ASCOLTO E PARLATO. Traguardi per lo sviluppo delle competenze. Obiettivi di apprendimento( conoscenze e

Gestione delle informazioni necessarie all attività di validazione degli studi di settore. Trasmissione degli esempi da valutare.

GUIDA ALLE ATTIVITA incentrate sull uso di CORPORA STEP 3

Convertitori numerici in Excel

Esplorazioni e visualizzazioni Rocco Tripodi rocco@unive.it

Linguaggi e Paradigmi di Programmazione

PIANO DI STUDIO PERSONALIZZATO CLASSI SECONDE E TERZE PRIMO BIENNIO

Manuale Utente Albo Pretorio GA

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

1- OBIETTIVI DEL DOCUMENTO 2- INTRODUZIONE

Macmillan Practice Online guida del docente

EXCEL FUNZIONI PRINCIPALI

CONSIGLI PER POTENZIARE L APPRENDIMENTO DELLA LINGUA

lo PERSONALIZZARE LA FINESTRA DI WORD 2000

PROGRAMMAZIONE ANNUALE DI LINGUA ITALIANA - SCUOLA PRIMARIA IST. COMP. DON MILANI CERNUSCO S/N -

Crisi e cambiamento nella realtà artigiana

INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI INTRODUZIONE AGLI ALGORITMI

REVISIONE-CORREZIONE. La Revisione è un momento molto importante nel processo della produzione scritta.

Il web come corpus. Il world wide web può essere considerato un corpus? Quali sono i suoi limiti? E le sue potenzialità?

Sistema Informativo Gestione Fidelizzazione Clienti MANUALE D USO

Informatica pratica. File e cartelle

Prof.ssa Paola Vicard

Istituto Comprensivo di Cologna Veneta Curricolo Scuola Primaria a.s. 2015/2016

Express Import system

Progetto di formazione e ricerca SCUOLA SECONDARIA DI PRIMO GRADO. ITALIANO Competenze linguistico-comunicative. Competenze di cittadinanza

Metodi Stocastici per la Finanza

NUOVA PROCEDURA COPIA ED INCOLLA PER L INSERIMENTO DELLE CLASSIFICHE NEL SISTEMA INFORMATICO KSPORT.

DIPARTIMENTO DI SPAGNOLO A.S Griglie di valutazione approvate dal Dipartimento. valide per entrambi gli indirizzi LL e LES

OBIETTIVI DEL DOCUMENTO INTRODUZIONE

Università per Stranieri di Siena Livello A1

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

ESERCITAZIONE POPOLAMENTO DI

AREA DI APPRENDIMENTO: LINGUA ITALIANA

DIPLOMA DI STATISTICA

ITALIANO RIFLESSIONE SULLA LINGUA

Università per Stranieri di Siena Livello A2

Modificare impostazioni e scambiare documenti

LINGUA INGLESE SCUOLA PRIMARIA

Strutturazione logica dei dati: i file

ChemGes. Introduzione & breve descrizione. Contattateci per ottenere una presentazione gratis e senza impegno nei vostri uffici o via per WebEx

APRIRE UN PROGRAMMA DI FOGLIO ELETTRONICO

Corso di Informatica di base per le discipline umanistiche - XPATH

Dispensa YACC: generalità

CRITERI DI VALUTAZIONE PER LA PRODUZIONE SCRITTA : FINE SCUOLA PRIMARIA

Corso di Informatica

Protocollo di tracciamento e valutazione degli studenti dei corsi di italiano ICoNLingua A.A

SPRING SQ COMUNICAZIONE OPERAZIONI IVA NON INFERIORI A 3000 EURO PER L ANNO 2011

INGLESE COMUNICAZIONE NELLE LINGUE STRANIERE. b. Utilizza la lingua inglese nell uso delle tecnologie dell informazione e della comunicazione

La produzione del testo scritto: generare e pianificare le idee

Istituto Comprensivo di Pralboino Curricolo Verticale

Funzioni in C. Violetta Lonati

lettera raccomandata. Ecco alcune parole ed espressioni che possono aiutarti a capire meglio il testo.

Modulo 3 - Elaborazione Testi 3.5 Stampa unione

INGLESE CLASSE PRIMA

Introduzione alla programmazione in C

GESGOLF SMS ONLINE. Manuale per l utente

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

PROCEDURA INVENTARIO DI MAGAZZINO di FINE ESERCIZIO (dalla versione 3.2.0)

Settaggio impostazioni tema. Cliccando nuovamente su aspetto e poi su personalizza si avrà modo di configurare la struttura dinamica della template.

Mac Application Manager 1.3 (SOLO PER TIGER)

informazioni che si può leggere bene, chiaro con caratteri di scrittura simile a quelli usati nella stampa, ma scritti a mano chi riceve una lettera

MODULO 4: FOGLIO ELETTRONICO (EXCEL)

RICEZIONE AUTOMATICA DEI CERTIFICATI DI MALATTIA 1.1. MALATTIE GESTIONE IMPORT AUTOMATICO 1.2. ATTIVAZIONE DELLA RICEZIONE DEL FILE CON L INPS

Test di italiano di livello A2 e Permesso di soggiorno CE

(Esercizi Tratti da Temi d esame degli ordinamenti precedenti)

A tal fine il presente documento si compone di tre distinte sezioni:

PROGRAMMA SVOLTO NELLA SESSIONE N.

E possibile modificare la lingua dei testi dell interfaccia utente, se in inglese o in italiano, dal menu [Tools

Wiki di Netapprendere

Uso di base delle funzioni in Microsoft Excel

Volume GESTFLORA. Gestione aziende agricole e floricole. Guidaall uso del software

TECNICHE DI SIMULAZIONE

Cercare informazioni sul Web

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

INGLESE - SCUOLA PRIMARIA Classe 1 a

CMS ERMES INFORMATICA

Gestione ed analisi di base dati nell epidemiologia. delle malattie infettive

Parole e espressioni del testo

Il SOFTWARE DI BASE (o SOFTWARE DI SISTEMA)

IL MIO PRIMO SITO: NEWS

Come predisporre i dati per l invio

Macmillan Practice Online guida del docente

Cosa è un foglio elettronico

Транскрипт:

Isabella Chiari TRATTAMENTO DI TESTI ITALIANI: STRUMENTI, RISORSE E PROBLEMI 1 CORPORA E APPLICAZIONI Perché la linguistica dei corpora è oggi tanto rilevante? Come si integra la linguistica dei corpora con la linguistica computazionale? Quali sono i principali problemi che chi costruisce corpora deve risolvere? Esistono strumenti che aiutano chi fa ricerca linguistica a costruire corpora per la pubblicazione? 2 1

Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. I CORPORA IN LINGUISTICA COMPUTAZIONALE Lessicografia elettronica corpus-based Dizionari informatizzati Dizionari macchina corpus based Training corpora per il NLP Taggers e parsers con training corpora Traduzione automatica Corpus-based Example-based machine translation Tecnologie del parlato Addestramento allo speech recognition Sintesi corpus-based Machine learning Information technology Individuazione automatica di patterns estratti dai dati IL CIRCOLO VIRTUOSO Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Corpora linguistici Applicazioni per il trattamento dei corpora Elaborazione e trattamento del materiale testuale Strumenti di NLP Tecnologie del parlato TA Dizionari-macchina Corpora etichettati Strumenti NLP Parsing e tagging Training corpora per strumenti di NLP MACHINE LEARNING 2

CORPORA PUBBLICI E CORPORA INDIVIDUALI 5 3 PROBLEMI Normalizzazione Determinazione degli insiemi ALFABETO E SEPARATORI Ambiguità nella punteggiatura (punto, trattino, apostrofo, accenti), ecc. Nomi propri, di luoghi, sigle non riconosciuti, ecc. Unità di misura, numeri (euro, 29), ecc. Disambiguazione delle omografie Omografi assoluti e testuali Individuazione delle polirematiche 6 3

NORMALIZZAZIONE: CHE COS È? Pre-trattamento ortografico La riduzione di ambiguità dovute alle convenzioni ortografiche individuazione un insieme di simboli come alfabeto (a, b, c, 5, 8) e un insieme di separatori (.,;:/?!) ogni simbolo (il punto, la virgola, la barra, ecc.) sia univoco, ossia non venga utilizzato in modi diversi nello stesso corpus Pre-trattamento linguistico Riconoscimento di strutture cristallizzate come sigle, titoli, toponimi, nomi propri (prima di ridurre eventualmente le maiuscole) Riconoscimento di locuzioni grammaticali e polirematiche note (da lista) 7 UN ESEMPIO: TALTAC 2 Trattamento automatico lessicale e testuale per l analisi del contenuto di un corpus Sergio Bolasco Università La Sapienza di Roma (Economia) Analisi lessicali e testuali Integrazione con risorse di riferimento (vocabolari, lessici di frequenza) con altri programmi di trattamento statistico (Lexico, Spad) e linguistico 8 4

NORMALIZZAZIONE: DEFINIZIONE ALFABETO 9 maggio 2007 NORMALIZZAZIONE PUNTEGGIATURA Apostrofi in accenti Maiuscolo/minuscolo i l POLIREMATICHE E COLLOCAZIONI (base) Locuzioni gramm. Polirematiche nominali NOMI nomi propri toponimi celebrità titoli Sigle LISTE PERSONALIZZATE 10 5

COSÌ OTTENGO AD ESEMPIO LOCUZIONI COME.. 11 NOMI PROPRI, SIGLE, FORMULE 12 6

NORMALIZZAZIONE: TESTO INTERNET 2004 PRON 60 PREP 2.589 NM 1.150 N 1.301 A 746 AVV 4.323 A AVV CONG ESC FORM N NM PREP PRON FORM 163 ESC 3 CONG 552 13 PRIMA E DOPO LA NORMALIZZAZIONE Dati corpus Prima della normalizzazione Normalizzato Differenza TOKEN (occorrenze) 254.365 240.173 14.192 TYPES 20.130 18.730 1.400 OMOGRAFI 123.097 (48,4%) 108.760 (45,3%) 14.337 14 7

GLI OMOGRAFI - TIPOLOGIE Omografi (omonimi, omofoni) parole caratterizzate da un significante comune, ma che rimandano a significati radicalmente diversi, spesso senza alcuna parentela etimologica Omografi assoluti Calcio pedata Ca impugnatura di un fucile o pistola Omografi testuali Faccia viso voce del verbo fare 15 STRUMENTI Omografi assoluti Word sense disambiguation Strumenti probabilistici/statistici Opzionale (attualmente ancora indietro) Omografi testuali (relativi) POS tagging e Lemmatizzatori Basati su regole Probabilistici Operazione di base per ogni corpus 16 8

SE NON RISOLVO IL PROBLEMA OTTENGO 17 E SE GUARDO LE CONCORDANZE TROVO: 18 9

QUANTI SONO IN MEDIA GLI OMOGRAFI IN UN TESTO ITALIANO? Tullio De Mauro in Capire le parole (1999) riporta: Il tasso di omonimia relativa o testuale è Scritti tecnici (economia e finanza): 38,6% LIP 46% Il tasso di omografia testuale dipende dalla tipologia testuale Testi con parole più brevi (come le trascrizioni del parlato, ecc.) tendono ad avere più omografi dei linguaggi tecnico-specialistici È una conseguenza della legge di Zipf sul numero dei significati e della saturazione (Guiraud) maggiore nelle parole brevi. 19 ALCUNI ESEMPI TESTI Codice penale Internet 2004 Caos Calmo LIP Corpus (S. Veronesi) Roma l. giuridico informatica narrativa parlato Token 68.728 254.365 123.781 135.716 Types 5.160 20.130 16.819 11.922 Omografi testuali 3.486 123.097 60.018 65.630 %omografi 47% 49% 49% 49% Parole sconosciute 4% 4% 11% 6% 20 10

POS TAGGING E LEMMATIZZAZIONE Il part-of-speech (POS) tagging etichettatura automatica per categorie grammaticali Il tagger riceve in input una frase e restituisce in output le forme grafiche delle parole accompagnate da etichette che segnalano la categoria grammaticale di appartenenza ESEMPIO: la forma grafica <LA> potrebbe corrispondere a tre etichettature grammaticali possibili: determinante (articolo) nome (nota musicale) pronome (pronome personale) Tipologie Tagger basati su regole (dizionario-macchina e grammatica) Tagger probabilistici (training, parametri, applicazione statistica) 21 UN ESEMPIO: TREETAGGER Autori Helmut Schmid, Institute for Computational Linguistics of the University of Stuttgart Gratuito e condiviso Scaricabile (Mac, Windows, Linux) Online (max 2 mega): http://cental.fltr.ucl.ac.be/~pat/tagger/ Tagger probabilistico Usa decision i trees Che determina automaticamente l ampiezza del contesto per calcolare le probabilità di transizione (più adatto delle catene markoviane per eventi rari) 96,36% di precisione sul Penn-Treebank (inglese) 22 11

OUTPUT DI TREETAGGER 23 PROBLEMI CON TREETAGGER I parametri non vanno bene per tutte le tipologie testuali, ad esempio il parlato Spesso costruire un training corpus ah hoc non è possibile (1.000.000 di tokens, manualmente corretti) Il tagger va comunque sottoposto a nuovo training se si vuole ampliare il suo lessico Errori sistematici Participi e aggettivi Mancato riconoscimento di nomi Mancata indicazione di polirematiche 24 12

TRAINING E CORREZIONE MANUALE Training corpus Se si dispone già di un ampio corpus annotato Se la tipologia è molto uniforme, e il vocabolario è ridotto es. meteo, oroscopo, ricette, istruzioni per l uso, ecc. Correzione manuale Se il corpus è piccolo oppure Se è assolutamente necessaria una corretta annotazione per esempio se si vuole pubblicare il corpus di uno o più testi di un autore Se si può contare su un numero ampio di collaboratori 25 UN AIUTO NELLA CORREZIONE: POSEDIT Silvio Pazzaglia, Università per stranieri di Perugia gratuito http://elearning.unistrapg.it/corpora/ Cosa fa? Permette di intervenire e correggere rapidamente l ouput di Treetagger per poterlo usare in altri applicativi Creare una cartella con i file del corpus e rinominare i txt con estensione.ctx, correggere e poi eventualmente rinominare in.txt 26 13

SCHERMATA POSEDIT 27 maggio 2007 Intervento manuale, mediante scorrimento (verticale) della lista Intervento mediante ricerca globale e sostituzione per Termine (forma grafica) lemma INTERVENTO MANUALE CON POSEDIT 28 14

E I PROBLEMI DI TREETAGGER? Categorie sbagliate Correzione manuale Mancato riconoscimento nomi Correzione manuale Pre-editing (con Taltac2) Mancato riconoscimento polirematiche Pre-editing (con Taltac2) Post-editing (con Taltac2) Parole sconosciute Correzione manuale Post-editing (con Taltac2) 29 TALTAC 2 E TREETAGGER Integrazione Taltac 2 può pre-trattare il corpus e ricostruirlo normalizzato Il testo viene analizzato da TreeTagger Il testo può essere poi importato da Taltac2 Potenziamento Possibilità di usufruire delle risorse di Taltac2 per la normalizzazione e per il trattamento del corpus Concordanze Analisi statistiche (misure, co-occorrenze, confronto tra lessici, analisi delle specificità) 30 15

LE POLIREMATICHE Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Espressioni composte da più di una parola grafica, che tuttavia si comportano semanticamente e spesso morfosintatticamente come UN SOLO LESSEMA stare a cuore, forza pubblica, prigioniero politico, vedere rosso, essere al verde «specifico sovrappiù semantico, vale a dire la non ricostruibilità del loro significato in base alla semplice somma dei significati dei singoli componenti» (De Mauro) cristallizzazione morfo-sintattica voi due siete proprio due occhi di lince non *voi due siete proprio due occhi di linci LE COLLOCAZIONI Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Combinazioni di parole relativamente più libere delle polirematiche, ma accomunate da una particolare frequenza d uso, ossia dalla preferenza per l occorrenza congiunta dei suoi componenti. compilare un modulo obliterare il biglietto delitto efferato Gli elementi che entrano a far parte di una Gli elementi che entrano a far parte di una collocazione sono molto più rigidi e poco analitici, quindi anche i traducenti in una lingua straniera tendono a essere imprevedibili 16

PROBLEMI PER LA LINGUA ITALIANA Morfologia flessiva ricca Quindi una stessa polirematica i si può trovare in molte forme Ma NON TUTTE le forme Vederci rosso Ci vedo rosso Ci avete visto rosso Ci vidi rosso Ci ho visto proprio rosso * *Ci abbiamo visto rossi *Lei ci vide rossa 33 QUINDI Non si possono usare le misure e gli strumenti che vanno bene per l inglese È necessario sviluppare strumenti che sappiano riconoscere le polirematiche italiane 34 17

STRUMENTI Lessico dei poliformi (FDP) Lessico di poliformi i (FDP), con circa 4.000 poliformi i sia locuzioni di tipo grammaticale, sia gruppi nominali di tipo polirematico, sia espressioni di verbi idiomatici (Bolasco, 1998). Web Bootcat e Sketch Engine Analisi automatica di testi dal web e personali Kilgarriff iff et alii Taltac2 ricostruzione corpus lemmatizzato Procedura per applicare le misure di associazione statistica ai lemmi 35 WEB BOOTCAT CORPUS IN POCHI SECONDI MA Autori Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P Sito web http://corpora.sketchengine.co.uk Bibliografia Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P.: WebBootCaT: instant domain-specific corpora to support human translators. Proceedings of EAMT 2006, Oslo. (2006) 247-252 36 18

COSTRUZIONE DEL CORPUS 37 38 19

SKETCH ENGINE Autori A. Kilgarriff, M. Rundall, e altri Cosa fa? Costruisce riassunti automatici del comportamento grammaticale di una parola in un corpus Estrae collocazioni, misura la similarità tra parole Strumento per la lessicografia Macmillan English Dictionary e molti altri dizionari 39 maggio 2007 40 20

CALCIO 41 CALCIO 2 42 21

CONCORDANZA (LEMMATIZZATA) 43 CONCLUSIONI Corpora per costruire un corpus bisogna risolvere alcuni problemi tecnici di trattamento dei testi se non trattiamo i testi, allora tanto vale andare a esplorare il web con Google (ma questo è un altro tema) Strumenti Nessuno strumento t è perfetto Alcuni strumenti permettono meglio di risolvere alcuni problemi Perché facciamo questo?. 44 22

DEFINIZIONE DI EAGLES An electronic corpus is s corpus which is encoded in a standardized and homogeneous way for openended retrieval tasks Un corpus elettronico è un corpus che è codificato in maniera standardizzata e omogenea per consentire infinite operazioni di ricerca 45 GRAZIE! Le slides powerpoint da mercoledì 30 sul sito: www.alphabit.net sotto la voce CONVEGNI e NOVITA Isabella Chiari Isabella.chiari@uniroma1.it 46 23