Isabella Chiari TRATTAMENTO DI TESTI ITALIANI: STRUMENTI, RISORSE E PROBLEMI 1 CORPORA E APPLICAZIONI Perché la linguistica dei corpora è oggi tanto rilevante? Come si integra la linguistica dei corpora con la linguistica computazionale? Quali sono i principali problemi che chi costruisce corpora deve risolvere? Esistono strumenti che aiutano chi fa ricerca linguistica a costruire corpora per la pubblicazione? 2 1
Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. I CORPORA IN LINGUISTICA COMPUTAZIONALE Lessicografia elettronica corpus-based Dizionari informatizzati Dizionari macchina corpus based Training corpora per il NLP Taggers e parsers con training corpora Traduzione automatica Corpus-based Example-based machine translation Tecnologie del parlato Addestramento allo speech recognition Sintesi corpus-based Machine learning Information technology Individuazione automatica di patterns estratti dai dati IL CIRCOLO VIRTUOSO Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Corpora linguistici Applicazioni per il trattamento dei corpora Elaborazione e trattamento del materiale testuale Strumenti di NLP Tecnologie del parlato TA Dizionari-macchina Corpora etichettati Strumenti NLP Parsing e tagging Training corpora per strumenti di NLP MACHINE LEARNING 2
CORPORA PUBBLICI E CORPORA INDIVIDUALI 5 3 PROBLEMI Normalizzazione Determinazione degli insiemi ALFABETO E SEPARATORI Ambiguità nella punteggiatura (punto, trattino, apostrofo, accenti), ecc. Nomi propri, di luoghi, sigle non riconosciuti, ecc. Unità di misura, numeri (euro, 29), ecc. Disambiguazione delle omografie Omografi assoluti e testuali Individuazione delle polirematiche 6 3
NORMALIZZAZIONE: CHE COS È? Pre-trattamento ortografico La riduzione di ambiguità dovute alle convenzioni ortografiche individuazione un insieme di simboli come alfabeto (a, b, c, 5, 8) e un insieme di separatori (.,;:/?!) ogni simbolo (il punto, la virgola, la barra, ecc.) sia univoco, ossia non venga utilizzato in modi diversi nello stesso corpus Pre-trattamento linguistico Riconoscimento di strutture cristallizzate come sigle, titoli, toponimi, nomi propri (prima di ridurre eventualmente le maiuscole) Riconoscimento di locuzioni grammaticali e polirematiche note (da lista) 7 UN ESEMPIO: TALTAC 2 Trattamento automatico lessicale e testuale per l analisi del contenuto di un corpus Sergio Bolasco Università La Sapienza di Roma (Economia) Analisi lessicali e testuali Integrazione con risorse di riferimento (vocabolari, lessici di frequenza) con altri programmi di trattamento statistico (Lexico, Spad) e linguistico 8 4
NORMALIZZAZIONE: DEFINIZIONE ALFABETO 9 maggio 2007 NORMALIZZAZIONE PUNTEGGIATURA Apostrofi in accenti Maiuscolo/minuscolo i l POLIREMATICHE E COLLOCAZIONI (base) Locuzioni gramm. Polirematiche nominali NOMI nomi propri toponimi celebrità titoli Sigle LISTE PERSONALIZZATE 10 5
COSÌ OTTENGO AD ESEMPIO LOCUZIONI COME.. 11 NOMI PROPRI, SIGLE, FORMULE 12 6
NORMALIZZAZIONE: TESTO INTERNET 2004 PRON 60 PREP 2.589 NM 1.150 N 1.301 A 746 AVV 4.323 A AVV CONG ESC FORM N NM PREP PRON FORM 163 ESC 3 CONG 552 13 PRIMA E DOPO LA NORMALIZZAZIONE Dati corpus Prima della normalizzazione Normalizzato Differenza TOKEN (occorrenze) 254.365 240.173 14.192 TYPES 20.130 18.730 1.400 OMOGRAFI 123.097 (48,4%) 108.760 (45,3%) 14.337 14 7
GLI OMOGRAFI - TIPOLOGIE Omografi (omonimi, omofoni) parole caratterizzate da un significante comune, ma che rimandano a significati radicalmente diversi, spesso senza alcuna parentela etimologica Omografi assoluti Calcio pedata Ca impugnatura di un fucile o pistola Omografi testuali Faccia viso voce del verbo fare 15 STRUMENTI Omografi assoluti Word sense disambiguation Strumenti probabilistici/statistici Opzionale (attualmente ancora indietro) Omografi testuali (relativi) POS tagging e Lemmatizzatori Basati su regole Probabilistici Operazione di base per ogni corpus 16 8
SE NON RISOLVO IL PROBLEMA OTTENGO 17 E SE GUARDO LE CONCORDANZE TROVO: 18 9
QUANTI SONO IN MEDIA GLI OMOGRAFI IN UN TESTO ITALIANO? Tullio De Mauro in Capire le parole (1999) riporta: Il tasso di omonimia relativa o testuale è Scritti tecnici (economia e finanza): 38,6% LIP 46% Il tasso di omografia testuale dipende dalla tipologia testuale Testi con parole più brevi (come le trascrizioni del parlato, ecc.) tendono ad avere più omografi dei linguaggi tecnico-specialistici È una conseguenza della legge di Zipf sul numero dei significati e della saturazione (Guiraud) maggiore nelle parole brevi. 19 ALCUNI ESEMPI TESTI Codice penale Internet 2004 Caos Calmo LIP Corpus (S. Veronesi) Roma l. giuridico informatica narrativa parlato Token 68.728 254.365 123.781 135.716 Types 5.160 20.130 16.819 11.922 Omografi testuali 3.486 123.097 60.018 65.630 %omografi 47% 49% 49% 49% Parole sconosciute 4% 4% 11% 6% 20 10
POS TAGGING E LEMMATIZZAZIONE Il part-of-speech (POS) tagging etichettatura automatica per categorie grammaticali Il tagger riceve in input una frase e restituisce in output le forme grafiche delle parole accompagnate da etichette che segnalano la categoria grammaticale di appartenenza ESEMPIO: la forma grafica <LA> potrebbe corrispondere a tre etichettature grammaticali possibili: determinante (articolo) nome (nota musicale) pronome (pronome personale) Tipologie Tagger basati su regole (dizionario-macchina e grammatica) Tagger probabilistici (training, parametri, applicazione statistica) 21 UN ESEMPIO: TREETAGGER Autori Helmut Schmid, Institute for Computational Linguistics of the University of Stuttgart Gratuito e condiviso Scaricabile (Mac, Windows, Linux) Online (max 2 mega): http://cental.fltr.ucl.ac.be/~pat/tagger/ Tagger probabilistico Usa decision i trees Che determina automaticamente l ampiezza del contesto per calcolare le probabilità di transizione (più adatto delle catene markoviane per eventi rari) 96,36% di precisione sul Penn-Treebank (inglese) 22 11
OUTPUT DI TREETAGGER 23 PROBLEMI CON TREETAGGER I parametri non vanno bene per tutte le tipologie testuali, ad esempio il parlato Spesso costruire un training corpus ah hoc non è possibile (1.000.000 di tokens, manualmente corretti) Il tagger va comunque sottoposto a nuovo training se si vuole ampliare il suo lessico Errori sistematici Participi e aggettivi Mancato riconoscimento di nomi Mancata indicazione di polirematiche 24 12
TRAINING E CORREZIONE MANUALE Training corpus Se si dispone già di un ampio corpus annotato Se la tipologia è molto uniforme, e il vocabolario è ridotto es. meteo, oroscopo, ricette, istruzioni per l uso, ecc. Correzione manuale Se il corpus è piccolo oppure Se è assolutamente necessaria una corretta annotazione per esempio se si vuole pubblicare il corpus di uno o più testi di un autore Se si può contare su un numero ampio di collaboratori 25 UN AIUTO NELLA CORREZIONE: POSEDIT Silvio Pazzaglia, Università per stranieri di Perugia gratuito http://elearning.unistrapg.it/corpora/ Cosa fa? Permette di intervenire e correggere rapidamente l ouput di Treetagger per poterlo usare in altri applicativi Creare una cartella con i file del corpus e rinominare i txt con estensione.ctx, correggere e poi eventualmente rinominare in.txt 26 13
SCHERMATA POSEDIT 27 maggio 2007 Intervento manuale, mediante scorrimento (verticale) della lista Intervento mediante ricerca globale e sostituzione per Termine (forma grafica) lemma INTERVENTO MANUALE CON POSEDIT 28 14
E I PROBLEMI DI TREETAGGER? Categorie sbagliate Correzione manuale Mancato riconoscimento nomi Correzione manuale Pre-editing (con Taltac2) Mancato riconoscimento polirematiche Pre-editing (con Taltac2) Post-editing (con Taltac2) Parole sconosciute Correzione manuale Post-editing (con Taltac2) 29 TALTAC 2 E TREETAGGER Integrazione Taltac 2 può pre-trattare il corpus e ricostruirlo normalizzato Il testo viene analizzato da TreeTagger Il testo può essere poi importato da Taltac2 Potenziamento Possibilità di usufruire delle risorse di Taltac2 per la normalizzazione e per il trattamento del corpus Concordanze Analisi statistiche (misure, co-occorrenze, confronto tra lessici, analisi delle specificità) 30 15
LE POLIREMATICHE Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Espressioni composte da più di una parola grafica, che tuttavia si comportano semanticamente e spesso morfosintatticamente come UN SOLO LESSEMA stare a cuore, forza pubblica, prigioniero politico, vedere rosso, essere al verde «specifico sovrappiù semantico, vale a dire la non ricostruibilità del loro significato in base alla semplice somma dei significati dei singoli componenti» (De Mauro) cristallizzazione morfo-sintattica voi due siete proprio due occhi di lince non *voi due siete proprio due occhi di linci LE COLLOCAZIONI Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Combinazioni di parole relativamente più libere delle polirematiche, ma accomunate da una particolare frequenza d uso, ossia dalla preferenza per l occorrenza congiunta dei suoi componenti. compilare un modulo obliterare il biglietto delitto efferato Gli elementi che entrano a far parte di una Gli elementi che entrano a far parte di una collocazione sono molto più rigidi e poco analitici, quindi anche i traducenti in una lingua straniera tendono a essere imprevedibili 16
PROBLEMI PER LA LINGUA ITALIANA Morfologia flessiva ricca Quindi una stessa polirematica i si può trovare in molte forme Ma NON TUTTE le forme Vederci rosso Ci vedo rosso Ci avete visto rosso Ci vidi rosso Ci ho visto proprio rosso * *Ci abbiamo visto rossi *Lei ci vide rossa 33 QUINDI Non si possono usare le misure e gli strumenti che vanno bene per l inglese È necessario sviluppare strumenti che sappiano riconoscere le polirematiche italiane 34 17
STRUMENTI Lessico dei poliformi (FDP) Lessico di poliformi i (FDP), con circa 4.000 poliformi i sia locuzioni di tipo grammaticale, sia gruppi nominali di tipo polirematico, sia espressioni di verbi idiomatici (Bolasco, 1998). Web Bootcat e Sketch Engine Analisi automatica di testi dal web e personali Kilgarriff iff et alii Taltac2 ricostruzione corpus lemmatizzato Procedura per applicare le misure di associazione statistica ai lemmi 35 WEB BOOTCAT CORPUS IN POCHI SECONDI MA Autori Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P Sito web http://corpora.sketchengine.co.uk Bibliografia Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P.: WebBootCaT: instant domain-specific corpora to support human translators. Proceedings of EAMT 2006, Oslo. (2006) 247-252 36 18
COSTRUZIONE DEL CORPUS 37 38 19
SKETCH ENGINE Autori A. Kilgarriff, M. Rundall, e altri Cosa fa? Costruisce riassunti automatici del comportamento grammaticale di una parola in un corpus Estrae collocazioni, misura la similarità tra parole Strumento per la lessicografia Macmillan English Dictionary e molti altri dizionari 39 maggio 2007 40 20
CALCIO 41 CALCIO 2 42 21
CONCORDANZA (LEMMATIZZATA) 43 CONCLUSIONI Corpora per costruire un corpus bisogna risolvere alcuni problemi tecnici di trattamento dei testi se non trattiamo i testi, allora tanto vale andare a esplorare il web con Google (ma questo è un altro tema) Strumenti Nessuno strumento t è perfetto Alcuni strumenti permettono meglio di risolvere alcuni problemi Perché facciamo questo?. 44 22
DEFINIZIONE DI EAGLES An electronic corpus is s corpus which is encoded in a standardized and homogeneous way for openended retrieval tasks Un corpus elettronico è un corpus che è codificato in maniera standardizzata e omogenea per consentire infinite operazioni di ricerca 45 GRAZIE! Le slides powerpoint da mercoledì 30 sul sito: www.alphabit.net sotto la voce CONVEGNI e NOVITA Isabella Chiari Isabella.chiari@uniroma1.it 46 23