Linguistica Computazionale. Tokenizzazione



Documenti analoghi
Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Fasi di creazione di un programma

CRITERI DI VALUTAZIONE SCUOLA PRIMARIA SCUOLA PRIMARIA

Introduzione alla programmazione in C

extensible Markup Language

CURRICOLO DISCIPLINARE DI ITALIANO ASCOLTO E PARLATO. Traguardi per lo sviluppo delle competenze. Obiettivi di apprendimento( conoscenze e

Strutturazione logica dei dati: i file

I casi d uso corrispondono ai compiti che l attore (che può essere una persona fisica e non) può svolgere.

Linguaggi per COMUNICARE. Il linguaggio è un sistema codificato di segni che consente la comunicazione, intesa come scambio di informazioni

I sistemi di numerazione

Fondamenti di Informatica. Docenti: Prof. Luisa Gargano Prof. Adele Rescigno BENVENUTI!

Informatica per la comunicazione" - lezione 7 -

Informazione analogica e digitale

Database. Si ringrazia Marco Bertini per le slides

CRITERI DI VALUTAZIONE PER LA PRODUZIONE SCRITTA : FINE SCUOLA PRIMARIA

Raggruppamenti Conti Movimenti

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

NUCLEO FONDANTE CONOSCENZE ABILITA' COMPETENZE

Analizzatore lessicale o scanner

Aprire, preparare un documento da utilizzare come documento principale per una stampa unione.

SISTEMI OPERATIVI. Prof. Enrico Terrone A. S: 2008/09

Informatica. Prof. M. Colajanni Università di Modena Reggio Emilia

Funzioni in C. Violetta Lonati

CONTROLLO ORTOGRAFICO E GRAMMATICALE

Organizzazione degli archivi

Imparare a comunicare efficacemente

DATABASE. A cura di Massimiliano Buschi

STAMPA UNIONE DI WORD

Fondamenti di Informatica Ingegneria Clinica Lezione 16/10/2009. Prof. Raffaele Nicolussi

Prof. Alberto Postiglione Scienze della Comunicazione. Università degli Studi di Salerno

Programmazione in Java e gestione della grafica (I modulo) Lezione 1: Presentazione corso

DENOMINAZIONE DEI SITI DELLE STRUTTURE DELLA SAPIENZA

Cosa è un foglio elettronico

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

ALCUNE REGOLE DI SCRITTURA E STRUTTURAZIONE PER MIGLIORARE LA QUALITA DEL DATO

4 3 4 = 4 x x x 10 0 aaa

PIANO DI STUDIO PERSONALIZZATO CLASSI SECONDE E TERZE PRIMO BIENNIO

Laboratorio Matematico Informatico 2

MATLAB. Caratteristiche. Dati. Esempio di programma MATLAB. a = [1 2 3; 4 5 6; 7 8 9]; b = [1 2 3] ; c = a*b; c

ELETTRONICA DIGITALE

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Working Draft 0.5 (Telefonia)

La produzione del testo scritto: generare e pianificare le idee

ITALIANO L2 PER BAMBINI STRANIERI CORSO DI SECONDO LIVELLO

SISTEMI DI NUMERAZIONE DECIMALE E BINARIO

Informatica 3. LEZIONE 7: Fondamenti di programmazione orientata agli oggetti (1)

Dispensa YACC: generalità

Dai 3 anni Bene In parte No Comprende semplici consegne e risponde utilizzando prevalentemente codici extralinguistici

COMPETENZA DIGITALE DISCIPLINE DI RIFERIMENTO: TUTTE

RAPPRESENTAZIONE GRAFICA DEGLI ALGORITMI

Istruzioni per il programma ANDI

Griglia di correzione Fascicolo di Italiano Prova Nazionale anno scolastico

LA MISURAZIONE DEL CARATTERE

Descrizione attività

QUANTIZZAZIONE diverse fasi del processo di conversione da analogico a digitale quantizzazione

PROGETTAZIONE FORMATIVA ANNUALE. Tavola di sintesi delle unità di apprendimento da svolgere nel corrente a.s. 2015/16 PROGETTAZIONE ANNUALE DIDATTICA

Istituto Comprensivo B.C. Ferrini Anno scolastico Le prove: cosa sono, come si svolgono, cosa accade dopo.

Metodologie di programmazione in Fortran 90

PSG Table Builder Manuale Utente. PSG TABLE BUILDER Manuale Utente

Dispensa di Informatica I.1

Corso di Informatica

Guida all uso di Java Diagrammi ER

Grandezze fisiche e loro misura

REGISTRO DELLE IMPRESE

Database 3 affitto veicoli. Testo del quesito

Programmi e Oggetti Software

LA COMUNICAZIONE NON VERBALE DEI DISABILI

Guida per la gestione del proprio profilo in Scopus utilizzando la piattaforma Scival di Elsevier

PROGRAMMAZIONE E GESTIONE DI UN PROGETTO DI SERVIZIO SOCIALE

Al giorno d oggi, i sistemi per la gestione di database

IT Questionario per formatori di insegnanti di lingue Analisi dei dati

Concetto di Funzione e Procedura METODI in Java

La somma. Esempio: Il prodotto. Esempio:

Progettazione di un Database

3.6 Preparazione stampa

E se l'errore fosse «Parola non compresa»? Leggibilità e qualità del lessico nei siti web

Linguaggi di programmazione

Istruzioni per leggere bene. Istruzioni per leggere bene

la forma: caratteri web writing slides fernando cova FORMA SCR p. 1

Conservazione elettronica della fatturapa

Laboratorio di Informatica

I NUMERI DECIMALI. che cosa sono, come si rappresentano

Il Software e Il Sistema Operativo. Prof. Francesco Accarino IIS Altiero Spinelli A.S. 09/10

Scrittura. Batteria per la valutazione della scrittura e della competenza ortografica nella scuola dell obbligo

Le Basi di Dati. Le Basi di Dati

LO STATO DI AVANZAMENTO DELLE PRATICHE INVIATE TELEMATICAMENTE E LA GESTIONE DELLE CORREZIONI

Download esercizio. Download esercizio.pdf Esercizio.htm. Preparazione di dispense.doc per il Web

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

- Sistemi di numerazione 1 - Sistemi di Numerazione

Competenza 3: Produrre testi in relazione a diversi scopi comunicativi. al termine del primo biennio della scuola primaria

Dall Algoritmo al Programma. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

Ministero dello Sviluppo Economico

Siti web centrati sui dati Architettura MVC-2: i JavaBeans

BASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015

NOZIONI DI BASE DEL DIRITTO IL DIRITTO COME INSIEME DI REGOLE

Istituto Comprensivo di Pralboino Curricolo Verticale

CHE COS È L INFORMATICA

Verbalizzazione e Firma Digitale

DATABASE.

Transcript:

Linguistica Computazionale Tokenizzazione

Sai Tokenizzare (~contare : )) iniziamo giocando poi lavoriamo Quanti token (~parole) nella frase C era una volta un pezzo di legno.

Sai Tokenizzare (~contare : )) iniziamo giocando poi lavoriamo Quanti token (~parole) nella frase C era una volta un pezzo di legno. C era una volta un pezzo di legno. C era una volta un pezzo di legno.

Preparazione del testo I testi digitali possono contenere varie forme di rumore errori di conversione caratteri spuri, ecc. errori nella digitalizzazione codici di markup Vari aspetti del testo legati alla sua fruizione umana, possono ostacolarne l elaborazione computazionale convenzioni ortografiche diversi sistemi di scrittura Preparazione del testo Fase preliminare in cui il testo viene reso compatibile con il formato richiesto dagli strumenti di analisi computazionale

Il testo nel computer Organizzazione logica di un testo lettere parole frasi paragrafi Organizzazione fisica di un testo in formato machine readable caratteri sequenze di caratteri righe Problema Le due modalità di organizzazione sono ortogonali e non direttamente compatibili

Analizzare un testo Per analizzare computazionalmente un testo ènecessario insegnare al computer a riconoscere gli elementi che lo compongono quante parole? quante frasi? ma cosa èuna parola? cosa è una frase? La nozione di parola per un computer èmolto diversa da quella per gli esseri umani basata sulla conoscenza dell organizzazione linguistica (morfologica, semantica, ecc.) questione ancora più complessa nel parlato l informazione grafica non èsempre sufficiente

Tokenizzazione Passo preliminare di qualsiasi elaborazione computazionale del testo èla sua tokenizzazione Tokenizzare un testo significa dividere le sequenze di caratteri in unità minime di analisi dette token parole, punteggiatura, date, numeri, sigle, ecc. i token possono essere anche entità strutturalmente complesse (es. date), ma sono comunque assunte come unità di base per i successivi livelli di elaborazione (morfologico, sintattico ecc.) A seconda del tipo di lingua e sistema di scrittura può essere un task estremamente complesso in lingue dove i confini di parola non sono marcati esplicitamente nella scrittura la tokenizzazione viene anche chiamata word segmentation

Token Quanti tokens ci sono in questo testo? Dopo essere sceso, l uomo si allontanò. 6 tokens se consideriamo gli spazi come delimitatori dei tokens in realtà 9 tokens se consideriamo i tokens come unità linguistiche (es. parole, punteggiatura, ecc.) I token di un testo NON corrispondono alle sequenze di caratteri delimitate da spazi: convenzioni grafiche organizzazione lessicale e morfologica del linguaggio, ecc. La nozione di token è distinta da quella di parola la tokenizzazione non si basa generalmente su criteri morfosintattici o semantici mandarglielo = 1token ma 3 parole morfologiche (mandare + gli + lo)

Token alcuni problemi Non ci sono spazi che separano le parole dalla punteggiatura che le segue (precede): gli ispettori, Dobbiamo aumentare gli ispettori gli elementi principali (azoto e ossigeno) il presidente francese a Time : Ci sono sequenze di caratteri non separati da spazi che corrispondono a 2 token: apostrofo dell uomo c è parole composte con il trattino ( ) o con il / : la linea Firenze-Pisa

Punteggiatura e ambiguità La punteggiatura deve essere considerata come tokens separati ma La punteggiatura èambigua!!! Il carattere ' (apice) ha vari usi: apostrofo dell uomo (2 token) accento c e virgoletta token (2 token) (3 token)

Punteggiatura e ambiguità Il carattere. (punto) ha vari usi: punto di fine frase Questa è una frase. in questo caso il punto deve essere considerato un token separato abbreviazioni Sig. Rossi acronimi U.S.A. separatore di cifre decimali 9.70 data 25.02.2003 indirizzi WWW o e mail www.unipi.it Correlato alla tokenizzazione è il sentence splitting segmentazione del testo in frasi presuppone la disambiguazione dei diversi usi del.

Token graficamente complessi Sequenze di caratteri separate da spazi possono formare un solo token: nomi propri composti New York Los Angeles Reggio Emilia la città di La Spezia (4 token) la spezia che viene usata (5 token) espressioni polirematiche (multiword expressions) al di là (1 token) ad hoc (1 token) date e ore 18 giugno 1815 (1 token) prezzi 20 euro (1 token) 20 euro e 30 centesimi (1 token)

Maiuscole e minuscole Molti programmi sono case sensitive treno e Treno sono considerate due parole diverse Ambiguità nell uso della maiuscola: nomi propri Carlo Azeglio Ciampi inizio frase La macchina non partiva. enfasi e titoli ma ATTENZIONE NUOVA STRAGE DEL TERRORE Annullare la distinzione tra maiuscole e minuscole non è sempre la soluzione ottimale le maiuscole possono avere valore discriminativo e semantico cf. NATO vs. nato, USA vs. usa, Agnelli vs. agnelli

Tokenizzazione criteri generali Per tokenizzare un testo è necessario stabilire i criteri di identificazione delle unità di analisi criteri linguistici, euristici, pratici, ecc. es. le date sono token? gli indirizzi formano un token unico? La tokenizzazione è strettamente dipendente da il linguaggio e sistema grafico del testo diversi modi di scrivere i numeri 123.725,43 italiano 123,725.43 inglese 123 725,43 francese diverse strategie per la creazione dei composti dinamiche linguistiche l uomo => l + uomo po (elisione) => po doesn t => does + n t they re => they + re ndrangheta (aferesi) => ndrangheta gli scopi di elaborazione computazionali Uno dei problemi maggiori è rappresentato dallo spazio di variabilità delle convenzioni ortografiche cf. database, data base, data-base

Tokenizzazione L aereo per gli U.S.A. atterra a New York. L aereo per gli U.S.A. atterra a New York. NO!! SÌ!! L aereo per gli U.S.A. atterra a New York.

Tokenizzatori Moduli software per la preparazione e tokenizzazione del testo tramite mini grammatiche, che specificano le forme in cui possono comparire i token es. le date: 25/02/1993 25-02-1993 25 febbraio 1993 febbraio 1993 25 febbraio 25 feb. 1993 repertori e glossari acronimi, nomi propri, abbreviazioni, ecc. Generalmente basati su espressioni regolari implementati in Perl, Python, ecc.

Tokenizzatori Output in formato testo aggiungere separatori dell uomo > dell uomo uomo > uomo unire token separati La Spezia > La_Spezia 25 febbraio 2003 > 25_febbraio_2003 normalizzare le maiuscole La macchina è guasta > la macchina è guasta Output XML i token sono delimitati da elementi XML <t n= 1 >dopo</t><t n= 2 >essere</t><t n= 3 >sceso</t><t n= 4 >,</t><t n= 5 >l </t><t n= 6 >uomo</t><t n= 7 >si</t><t n= 8 >allontanò</t><t n= 9 >.</t>