Strumenti linguistici per le applicazioni imprenditoriali. Dizionari Elettronici e Grammatiche Locali

Documenti analoghi
Annotazione (Semi-)Automatica dei Testi Digitali

AUTOMA A STATI FINITI

Sommario Linguaggi, messaggi e comunicazione. Introduzione ai Linguaggi di Programmazione. Linguaggio (1) Linguaggio (2)

CURRICOLO DI ITALIANO CLASSE PRIMA

Linguaggi di Programmazione

Linguaggi, messaggi e comunicazione Traduzione di programmi Interpreti e compilatori Introduzione al processo di compilazione

Appunti del corso di Informatica 1 (IN110 Fondamenti) 3 Modelli di calcolo

Analizzatore lessicale o scanner. Lo scanner rappresenta un'interfaccia fra il programma sorgente e l'analizzatore sintattico o parser.

OBIETTIVI SPECIFICI DI APPRENDIMENTO AREE DA SVILUPPARE. Riflettere sulla lingua

Sommario Linguaggi, messaggi e comunicazione. Introduzione ai Linguaggi di Programmazione. Linguaggio. Messaggio

STRUTTURA DEI MODULI. CLASSE PRIMA E. MODULO 0. (Settembre). MODULO 1 (Settembre).

I Linguaggi di Programmazione

Text Mining. Informatica applicata alla comunicazione multimediale Cristina Bosco

Informatica per la Comunicazione/ Verdicchio/ 11/02/2015/ Domande / Matricola Cognome Nome Versione 1

Fondamenti d Informatica: linguaggi formali. Barbara Re, Phd

Linguistica Computazionale

Informatica e Laboratorio di Programmazione Automi Alberto Ferrari. Alberto Ferrari Informatica e Laboratorio di Programmazione

Unità Didattica 2 I Linguaggi di Programmazione

Linguaggi e Traduttori: Analisi lessicale

GRAMMATICA - TESTO PAROLE E TESTI IN GIOCO Progettazione didattica annuale per unità e competenze Classi Prime

Variabili e assegnazione

Annotazione del testo

Algoritmi e Principi dell Informatica

Logica Algoritmi Cognizione

Macchine sequenziali. Automa a Stati Finiti (ASF)

Teoria dell Informazione

ANNO SCOLASTICO 2018/2019 ITALIANO Programmazione Primo anno Docente Margherita Margarita

Linguistica Computazionale

ANALISI SINTATTICA LUCIDI DI F. D'AMORE E A. MARCHETTI SPACCAMELA

Linguaggi e Ambienti di Programmazione

1 Modulo operativo: Le abilità linguistiche: ascoltare. 2 Modulo operativo: Le abilità linguistiche: parlare

ITALIANO A. S. 2018/2019

SINTASSI E L E M E N T I I N T R O D U T T I V I 2. Francesca Forza - Nozioni Generali di Sintassi

AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa ppuntibicoccaappuntibicoccaappunt

ISTRUZIONI PROGETTO FASE 4

3) Quale di questi nomi propri non contiene un dittongo? a) Paolo b) Pietro c) Mauro d) Chiara

Linguaggi, Traduttori e le Basi della Programmazione

Linguistica Computazionale

Fondamenti dell Informatica a.a. 2013/14 Prova scritta 30 luglio 2014

LINGUAGGI DI ALTO LIVELLO

Matematica, Informatica e Discipline Umanistiche. Salvatore Venticinque

Concetti di base sugli automi e sui linguaggi formali

Linguaggi di Programmazione

Spada Patrizia ANNO SCOLASTICO 2017/2018 ITALIANO Programmazione Primo anno- Docenti: Marrazzi Giulia, Medda Stefania, Brodu Isabella.

Università degli Studi di Roma Tor Vergata Facoltà di Ingegneria Corso di Laurea in Ingegneria Medica. Compressione dati

Macchine a Stati finiti

LINGUAGGI DI ALTO LIVELLO

Sommario Codifica dei dati Macchina Astratta Definizioni Esempi

ISTITUTO: Liceo Classico CLASSE: I MATERIA: Italiano

Automa a Stati Finiti (ASF)

PROGRAMMAZIONE ANNUALE DI ITALIANO CLASSE QUARTA NUCLEI FONDANTI TRAGUARDI DI COMPETENZE OBIETTIVI CONTENUTI ATTIVITA

Linguaggi e Traduttori: Analisi sintattica

Macchine a Stati finiti

LINGUA ARABA 2 E LETTERATURA

«Sciente e Tecnologie dei Beni Culturali»

U. A. 1 ITALIANO settembre-ottobre-novembre

LINGUAGGI DI ALTO LIVELLO

Prove Invalsi di lingua italiana Una guida alla lettura. 12 aprile 2017

PROGRAMMAZIONE DI ITALIANO

INTRODUZIONE AL TESTO FILOSOFICO

Informatica/ Ing. Meccanica/ Ing. Edile/ Prof. Verdicchio/ 02/04/2014/ Appello straordinario/ Foglio delle domande / VERSIONE 1

UML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13

I S T I T U T O T E C N I C O I N D U S T R I A L E S T A T A L E

Corso di Fondamenti di Informatica Linguaggi di Programmazione

Programmazione didattico-educativa di classe SCUOLA SECONDARIA - CLASSE 2^ FILONE N 1: COMUNICAZIONE IN LINGUA ITALIANA (PRODUZIONE E COMPRENSIONE)

LINGUAGGI FORMALI. Introduzione

Le grammatiche formali

Abilità L alunno sa: Acquisire un comportamento di ascolto attento e partecipativo. Ascoltare semplici letture di testi di vario genere.

Primi passi con JFlex

PROGETTAZIONE DISCIPLINARE

Informatica per la Comunicazione/ Verdicchio/ 19/05/2016/ Domande / VERSIONE 1

Informatica per la Comunicazione/ Verdicchio/ 15/01/2015/ Domande / Versione 1

Linguistica computazionale: task sul linguaggio naturale"

PROGRAMMAZIONE DISCIPLINARE. Materia : ITALIANO Classe : I. Competenze Obiettivi di apprendimento Contenuti

3. Dalla linearità alla struttura La dipendenza dalla struttura La ricorsività 31

Classe: 1^A Quadriennale Disciplina: ITALIANO Prof. Maria Ferraro

La padronanza linguistica, Academia Universa Press 2011 PARTE PRIMA FARE GRAMMATICA 1. INSEGNARE ANCORA LA GRAMMATICA?

Quali le possibili ricadute sul curricolo delle scuole? GISCEL Lombardia - Milano, 8/10/ presentazione di Daniela Bertocchi

Caratteristiche del mito e dell epica ANTOLOGIA vario tipo Per accostarsi alla narrazione si. - lo schema narrativo - fabula e intreccio - le sequenze

Analisi lessicale (scanner)

Introduzione al Semantic Web

1 PARTE I - IL PERIMETRO DELLA GRAMMATICA: LA LINGUA NELLA COMUNICA- ZIONE

COMPETENZE DISCILPINARI

CLASSE QUINTA SCUOLA PRIMARIA MICROABILITÀ

CURRICOLO DI ITALIANO CLASSI BIENNIO PRIMARIA ASCOLTO/PARLATO

ISTITUTO COMPRENSIVO MAZZINI-MODUGNO BARI. Scuola Secondaria di 1 grado - Anno Scolastico 2018/19. Alunni destinatari: classi I

PROGETTAZIONE ITALIANO CLASSI PRIME CONOSCENZE

ITALIANO. CONOSCENZE (i saperi)

Definizione di Grammatica

SCUOLA PRIMARIA- classe quinta

Informatica per la Comunicazione/ Verdicchio/ 22/07/2015/ Domande / VERSIONE 1 Matricola Cognome Nome

Elementi di Psicologia dello Sviluppo (II modulo) Mirco Fasolo

ciclo di vita della soluzione (informatica) di un problema

Informatica triennale (L31) sede di Bari Crediti formativi 9. No, ma la frequenza è fortemente consigliata Lingua di erogazione

Fondamenti d Informatica: Simulazione d esame. Barbara Re, Phd

Transcript:

Strumenti linguistici per le applicazioni imprenditoriali Dizionari Elettronici e Grammatiche Locali

Dizionari Elettronici Dizionari Elettronici Grammatiche Locali

Dizionari Elettronici

Dizionari Elettronici

Risorse Lessicali per l NLP Perché siano utilizzabili per il trattamento automatico del linguaggio non è sufficiente che siano digitalmente accessibili, devono contenere machine-readable data

Risorse Lessicali per l NLP Completezza Target umano Le informazioni estraibili dalla conoscenza enciclopedica possono essere omesse Target macchina Il computer non può avere margine d errore: nulla può essere lasciato al caso. Le informazioni devono essere esaustive Esplicitazione Target umano Parte dell informazione può essere implicita, date le capacità umane di intuizione, adattamento e deduzione Target macchina Possono essere processate solamente le istruzioni e i simboli completamente esplicitati Codifica Target umano Le informazioni consistono in raw data, in testi non strutturati Target macchina Le informazioni formite al computer devono essere accurate, coerenti e completamente codificate

Risorse Lessicali per l NLP WordNet è un database lessicale per la lingua inglese Raggruppa nomi, verbi, aggettivi e avverbi in gruppi di sinonimi cognitivi, I synsets. I synsets sono interconnessi mediante relazioni concettuali, semantiche e lessicali È disponibile in rete per la navigazione (umana) È scaricabile e interrogabile per applicazioni di NLP Approfondisci: George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41. Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. https://wordnet.princeton.edu/

Risorse Lessicali per l NLP Human readable Machine readable

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Sdic_it è il dizionario elettronico delle parole semplici dell Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche. Le categorie in base alle quali le entrate sono classificate sono le seguenti: 69.356 nomi 34.045 aggettivi 15.574 avverbi 9.689 verbi 143 congiunzioni 479 esclamazioni 4 interiezioni 63 preposizioni 5 determinanti 234 prefissi

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Sdic_it è il dizionario elettronico delle parole semplici dell Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Sdic_it è il dizionario elettronico delle parole semplici dell Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche. Quelli che seguono sono alcuni dei tag semantici che il dizionario prevede: Nomi concreti (+Conc): 21.941 entrate Nomi concreti collettivi (+ConcColl): 197 entrate Nomi umani (+Um): 12.571 entrate Nomi umani collettivi (+UmColl): 228 entrate Nomi di animali (+Anl): 2.036 entrate Nomi di animali collettivi (+AnlColl): 23 entrate

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Cdic_it è il dizionario elettronico dei nomi composti, contiene più di 127.000 entrate e riconosce 260.944 nomi composti (classi NPN, NA, AN, NN). Alla maggior parte dei nomi è associato il campo semantico di appartenenza. Informatica 54.000 polirematiche Medicina 46.000 polirematiche Gurisprudenza 21.000 polirematiche Ingegneria 19.000 polirematiche Archeologia 11.000 polirematiche

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Altri dizionari elettronici a disposizione per l italiano sono i seguenti: Acronimi: 157 entrate Alterati: 185 entrate Contrazioni: 36 entrate Elisioni: 55 entrate ElisioniContrazioni : 12 entrate NomiPropri: 3.327 entrate, consente anche l'annotazione delle forme in -ISMO, -ISTA, - IANO, -ESCO in associazione con la grammatica morfologica NomiPropri#ismo.nom Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Altri dizionari elettronici a disposizione per l italiano sono i seguenti: Acronimi: 157 entrate Alterati: 185 entrate Contrazioni: 36 entrate Elisioni: 55 entrate ElisioniContrazioni : 12 entrate NomiPropri: 3.327 entrate (consente anche l'annotazione delle forme in -ISMO, -ISTA, - IANO, -ESCO) Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom adsl,asymmetric Digital Subscriber Line,N+FLX=N601+Acr bene,avv+hiddenino+hiddenone+hiddenuccio agli,<a,prep><gli,il,det+m+p> qualcos',qualcosa,pron nell',<in,prep><lo,il,det+m+s> Serena,N+f+s+Npr+Um Salerno,N+NPR+TOPONIMO+Città+REGIONE="Campania" signor,signore,n+m+s

Perché siano utilizzabili per il trattamento automatico del linguaggio non è sufficiente che siano digitalmente accessibili, devono contenere machine-readable data

Le grammatiche locali sono algoritmi che, attraverso istruzioni sintattiche, morfologiche e lessicali, sono utilizzate per formalizzare fenomeni linguistici e per processare automaticamente i testi. Con l espressione Locali sottolineiamo che, oltre ogni generalizzazione, queste grammatiche possono essere usate nella descrizione e nell analisi di fenomeni linguistici limitati

Un Automa a Stati Finiti è il modello astratto di una macchina È in grado di riconoscere se una stringa appartiene o meno a un certo linguaggio

Un Automa a Stati Finiti consiste in una serie di nodi o stati (Si) connessi tra loro mediante transizioni (tj). Si legge solo da sinistra a destra, dallo stato iniziale (S0) allo stato finale (S3)

Un Automa a Stati Finiti può essere deterministico oppure no Automa a Stati Finiti deterministico Automa a Stati Finiti non deterministico

Un Automa a Stati Finiti diventa un Trasduttore se traduce i simboli di input (Sii) in simboli di output (Sio)

Un Automa a Stati Finiti diventa un Recursive Transition Network (RTN) se contiene grafi incassati (embedded graphs, S3). È un Enhanced Recursive Transition Network (ERTN quando include variabili (V) e restrizioni (constraints, C)

Cos è un grafo incassato? È un grafo contenuto all interno di un nodo di un altro grafo

Le variabili ( ) e le restrizioni ( ) possono essere utilizzate all interno e all esterno dei grafi incassati ( ) e dei loop ( ) Più occorrenze della stessa variabile possono essere utilizzate lungo il percorso della grammatica locale, assumendo anche diversi valori.

Cos è una variabile? È un insieme di dati modificabili (in opposizione alla costante) È associata a un insieme di valori predefiniti (tipo)

Cos è una variabile? È un insieme di dati modificabili (in opposizione alla costante) È associata a un insieme di valori predefiniti (tipo)

Cos è una variabile? I.e. Riconscimento delle ripetizioni Dati modificabili: efficient grammar Tipo di dati: <L> = lettera <WF>= parola <P>= simbolo di interpunzione ecc Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Cos è una restrizione? È un istruzione che controlla il campo d applicazione di una grammatica locale troppo produttiva Si relaziona alla Variabile (V) se delimita un insieme di definizione più piccolo di quello tipizzato da V

Cos è una restrizione? Campo d applicazione: american-ize *size Tipo di dati: <L> + loop = sequenza di lettere <L> + loop + <$Pref=:A> = sequenza di lettere corrispondente ad un aggettivo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Esempi di Recursive Transition Network (RTN)

Esempi di Recursive Transition Network (RTN)

Esempi di Recursive Transition Network (RTN) Grafo Incassato

Esempi di Enhanced Recursive Transition Network (ERTN) Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Esempi di ERTN e analisi semantica del testo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Esempi di ERTN e analisi semantica del testo Frase: One woman aged 25 had fever symptom Descrizione: Agent (Sex(F), Age(25), Symptom(fever)) Annotazione XML: <AGENT Sex=F Age=25 Symptom=fever>One woman aged 25 had fever symptom<\agent> Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Esempi di ERTN e analisi semantica del testo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Esempi di ERTN e analisi semantica del testo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Esempi di ERTN e analisi semantica del testo Frase: John sees Mary Descrizione PROLOG-like : PRED=see (John,Mary) Annotazione XML: <PRED F=see ARG1=John ARG2=Mary>John sees Mary<\PRED> Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.