Strumenti linguistici per le applicazioni imprenditoriali Dizionari Elettronici e Grammatiche Locali
Dizionari Elettronici Dizionari Elettronici Grammatiche Locali
Dizionari Elettronici
Dizionari Elettronici
Risorse Lessicali per l NLP Perché siano utilizzabili per il trattamento automatico del linguaggio non è sufficiente che siano digitalmente accessibili, devono contenere machine-readable data
Risorse Lessicali per l NLP Completezza Target umano Le informazioni estraibili dalla conoscenza enciclopedica possono essere omesse Target macchina Il computer non può avere margine d errore: nulla può essere lasciato al caso. Le informazioni devono essere esaustive Esplicitazione Target umano Parte dell informazione può essere implicita, date le capacità umane di intuizione, adattamento e deduzione Target macchina Possono essere processate solamente le istruzioni e i simboli completamente esplicitati Codifica Target umano Le informazioni consistono in raw data, in testi non strutturati Target macchina Le informazioni formite al computer devono essere accurate, coerenti e completamente codificate
Risorse Lessicali per l NLP WordNet è un database lessicale per la lingua inglese Raggruppa nomi, verbi, aggettivi e avverbi in gruppi di sinonimi cognitivi, I synsets. I synsets sono interconnessi mediante relazioni concettuali, semantiche e lessicali È disponibile in rete per la navigazione (umana) È scaricabile e interrogabile per applicazioni di NLP Approfondisci: George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41. Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. https://wordnet.princeton.edu/
Risorse Lessicali per l NLP Human readable Machine readable
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Sdic_it è il dizionario elettronico delle parole semplici dell Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche. Le categorie in base alle quali le entrate sono classificate sono le seguenti: 69.356 nomi 34.045 aggettivi 15.574 avverbi 9.689 verbi 143 congiunzioni 479 esclamazioni 4 interiezioni 63 preposizioni 5 determinanti 234 prefissi
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Sdic_it è il dizionario elettronico delle parole semplici dell Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Sdic_it è il dizionario elettronico delle parole semplici dell Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche. Quelli che seguono sono alcuni dei tag semantici che il dizionario prevede: Nomi concreti (+Conc): 21.941 entrate Nomi concreti collettivi (+ConcColl): 197 entrate Nomi umani (+Um): 12.571 entrate Nomi umani collettivi (+UmColl): 228 entrate Nomi di animali (+Anl): 2.036 entrate Nomi di animali collettivi (+AnlColl): 23 entrate
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Cdic_it è il dizionario elettronico dei nomi composti, contiene più di 127.000 entrate e riconosce 260.944 nomi composti (classi NPN, NA, AN, NN). Alla maggior parte dei nomi è associato il campo semantico di appartenenza. Informatica 54.000 polirematiche Medicina 46.000 polirematiche Gurisprudenza 21.000 polirematiche Ingegneria 19.000 polirematiche Archeologia 11.000 polirematiche
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Altri dizionari elettronici a disposizione per l italiano sono i seguenti: Acronimi: 157 entrate Alterati: 185 entrate Contrazioni: 36 entrate Elisioni: 55 entrate ElisioniContrazioni : 12 entrate NomiPropri: 3.327 entrate, consente anche l'annotazione delle forme in -ISMO, -ISTA, - IANO, -ESCO in associazione con la grammatica morfologica NomiPropri#ismo.nom Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione Risorse Lessicali per l NLP Altri dizionari elettronici a disposizione per l italiano sono i seguenti: Acronimi: 157 entrate Alterati: 185 entrate Contrazioni: 36 entrate Elisioni: 55 entrate ElisioniContrazioni : 12 entrate NomiPropri: 3.327 entrate (consente anche l'annotazione delle forme in -ISMO, -ISTA, - IANO, -ESCO) Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom adsl,asymmetric Digital Subscriber Line,N+FLX=N601+Acr bene,avv+hiddenino+hiddenone+hiddenuccio agli,<a,prep><gli,il,det+m+p> qualcos',qualcosa,pron nell',<in,prep><lo,il,det+m+s> Serena,N+f+s+Npr+Um Salerno,N+NPR+TOPONIMO+Città+REGIONE="Campania" signor,signore,n+m+s
Perché siano utilizzabili per il trattamento automatico del linguaggio non è sufficiente che siano digitalmente accessibili, devono contenere machine-readable data
Le grammatiche locali sono algoritmi che, attraverso istruzioni sintattiche, morfologiche e lessicali, sono utilizzate per formalizzare fenomeni linguistici e per processare automaticamente i testi. Con l espressione Locali sottolineiamo che, oltre ogni generalizzazione, queste grammatiche possono essere usate nella descrizione e nell analisi di fenomeni linguistici limitati
Un Automa a Stati Finiti è il modello astratto di una macchina È in grado di riconoscere se una stringa appartiene o meno a un certo linguaggio
Un Automa a Stati Finiti consiste in una serie di nodi o stati (Si) connessi tra loro mediante transizioni (tj). Si legge solo da sinistra a destra, dallo stato iniziale (S0) allo stato finale (S3)
Un Automa a Stati Finiti può essere deterministico oppure no Automa a Stati Finiti deterministico Automa a Stati Finiti non deterministico
Un Automa a Stati Finiti diventa un Trasduttore se traduce i simboli di input (Sii) in simboli di output (Sio)
Un Automa a Stati Finiti diventa un Recursive Transition Network (RTN) se contiene grafi incassati (embedded graphs, S3). È un Enhanced Recursive Transition Network (ERTN quando include variabili (V) e restrizioni (constraints, C)
Cos è un grafo incassato? È un grafo contenuto all interno di un nodo di un altro grafo
Le variabili ( ) e le restrizioni ( ) possono essere utilizzate all interno e all esterno dei grafi incassati ( ) e dei loop ( ) Più occorrenze della stessa variabile possono essere utilizzate lungo il percorso della grammatica locale, assumendo anche diversi valori.
Cos è una variabile? È un insieme di dati modificabili (in opposizione alla costante) È associata a un insieme di valori predefiniti (tipo)
Cos è una variabile? È un insieme di dati modificabili (in opposizione alla costante) È associata a un insieme di valori predefiniti (tipo)
Cos è una variabile? I.e. Riconscimento delle ripetizioni Dati modificabili: efficient grammar Tipo di dati: <L> = lettera <WF>= parola <P>= simbolo di interpunzione ecc Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Cos è una restrizione? È un istruzione che controlla il campo d applicazione di una grammatica locale troppo produttiva Si relaziona alla Variabile (V) se delimita un insieme di definizione più piccolo di quello tipizzato da V
Cos è una restrizione? Campo d applicazione: american-ize *size Tipo di dati: <L> + loop = sequenza di lettere <L> + loop + <$Pref=:A> = sequenza di lettere corrispondente ad un aggettivo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Esempi di Recursive Transition Network (RTN)
Esempi di Recursive Transition Network (RTN)
Esempi di Recursive Transition Network (RTN) Grafo Incassato
Esempi di Enhanced Recursive Transition Network (ERTN) Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Esempi di ERTN e analisi semantica del testo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Esempi di ERTN e analisi semantica del testo Frase: One woman aged 25 had fever symptom Descrizione: Agent (Sex(F), Age(25), Symptom(fever)) Annotazione XML: <AGENT Sex=F Age=25 Symptom=fever>One woman aged 25 had fever symptom<\agent> Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Esempi di ERTN e analisi semantica del testo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Esempi di ERTN e analisi semantica del testo Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Esempi di ERTN e analisi semantica del testo Frase: John sees Mary Descrizione PROLOG-like : PRED=see (John,Mary) Annotazione XML: <PRED F=see ARG1=John ARG2=Mary>John sees Mary<\PRED> Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.