Classificare i nomi propri -Esercitazione- Lucia Passaro CoLing Lab Laboratorio di Linguistica Computazionale http://colinglab.humnet.unipi.it/ lucia.passaro@for.unipi.it Pisa 29 Novembre 2017
Analisi semantica analisi linguistica lemmatizzazione PoS tagging Ontology Learning Named Entity Recognition Fascicolo Elettronico Term Extraction date, entità monetarie estrazione di metadati Topic Modeling classificazione semantica (PERSONE, LUOGHI, ecc.) fascicolazione automatica
Prerequisiti: Annotazione linguistica Questo è un esempio di analisi. Il testo poi continua con altre frasi Sentence Splitter Frase 1:Questo è un esempio di analisi. Frase 2:Il testo poi continua con altre frasi Tokenizer Morphological analysis PoS-tagger Dependency Parser Term extractor
Named Entity Recognition (and Classification) NER(C) Task di Information Extraction per Il riconoscimento automatico dei nomi propri La loro classificazione in categorie semantiche
Tecniche per NER Sistemi rule-based Basati su pattern (es. sequenze di part of speech, forma ortografica, parole precedenti, dizionari) Danno buoni risultati soprattutto su domini ristretti Richiedono molto tempo di sviluppo Sistemi di machine learning Basati su un corpus di training e una serie di features La maggior parte del tempo di sviluppo consiste nella preparazione del corpus di training Più stabili Sistemi ibridi: Combinazione dei precedenti
NER Categorie semantiche Dipendenti dall applicazione specifica Persone (PER) Luoghi (LOC) Organizzazioni (ORG) Ma anche: Proteine Targhe Documenti Cibi Vini
La piattaforma Semplice PA Strumenti semantici per la Pubblica Amministrazione e i cittadini Testi Difficilmente Interrogabili Non uniformi Tanti e disorganizzati
Information Extraction Queries Quali sono gli atti più importanti emessi dal comune di PISA? Le ditte che fatturano di più per il comune di PISA? Le strade del comune di PISA che hanno richiesto più interventi nel 2017?
NERC in SEMPLICE PA Con algoritmi statistici: Stanford CoreNLP NER» Organizzazioni (B-ORG, I-ORG)» Luoghi (B-LOC, I-LOC)» Persone (B-PER, I-PER)» Leggi (B-LAW, I-LAW)» Atti (B-ACT, I-ACT) Con l identificazione di pattern: NER Rule-based» Espressioni monetarie (B-MON, I-MON)» Date (B-DATE, I-DATE)
Il modello statistico Adattamento all italiano dello Stanford NER CRF Classifier (Finkel et al., 2005) Alcune features utilizzate: SEQUENZE: Parole precedenti e seguenti N-GRAMS: Sottostringhe di x caratteri FORMA ORTOGRAFICA: Spelling, presenza di maiuscole, numeri, simboli FEATURES LINGUISTICHE: Lemma PoS Tag TERMINI COMPLESSI: Presidente della Giunta
NER Esempi Organizzazioni (ORG)» Università di Pisa; Acque S.p.A. Luoghi (LOC)» Via S. Maria n. 36, PISA Persone (PER)»Mario Rossi Leggi (LAW)» art. 134 comma 4 del D. Lgs. 267/2000
NER Esempi Atti (ACT) [Tipo, Numero, data] deliberazione di Giunta n. 111 di 1 febbraio 2000» [Delibera di giunta, 111, 01/02/2000] Provv. Dir.2014/DD/00253» [Determina, 253, 2014] Ordinanza n 277 di 09.08.13» [Ordinanza, 277, 09/08/2013]
Il modello a regole Estrazione di metadati con tecniche rule-based su dati annotati linguisticamente (classi con bassa variabilità) Codice fiscale Partita IVA Targa Data Numero di telefono
NER Esempi Informazioni monetarie (MON)»4.576 à 4.576»30.000 euro à 30.000»EUR640.43 à 640.43 Date (DATE)»1/9/90 à 01/09/1990»primo settembre del 1990 à 01/09/1990»01.09.1990 à 01/09/1990
Normalizzazione dei dati Esempi MON: EUR640.43 640.43 DATE: primo settembre del 1990 01/09/1990 PER: Matteo Renzi; RENZI Matteo Matteo Renzi LOC: Comune di Pisa; Pisa Firenze ORG: Acque SPA; Acque S.P.A.; Acque spa Acque S.P.A. ACT: deliberazione di Giunta n. 111 di 1 febbraio 2000 [Delibera di giunta, 111, 01/02/2000] LAW: art. 58 D.L. 112/2008 d.l. 112/2008 / art. 58
Dalle entità alle relazioni
NER Relazioni tra entità Annotazione delle relazioni tra entità su corpus PARTE DI: [ ] Comune di Cascina, Provincia di Pisa [ ] LUOGO: [ ] ETI 3 con sede nel comune di Città di Castello[ ] LAVORA IN [ ] Anna Gabbolini, product manager di ETI 3 [ ] Classificazione delle relazioni Classificazione del tipo di relazione NE 1 NE 2 Relazione Tipo relazione Comune di Pisa Comune di Cascina NULL Comune di Cascina Provincia di Pisa PART_OF ETI 3 Anna Gabbolini PART_OF Lucia Passaro comune di Perugia NULL
Relazioni tra entità
Relazioni tra entità
Tipi di relazione FA PARTE DI FA PARTE DI: entità che fa parte di un altra entità (relazione di iponimia) (Luogo, Luogo): Luogo che è incluso in un altro Luogo» [ ] comune di Città di Castello in provincia di Perugia» [ ] una zona nella Provincia di Salerno, il Cilento [ ]» Piazza dei Cavalieri di trova nel cuore di Pisa.
Tipi di relazione FA PARTE DI FA PARTE DI: entità che fa parte di un altra entità (relazione di iponimia) (Organizzazione/Azienda, Organizzazione/Azienda): Organizzazione che fa parte di un altra» [ ] all interno del settore IT dell azienda Tagetik» [ ] riferito dal servizio qualità del verde in direzione ambiente» Soffass fa parte del gruppo Sofidel
Tipi di relazione FA PARTE DI FA PARTE DI: entità che fa parte di un altra entità (relazione di iponimia) (Persona, Organizzazione/Azienda): Persona membro di un Organizzazione: implica attributo Lavora in» I membri della della giunta comunale presenti sono Mario Rossi e Marco Galli» Il responsabile del settore Verde Pubblico è Mario Rossi» Roberto Battistelli è il titolare di ETI 3
Tipi di relazione LUOGO Luogo : ciò che è collocato in un luogo (Organizzazione/Azienda, Luogo): Organizzazione che ha sede/opera in un Luogo» Si trova in: Organizzazione che ha sede in un Luogo» ETI 3 ha sede a Città di Castello (PG)» Lavora/opera in: Organizzazione che opera (o prende in consegna un lavoro in un Luogo)» Anna Gabbolini lavora a Città di Castello (PG)
Tipi di relazione LUOGO Luogo : ciò che è collocato in un luogo (Persona, Luogo): Persona che vive/lavora/è nata in un Luogo» Si trova in : Persona che vive in un Luogo (residente a)» Francesco Guccini vive a Pàvana (Pistoia)» Lavora/opera in: Persona che lavora in un Luogo (presso la sede di)» Lucia Passaro lavora a Pisa» Nato a: Persona che è nata in un Luogo (nato/a a)» Paolo Borsellino è nato a Palermo
È in relazione con e citato in È in relazione con: classe residuale. Tutte le relazioni che non rientrano nelle precedenti ma che si ritiene importante sottolineare» L evento è stato promosso dal Ministero dell'ambiente d'intesa con il Ministero dello Sviluppo Economico» La convenzione approvata tra i comuni di Recco e Moneglia» Il comune di Firenze ha stipulato un contratto con la ditta 01s Citato in: (implicita): si riferisce a tutte le entità citate in un determinato atto (documento)
Metodo di annotazione: l ordine delle entità A ha una relazione di tipo X con B 1) A lavora in B 1) Lucia Passaro lavora presso l'università di Pisa La dipendente dell Università di Pisa Lucia Passaro ha pubblicato... A = Lucia Passaro (lavora in) B = Università di Pisa 2) A si trova in in B il Comune di Pisa si trova in Toscana Tra i comuni della Toscana, il Comune di Pisa è quello che ospita più studenti A = Comune di Pisa (sito in) B = Toscana
Grazie per l attenzione! lucia.passaro@for.unipi.it