Natural Language Processing

Похожие документы
Linguistica Computazionale. 22 settembre 2014

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

Introduzione alla Linguistica Computazionale

OBIETTIVI COGNITIVI LATINO CLASSI PRIME. Competenze specifiche Abilità Conoscenze ABILITÀ MORFO-SINTATTICHE

L intelligenza artificiale

1 Modulo operativo: Le abilità linguistiche: ascoltare. 2 Modulo operativo: Le abilità linguistiche: parlare

CURRICOLO DI ITALIANO CLASSE PRIMA

ISTITUTO COMPRENSIVO RIGNANO INCISA PROGRAMMAZIONE ANNUALE DI ITALIANO

014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria

COMPETENZA CHIAVE COMUNICAZIONE NELLA MADRELINGUA

Lez. 8 La Programmazione. Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1

parole Classificare e ordinare Comprensione Anticipazione Applicazione Reversibilità del pensiero

PROGRAMMAZIONE DISCIPLINARE INDIVIDUALE ANNO SCOLASTICO 2013/2014

QUADRO DI RIFERIMENTO DI ITALIANO PROVE INVALSI 2009

PIANO DELLE UNITÀ DI APPRENDIMENTO

COMPETENZE DI ITALIANO DA PROVE INVALSI

Lez. 5 La Programmazione. Prof. Salvatore CUOMO

Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

SCUOLA PRIMARIA ITALIANO (Classe 1ª)

MYLAB ITALIANO. La piattaforma di apprendimento online per sviluppare le competenze linguistico-comunicative in italiano

PROGRAMMAZIONE ANNUALE CLASSE 1^B PER MODULI / UNITÀ DIDATTICHE a.s / 2018

Linguaggi, Traduttori e le Basi della Programmazione

Indicazioni Nazionali per il Curricolo della scuola dell infanzia e del primo ciclo d istruzione 2012

L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora

ISTITUTO MAZZINI - DA VINCI

Modello di Piano Glottodidattico Personalizzato Michele Daloiso

ITALIANO. CONOSCENZE (i saperi)

CLASSE SECONDA OBIETTIVI SPECIFICI DI APPRENDIMENTO ITALIANO A) ASCOLTARE 1 BIMESTRE 2 BIMESTRE 3 BIMESTRE 4 BIMESTRE

Intelligenza Artificiale A (lezione introduttiva parte di teoria)

Unità Didattica 2 I Linguaggi di Programmazione

ASCOLTARE E PARLARE OBIETTIVI DI APPRENDIMENTO CONTENUTI

I Linguaggi di Programmazione

ITALIANO. RACCORDI PLURI, INTER E TRANSDISCIPLINARI con le altre aree, in relazione agli argomenti trattati. VERIFICA E VALUTAZIONE IN ITINERE

Analisi Sintattica e Machine Learning. Introduzione. Sommario. L analisi sintattica. Stefano Iardella

Corso di Web Mining e Retrieval

ITALIANO classe quarta

OBIETTIVI DI APPRENDIMENTO

Le parole si organizzano in sintagmi (gruppi, costituenti) gerarchizzati gli uni rispetto agli altri

Istituto Comprensivo Perugia 9 Anno scolastico 2014/2015 Programmazione delle attività educativo didattiche ITALIANO

Istituto Comprensivo di Pralboino Curricolo Verticale

ASCOLTO E IMPARO Ascoltare per mettere in moto i pensieri

PROGRAMMAZIONE DISCIPLINARE LICEO LINGUISTICO LINGUA E LETTERE LATINE. leggere correttamente il testo latino. impegnativi e debitamente annotati;

PROGRAMMAZIONE DISCIPLNARE DI LATINO LICEO LINGUISTICO

Dizionari elettronici

Fonetica: Morfologia e sintassi:

PIANO DI LAVORO ANNUALE

U. A. 1 ITALIANO settembre-ottobre-novembre

Circuiti e algoritmi per l elaborazione dell informazione

Applicazioni:la traduzione automatica

LICEO STATALE G. COMI - TRICASE a. s. 2015/2016. PROGRAMMAZIONE DISCIPLNARE DI ITALIANO per Unità di Apprendimento (UdA) bimestrali

Concetti Introduttivi. Il Computer

Music Information Retrieval

Linguaggi di Programmazione

Liceo Statale Jacopone da Todi Largo Martino I, 1 - Via Roma 13 Todi (PG) NUCLEI FONDANTI

TESTO/I ADOTTATO/I: B.Panebianco A.Varani, METODI E FANTASIA, Narrativa e Poesia e Teatro, Zanichelli ed COMPETENZE

MODELLO DI PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

Informatica e Comunicazione Digitale Crediti formativi 9. No, ma la frequenza è fortemente consigliata Lingua di erogazione

OBIETTIVI DI APPRENDIMENTO

LICEO GINNASIO STATALE G. B. BROCCHI Bassano del Grappa -VI. Progettazione didattico educativa di dipartimento CLASSICO

PROGRAMMA. Istituto: LICEO ADOLFO VENTURI. Prof.: Francesco Gallo. Materia d insegnamento: Italiano. Classe: 1 a D BIENNO COMUNE

L'ARABO PER TUTTI. Programma modulo I - livello A1.0 Principianti. Docente: Yassar Abbas L'Obiettivo del Corso.

Un progetto di Unità di Apprendimento (UDA)

UDA n.1 STUDIARE LA GRAMMATICA C1_01: Padroneggiare gli strumenti espressivi ed argomentativi indispensabili per gestire l interazione

11. Il lessico dei testi

Elementi di Psicologia dello Sviluppo (II modulo) Mirco Fasolo

PROGETTAZIONE FORMATIVA ANNUALE. Tavola di sintesi delle unità di apprendimento da svolgere nel corrente a.s. 2015/16 PROGETTAZIONE ANNAULE DIDATTICA

PROGRAMMAZIONE ANNUALE

ITALIANO CLASSE 1ª SCUOLA PRIMARIA

C U R R I C O L O D I I T A L I A N O SCUOLA PRIMARIA CLASSE 2ª

LINGUAGGI DI ALTO LIVELLO. Si basano su una macchina virtuale le cui mosse non sono quelle della macchina hardware

Guida alla compilazione del Piano Glottodidattico Personalizzato Michele Daloiso

La narrazione di esperienze. L esposizione orale di contenuti disciplinari appresi. La descrizione orale di ambienti, persone

UNITÀ DIDATTICA N. 1

UNITÀ DIDATTICA N. 1 OBIETTIVI DI APPRENDIMENTO CONTENUTI ABILITÀ

Traccia di analisi della competenza linguistica e comunicativa. Usa il linguaggio verbale sì no. Usa il corpo per esprimere le sue emozioni sì no

Транскрипт:

Natural Language Processing Introduzione Corso di Linguaggi & Traduttori Università degli Studi di Bari Pierpaolo Basile (Ph.D. Student) Outline Natural Language Processing Perché / Dove Un po di storia NLP layers: dal simbolico al semantico Come Risultati 2 1

Natural Language Processing Natural Language Ci rieriamo al linguaggio parlato dalle persone Processing Qualsiasi applicazione che elabora il linguaggio naturale Computer Linguistic tutto ciò che riguarda linguistica e computer più vicina alla linguistica che al processing 3 Natural Language Processing L NLP cerca di dotare il computer di conoscenze linguistiche allo scopo di: progettare programmi e sistemi inormatici che assistano l uomo in compiti linguistici traduzione gestione dei documenti e della conoscenza, ecc. sviluppare sistemi inormatici che usano il linguaggio naturale per: interagire con essere umani in maniera naturale estrarre automaticamente inormazioni da testi o da altri media estendere dinamicamente la propria competenza linguistica 4 2

Perchè [1/2] Molte società spendono tempo e denaro in NLP Yahoo, Google, Microsot Inormation Retrieval Monster.com, HotJobs.com Inormation Extraction + Inormation Retrieval Babelish Machine Translation Ask Jeeves Question Answering 5 Perchè [2/2] Text classiication Index & search Traduzione automatica Comprensione del linguaggio parlato Inormation extraction Automatic summarization Question answering Knowledge acquisition Text generations 6 3

Dove Computers Databases Artiicial Intelligence Algorithms Networking Robotics Natural Language Processing Search Inormation Retrieval Machine Translation Language Analysis Syntactic Semantics 7 Un po di storia Studio delle Grammatiche (1957) Modelli simbolici Logica & AI ( 60-80) Modelli statistici per NLP Machine Learning per NLP ( 90-oggi) Prime applicazioni dei computer ai testi letterari (1950) Corpora elettronici (metà 60) corpora / corpus collezione strutturata di documenti utilizzata per: -analisi statistiche -calcolo delle occorrenze -validare Nascita della statistica linguistica ( 60-80) 8 4

NLP layers [1/2] L elaborazione del linguaggio naturale avviene a diversi livelli C è una orte dipendenza tra i vari livelli Si va da un livello puramente simbolico (onemi,lettere) ad un livello più semantico (signiicati) simboli sintassi semantica 9 NLP layers [2/2] articolare e decodiicare i suoni di una lingua suoni e lettere conoscere le parole di una lingua, la loro struttura e la loro organizzazione lessico e morologia comporre le parole in costituenti complessi sintassi assegnare signiicati alle espressioni linguistiche semplici e complesse semantica usare le rasi nei contesti, situazioni e modi appropriati agli scopi comunicativi pragmatica 10 5

Lessico & Morologia Individuare le parole che compongono il linguaggio Individuazione dei lessemi e dei lemmi lemma: ciascuna delle voci cui sono dedicate le singole deinizioni di un dizionario lessema: unità minima dotata di signiicato Analisi morologica della parola Plurare/singolare, modo e tempo verbale, 11 Lessico & Morologia The dog ate my homework. The: articolo determinativo Dog: nome singolare verbo (to dog) pedinare Ate: verbo tempo=passato ininito=to eat My: aggettivo possessivo esclamazione (utilizzato nelle orme esclamative) Homework: nome singolare 12 6

Sintassi Individuazione delle parti del discorso (Parto-speech) Verbi,nomi,aggettivi,avverbi,preposizioni,pronomi Identiicare gruppi di parole Hot dog, look or Shallow parsing: identiicare le parti elementari (parte nominale e parte verbale) Full parsing: derivazione dell albero sintattico completo 13 Part-o-speech The dog ate my homework. articolo nome verbo aggettivo possessivo nome 14 7

Shallow parsing The dog ate my homework. The dog ate my homework NP VP NP 15 Full parsing The dog ate my homework. S NP VP art noun verb NP The dog ate agg:pos noun my homework 16 8

Entity recognition [1/2] Subtask dell Inormation Extraction Individuazione di parole o gruppi di parole che possono individuare entità Classiicazione dei gruppi individuati in categorie: Persone Luoghi geograici Eventi Espressioni temporali 17 Entity recognition [2/2] PARIGI - Cadono gli dei. Gli All Blacks, i mostri sacri, escono di scena ai mondiali già nei quarti: non era mai successo, in sei edizioni. È la Francia ad abbattere i mostri sacri, con la orza del carattere, nel match giocato in traserta, al Millennium di Cardi, per esigenze geopolitiche. Erano i grandi avoriti neozelandesi, i dominatori della scena da anni. organization location location 18 9

Come? Regole (primi approcci) Machine Learning (approccio statistico) Alberi di decisione Hidden Markov Model Support Vector Machine (SVM) Latent Semantic Analysis 19 Come - Regole Un esempio nell Entity Recognition John F. Kennedy was the thirty-ith President o the United States NNP John è un nome proprio di persona NNP Kennedy è un cognome nomepersona + lettera maiuscola puntata + cognome PERSON 20 10

Come - Machine Learning [1/2] Fornire un numero consistente di esempi Individuare le eatures Scegliere un algoritmo di learning Apprendere dagli esempi Classiicare nuovi esempi 21 Come - Machine Learning [2/2] PRP$ NNS VB JJ SENT NNP VB JJ NNP NNP NNP VB JJ NNP NNP ESEMPI MODELLO PRP VB PUNC TO NN NNS TO VB NN PUNC 2/3 NNP 2/2 VB 3/5 JJ 1/3 SENT 1/2 1/5 1/5 NNS 1/1 PUNC NN PRP TO 22 11

Latent Semantic Analysis [1/2] Creazione di uno spazio vettoriale delle eatures Riduzione dello spazio vettoriale attraverso la scomposizione SVD della matrice Analisi della matrice nello spazio ridotto 23 Latent Semantic Analysis [2/3] t t t 1 2 m Es.: matrice terminixdocumenti d 1 1,1 2,1 m,1 d 2 1,2 2,2......... m,2............... d n 1, n 2, n... m, n TRASFORMAZIONE SVD SCELTA DEL RANGO RIDUZIONE SPAZIO VETTORIALE Se due termini risultano simili vengono rappresentati da un unica riga nello spazio ridotto. 24 12

Latent Semantic Analysis [3/3] E un processo matematico eicace Ha un alta complessità in tempo e spazio soprattutto perché la matrice iniziale è sparsa Rende diicile l update di documenti Ha una logica nascosta rutto di un processo matematico: non ornisce spiegazioni del perché 2 (o più) termini risultano essere simili 25 Valutazione Corpus di valutazione per tecniche di ML è necessario un corpus di addestramento dal quale estrarre le eatures dierente da quello di valutazione Precisione P=#istanze_correte / #istanze_classiicate Richiamo R=#istanze_corrette / #tot_istanze 26 13

Risultati POS-tagging -> P = 90% Parsing -> P = 80% Entity Recognition -> P = [80%-90%] Semantic ->??? 27 Rierimenti Daniel Jurasky & James H. Martin Speech and Language Processing An introduction to Natural Language Processing, Computational Linguistic and Speech Recognition C. Manning and H. Schutze - Foundations o Statistical Natural Language Processing 28 14