Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

Documenti analoghi
Strumenti elementari: parte seconda

I corpora. Annotazione, tagging, lemmatizzazione. Chiari, I Introduzione ai corpora 1

LE CONCORDANZE. Gli spogli lessicali CONCORDANZE - 2. I caratteri jolly. Il formato KWIC 27/03/14. Parte seconda

Sviluppo di Risorse Linguistiche per l Ambiente di Scrittura Assistita (ASA)

Lingua, statistica e computazione

Linguistica Computazionale

Lez. 8. Gli spogli lessicali. Parte seconda 18/03/13

Banche dati e strumenti di analisi testuale per il progetto Donne e politica. Manuela Sassi Istituto di Linguistica Computazionale del CNR di Pisa

Linguistica Applicata

Le unità di analisi. Analisi del testo letterario. Analisi del testo letterario 1 - Isabella Chiari 1

Linguistica Computazionale

Lez. 9. Gli spogli lessicali. Parte seconda 02/11/09

DOMINI # WEBSITES # PAGINE # TOKENS # PAROLE. Funzionali (totale) ,841. Informazione ,

Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile Isabella Chiari CORPORA

AIP. L ANALISI AUTOMATIZZATA dei DATI TESTUALI: IL SOFTWARE ALCESTE

Dizionari elettronici

Gli strumenti statistici

Linguistica Computazionale

ISTITUTO: Liceo Classico CLASSE: I MATERIA: Italiano

Ipotesi sull'applicazione del modello relazionale a corpora linguistici

Corpora di riferimento per la lingua italiana

informatica di base per le discipline umanistiche

Linguistica Computazionale 2004 Presentazione del Corso

QUADRO DI RIFERIMENTO DI ITALIANO PROVE INVALSI 2009

MODELLI QUANTITATIVI. f x r = c

11. Il lessico dei testi

La linguistica dei corpora

CURRICOLO DISCIPLINARE di LATINO LICEO SCIENTIFICO, SCIENZE UMANE

AVVERTENZE METODOLOGICHE. 1. Lemmatizzazione. Criteri generali. Aggettivi.

CURRICOLO DI ITALIANO CLASSE PRIMA

I.I.S. De Amicis Cattaneo. Programmazione di istituto Classi prime Italiano A.s 2018/19

Linguistica Computazionale. 22 settembre 2014

ISTRUZIONI PROGETTO FASE 4

Valutazione Laboratorio di informatica specialistica per Scienze dell'antichità A.A. 2015/16, Dr. Paolo Monella Valutazione

REPUBBLICA ITALIANA - REGIONE SICILIA ISTITUTO DI ISTRUZIONE SECONDARIA SUPERIORE MANDRALISCA LICEO GINNASIO STATALE

Quale tabella testuale? Quali unità statistiche?

Latino Liceo delle scienze umane Classe prima Trimestre

Matematica, Informatica e Discipline Umanistiche. Salvatore Venticinque

GRAMMATICA - TESTO PAROLE E TESTI IN GIOCO Progettazione didattica annuale per unità e competenze Classi Prime

ISTITUTO COMPRENSIVO CASTELLO DI SERRAVALLE - SAVIGNO

Strumenti informatici per gli studi filologici

ITALIANO interclasse 3 18/19

OBIETTIVI SPECIFICI DI APPRENDIMENTO AREE DA SVILUPPARE. Riflettere sulla lingua

Biblioteche Digitali Audiovisive

AVVERTENZE METODOLOGICHE - PRAGELATO

ISTITUTO COMPRENSIVO RIGNANO - INCISA. PROGRAMMAZIONE ANNUALE DI ITALIANO 1 quadrimestre

OBIETTIVI COGNITIVI LATINO CLASSI PRIME. Competenze specifiche Abilità Conoscenze ABILITÀ MORFO-SINTATTICHE

Proto PROBAT

Abilità L alunno sa: Acquisire un comportamento di ascolto attento e partecipativo. Ascoltare semplici letture di testi di vario genere.

Italiano Lingua Uno Curricolare Lower School Y3

ITALIANO TEMATICHE PORTANTI: TESTO NARRATIVO, TESTO POETICO, TESTO DESCRITTIVO, TESTO ARGOMENTATIVO, TESTO REGOLATIVO,

ISTITUTO COMPRENSIVO F. CABRINI MILANO. scuola secondaria di primo grado a.s analisi dei dati

ITALIANO INDICATORE DISCIPLINARE

Linguistica dei Corpora (2) Lezione 4: Contare le parole ed interpretare i numeri

Premesse metodologiche. Gli strumenti statistici. Il rapporto Token/type. La ricchezza del linguaggio. Tutto è relativo! 27/03/14

Tutorato per il corso di Sintassi e Semantica Indagine della struttura eventiva da corpus

Parole-chiave del vocabolario

Linguistica dei Corpora (2) Lezione 4: Contare le parole ed interpretare i numeri

LATINO COMPETENZE E CONOSCENZE ESSENZIALI PER IL RECUPERO

Nuclei tematici. Ascolto e parlato. Obiettivi:

Natural Language Processing

LATINO - SCIENZE UMANE Classe prima - Pentamestre

ISTITUTO DI ISTRUZIONE SUPERIORE LEONARDO DA VINCI DIPARTIMENTO DI LETTERE GRIGLIE DI VALUTAZIONE BIENNIO

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

Completamente Analisi Grammaticale

ISTITUTO: Liceo delle Scienze umane CLASSE: II MATERIA: Italiano

LICEO GINNASIO STATALE G. B. BROCCHI Bassano del Grappa -VI. Progettazione didattico educativa di dipartimento CLASSICO

CURRICOLO ITALIANO SCUOLA PRIMARIA. MATRICE ITALIANO scuola primaria classe 1a MORFOSINTASSI L. del TESTO SOCIOLINGUISTICA SEMANT.

Criteri per la validazione dei termini dell estrazione automatica. (Versione 2) Elisa Bianchi

Ambito linguistico. Partecipa solo se sollecitato ed interagisce in modo non sempre pertinente.

AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa ppuntibicoccaappuntibicoccaappunt

TEI TEI. I marcatori. Sintassi dei marcatori. Tei: macrostruttura 21/03/17

Istituto Tecnico - Settore Tecnologico Indirizzo: Grafica e comunicazione

Linguistica computazionale: task sul linguaggio naturale"

Linguistica Computazionale

parole Classificare e ordinare Comprensione Anticipazione Applicazione Reversibilità del pensiero

EsploraCoLFIS: Un interfaccia web per le ricerche sul Corpus e Lessico di Frequenza dell Italiano Scritto (CoLFIS) *

Introduzione. TALN Corpus-based computational linguistics. Rapporto tra forme, classificazioni e lemmi. Liste e classi di frequenza del lessico

COMPETENZE SPECIFICHE ABILITÁ CONOSCENZE

Elementi di Psicologia dello Sviluppo (II modulo) Mirco Fasolo

L analisi statistica dei dati testuali

MASTER UNIVERSITARIO

Linguistica computazionale: come accedere all informazione codificata nel linguaggio naturale (seconda parte)"

Linguistica Computazionale

LINGUA ARABA 2 E LETTERATURA

PROGRAMMAZIONE ANNUALE DI ITALIANO CLASSE QUARTA NUCLEI FONDANTI TRAGUARDI DI COMPETENZE OBIETTIVI CONTENUTI ATTIVITA

ALLA FINE DELLA CLASSE QUARTA L ALUNNO È IN GRADO DI Competenza Abilità Conoscenze. Quando ascolta l alunno è in grado di:

LICEO GINNASIO STATALE G. B. BROCCHI Bassano del Grappa -VI. Progettazione didattico educativa di dipartimento CLASSE

Spada Patrizia ANNO SCOLASTICO 2017/2018 ITALIANO Programmazione Primo anno- Docenti: Marrazzi Giulia, Medda Stefania, Brodu Isabella.

Liceo Statale Jacopone da Todi Largo Martino I, 1 - Via Roma 13 Todi (PG) NUCLEI FONDANTI

La valutazione dell italiano

COMPETENZE DI ITALIANO DA PROVE INVALSI

L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora

RUBRICA DI VALUTAZIONE PROVA SCRITTA DI ITALIANO - TRACCIA 1: TESTO NARRATIVO - DESCRITTIVO

Classificazione Preliminare delle Collocazioni (in Senso Lato)

La narrazione di esperienze. L esposizione orale di contenuti disciplinari appresi. La descrizione orale di ambienti, persone

ITALIANO classe quarta

STRUTTURA DEI MODULI. CLASSE PRIMA E. MODULO 0. (Settembre). MODULO 1 (Settembre).

ITALIANO A. S. 2018/2019

Transcript:

Concordanze e collocazioni Analisi del testo letterario 1 Isabella Chiari 1

Analisi degli usi con le concordanze Il cotesto estrazione di informazioni linguistiche essenziali sugli usi della parola individuazione delle sequenze di parole che occorrono più abitualmente a guisa di, restare con un palmo di naso, giacenza di cassa Le concordanze è la presentazione delle parole di un testo, con l indicazione della frequenza con la quale la parola occorre e il contesto linguistico precedente e successivo (cotesto). Funzioni osservare i diversi usi di una parola esaminare i diversi contesti (semantici, sintattici o testuali) in cui occorre una parola analizzare la regolarità con la quale una parola è accompagnata ad altre nel suo cotesto 2

Concordanza di «anima» nella «Divina Commedia» [In.1.122] anima fia a ciò più di me degna [In.2.45] l anima tua è da viltade offesa [In.2.58] O anima cortese mantoana [In.3.88] E tu che se costì, anima viva [In.3.127] Quinci non passa mai anima buona [In.5.7] Dico che quando l anima mal nata [In.6.55] E io anima trista non son sola [In.10.15] che l anima col corpo morta fanno [In.12.74] saettando qual anima si svelle [In.12.90] non è ladron, né io anima fuia [Pu.4.3] l anima bene ad essa si raccoglie [Pu.18.44] e l anima non va con altro piede 3

Presentazione delle concordanze KWIC (keyword in context) la parola chiave (keyword) è la parola di cui si cerca l uso, solitamente si trova nella colonna centrale. il cotesto (precedente e successivo) è stabilito dall utente: n fisso di parole (3 3, ecc.) frase o verso Concordanze complete concordanze per tutte le parole del corpus voluminose e lente, più complesse Concordanze specifiche concordanze per specifiche keywords veloci e facili 4

Esempio software di concordanza 5

Tipologie di ricerca Per forma specifica (parola testuale, forma flessa) psicologico: si ottengono tutti i token di questo type Per lemma psicologico (su corpus lemmatizzato): si ottengono tutte le occorrenze di tutte le forme flesse Con l uso di caratteri jolly (wildcards) psicologic*: si ottengono tutte le forme flesse e tutti i derivati Con le espressioni regolari psicologic[aoih]?: si ottengono tutte le forme che hanno uno dei caratteri tra parentesi [x] dopo la sequenza, più 0 o un carattere (esclude i derivati) 6

L individuazione delle collocazioni e polirematiche Collocazioni prescrivere una ricetta, richiedere un ricovero ospedaliero Polirematiche damigella d onore, navigazione a vista In una lista di frequenza vogliamo: contare separatamente le collocazioni dei lemmi semplici il verbo vedere rispetto alla locuzione vedere rosso estrarre le caratteristiche statistiche delle parole che entrano in una locuzione 7

Bilanciamento (Sinclair) Idiom Principle Open Choice principle 8

Misure statistiche delle collocazioni Intensità del legame diversi gradi di intensità nel legame tra due o più parole che co-occorrono in un testo procedure di estrazione automatica delle collocazioni Metodi la mutual information confronta la co-occorrenza effettiva di una coppia di parole con il valore di co-occorrenza che le due parole avrebbero casualmente lo Z-score e il T-score utilizzano il rapporto tra le cooccorrenze e la deviazione standard Limiti lingue a morfologia ricca (italiano, russo, ecc.) disambiguazione degli omografi Dove O sono le frequenze osservate ed E sono le frequenze attese di coppie di parole organizzate in tavole di contingenza 9

Esempi candidati collocazioni rosso 10

Perché sono importanti le collocazioni? In lessicografia computazionale servono, ovviamente, a estrarre espressioni da lemmatizzare come voce autonoma Nella traduzione automatica servono per individuare traducenti cristallizzati e arricchire le banche dati terminologiche Sono opportune nel Natural Language Processing per operare corrette analisi sintattiche e anche nella generazione linguistica L estrazione di collocazioni è utile inoltre nell information retrieval...nella disambiguazione dei sensi di una parola...nel riconoscimento e nella sintesi del parlato 11

Siti di interesse Collocations http://www.collocations.de/ UCS toolkit http://www.collocations.de/software.html Collocate Finder http://ell.phil.tu-chemnitz.de/collcollect/user/nph-index.cgi ConcGram http://www.edict.com.hk/pub/concgram/ 12

Testo: Codice penale : fase 1 Testo grezzo 73.101 token 5.626 types Omografi 49,1% Sconosciuti: 5,83% Testo normalizzato da TALTAC2 70.447 token 5.749 types Omografi 46,2 Sconosciuti: 1,42% TaLTaC2 - Roma, 27-02-2008 13

Tabelle e concordanze con più entrate TaLTaC2 - Roma, 27-02-2008 14

Interrogazione testuale Concordanze semplici Tengono conto del lemma e del tag grammaticale Espressioni regolari Permettono ricerche su sequenze di categorie grammaticali (abbinate a lemmi specifici, categorie personalizzate dall utente, e LAG) Permettono ricerche di: Strutture linguistiche grammaticali (sequenze NN, N Agg, ecc. V Prep) Comportamenti di lessemi (LEMMA + condizioni grammaticali) Analisi di specifiche classi (profilo grammaticale) TaLTaC2 - Roma, 27-02-2008 15

Profilo grammaticale del testo TaLTaC2 - Roma, 27-02-2008 16

La pena (Nome) + prep articolata + NOUN + aggettivo TaLTaC2 - Roma, 27-02-2008 17

Pena (N) Verbo + lag2 + LEMMA(pena) TaLTaC2 - Roma, 27-02-2008 18