Criteri per la validazione dei termini dell estrazione automatica. (Versione 2) Elisa Bianchi

Documenti analoghi
I composti: problemi definitori e di classificazione

3. Dalla linearità alla struttura La dipendenza dalla struttura La ricorsività 31

CURRICOLO ITALIANO SCUOLA PRIMARIA. MATRICE ITALIANO scuola primaria classe 1a MORFOSINTASSI L. del TESTO SOCIOLINGUISTICA SEMANT.

Linguistica Computazionale

La padronanza linguistica, Academia Universa Press 2011 PARTE PRIMA FARE GRAMMATICA 1. INSEGNARE ANCORA LA GRAMMATICA?

Università degli Studi di Trieste. Dipartimento di Scienze della Vita. ESERCITAZIONI Psicologia dei Processi Cognitivi 2. Modulo Linguaggio.

Fondamenti di Linguistica

Prove Invalsi di lingua italiana Una guida alla lettura. 12 aprile 2017

Facultad de Filosofía y Letras Colegio de Letras Modernas Departamento de Letras Italianas Semestre

3) Quale di questi nomi propri non contiene un dittongo? a) Paolo b) Pietro c) Mauro d) Chiara

Il tubo del tempo. Dalla descrizione grammaticale alla cognizione della grammatica

SCUOLA PRIMARIA ITALIANO (Classe 1ª)

Linguistica Computazionale

ANNO SCOLASTICO 2018/2019 ITALIANO Programmazione Primo anno Docente Margherita Margarita

LICEO CLASSICO-SCIENTIFICO VITTORIO IMBRIANI POMIGLIANO D ARCO (NA) ANNO SCOLASTICO 2012/2013 PROGRAMMAZIONE DI LATINO CLASSE I SEZIONE E SCIENTIFICO

CURRICOLO DI ITALIANO CLASSE PRIMA

Elementi di terminologia e terminografia

IL LESSICO ANALISI DEL LESSICO DAL PUNTO DI VISTA QUANTITATIVO ANALISI DEL LESSICO DAL PUNTO DI VISTA QUALITATIVO

INDICATORE TRAGUARDI DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA CLASSE CONOSCENZE ABILITÀ

Premessa 11 [PARTE PRIMA I LE STRUTTURE DELL'ITALIANO D'OGGI

STRUTTURA DEI MODULI. CLASSE PRIMA E. MODULO 0. (Settembre). MODULO 1 (Settembre).

Spada Patrizia ANNO SCOLASTICO 2017/2018 ITALIANO Programmazione Primo anno- Docenti: Marrazzi Giulia, Medda Stefania, Brodu Isabella.

Parte Prima La ricerca di documentazione giuridica con il computer

1 Modulo operativo: Le abilità linguistiche: ascoltare. 2 Modulo operativo: Le abilità linguistiche: parlare

Un dizionario elettronico delle collocazioni come rete di relazioni lessicali

Fondamenti di Linguistica Semantica e Lessico Lezione 4: Polisemia, Lessico e Dizionari

COMPETENZE DI ITALIANO DA PROVE INVALSI

APPRENDIMENTO LETTURA E SCRITTURA

ISTITUTO COMPRENSIVO CASTELLO DI SERRAVALLE - SAVIGNO

Griglia di complessità del testo in simboli

Istituto Comprensivo di Gaggio Montano. Scuola Primaria di Castel d Aiano PROGRAMMAZIONE ANNUALE DI ITALIANO. Classe quarta. Anno scolastico 2015/2016

PROGRAMMA DELL INSEGNAMENTO. Prof. Emanuele Banfi / Prof. Ignazio Mauro Mirto. Modulo 1 Elementi di Fonetica e Fonologia

PROGRAMMAZIONE ANNUALE

OBIETTIVI SPECIFICI DI APPRENDIMENTO AREE DA SVILUPPARE. Riflettere sulla lingua

Educazione linguistica efficace: proposte concrete per un sillabo di terminologia metalinguistica

ISTITUTO LAURA BASSI - Bologna LICEO LINGUISTICO. Riconoscere la situazione di comunicazione ( chi, dove e quando) Comprendere il messaggio globale

PROGRAMMAZIONE ANNUALE

ITALIANO A. S. 2018/2019

La riflessione grammaticale nell insegnamento dell italiano L2 ad adulti migranti a debole scolarità. Percorsi e strumenti.

376 Introduzione alla lingua di Roma nel Duecento

Introduzione Il lessico. Introduzione. Introduzione. Linguistica generale, parte II a.a

MODELLO DI PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa ppuntibicoccaappuntibicoccaappunt

CURRICOLO DI ITALIANO CLASSI BIENNIO PRIMARIA ASCOLTO/PARLATO

ITALIANO. CONOSCENZE (i saperi)

Indice generale. L organizzazione della frase PARTE I. 1 Che cos è la frase 12 Frasi senza verbo 13

Scrivere in italiano accademico

QUADRO DI RIFERIMENTO DI ITALIANO PROVE INVALSI 2009

ITALIANO. Traguardi, obiettivi, nodi concettuali. Il lessico. ITALIANO- TRAGUARDI LESSICO

BFLR A Alfonso D'Agostino LO SPAGNOLO ANTICO SINTESI STORICO-DESCRITTIVA. edizioni U.niuz'iiitaxU di J-ttizit economia J->iiitto

LE COMPETENZE ESSENZIALI DI FRANCESE

Val più la pratica della grammatica? Daniela Notarbartolo Convegno nazionale Giscel 4 marzo 2010

LICEO GINNASIO STATALE G. B. BROCCHI Bassano del Grappa -VI. Progettazione didattico educativa di dipartimento CLASSE

Sommario. Premessa XIII

AVVERTENZE METODOLOGICHE. 1. Lemmatizzazione. Criteri generali. Aggettivi.

Riconoscere le caratteristiche dei vari testi letterari. Produrre un semplice testo letterario-narrativo.

PROGETTAZIONE DISCIPLINARE

Parole e frequenze. Alessandro Lenci

Completamente Analisi Grammaticale

Elementi di Psicologia dello Sviluppo (II modulo) Mirco Fasolo

PIANO DI LAVORO INDIVIDUALE a.s Disciplina: LINGUA E CIVILTA LATINA Prof. GUALTIERI CRISTINA Classe 1A OBIETTIVI SPECIFICI DI APPRENDIMENTO

N. ore previste 18 Periodo di realizzazione: Settembre Ottobre Prerequisiti OBIETTIVI MINIMI CLASSE PRIMA. Attivare strategie di lettura / ascolto

Quali le possibili ricadute sul curricolo delle scuole? GISCEL Lombardia - Milano, 8/10/ presentazione di Daniela Bertocchi

La strutturazione del dominio spaziale nell ungherese e nell italiano. Proposte per la didattica

Elementi di base delle funzioni della lingua

Pesantezza semantica dei sintagmi nominali e verbali nel parlato dialogico. Presentazione dei dati (B)

CURRICOLO DI ITALIANO

AVVERTENZE METODOLOGICHE - PRAGELATO

PROGRAMMAZIONE DI ITALIANO

014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria

Fondamenti di Linguistica

PIANO DI LAVORO ANNUALE

PROVE DI CERTIFICAZIONE LINGUA TEDESCA LIVELLO A2

PROGRAMMAZIONE DISCIPLINARE. Materia : ITALIANO Classe : II. Competenze Obiettivi di apprendimento Contenuti

Il codice linguistico

OBIETTIVI DI APPRENDIMENTO

IMAGACT. Ontologia per immagini dell azione per l acquisizione di L2 in ambiente multilingue. PAR FAS REGIONE TOSCANA Linea di Azione 1.1.a.

ISTITUTO: Liceo Classico CLASSE: I MATERIA: Italiano

Val più la pratica della grammatica?

OBIETTIVI SPECIFICI DI APPRENDIMENTO

PIANO DI LAVORO PREVENTIVO a. s

INTRODUZIONE AL TESTO FILOSOFICO

Comprende il testo proposto - comprende il lessico di base - comprende i termini tecnicospecialistici

SCUOLA PRIMARIA BRENTONICO

Educazione linguistica. SILSIS Scienze Naturali e FIM a.a

CLASSE SECONDA A/S 2018/2019

OBIETTIVI COGNITIVI LATINO CLASSI PRIME. Competenze specifiche Abilità Conoscenze ABILITÀ MORFO-SINTATTICHE

Quadro di riferimento per la redazione e lo svolgimento della prima prova scritta dell esame di Stato

1 Lessico e Dizionari

I Disturbi Specifici di Linguaggio. Percorsi Evolutivi Dei DSL

U. A. 1 ITALIANO settembre-ottobre-novembre

La competenza in Lettura

Indice. 1. Pittogrammi e ideogrammi Ilogogrammi 35. Premessa 11. Le origini del linguaggio 13. II. Gli animali e il linguaggio umano 21

NUOVI ITINERARI. Sommario. Premessa

I.I.S Niccolò Machiavelli Pioltello

PROGRAMMAZIONE DIDATTICA DOCENTE: ZAMBINI FRANCA DISCIPLINA: LINGUA E LETTERATURA ITALIANA. CLASSE: terza SEZIONE: AIS A. S.

Quali testi? Narrativo descrittivo regolativo - filastrocche testi resoconto motivazioni (testo argomentativo)

ATTIVITA. Conversazioni collettive guidate su argomenti di comune interesse o su esperienze vissute

GRAMMATICA - TESTO PAROLE E TESTI IN GIOCO Progettazione didattica annuale per unità e competenze Classi Prime

Transcript:

15 novembre 2010 Criteri per la validazione dei termini dell estrazione automatica 1. Obiettivo (Versione 2) Elisa Bianchi Con "validazione" si intende il lavoro di selezione e valutazione delle liste di parole ricavate dai corpora di dominio attraverso il procedimento di estrazione automatica messo a punto dall'ilc. L obiettivo della validazione è creare un elenco di termini e quasi-termini rappresentativi del dominio di appartenenza, che possano essere proiettati sugli snippets del meta-motore ed escludere i siti non pertinenti. La validazione viene fatta dagli esperti di settore (Elisa Bianchi, Maria Clotilde Camboni, Elena Lazzarini) sulla base di regole e linee di indirizzo chiare e condivise, pur essendo inevitabile un certo grado di arbitrarietà in alcune scelte di validazione: quelle della linguistica italiana, dell'arte e della letteratura, infatti, sono terminologie caratterizzate da grande variabilità e da una grande quantità di unità lessicali in comune con il discorso non specialistico, ed è per questo difficile, a volte, stabilire un confine netto tra "specialistico" e "non specialistico". 2. Indicazioni operative La validazione consiste nella suddivisione delle unità lessicali individuate in 3 gruppi: Termini (T), Quasi-Termini (QT) e Non Termini (NonT). In questa fase del lavoro, la distinzione tra Termini e Quasi-Termini è opzionale, nel senso che l importante è discriminare tra ciò che è significativo e ciò che non lo è per la proiezione del glossario sugli snippets. Se quindi c è un dubbio relativo classificazione come Termine o Quasi- Termine di un unità lessicale, operativamente è opportuno marcarla come Termine. Per indicazioni teoriche e metodologiche sulla distinzione, si veda il paragrafo Definizioni e indicazioni metodologiche. La validazione inizia dai termini complessi (multi-word terms), cioè dalle unità lessicali composte da più di una parola. Una volta terminata l analisi dei termini complessi, si passerà alla validazione dei termini singoli.

In questa fase del lavoro, si adotterà un approccio di tipo lessicografico - terminologico, e si cercherà quindi di ricostruire l'universo terminologico di ciascuna disciplina, a prescindere dall'eventuale polisemia e quindi dalle ambiguità dell'unità lessicale. Prendiamo come esempio il termine singolo "varietà", appartenente alla lista di termini singoli di linguistica: anche se esso è polisemico, e soprattutto non specifico del dominio della linguistica, sarà comunque marcato come Termine, dal momento che nei testi può essere utilizzato da solo come abbreviazione di "varietà di lingua". Quindi, saranno marcati come Termini anche parole come "canzone", "opera" e "femminile" (in quanto abbreviazione di "genere femminile", nel dominio della linguistica). A tale proposito, è opportuno indicare, per ciascun dominio, una lista di opere di consultazione di riferimento (dizionari specialistici, repertori terminologici ecc ), che possano costituire il punto di partenza (ma non esclusivo) della validazione. Gli eventuali problemi posti da questi termini "generici" saranno trattati in un secondo momento, quando la lista validata sarà utilizzata dal meta-motore. 3. Definizioni e indicazioni metodologiche Termini: Sono le unità lessicali specifiche di un dominio e rappresentative dei contenuti di dominio; costituiscono in altre parole la designazione linguistica dei "nodi" della mappa concettuale di un dominio. Definiamo termine la designazione per mezzo di un unità linguistica di una data nozione in una lingua di specialità (Norma ISO 1087-1), o the words that are assigned to concepts used in special languages that occur in subject-field or domain-related texts (Wright 1997) Facciamo poi riferimento alle caratteristiche dei termini individuate da Cabré Castellví (2003: 184-185), da cui sono stati eliminati gli elementi non strettamente funzionali alla validazione dei termini: Componente cognitiva - Dipendono da un contesto tematico; - Occupano un posto preciso nella struttura concettuale; - Il loro significato specifico dipende dal posto che occupano all interno di questa struttura; - Il loro significato è esplicitamente fissato; - Il loro significato è considerato una proprietà dell unità; - Sono fissati, riconosciuti e divulgati con l aiuto della comunità di esperti;

Componente linguistica - Sono unità lessicali, sia originarie sia frutto di lessicalizzazione; - In quanto strutture lessicali, impiegano tutti i mezzi della formazione di parola e i processi di acquisizione di nuove unità (ad esempio, sul modello del termine fonema, coniato nel 1873 dal fonetista francese Dufriche-Desgenettes, sono stati successivamente creati tutti gli altri termini per designare unità astratte minime, come morfema, lessema, semema ecc..., applicando un semplice processo di derivazione attraverso il suffisso -ema) - Formalmente, possono coincidere con unità appartenenti al discorso non specialistico; - Riguardo alle classi di parola, occorrono come nomi, verbi, aggettivi o avverbi o come strutture nominali, verbali, aggettivali o avverbiali; - Appartengono a una delle categorie semantiche generali: entità, eventi, proprietà o relazioni; queste categorie con le rispettive sottocategorie non si escludono necessariamente a vicenda e potrebbero essere considerate piuttosto tratti semantici; - Il loro significato è discreto (cioè, ben definito e scomponibile in tratti semantici specifici) nell ambito di un determinato tema: ad esempio, la parola forza, nella lingua comune, può avere molti significati ed è quindi semanticamente vago; in fisica, invece, indica un concetto ben definito e circoscritto; - Il loro significato è estratto dal set di informazioni dell unità lessicale (cioè, i termini derivanti dal linguaggio comune condividono una serie di tratti semantici con la corrispondente parola "comune", e sono quindi semanticamente trasparenti. Si consideri ad esempio il termine "prestito" in linguistica). Componente comunicativa - Occorrono nel discorso specialistico; - Sono acquisiti attraverso un processo di apprendimento e per questo sono gestiti dagli specialisti nel loro campo; - Sono essenzialmente denotativi. Ecco alcuni esempi di termini nel dominio della Linguistica italiana: Lemma Linguaggio

Parola Verbo Quasi-Termini: le unità lessicali o sequenze di parole che non costituiscono termini (e non sono "lemmatizzabili" come entrate di un glossario di dominio), ma sono riconducibili a termini o ricorrono di frequente in testi di dominio. Dati del corpus Dati dialettali Diffusione del volgare Uso dell imperfetto Nella validazione, devono essere considerati come Termini o Quasi-Termini indipendenti anche i termini o quasi-termini che assomigliano a o sono sinonimi di termini o quasi termini già inclusi: Varietà di italiano Varietà della lingua italiana L eventuale collegamento tra le due entrate sarà fatto in una fase successiva del lavoro. Relativamente alla lista delle unità multiple (multiword), un utile indicazione per discriminare tra termini e quasi-termine è marcare come Termine solamente le unità lessicali cosiddette polirematiche, che possiamo definire come combinazioni di parole che sono sentite dai parlanti nativi come un unica unità lessicale, senza per questo presentare le proprietà morfologiche tipiche delle parole. Si tratta di sequenze che non superano di norma l estensione di un sintagma e che presentano una coesione interna maggiore di quella prevedibile sulla base della loro struttura sintattica (Voghera 2004: 56). In generale, le unità polirematiche "tipiche" rispettano almeno una delle seguenti condizioni: - il loro significato non è deducibile dalla somma dei significati delle singole parole: faccia di bronzo, scala mobile, ecc.; - sono cristallizzate nell'uso con sensi particolari, come inquinamento acustico, deficit pubblico, ecc.; - la loro funzione grammaticale non è deducibile dalla classe grammaticale cui appartengono le singole parole che la formano, come per quanto, nella misura in cui, ecc. - non si possono inserire elementi all interno, per cui acquisizione linguistica va bene,

perché non si può dire *acquisizione un po linguistica, ma analisi della lingua non va bene, perché si può dire analisi accurata della lingua) Ad esempio: Termini Acquisizione linguistica Analisi acustica Aggettivo possessivo Norma linguistica Quasi-termini Analisi della lingua Aspetti della comunicazione Attività terminologica Nel dominio Arte, dovranno essere inizialmente marcati come Quasi-Termini anche i temi iconografici (es. "testa di toro" o "nozze mistiche di Santa Caterina"). Questi elementi faranno parte di una lista separata, specificamente dedicata ai temi iconografici. Non termini: unità lessicali o sequenze di parole che non sono pertinenti al dominio né come termini né come quasi-termini. Alcuni esempi: Centro del processo Criterio logico Criterio esplicito Dovranno essere marcate come Non Termini anche sequenze di parole non coese, per esempio appartenenti a sintagmi differenti, ad esempio: Dialetti alla lingua Base ai criteri Nei domini Letteratura e Arte, dovranno essere marcati come non termini anche i titoli delle opere (es. "Barone rampante"). BIBLIOGRAFIA

Cabré Castellvì M.T., "Theories of terminology. Their description, prescription and explanation", Terminology 9:2, 2003, 163-199. Voghera, M., "Polirematiche", in Grossmann, M., Rainer, F. (a cura di), La formazione delle parole in italiano, Tübingen, Niemeyer, 2004, pp.56-69.