Corpora di riferimento per la lingua italiana

Documenti analoghi
LINGUISTICA (LM) - ISABELLA CHIARI DIZIONARI E FASCE DI FREQUENZA

Parole-chiave del vocabolario

PROGRAMMAZIONE DIDATTICA DI ITALIANO

Lingua, statistica e computazione

Sviluppo di Risorse Linguistiche per l Ambiente di Scrittura Assistita (ASA)

ITALIANO. CONOSCENZE (i saperi)

Introduzione. TALN Corpus-based computational linguistics. Rapporto tra forme, classificazioni e lemmi. Liste e classi di frequenza del lessico

Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

PROGRAMMAZIONE LINGUA ITALIANA. Classe quarta

U. A. 1 ITALIANO settembre-ottobre-novembre

1 Modulo operativo: Le abilità linguistiche: ascoltare. 2 Modulo operativo: Le abilità linguistiche: parlare

IL DATO LINGUISTICO E TESTUALE SCRITTURA ACCADEMICA E RISORSE BIBLIOGRAFICHE ONLINE. Isabella Chiari 16/04/2010

Comunicare intervenendo con pertinenza e con rispetto dei tempi. Distinguere un testo in prosa da un testo poetico.

014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria

PROGETTAZIONE DISCIPLINARE

Istituto Tecnico - Settore Tecnologico Indirizzo: Grafica e comunicazione

Standard formativo minimo regionale

UDA n.1 STUDIARE LA GRAMMATICA C1_01: Padroneggiare gli strumenti espressivi ed argomentativi indispensabili per gestire l interazione

PROGRAMMAZIONE ANNUALE CLASSE 1^B PER MODULI / UNITÀ DIDATTICHE a.s / 2018

Gli strumenti statistici

Metodi qualitativi per la ricerca applicata all indagine sociale e di marketing

PROGETTAZIONE ANNUALE - ITALIANO

Premessa 11 [PARTE PRIMA I LE STRUTTURE DELL'ITALIANO D'OGGI

TRAGUARDI PER LO OBIETTIVI DI APPRENDIMENTO COMPETENZE TRASVERSALI ASCOLTO E PARLATO ESSERE AUTONOMI E RESPONSABILI COMUNICARE

AVVERTENZE METODOLOGICHE - PRAGELATO

ESERCITAZIONE TERM EXTRACTION DEL

ISTITUTO COMPRENSIVO RIVA 1 PIANO DI STUDIO DI ISTITUTO ITALIANO

PROGRAMMA DI ITALIANO CLASSE I F sc.og Anno Scolastico 2016/2017

Descrizione campi produzione editoriale 2014 Regione Toscana Nome campo Descrizione del campo TIPO DATI Obbligatorietà

MATERIA: LINGUA ITALIANA

ISTITUTO MAZZINI - DA VINCI

Linguistica Computazionale

Obiettivi Specifici di apprendimento (OSA, Indicazioni i i Nazionali per il curricolo, Ricerche internazionali (IEA PIRLS 2006, OCSE PISA 2006).

AREA DI APPRENDIMENTO: ITALIANO

Liceo Linguistico Sophie M. Scholl Lingua e civiltà straniera - Tedesco Quinto anno

La produzione libraria nel 2004

PROGRAMMAZIONE CLASSI PRIME ITALIANO STORIA GEOGRAFIA

PIANO DI LAVORO DEL PROFESSORE

Programmazione annuale a. s

Le varietà dell italiano: Standard e Neostandard

RIM RELAZIONI IINTERNAZIONALI PER IL MARKETING

Programma svolto di Italiano

PROF. Silvia Tiribelli MATERIA: GEOGRAFIA CLASSE: II D

Linguistica dei corpora

ITALIANO CLASSE 1 1. ASCOLTARE E COMPRENDERE TESTI NARRATIVI.

Linguistica Computazionale. 22 settembre 2014

PIANO DI LAVORO DEL PROFESSORE

Le unità di analisi. Analisi del testo letterario. Analisi del testo letterario 1 - Isabella Chiari 1

III Circolo di Rho. Programmazione annuale. Lingua Italiana. Classe III

Liste di autorità per l indicizzazione e la conservazione digitale dell archivio del CNUCE e della CGI

LINGUA ITALIANA Classe 1^

QUADRO DI RIFERIMENTO DI ITALIANO PROVE INVALSI 2009

CLASSI TERZE LA PROGRAMMAZIONE

Istituto Tecnico - Settore Tecnologico

Programmazione disciplinare per competenze. Disciplina: Italiano. Asse: Asse dei Linguaggi. Docente: prof.ssa Laura Caso

PROF. RAFFAELLA AMICUCCI MATERIA: GEOGRAFIA CLASSE: IIA

ASCOLTO E IMPARO Ascoltare per mettere in moto i pensieri

Progettazione modulare Percorso di istruzione di 1 livello, 2 periodo didattico, asse linguaggi Modulo 1

PIANO DI LAVORO ANNO SCOLASTICO I.T.S. '' C. E. GADDA FORNOVO TARO MATERIA DI INSEGNAMENTO: ITALIANO ANDREA CORSINI

PIANO DI LAVORO DEL PROFESSORE

SCUOLA PRIMARIA ITALIANO (Classe 1ª)

COMPETENZA CHIAVE COMUNICAZIONE NELLA MADRELINGUA

L2 - SPAGNOLO SAPERI MINIMI DISCIPLINARI

PROGRAMMAZIONE DISCIPLINARE. DOCENTE Francesco Bottaro CLASSE 1 SEZ. A A.S

ITALIANO COMPETENZE AL TERMINE DEL SECONDO BIENNIO DELLA SCUOLA PRIMARIA COMPETENZA 1 ABILITÀ CONOSCENZE

L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora

LINGUA ITALIANA L.E.1 ASCOLTARE, COMPRENDERE E COMUNICARE ORALMENTE. L.E.2 LEGGERE E COMPRENDERE TESTI DI VARIO TIPO.

ITALIANO classe terza a.s Competenze Abilità/capacità Conoscenze Metodo Contenuti Verifiche IMPARARE AD IMPARARE

Istituto Comprensivo Campagnola-Galilei. Area Didattica

CURRICOLO DI ITALIANO CLASSE QUARTA

CURRICOLO ITALIANO - CLASSE TERZA -

Linguistica Computazionale

LIVELLO A2 LIVELLO B1

La linguistica dei corpora

ISTITUTO COMPRENSIVO BASSA ANAUNIA - DENNO PIANO DI STUDIO DI ITALIANO CLASSE SECONDA

Fondamenti di Linguistica Semantica e Lessico Lezione 4: Polisemia, Lessico e Dizionari

SCRIVERE Costruire l interesse per la scrittura autonoma. Scrivere autonomamente un breve testo su un esperienza motivante.

LINGUA ITALIANA OBIETTIVO GENERALE: - Ascoltare, comprendere, comunicare oralmente

B)Quadro delle competenze e abilità specifiche dell'asse e delle conoscenze specifiche relative all'ambito disciplinare

UNITÀ DIDATTICA N. 1

ISTITUTO COMPRENSIVO G. GALILEI PIEVE A NIEVOLE

TESTO/I ADOTTATO/I: B.Panebianco A.Varani, METODI E FANTASIA, Narrativa e Poesia e Teatro, Zanichelli ed COMPETENZE

Abilità per nuclei tematici

Italiano Lingua Uno Curricolare Lower School Y3

COMPETENZE SPECIFICHE ABILITÁ CONOSCENZE

TRACCIA PER LA BIOGRAFIA SCOLASTICA E LINGUISTICA DEGLI ALUNNI STRANIERI IN USCITA

Esami di Idoneità/Integrativi. Liceo delle Scienze Umane / Economico Sociale / Linguistico

MAPPE DELLE COMPETENZE DEGLI ASSI LINGUISTICO-LETTERARIO E STORICO-SOCIALE PRIMO BIENNIO

CONSULTA UNIVERSITARIA DI STUDI LATINI Certificazione linguistica del latino Linee guida nazionali

La comprensione dei testi rigidi: testo scientifico e testo normativo

CURRICOLO ITALIANO - CLASSE SECONDA -

COMPETENZE CLASSE 1^ CLASSE 2^ CLASSE 3^ CLASSE 4^ CLASSE 5^

MYLAB ITALIANO. La piattaforma di apprendimento online per sviluppare le competenze linguistico-comunicative in italiano

Prof. Roberto Melchiori

Elementi di Psicologia dello Sviluppo (II modulo) Mirco Fasolo

La narrazione di esperienze. L esposizione orale di contenuti disciplinari appresi. La descrizione orale di ambienti, persone

GRIGLIA DI PROGETTAZIONE Le interviste impossibili

OBIETTIVI MINIMI DI ITALIANO, STORIA, GEOGRAFIA, LATINO E GRECO AL GINNASIO

PROVE DI CERTIFICAZIONE LINGUA TEDESCA LIVELLO A2

DOMINI # WEBSITES # PAGINE # TOKENS # PAROLE. Funzionali (totale) ,841. Informazione ,

Transcript:

Corpora di riferimento per la lingua italiana Esempi di costruzione di corpora di lingua scritta e parlata della lingua italiana LIF, LIP e CORIS/CODIS (2004) 1 I corpora di riferimento (reference corpus) Un corpus che intenda registrare tutte le principali varietà di una lingua, e quindi essere rappresentativo della lingua stessa, è definito corpus di riferimento Brown Corpus of Standard American English (Brown Corpus), creato da W. N. Francis e H. Kučera, della Brown University negli anni Sessanta, composto da circa 1 milione di occorrenze testuali (500 testi di 2.000 parole ciascuno), distribuite in 15 categorie diverse (tra cui stampa, religione, narrativa, linguaggio amministrativo). British National Corpus e l American National Corpus (entrambi 100 milioni di parole) e la Bank of English (450 milioni di parole) (2004) 2 1

Principali corpora italiani LIF (Lessico di frequenza della lingua italiana contemporanea, 1971), elaborato al Centro Nazionale Universitario di Calcolo Elettronico (CNUCE) di Pisa (cfr. Bortolini, Tagliavini e Zampolli, 1971), e costruito in modo simile al Brown Corpus su una base di 500.000 occorrenze testuali. LIP (Lessico di frequenza dell italiano parlato, 1993) Corpus e Lessico di Frequenza dell'italiano Scritto (CoLFIS) Corpus di Italiano Scritto contemporaneo (CORIS/CODIS), i corpora di lingua parlata di LABLITA (http://lablita.dit.unifi.it/) CLIPS (Corpora Linguistici per l'italiano Parlato e Scritto, http://cirass.unina.it). (2004) 3 Il LIF Lessico di frequenza della lingua italiana contemporanea CNUCE (Centro Nazionale Universitario di Calcolo elettronico) di Pisa (1971) (2004) 4 2

IL LIF: disegno e realizzazione primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Reference corpus Corpus di 500.000 parole Testi scritti 1947-1968 15.750 lemmi ordinati per frequenza e secondo l ordine alfabetico (2004) 5 Tipologie testuali: rappresentatività dello scritto (e indirettamente del parlato) 5 tipologie Teatro Romanzi Cinema Periodici Sussidiari Oggi non vi è accesso ai materiali (2004) 6 3

Il LIP Lessico di frequenza dell italiano parlato A cura di Tullio De Mauro, Federico Mancini, Massimo Vedovelli e Miriam Voghera (1993) (2004) 7 Scelte sociolinguistiche e geolinguistiche 57h di registrazione di parlato (1990-1992) 475.883 parole grafiche 496.335 occorrenze di lemmi Le forme composte dei verbi contano per due lemmi (ho fatto, per avere e per fare) Le parole grafiche con clitici sono scorporate (dirglielo, conta tre lemmi: dire, gli, lo) Le preposizione articolate contano due lemmi (del, conta due lemmi: di, il) (2004) 8 4

Rappresentatività dei luoghi e dei livelli Rappresentatività geografica: Milano, Firenze, Roma e Napoli: ogni città 125.000 occorrenze Rappresentatività diafasica: esclusione del dialetto, inclusione di diversi livelli di formalità Problemi con il parlato spontaneo: il paradosso dell osservatore (2004) 9 Tipologie di scambi selezionate: 100.000 occorrenze circa per ogni livello 1) Scambio bidirezionale faccia a faccia con presa di parola libera 2) Scambio bidirezionale non faccia a faccia con presa di parola libera (conversazioni telefoniche) 3) Scambio bidirezionale faccia a faccia con presa di parola non libera (dibattiti, interviste, interrogazioni) 4) Scambio unidirezionale in presenza di destinatario/i (lezioni, conferenze, omelie, comizi, ecc.) 5) Scambio unidirezionale o bidirezionale a distanza (trasmissioni radiofoniche e televisive) (2004) 10 5

Le procedure di trascrizione dei testi parlati Trascrizione ortografica integrale senza normalizzazione (non IPA) Nessun a capo Le maiuscole sono usate solo per nomi propri, toponimi e sigle Non sono usati segni di interpunzione tranne il punto interrogativo Codificazione dei testi (M F R N per le località, ABCDE per i livelli, e numerazione progressiva): per esempio NA12. <?> parole inintellegibili # ## ### pause brevi, medie e lunghe (2004) 11 La trascrizione delle entità linguistiche Elementi dialettali trascritti ortograficamente: dicitte (nap.) Individuazione delle polirematiche (tavola&rotonda) Tenuta vocalica: ciao_ Fonosimboli normalizzati a lista:!eh! Elementi extralinguistici: [risate] (2004) 12 6

Esempio: il testo RA1 (2004) 13 Il ciclo dell elaborazione del corpus 1. Immissione e lemmatizzazione del corpus 2. Verifica della coerenza estesa a tutto il corpus 3. Costruzione di un database per ogni file con numero dei parlanti, numero di parole, durata 4. Prima estrazione delle liste di frequenza per controllo sugli errori 5. Correzione degli errori 6. Costruzione delle liste di frequenza definitive 7. Analisi delle liste definitive (2004) 14 7

La lemmatizzazione: prima fase Ricondurre le forme al lessema di riferimento Problemi: le omografie (porta, letto) La lemmatizzazione automatica del LIP 1) associazione ad ogni forma di un insieme di categorie possibili (porta: a) Sost Sing Femm o b) Verbo III pers Sing) 2) Informazione contestuale per selezionare l associazione 3) associazione alla forma di classe grammaticale più forma flessa (2004) 15 Esempio di lemmatizzazione Ancora la deriva 1) Ancora (sos, con, verbo) la (sos, art, pro) deriva (sos, ver) 2) Ancora (ver) la (art) deriva (sos) 3) Ancora (ver ancorare) la (art il) deriva (sos deriva) (2004) 16 8

La lemmatizzazione: seconda fase Uso di un Dizionario di riferimento che registra per ogni forma la cat grammaticale e la forma flessa e la confronta con il suo database per individuare il lemma Casi ambigui: nel dizionario ci sono più lemmi per la stessa forma (1,4% su 50.000 occorrenze): conti Sos (conte, conto) Disambiguazione statistica su corpus Parole sconosciute al dizionario: applicazione di regole morfologiche (V: translitterato, -ato > -are (su mangiare) > translitterare; tappetifici fici > -ficio (su edificio)> tappetificio Revisione manuale (2004) 17 Lemmi LIP in ordine alfabetico (2004) 18 9

Consultare il LIP online Sito BADIP (banca dati dell'italiano parlato) http://languageserver.unigraz.at/badip/badip/20_corpuslip.php Possibilità di interrogare per area e per tipologia testuale Possibilità di interrogare con ricerca avanzata per categoria grammaticale e lemmatizzazione (2004) 19 Etichette di base per il POS tagging del LIP (Badip) (2004) 20 10

Schermata di interrogazione del BADIP (2004) 21 Corpora di riferimento per la lingua italiana Altre informazioni si possono trovare online Corpora di riferimento per le lingue europee (inclusa la lingua italiana) http://www.alphabit.net/corsi/iulinks/corporalist.h tm Corpora italiani di lingua parlata: http://languageserver.unigraz.at/badip/badip/75_corpora_xml.php#6 (2004) 22 11

Il CORIS/CODIS Corpus di Italiano Scritto contemporaneo CILTA (Centro interfacoltà di linguistica teorica e applicata Luigi Heilmann, Bologna) A cura di R. Rossini Favretti (1998) (2004) 23 Corpus di Italiano Scritto contemporaneo COrpus di Riferimento dell'italiano Scritto (CORIS) COrpus Dinamico dell'italiano Scritto (CODIS) 100 milioni di parole Testi: prevalentemente di narrativa prodotta negli anni Ottanta e Novanta testi, autentici e ricorrenti nell'uso, in formato elettronico, selezionati come rappresentativi dell'italiano attuale Accesso limitato online: http://corpus.cilta.unibo.it:8080/coris_ita.html (2004) 24 12

Testi e corpus 100 milioni di parole aggiornato tramite un corpus di monitoraggio con cadenza biennale Il corpus assume una configurazione dinamica che appare tanto più vantaggiosa e rilevante considerando che, con le nuove possibilità date dallo sviluppo dei supporti informatici e delle memorie, al momento attuale non occorre più procedere all'operazione di selezione e di scarto dei testi già inseriti. corpus sincronico di lingua scritta (2004) 25 Fasi di progettazione del corpus (dal sito CILTA) 1. progettazione a) tipologia del corpus b) dimensione c) rappresentatività 2. elaborazione del modello di costruzione a) identificazione della popolazione b) definizione dei criteri di selezione 3. definizione della strutturazione a) articolazione dei componenti b) definizione dei rapporti fra i componenti c) campionamento 4. definizione 5. reperimento e inserimento dei materiali 6. lemmatizzazione e annotazione grammaticale (2004) 26 13

La rappresentatività del corpus Si sono quindi definiti alcuni criteri di identificazione dei parametri di riferimento che consentissero la costituzione di un insieme di sottocorpora in cui fossero incluse, rappresentate ed adeguatamente bilanciate le principali varietà dell'italiano scritto e, allo stesso tempo, si è configurata la possibilià di giungere all'elaborazione di un modello di costruzione dinamico e adattivo, tale da rispondere alle esigenze ed alle ipotesi di lavoro dei diversi studiosi senza venire meno ai criteri costitutivi del corpus. (2004) 27 Tipi testuali e sottocorpora sottocorpus STAMPA Sezioni quotidiana, periodica, supplementi sottosezioni nazionale, locale specialistica, non specialistica connotata, non connotata sottocorpus NARRATIVA Sezioni romanzi, racconti sottosezioni italiana, straniera, per adulti, per ragazzi poliziesca, di avventure, di fantascienza, delle donne (2004) 28 14

Per dimensione STAMPA 38 milioni di parole NARRATIVA 25 milioni di parole PROSA ACCADEMICA 12 milioni di parole PROSA GIURIDICO-AMMINISTRATIVA 10 milioni di parole MISCELLANEA 10 milioni di parole EPHEMERA 5 milioni di parole (2004) 29 L interrogazione del CODIS (2004) 30 15

Sintassi di interrogazione (2004) 31 16