11. Il lessico dei testi

Documenti analoghi
L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora

Linguistica Computazionale

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

QUADRO DI RIFERIMENTO DI ITALIANO PROVE INVALSI 2009

Linguistica Computazionale

PROGRAMMAZIONE ANNUALE

Il codice linguistico

III Circolo di Rho. Programmazione annuale. Lingua Italiana. Classe III

informatica di base per le discipline umanistiche

PROGRAMMA. Istituto: LICEO ADOLFO VENTURI. Prof.: Francesco Gallo. Materia d insegnamento: Italiano. Classe: 1 a D BIENNO COMUNE

OBIETTIVI DI APPRENDIMENTO

ASCOLTARE E PARLARE OBIETTIVI DI APPRENDIMENTO CONTENUTI

1 Modulo operativo: Le abilità linguistiche: ascoltare. 2 Modulo operativo: Le abilità linguistiche: parlare

Parole e frequenze. Alessandro Lenci

Classe 3 Curricolo di ITALIANO. Nuclei fondanti Abilità Conoscenze Ascoltare e Parlare

17. Collocazioni e polirematiche

Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

VIII. Indice. Unità 2 La semantica 20

Istituto Comprensivo Perugia 9 Anno scolastico 2014/2015 Programmazione delle attività educativo didattiche INGLESE

Istituto Comprensivo di Pralboino Curricolo Verticale

LATINO A COLORI MATERIALI PER IL DOCENTE

ITALIANO. Traguardi, obiettivi, nodi concettuali. Il lessico. ITALIANO- TRAGUARDI LESSICO

DIPARTIMENTO LETTERE CLASSICO LINGUISTICO DISCIPLINA: ITALIANO (Biennio Classico e Linguistico)

Obiettivi Specifici di apprendimento (OSA, Indicazioni i i Nazionali per il curricolo, Ricerche internazionali (IEA PIRLS 2006, OCSE PISA 2006).

DECLINAZIONE COMPETENZE SCUOLA PRIMARIA: ITALIANO CLASSI 4-5 COMPETENZE

CURRICOLO DI ITALIANO CLASSE PRIMA

PROGRAMMAZIONE DIDATTICA ANNUALE CLASSI QUARTE DISCIPLINA: ITALIANO

I SISTEMI DI RECUPERO DELL INFORMAZIONE

Liceo Statale Jacopone da Todi Largo Martino I, 1 - Via Roma 13 Todi (PG) NUCLEI FONDANTI

Istituto Tecnico - Settore Tecnologico Indirizzo: Grafica e comunicazione

Strumenti per comunicare 1. La competenza linguistica. La Morfologia, dal greco morphé, forma e logos studio. L articolo

PROGETTAZIONE FORMATIVA ANNUALE. Tavola di sintesi delle unità di apprendimento da svolgere nel corrente a.s. 2015/16 PROGETTAZIONE ANNAULE DIDATTICA

Dizionario delle collocazioni

OBIETTIVI COGNITIVI LATINO CLASSI PRIME. Competenze specifiche Abilità Conoscenze ABILITÀ MORFO-SINTATTICHE

Fondamenti di Linguistica Semantica e Lessico Lezione 4: Polisemia, Lessico e Dizionari

Applicazioni:la traduzione automatica

Documentazione Demo online

PROGRAMMAZIONE ANNUALE

Seconda Lingua Comunitaria (Francese Spagnolo) Classe seconda secondaria

COMUNICAZIONE COMPRENSIBILE

Italiano Classe I. Interagire e comunicare oralmente in contesti di diversa natura

Criteri di valutazione Discipline: Lingua Inglese e Francese

PROVE DI CERTIFICAZIONE LINGUA TEDESCA LIVELLO A2

PROGRAMMAZIONE DISCIPLINARE INDIVIDUALE ANNO SCOLASTICO 2013/2014

1D. Programma di Italiano A.S Prof. A. Murru Testi utilizzati: Chiare stelle Bonpiani Le forme della lingua Sensini

OBIETTIVI DI APPRENDIMENTO CONTENUTI ABILITÁ

Indice. Introduzione. Unità I. Unità 2. Unità Unità Unità Simboli impiegati nelle nozioni di grammatica storica

La narrazione di esperienze. L esposizione orale di contenuti disciplinari appresi. La descrizione orale di ambienti, persone

DIDATTICA DELL ITALIANO (L1-L2) PER LA SCUOLA PRIMARIA E DELL INFANZIA. Dott.ssa Fallea Floriana

ISTITUTO COMPRENSIVO "Luigi Capuana" MINEO ANNO SCOLASTICO

CURRICOLO DI ITALIANO CLASSE QUARTA

NORME DI LEMMATIZZAZIONE

PROGRAMMAZIONE DIDATTICA DI ITALIANO

PIANO DI LAVORO DEL DOCENTE

PROGRAMMAZIONE CLASSI PRIME ITALIANO STORIA GEOGRAFIA

ISTITUTO COMPRENSIVO LABORATORIO DI SCUOLA MEDIA E SUPERIORE N. SCARANO DI TRIVENTO DI ALFABETIZZAZIONE ALLA LINGUA LATINA CLASSI IIª A, IIª B, IIª C

014 5 Pragmatica Lingue per scopi speciali. [014 8] Abbreviazioni e simboli Filosofia e teoria

Il quadro di riferimento delle prove di italiano del Servizio Nazionale di Valutazione

DOCENTE : TIZIANA COMINOTTO ANNO SCOLASTICO 2012/ 2013

Classe Prima Scuola Secondaria di Primo Grado

Classe quinta Italiano

Analisi e comprensione del testo ( GRUPPO 1)

STRATEGIE DI RICERCA NEL CATALOGO DI ATENEO (OPAC SEBINA) a cura di Gianluca Tosetto (B.U. Umanistica)

2 Affinità e differenze 15 La pronunzia 15 L alfabeto e la fonetica 16 Il lessico 16 La morfologia e la sintassi 17 I casi e le funzioni logiche 18

Scuola secondaria I grado A. Rosas, Quartu Sant Elena

Guida Rapida per i Docenti dell ITIS Galilei

La porta di ishtar e altri racconti

PROGRAMMAZIONE DIPARTIMENTO DI LETTERE LICEO LINGUISTICO PRIMO ANNO A.S. 2015/2016 MATERIA: LATINO

CURRICOLO VERTICALE DI ITALIANO E MATEMATICA

TRAGUARDI PER LO OBIETTIVI DI APPRENDIMENTO COMPETENZE TRASVERSALI ASCOLTO E PARLATO ESSERE AUTONOMI E RESPONSABILI COMUNICARE

LICEO SCIENTIFICO A. VOLTA ANNO SCOLASTICO 2015/16 LATINO

Istituto Comprensivo di Gaggio Montano. Scuola Primaria di Castel d Aiano PROGRAMMAZIONE ANNUALE DI ITALIANO. Classe quarta. Anno scolastico 2015/2016

LIVELLO SCOLASTICO SCUOLA SECONDARIA DI PRIMO GRADO DISCIPLINA LINGUA FRANCESE DISCIPLINE CONCORRENTI: LINGUA FRANCESE

ITALIANO UNITÀ DIDATTICA N. 1 ASCOLTARE E PARLARE OBIETTIVI DI APPRENDIMENTO CONTENUTI ABILITÀ

UDA n.1 STUDIARE LA GRAMMATICA C1_01: Padroneggiare gli strumenti espressivi ed argomentativi indispensabili per gestire l interazione

PROGRAMMAZIONE ANNUALE DI ITALIANO

Transcript:

Modulo B I testi brevi 11. Il lessico dei testi 27 aprile 2016 Linguistica italiana II Mirko Tavosanis A. a. 2015-2016

Analisi quantitativa del testo Vediamo esempi di analisi quantitativa del testo condotta attraverso strumenti informatici Ci concentriamo sull aspetto lessicale, lasciando da parte (per ora) quello sintattico Le informazioni descritte qui dovranno essere fornite in tutti i lavori finali di analisi linguistica

Dati fondamentali da fornire Per un analisi quantitativa è necessario fornire, assieme ai dati specifici sul fenomeno che interessa studiare, dati generali sul testo: Numero totale delle parole (token) Lunghezza media delle parole (in caratteri) Numero totale dei periodi Lunghezza media dei periodi (in token) Gli strumenti informatici permettono di ottenere molti di questi calcoli in modo semplice: oggi vedremo READ-IT, in linea

Indicatori generici sul lessico Rapporto tipo / unità (o type / token ratio, TTR) Si divide il numero delle parole diverse usate in un testo (tipi) per il numero delle parole moltiplicato per 100 valore massimo 1: testo tutto di hapax Densità lessicale Rapporto tra parole piene (sostantivi, aggettivi, verbi e avverbi) e parole grammaticali (pronomi, articoli, preposizioni, congiunzioni, interiezioni)

Dimensioni del lessico Si stima (un po arbitrariamente) che un bravo laureato conosca 20.000 parole I dizionari dell italiano in volume unico includono di solito oltre 50.000 lemmi Lo Zingarelli 2014 dichiarava di includere «144.000 voci, 380.000 significati, 9300 sinonimi e 2000 contrari, 1000 sfumature di significato, 3123 parole da salvare» Il Grande dizionario della lingua italiana (GDLI o «Battaglia») include oltre 180.000 lemmi Il Vocabolario Treccani include 800.000 lemmi Tuttavia, non tutte le parole sono usate o frequenti («scaprugginare»?)

Classificazione del lessico L assieme delle parole usate in una lingua può essere catalogato in diversi modi Per esempio, in base: Al ruolo grammaticale (aggettivi, sostantivi ) Al rapporto con altre parole (diminutivi, accrescitivi, parole composte ) All etimologia (origine latina, francese ) All uso (alcune parole sono più comuni e conosciute di altre: che è evidentemente più comune di granodiorite)

Classificazione in base all uso: fasce possibili De Mauro registra nel Grande dizionario italiano dell uso (GRADIT) diverse marche d uso: FO ( fondamentale ) AU ( alto uso, corrispondente ad alta frequenza ) AD ( di alta disponibilità ) CO ( comune ) TS ( tecnico-specialistico ) LE ( di uso solo letterario ) RE ( regionale ) DI ( dialettale ) ES ( esotismo ) BU ( di basso uso ) OB ( obsoleto )

Classificazione in base alla frequenza / importanza 1. Parole fondamentali che, rioccorrendo con enorme frequenza (da il, e, che ad andare, fare, cosa), coprono mediamente il 94 % di tutti i testi detti o scritti; esse sono, in italiano, circa 2.000 parole, mediamente assai più brevi delle altre e con significati larghi e molteplici e sono note a chiunque sia italiano e abbia un livello almeno elementare di istruzione (90 % degli adulti) ; 2. Parole di alta frequenza che coprono un altro 5 % dei testi: esse sono, in italiano, altre 3.000 parole circa, mediamente un po più lunghe delle precedenti e con significati relativamente più specifici ; 3. Parole di alta familiarità o di alta disponibilità, rarissime nell uso normale ma legate ad atti e oggetti della vita quotidiana (da aceto e avvitare o forchetta a vomito o zuppa), che abbiamo continuamente in mente e costituiscono un insieme di altre 1.800 parole circa. 4. In totale si tratta quindi di circa 7.000 parole, che costituiscono il vocabolario di base dell italiano. Secondo De Mauro questo nucleo si può considerare interamente noto a chi è italiano e ha un livello almeno medio-inferiore di istruzione (52 % della popolazione)

Come si ottengono queste classificazioni? Nel caso di De Mauro: formazione di un corpus, analisi statistiche, verifiche con informatori Ovviamente, alcune valutazioni sono più difficili di altre (tipicamente, i regionalismi) Soprattutto (dal nostro punto di vista): alcune valutazioni sono ineludibilmente soggettive e poco motivabili la classificazione usa comunque per categorie molto ampie La classificazione autonoma è possibile (anche se non affidabile) solo attraverso le nostre competenze linguistiche

Come si applicano queste valutazioni? Esistono numerosi prodotti informatici basati su: Lemmatizzazione Liste di De Mauro Anche l edizione su CD del dizionario ridotto (monovolume) di De Mauro fornisce una catalogazione del lessico, ma non decide tra le alternative Altri prodotti forniscono risultati più mirati Vedremo subito READ-IT (parte di DyLan TextTools v2.1.9), all interno del sito Italian Natural Language Processing Lab dell ILC-CNR http://www.italianlp.it/ Presentazione per il Laboratorio di Cultura digitale: http://labcd.humnet.unipi.it/seminario/cultura_digitale67-32/wp-content/uploads/sites/6/2013/12/11dic2013.pdf

Valutazione basata su fasi Ovviamente, prima di assegnare il lessico alle fasce d uso occorrono: Scomposizione delle frasi Individuazione delle parole (tokenizzazione) Lemmatizzazione e assegnazione di POS Inoltre, in una fase successiva viene ricostruita la rete delle dipendenze Il sistema calcola le percentuali di lemmi (attenzione!) appartenenti al vocabolario di base I dati non possono essere esportati direttamente, ma è possibile per esempio il copia e incolla su Excel

Risultato sporco? Il sistema è valido ma gli errori sono comunqe frequenti (non esistono sistemi perfetti per questi lavori) Una parte del lavoro potrebbe essere il controllo della lemmatizzazione e assegnazione di POS, almeno su fenomeni specifici Per le parole che rientrano in assiemi chiusi e ben definiti la correttezza è molto alta Tuttavia, anche per gli articoli ci sono casi in cui è difficile disambiguare in automatico (articoli partitive, ecc.) Come minimo, per controllare la correttezza occorre vedere che cosa è stato classificato come pronome personale

Informazioni Istruzioni: su Moodle POS tagset: http://www.italianlp.it/docs/isst-tanl- POStagset.pdf DEP tagset: http://www.italianlp.it/docs/isst-tanl- DEPtagset.pdf

Confronti I valori sono confrontati con quelli di corpus di riferimento Verde: Dueparole (facile) Rosso: Repubblica (difficile) Prossimamente: livelli scolastici Il semaforo è un indicatore di vicinanza I dati numerici sono visibili come tooltip

Legge di Zipf (1949) In una lista di frequenza di parole, la frequenza di una parola è inversamente proporzionale al suo rango (la parola più frequente compare il doppio delle volte rispetto alla seconda parola più frequente, e così via) Possiamo estendere il discorso ai lemmi In pratica: più allarghiamo il campione, più aumenta il numero di lemmi che troviamo al suo interno Ovviamente, language is never, ever random; però in molti tipi di testo il rapporto c è (non nei Cent mille miliards de poèmes di Quenau, che generano automaticamente testi combinando 140 versi predefiniti ) Quindi, per valutare la varietà lessicale, ha senso controllare la percentuale di lemmi solo in campioni che hanno la stessa lunghezza oppure controllare le occorrenze dei lemmi, e non la loro semplice presenza / assenza

Vocabolario controllato? Il vocabolario degli apprendenti è limitato Il vocabolario di un esercizio scolastico pure La valutazione di testi come quelli su cui stiamo lavorando noi va fatta con estrema prudenza I materiali didattici di riferimento sono disponibili, ma esaminarli richiede molto lavoro