Modulo B I testi brevi 11. Il lessico dei testi 27 aprile 2016 Linguistica italiana II Mirko Tavosanis A. a. 2015-2016
Analisi quantitativa del testo Vediamo esempi di analisi quantitativa del testo condotta attraverso strumenti informatici Ci concentriamo sull aspetto lessicale, lasciando da parte (per ora) quello sintattico Le informazioni descritte qui dovranno essere fornite in tutti i lavori finali di analisi linguistica
Dati fondamentali da fornire Per un analisi quantitativa è necessario fornire, assieme ai dati specifici sul fenomeno che interessa studiare, dati generali sul testo: Numero totale delle parole (token) Lunghezza media delle parole (in caratteri) Numero totale dei periodi Lunghezza media dei periodi (in token) Gli strumenti informatici permettono di ottenere molti di questi calcoli in modo semplice: oggi vedremo READ-IT, in linea
Indicatori generici sul lessico Rapporto tipo / unità (o type / token ratio, TTR) Si divide il numero delle parole diverse usate in un testo (tipi) per il numero delle parole moltiplicato per 100 valore massimo 1: testo tutto di hapax Densità lessicale Rapporto tra parole piene (sostantivi, aggettivi, verbi e avverbi) e parole grammaticali (pronomi, articoli, preposizioni, congiunzioni, interiezioni)
Dimensioni del lessico Si stima (un po arbitrariamente) che un bravo laureato conosca 20.000 parole I dizionari dell italiano in volume unico includono di solito oltre 50.000 lemmi Lo Zingarelli 2014 dichiarava di includere «144.000 voci, 380.000 significati, 9300 sinonimi e 2000 contrari, 1000 sfumature di significato, 3123 parole da salvare» Il Grande dizionario della lingua italiana (GDLI o «Battaglia») include oltre 180.000 lemmi Il Vocabolario Treccani include 800.000 lemmi Tuttavia, non tutte le parole sono usate o frequenti («scaprugginare»?)
Classificazione del lessico L assieme delle parole usate in una lingua può essere catalogato in diversi modi Per esempio, in base: Al ruolo grammaticale (aggettivi, sostantivi ) Al rapporto con altre parole (diminutivi, accrescitivi, parole composte ) All etimologia (origine latina, francese ) All uso (alcune parole sono più comuni e conosciute di altre: che è evidentemente più comune di granodiorite)
Classificazione in base all uso: fasce possibili De Mauro registra nel Grande dizionario italiano dell uso (GRADIT) diverse marche d uso: FO ( fondamentale ) AU ( alto uso, corrispondente ad alta frequenza ) AD ( di alta disponibilità ) CO ( comune ) TS ( tecnico-specialistico ) LE ( di uso solo letterario ) RE ( regionale ) DI ( dialettale ) ES ( esotismo ) BU ( di basso uso ) OB ( obsoleto )
Classificazione in base alla frequenza / importanza 1. Parole fondamentali che, rioccorrendo con enorme frequenza (da il, e, che ad andare, fare, cosa), coprono mediamente il 94 % di tutti i testi detti o scritti; esse sono, in italiano, circa 2.000 parole, mediamente assai più brevi delle altre e con significati larghi e molteplici e sono note a chiunque sia italiano e abbia un livello almeno elementare di istruzione (90 % degli adulti) ; 2. Parole di alta frequenza che coprono un altro 5 % dei testi: esse sono, in italiano, altre 3.000 parole circa, mediamente un po più lunghe delle precedenti e con significati relativamente più specifici ; 3. Parole di alta familiarità o di alta disponibilità, rarissime nell uso normale ma legate ad atti e oggetti della vita quotidiana (da aceto e avvitare o forchetta a vomito o zuppa), che abbiamo continuamente in mente e costituiscono un insieme di altre 1.800 parole circa. 4. In totale si tratta quindi di circa 7.000 parole, che costituiscono il vocabolario di base dell italiano. Secondo De Mauro questo nucleo si può considerare interamente noto a chi è italiano e ha un livello almeno medio-inferiore di istruzione (52 % della popolazione)
Come si ottengono queste classificazioni? Nel caso di De Mauro: formazione di un corpus, analisi statistiche, verifiche con informatori Ovviamente, alcune valutazioni sono più difficili di altre (tipicamente, i regionalismi) Soprattutto (dal nostro punto di vista): alcune valutazioni sono ineludibilmente soggettive e poco motivabili la classificazione usa comunque per categorie molto ampie La classificazione autonoma è possibile (anche se non affidabile) solo attraverso le nostre competenze linguistiche
Come si applicano queste valutazioni? Esistono numerosi prodotti informatici basati su: Lemmatizzazione Liste di De Mauro Anche l edizione su CD del dizionario ridotto (monovolume) di De Mauro fornisce una catalogazione del lessico, ma non decide tra le alternative Altri prodotti forniscono risultati più mirati Vedremo subito READ-IT (parte di DyLan TextTools v2.1.9), all interno del sito Italian Natural Language Processing Lab dell ILC-CNR http://www.italianlp.it/ Presentazione per il Laboratorio di Cultura digitale: http://labcd.humnet.unipi.it/seminario/cultura_digitale67-32/wp-content/uploads/sites/6/2013/12/11dic2013.pdf
Valutazione basata su fasi Ovviamente, prima di assegnare il lessico alle fasce d uso occorrono: Scomposizione delle frasi Individuazione delle parole (tokenizzazione) Lemmatizzazione e assegnazione di POS Inoltre, in una fase successiva viene ricostruita la rete delle dipendenze Il sistema calcola le percentuali di lemmi (attenzione!) appartenenti al vocabolario di base I dati non possono essere esportati direttamente, ma è possibile per esempio il copia e incolla su Excel
Risultato sporco? Il sistema è valido ma gli errori sono comunqe frequenti (non esistono sistemi perfetti per questi lavori) Una parte del lavoro potrebbe essere il controllo della lemmatizzazione e assegnazione di POS, almeno su fenomeni specifici Per le parole che rientrano in assiemi chiusi e ben definiti la correttezza è molto alta Tuttavia, anche per gli articoli ci sono casi in cui è difficile disambiguare in automatico (articoli partitive, ecc.) Come minimo, per controllare la correttezza occorre vedere che cosa è stato classificato come pronome personale
Informazioni Istruzioni: su Moodle POS tagset: http://www.italianlp.it/docs/isst-tanl- POStagset.pdf DEP tagset: http://www.italianlp.it/docs/isst-tanl- DEPtagset.pdf
Confronti I valori sono confrontati con quelli di corpus di riferimento Verde: Dueparole (facile) Rosso: Repubblica (difficile) Prossimamente: livelli scolastici Il semaforo è un indicatore di vicinanza I dati numerici sono visibili come tooltip
Legge di Zipf (1949) In una lista di frequenza di parole, la frequenza di una parola è inversamente proporzionale al suo rango (la parola più frequente compare il doppio delle volte rispetto alla seconda parola più frequente, e così via) Possiamo estendere il discorso ai lemmi In pratica: più allarghiamo il campione, più aumenta il numero di lemmi che troviamo al suo interno Ovviamente, language is never, ever random; però in molti tipi di testo il rapporto c è (non nei Cent mille miliards de poèmes di Quenau, che generano automaticamente testi combinando 140 versi predefiniti ) Quindi, per valutare la varietà lessicale, ha senso controllare la percentuale di lemmi solo in campioni che hanno la stessa lunghezza oppure controllare le occorrenze dei lemmi, e non la loro semplice presenza / assenza
Vocabolario controllato? Il vocabolario degli apprendenti è limitato Il vocabolario di un esercizio scolastico pure La valutazione di testi come quelli su cui stiamo lavorando noi va fatta con estrema prudenza I materiali didattici di riferimento sono disponibili, ma esaminarli richiede molto lavoro