Linguistica Computazionale

Linguistica Computazionale Frequenze di parole 7 ottobre 2014

Statistica terminologia di base Popolazione (collettivo) l insieme delle entità (oggetti, individui, eventi, ecc.) che rappresentano il dominio di interesse e di ricerca, su cui vogliamo acquisire conoscenza l Università, ecc. Unità statistiche gli elementi che compongono la popolazione gli studenti universitari (ma anche le facoltà, i dipartimenti, ecc.) Variabili attributi delle unità statistiche, che vengono misurate e/o rilevate età, reddito, provenienza, sesso, ecc. i valori che possono assumere le variabili si dicono modalità sesso = {M, F} età = {20, 25, ecc.} 2

Statistica terminologia di base Le variabili sono di tipo diverso a seconda del tipo di valori che ammettono nominali (o categoriali) hanno un numero finito di valori che definiscono classi a cui appartengono le unità statistiche (sesso, provenienza, categoria grammaticale, ecc.) non esistono relazioni di ordinamento tra le unità, ma solo di appartenenza o meno alla stessa classe ordinali hanno valori (gradi) che permettono di confrontare le unità statistiche ordinandole lungo una scala (voti degli esami, ecc.) differenze tra i gradi della scala non sono comparabili intervallo (o ratio) hanno valori che permettono di stabilire non solo relazioni di ordinamento, ma anche di comparare le differenze e i rapporti tra i valori (es. altezza, lunghezza in caratteri di una parola, ecc.) 3

Statistica terminologia di base Le unità statistiche differiscono per uno o più valori nelle variabili gli studenti hanno diversa provenienza, diversa età, ecc. La rilevazione del valore delle variabili delle unità statistiche fornisce i dati a partire dai quali si cerca di acquisire conoscenza sul comportamento della popolazione dati statistica descrittiva statistica inferenziale conoscenza 4

Statistica terminologia di base In generale i dati vengono acquisiti su un sottoinsieme della variabili popolazione (campione) unità statistiche studente sesso provenienza età 34356 M Pisa 19 43553 F Lucca 22 I dati raccolti vengono riassunti attraverso le distribuzioni di frequenza per ogni modalità x viene specificato quante unità nel campione hanno x (frequenza di x) provenienza F modalità della variabile Pisa 45 Lucca 72 Viareggio 29 5

Statistica distribuzione di frequenze Provenienza 80 70 60 Frequenze 50 40 Provenienza 30 20 10 0 Pisa Lucca Viareggio Livorno Firenze Bologna Roma Milano Modalità della variabile 6

Statistica e testo Popolazione linguistica linguaggio oggetto di studio Campione corpus di testi della popolazione linguistica Unità statistiche parole altre unità linguistiche possono essere scelte come unità statistiche morfemi, sintagmi, frasi, ecc. 7

(Word) Tokens <t n="1">non</t><t n="2">era</t><t n="3">un</t><t n="4">legno</t><t n="5">di</t><t n="6">lusso</ t><t n="7">ma</t><t n="8">un</t><t n="9">semplice</t><t n="10">pezzo</t><t n="11">da</t><t n="12">catasta</t><t n="13">di</t><t n="14">quelli</t><t n="15">che</t><t n="16">d </t><t n="17">inverno</t><t n="18">si</t><t n= 19">mettono</t><t n="20">nelle</t><t n="21">stufe</t><t n="22">e</t><t n="23">nei</t><t n="24">caminetti</t><t n="25">per</t><t n="26">accendere</t><t n="27">il</t><t n="28">fuoco</t><t n= 29">e</t><t n="30">per</t><t n="31">riscaldare</t><t n="32">le</t><t n="33">stanze</t> Frammento 1 Ogni (word) token (o parola unità) rappresenta una distinta occorrenza di parola nel testo NB: le parole sono un sottoinsieme dei token di un testo Le parole token sono le unità statistiche 8

Attributi delle parole Gli attributi di una parola unità sono le dimensioni che la caratterizzano e possono essere operazionalizzate come variabili (tipicamente di natura categoriale) tipo, lemma, categoria grammaticale, lunghezza in caratteri, ecc. attributi parole unità ATTRIBUTO CATEGORIA (PAROLA) TIPO LEMMA LUN parola unità GRAMMATICAL E Non 1 non NON 3 AVVERBIO era 2 era ESSERE 3 VERBO un 3 un UN 2 ARTICOLO legno 4 legno LEGNO 5 NOME di 5 di DI 2 PREPOSIZIONE lusso 6 lusso LUSSO 5 NOME ma 7 ma MA 2 CONGIUNZIONE un 8 un UN 2 ARTICOLO semplice 9 semplice SEMPLICE 8 AGGETTIVO pezzo 10 pezzo PEZZ O 5 NOME da 11 da DA 2 PREPOSIZIONE catasta 12 catasta CATASTA 7 NOME valori degli attributi

Statistica e testo Gli attributi delle parole unità formano le variabili statistiche da rilevare Dato un attributo, contare quante parole unità ricorrono con un certo valore v dell attributo significa calcolare la frequenza (assoluta) di v quanti tokens sono nomi? = frequenza dei nomi quanti tokens appartengono al lemma CANE? = frequenza di CANE (Word) type (parola tipo) classe di tutti i tokens che contengono la stessa sequenza di caratteri due parole unità appartengono allo stesso tipo se sono formalmente indistinguibili a prescindere dalla posizione che occupano nel testo l individuazione del tipo di parola non tiene conto di ulteriori analisi linguistiche (es. lemmatizzazione, ecc.) 10

Tokens e types La porta è chiusa. La strada porta al mare. tokens porta type PORTA PORTARE lemmi 11

Distribuzione di frequenze di parole Frequenza (assoluta) di una parola tipo v i (v i ) numero delle occorrenze (tokens) della parola tipo v i in un testo esempio: nel Frammento 1, di = 2 frequenze parola tipo 12

Frequenze di parole Lunghezza del corpus (C) numero di tokens nel testo Se v 1,, v n sono i types del testo vale che v + 1 v + 2 v + 3... + v = n C In generale, le frequenze assolute di due distribuzioni, non sono confrontabili, in quanto si riferiscono a un diverso numero totale di unità Frequenza relativa di una parola (f(v i )) f ( vi ) = v i C v normalizzata come i 100 percentuale C 13

Il vocabolario Vocabolario del corpus (V C ) numero delle parole tipo distinte (type) nel corpus esempio Nel Frammento 1, V C = 29 Alcune distinzioni importanti Vocabolario del corpus insieme dei type distinti che ricorrono nel corpus Lessico repertorio di tutte le parole possibili di quella lingua (oppure di tutte le parole conosciute da quel parlante) insieme potenzialmente infinito di parole Dizionario repertorio di lemmi e forme flesse di una lingua selezionato per qualche scopo 14

Distribuzioni di frequenze ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione, senza distinzione alcuna, per ragioni di razza, di colore, di sesso, di lingua, di religione, di opinione politica o di altro genere, di origine nazionale o sociale, di ricchezza, di nascita o di altra condizione. nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico, giuridico o internazionale del paese o del territorio cui una persona appartiene, sia indipendente, o sottoposto ad amministrazione fiduciaria o non autonomo, o soggetto a qualsiasi limitazione di sovranità. C = 105 tokens V C = 70 types parola freq. freq. rel., 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02. 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 15

Il vocabolario Classe di frequenza (V i ) l insieme dei type che hanno come frequenza i V 4 = l insieme dei type che hanno frequenza 4 V 1 = l insieme dei type che ricorrono una volta sola (hapax legomena) V 1 + V2 + V3 +... + V f max = Vc La ripetizione di una stessa parola tipo v determina il passaggio di v da una classe V i alla classe V i+1 non cambia però il valore complessivo di V c perché non viene inserito un nuovo tipo in V c Con le classi di frequenza è possibile ricostituire la lunghezza del corpus: max V1 1+ V2 2+ V3 3+... + V f max = C 16

Classi di frequenza ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione, senza distinzione alcuna, per ragioni di razza, di colore, di sesso, di lingua, di religione, di opinione politica o di altro genere, di origine nazionale o sociale, di ricchezza, di nascita o di altra condizione. nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico, giuridico o internazionale del paese o del territorio cui una persona appartiene, sia indipendente, o sottoposto ad amministrazione fiduciaria o non autonomo, o soggetto a qualsiasi limitazione di sovranità. parola freq. freq. rel., 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02. 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 V 1 = 63 V 2 = 4 V 8 = 1 V 12 = 1 V 14 = 1 17

Il vocabolario Spettro di frequenze permette di analizzare la distribuzione delle parole tipo in classi di frequenza grafico che si ottiene mettendo in ascissa valori crescenti di classi di frequenza i da 1 a max; sulle ordinate, riportiamo quante parole tipo hanno frequenza i Gli hapax formano la classe più numerosa: 3270 membri. Le classi di frequenza i > 10 contengono ciascuna fino a un massimo di 40 parole tipo circa parole tipo 4000 3000 2000 1000 0 spettro di frequenze in Pinocchio classi di frequenza riportate in scala logaritmica 1 10 100 1000 10000 classe frequenza 18

Indici statistici del testo ricchezza lessicale Rapporto tipo-unità (Type Token Ratio o TTR) la ricchezza lessicale come funzione del numero di parole diverse esempio Frammento 1, TTR = 29/33 = 0,87 Distribuzione degli hapax V 0 C V C 1 Square TTR C C Frammento 1 V1 25 hapax C 25/33= 0,75 19

Frequenze cumulate Frequenze cumulate di parole unità per ogni classe di frequenza i, f ci è il numero di parole unità che ricorrono da 1 a i volte f i c = V 1+ V 2 +... + V 1 2 i i se dividiamo f ci per C, otteniamo la frequenza relativa cumulata la percentuale di testo coperta dal numero di parole unità corrispondente a f ci 20

Frequenze cumulate Frequenze cumulate di parole tipo per ogni classe i, V ci è uguale al numero di parole tipo che appaiono nel testo da 1 a i volte V c = V + V +... + i V 1 2 i se dividiamo V ci per V C, otteniamo la frequenza relativa cumulata di parole tipo la percentuale di vocabolario coperta dal numero di parole tipo corrispondente a V ci 21

Frequenze cumulate in Pinocchio Il 90% del vocabolario di Pinocchio copre poco più del 28% della lunghezza complessiva del libro la maggior parte delle parole tipo sono parole rare (riccorrono poche volte nel testo) 100 91.65% 99.20% 50 54.73% 60.91% 28.18% 0 8.08% 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo 22

Frequenze cumulate Due testi possono presentare fino al 70% di parole unità in comune anche quando i loro rispettivi vocabolari non si sovrappongono per più del 10% bastano poche differenze testuali per far parlare due documenti di cose completamente diverse Due categorie di parole parole grammaticali (congiunzioni, articoli, preposizioni, ecc.) formano il tessuto connettivo grammaticale del testo sempre molto frequenti, indipendentemente dall argomento del testo poco informative lista chiusa e ristretta parole lessicalmente piene (nomi, aggettivi, verbi, ecc.) sono i portatori del vero contenuto informativo meno frequenti e i tipi di parola dipendono dall argomento del testo lista aperta e potenzialmente infinita 23