Linguistica Computazionae 12 ottobre 2016
Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Frequenza dee paroe sort input_fie uniq c 2
Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Frequenza dee paroe, ordinata per frequenza discendente sort input_fie uniq c sort -nr 3
Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Estrazione de vocaboario sort input_fie uniq Numero di token compessivi wc input_fie Numero di types compessivi sort input_fie uniq wc 4
Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Cacoo dea frequenza reativa sort input_token.txt uniq -c sort -nr awk '{print $1 "\t" $2 "\t" $1/freq_tot}' 5
Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Cacoo dee cassi di frequenza sort input_token.txt uniq -c awk '{print $1}' sort uniq -c sort nk2 cardinaità dea casse di frequenza indice di frequenza 6
Distribuzione dea frequenza dee paroe Rango di una paroa (r v ) posizione occupata da una paroa in un ordinamento di frequenza discendente Le 30 paroe più frequenti in Pinocchio 7
Distribuzione dea frequenza dee paroe Distribuzione dee frequenze dee paroe in Pinocchio rispetto a oro rango 8
La Legge di Zipf Legge di Zipf (George Kingsey Zipf, 1949) a frequenza di una paroa è inversamente proporzionae a suo rango f ( z) = C a z f(z) = frequenza dea paroa di rango z C è una costante corrispondente aa frequenza dea paroa di rango 1 C dipende daa unghezza de corpus e da suo vocaboario a è un indice inverso dea ricchezza essicae de corpus più grande a e più ristretto è i vocaboario de corpus per Zipf, a 1 9
La Legge di Zipf Per a = 1, vae che f(1) = C f(2) = C/2 f(3) = C/3 in generae, a crescere de rango, o scarto (C/n)-(C/n+1) tra a frequenza dea paroa di rango n e a frequenza dea paroa di rango n-1 diminuisce progressivamente a aumentare de rango a frequenza diminuisce sempre più entamente La Legge di Zipf prevede un decremento progressivo dea frequenza di una paroa proporzionae a aumentare de suo rango a paroa di rango 2 dovrebbe ricorrere a metà dee vote dea paroa più frequente paroe che appaiono moto in basso nea ista di Zipf tendono ad avere frequenze simii a coda dea curva di Zipf conterrà dunque tante paroe con frequenza 1: gi hapax 10
La Legge di Zipf La Legge di Zipf in doppia scaa ogaritmica 10000 andamento teorico previsto aa Legge di Zipf C = 6185 a=1,04 frequenza 1000 100 10 y = 6185.5x -1.0418 andamento de rapporto tra rango e frequenza osservato in Pinocchio 1 1 10 100 1000 10000 rango 11
I ogaritmi I ogaritmo in base a di un numero x è 'esponente da dare ad a per ottenere x se x = a y, aora y = og a x og a a = 1 og a 1 = 0 (i og in quasiasi base di 1 è 0) 12
I ogaritmi Acune proprietà dei ogaritmi og m (a * b) = og m a + og m b og m (a/b) = og m a - og m b La scaa ogaritmica ingrandisce e distanze tra i punti vicini ao zero e comprime e stesse distanze tra punti ontani dao zero 0 0,1 1 2 3 4 5 6 7 8 9 10 100-1 0 1 2 trasforma rapporti costanti tra distanze in differenze costanti 10/1 = 1000/100 og(10) og(1) = og(1000)-og(100) 13
La Legge di Zipf La egge di Zipf in doppia scaa ogaritmica diventa equazione di una retta (per e proprietà dei ogaritmi) og f ( z) = ogc a og z intercetta su asse y corrisponde a og (C) og dea frequenza massima ne corpus intercetta de asse x corrisponde a rango in cui incominciamo a trovare hapax a pendenza dea retta è data da a (coefficiente angoare) dipende daa ricchezza essicae de testo In scaa ogaritmica f(1)-f(10) = f(100)-f(10) = f(1000)-f(100), ecc. secondo a egge di Zipf e frequenze per paroe con ranghi ati decrescono moto più entamente 14
Equazione dea retta y = mx + q m è i coefficiente angoare e determina a pendenza (positiva o negativa) di una retta q è intercetta, ovvero i punto in cui a retta incrocia asse y se q = 0, a retta passa per origine 15
La Legge di Zipf La Legge di Zipf è una egge teorica dea distribuzione dee paroe in un testo, che approssima a distribuzione reae maggiori discostamenti nea testa e nea coda dea distribuzione nee distribuzioni reai, a coda dea retta è costituita da gradoni sempre più arghi esistono più paroe con a stessa frequenza e i numero di queste aumenta a aumentare de rango In ogni testo (e in ogni ingua) a distribuzione dee paroe approssima a Legge di Zipf a retta varia nea pendenza e nee intercette a Legge di Zipf definisce una famigia di distribuzioni che dipendono da C e da a 16
Invarianza di scaa La Legge di Zipf fa parte dee eggi di potenza (power aws) y=ax k cf. frattai (Mandebrot) Le eggi di potenza godono dea proprietà di invarianza di scaa motipicando argomento per un fattore di scaa c, i vaore dea funzione viene motipicato di un fattore c k f(cx) = a(cx) k =c k f(x) es. funzione ineare: y = 3x => 2(y) = 3(2x) Ampiando a dimensione de testo, si ha soo un cambiamento di scaa, che non muta a forma dea distribuzione di Zipf 17
La Legge di Zipf e invarianza di scaa Brown BNC Wikipedia ukwac 18
Atre Leggi di Zipf La frequenza di una paroa è correata ad atre sue proprietà e paroe più frequenti sono più corte ( = unghezza in caratteri) f v 1 v e paroe più frequenti hanno più significati (s = significati di una paroa) sv f v Atri eventi ne mondo si distribuiscono secondo a Legge di Zipf accessi ai siti web numero degi abitanti per città distribuzione de reddito reti sociai (socia networks) 19