Parole e frequenze Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 5600 Pisa, Italy alessandro.lenci@ilc.cnr.it Linguaggio e comunicazione - LO042 Rango di una parola (rv) posizione occupata da una parola in un ordinamento di frequenza discendente Le 30 parole più frequenti in Pinocchio
Legge di Zipf (949) la frequenza di una parola è inversamente proporzionale al suo rango f ( z) = C a z f(z) = frequenza della parola di rango z C è una costante corrispondente alla frequenza della parola di rango C dipende dalla lunghezza del corpus e dal suo vocabolario a è un indice inverso della ricchezza lessicale del corpus più grande a e più ristretto è il vocabolario del corpus per Zipf, a Per a =, vale che f() = C f(2) = C/2 f(3) = C/3 in generale, al crescere del rango, lo scarto C/n-C/n+ tra la frequenza della parola di rango n e la frequenza della parola di rango n- diminuisce progressivamente all aumentare del rango la frequenza diminuisce sempre più lentamente prevede un decremento progressivo della frequenza di una parola proporzionale all aumentare del suo rango la parola di rango 2 dovrebbe occorrere la metà delle volte della parola più frequente parole che appaiono molto in basso nella lista di Zipf tendono ad avere frequenze simili la coda della curva di Zipf conterrà dunque tante parole con frequenza : gli hapax 2
in doppia scala logaritmica 0000 andamento teorico previsto alla Legge di Zipf C = 685 a=,04 frequenza 000 00 0 y = 685.5x -.048 andamento del rapporto tra rango e frequenza osservato in Pinocchio 0 00 000 0000 rango è una legge teorica della distribuzione delle parole in un testo, che approssima la distribuzione reale maggiori discostamenti nella testa e nella coda della distribuzione nelle distribuzioni reali, la coda della retta è costituita da gradoni sempre più larghi esistono più parole con la stessa frequenza e il numero di queste aumenta all aumentare del rango In ogni testo (e in ogni lingua) la distribuzione delle parole approssima la Legge di Zipf la retta varia nella pendenza e nelle intercette la Legge di Zipf definisce una famiglia di distribuzioni che dipendono da C e da a 3
La Legge di Zips alcune conseguenze Le parole non si distribuiscono in maniera normale in un corpus ci sono sempre poche parole molto frequenti corrispondono solitamente a parole appartenenti a classi chiuse (articoli, preposizioni, congiunzioni, ecc.) Ci sono sempre moltissime parole a bassa frequenza e hapax (LNRE, Large Number of Rare Events) sono parole piene (nomi, verbi, ecc.), solitamente estremamente informative sul contenuto di un documento il vocabolario è aperto nuovi temi e concetti portano a introdurre nuove parole produttività lessicale nuovi termini derivati morfologici, ecc. Intepretare la Legge di Zipf Secondo Zipf la distribuzione delle parole nei testi riflette un principio di economicità nella comunicazione parlante e ascoltatore cercano entrambi di minimizzare i loro sforzi La frequenza di una parola è correlata ad altre sue proprietà le parole più frequenti sono più corte (l = lunghezza in caratteri) fv l v le parole più frequenti hanno più significati (s = significati di una parola) sv f v Le distribuzioni di Zipf non sono solo una proprietà delle parole accessi ai siti web numero degli abitanti per città distribuzione del reddito 4
Lunghezza delle parole e frequenza At least since Horn (92) and Zipf (935), it has been known (to those who cared) that there is a strong inverse correlation between signal length and signal frequency, both in natural languages and in other human semiotic systems. It has long been clear that this must be due to a rational principle of least effort or economy (see Haiman (983), Hawkins (2004; ch. 3-4) for more recent discussion). Two mechanisms for creating such human semiotic systems have also long been recognized: shortening of signs when their frequency (and hence expectedness) increases, and the creation of more rarely used signs by compounding other signs. (Levinson: 6) Lunghezza delle parole e frequenza 600 400 200 000 800 600 400 200 0 0 5 0 5 20 Serie Rapporto tra frequenza e lunghezza in caratteri delle parole in Pinocchio 5