Parole e frequenze. Alessandro Lenci

Похожие документы
Linguistica Computazionale

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

informatica di base per le discipline umanistiche

Linguistica Computazionale

Esclusione dei valori meno probabili Il criterio di Chauvenet

MODELLI QUANTITATIVI. f x r = c

Alcune domande. Da che dipende la disoccupazione? Da che dipende l inflazione?

Esercizi Svolti Di Programmazione Lineare Tomo G Pag 421 E

Patients Who Have Been Resuscitated From Cardiac Arrest

11. Il lessico dei testi

Alessandro Scopelliti.

Graphs: Cycles. Tecniche di Programmazione A.A. 2012/2013

Spesa effettiva e spesa programmata Nella Teoria Generale Keynes ha ipotizzato che il reddito totale prodotto da un economia nel breve periodo sia

ISTITUTO MAGISTRALE STATALE LEONARDO DA VINCI ALBA (CN) a.s

GABBIE A RULLINI NEEDLE ROLLER AND CAGE ASSEMBLIES

Gestione dei rischi e finanza internazionale

Esercizi Di Macchine Elettriche Temi Di Elettrotecnica Dettagliatamente Svolti

PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE

IRPPS Working Papers. Indagine su atteggiamenti e conoscenze di docenti e studenti nel corso del progetto:

MICROECONOMIA. Prof.ssa Carla Massidda

Economia monetaria e creditizia. Slide 6

Leader Di Te Stesso Come Sfruttare Al Meglio Il Tuo Potenziale Per Migliorare La Qualit Della Tua Vita Personale E Professionale

Algoritmi Priority-Driven RT. Corso di Sistemi RT Prof. Davide Brugali Università degli Studi di Bergamo

Flessione contestuale: realizzazione dei valori di categorie grammaticali associate alle forme flesse.

INTERNET & MARKETING INNOVATIVE COMMUNICATION.

Si usa. Lesson 14 (B1/B2) Present perfect simple / Present perfect continuous

Lezione 12 Argomenti

ESISTENZA DI INFINITI NUMERI PRIMI REGOLARI. Francesco Di Noto, Michele Nardelli. In this paper we describe about the regular prime

Exam of ELECTRONIC SYSTEMS June 17 th, 2014 Prof. Marco Sampietro

Strutture grammaticali. Insegnante: Paola Piccinato Libri di testo: Venture 1 ed Oxford, Get inside grammar MacMillan MODULO 1

10 year of Fairies. 10 Anni di Fatine.

Lez. 10. La legge di Zipf. La distribuzione sistematica delle parole e la loro socievolezza 25/03/12

Basic English Grammar. long forms short forms long forms short forms

Soluzioni Del Libro Matematica Con Metodo 2

Esercizi Risolti E Temi D Esame Corsi Di Laurea A Distanza

Flessione inerente: realizzazione dei valori di categorie grammaticali associate al lessema.

Si faccia riferimento all Allegato A - OPS 2016, problema ricorrente REGOLE E DEDUZIONI, pagina 2.

DESIGN: RENATO DE LORENZO

Esercizi Svolti Sul Piano Inclinato Formule Equazioni

Quarantacinque disegni di Alberto Giacometti Edited by Lamberto Vitali, foreword by Jean Leymarie Einaudi, Turin, 1963

L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora

PROBABILITÀ - SCHEDA N. 3 VARIABILI ALEATORIE CONTINUE E SIMULAZIONE

sensori per cilindri magnetic sensors for cylinders

Blanchard, Macroeconomia, Il Mulino Capitolo V. I mercati dei beni e i mercati finanziari: il modello IS-LM

Economia Politica (Mod I) Nota integrativa n. 3

TLR05S-350. Extender in corrente costante, 3 x 350mA per TLR04M_

Транскрипт:

Parole e frequenze Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 5600 Pisa, Italy alessandro.lenci@ilc.cnr.it Linguaggio e comunicazione - LO042 Rango di una parola (rv) posizione occupata da una parola in un ordinamento di frequenza discendente Le 30 parole più frequenti in Pinocchio

Legge di Zipf (949) la frequenza di una parola è inversamente proporzionale al suo rango f ( z) = C a z f(z) = frequenza della parola di rango z C è una costante corrispondente alla frequenza della parola di rango C dipende dalla lunghezza del corpus e dal suo vocabolario a è un indice inverso della ricchezza lessicale del corpus più grande a e più ristretto è il vocabolario del corpus per Zipf, a Per a =, vale che f() = C f(2) = C/2 f(3) = C/3 in generale, al crescere del rango, lo scarto C/n-C/n+ tra la frequenza della parola di rango n e la frequenza della parola di rango n- diminuisce progressivamente all aumentare del rango la frequenza diminuisce sempre più lentamente prevede un decremento progressivo della frequenza di una parola proporzionale all aumentare del suo rango la parola di rango 2 dovrebbe occorrere la metà delle volte della parola più frequente parole che appaiono molto in basso nella lista di Zipf tendono ad avere frequenze simili la coda della curva di Zipf conterrà dunque tante parole con frequenza : gli hapax 2

in doppia scala logaritmica 0000 andamento teorico previsto alla Legge di Zipf C = 685 a=,04 frequenza 000 00 0 y = 685.5x -.048 andamento del rapporto tra rango e frequenza osservato in Pinocchio 0 00 000 0000 rango è una legge teorica della distribuzione delle parole in un testo, che approssima la distribuzione reale maggiori discostamenti nella testa e nella coda della distribuzione nelle distribuzioni reali, la coda della retta è costituita da gradoni sempre più larghi esistono più parole con la stessa frequenza e il numero di queste aumenta all aumentare del rango In ogni testo (e in ogni lingua) la distribuzione delle parole approssima la Legge di Zipf la retta varia nella pendenza e nelle intercette la Legge di Zipf definisce una famiglia di distribuzioni che dipendono da C e da a 3

La Legge di Zips alcune conseguenze Le parole non si distribuiscono in maniera normale in un corpus ci sono sempre poche parole molto frequenti corrispondono solitamente a parole appartenenti a classi chiuse (articoli, preposizioni, congiunzioni, ecc.) Ci sono sempre moltissime parole a bassa frequenza e hapax (LNRE, Large Number of Rare Events) sono parole piene (nomi, verbi, ecc.), solitamente estremamente informative sul contenuto di un documento il vocabolario è aperto nuovi temi e concetti portano a introdurre nuove parole produttività lessicale nuovi termini derivati morfologici, ecc. Intepretare la Legge di Zipf Secondo Zipf la distribuzione delle parole nei testi riflette un principio di economicità nella comunicazione parlante e ascoltatore cercano entrambi di minimizzare i loro sforzi La frequenza di una parola è correlata ad altre sue proprietà le parole più frequenti sono più corte (l = lunghezza in caratteri) fv l v le parole più frequenti hanno più significati (s = significati di una parola) sv f v Le distribuzioni di Zipf non sono solo una proprietà delle parole accessi ai siti web numero degli abitanti per città distribuzione del reddito 4

Lunghezza delle parole e frequenza At least since Horn (92) and Zipf (935), it has been known (to those who cared) that there is a strong inverse correlation between signal length and signal frequency, both in natural languages and in other human semiotic systems. It has long been clear that this must be due to a rational principle of least effort or economy (see Haiman (983), Hawkins (2004; ch. 3-4) for more recent discussion). Two mechanisms for creating such human semiotic systems have also long been recognized: shortening of signs when their frequency (and hence expectedness) increases, and the creation of more rarely used signs by compounding other signs. (Levinson: 6) Lunghezza delle parole e frequenza 600 400 200 000 800 600 400 200 0 0 5 0 5 20 Serie Rapporto tra frequenza e lunghezza in caratteri delle parole in Pinocchio 5