Parole e frequenze. Alessandro Lenci
|
|
|
- Annunziata Villa
- 9 anni fa
- Просмотров:
Транскрипт
1 Parole e frequenze Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 5600 Pisa, Italy [email protected] Linguaggio e comunicazione - LO042 Rango di una parola (rv) posizione occupata da una parola in un ordinamento di frequenza discendente Le 30 parole più frequenti in Pinocchio
2 Legge di Zipf (949) la frequenza di una parola è inversamente proporzionale al suo rango f ( z) = C a z f(z) = frequenza della parola di rango z C è una costante corrispondente alla frequenza della parola di rango C dipende dalla lunghezza del corpus e dal suo vocabolario a è un indice inverso della ricchezza lessicale del corpus più grande a e più ristretto è il vocabolario del corpus per Zipf, a Per a =, vale che f() = C f(2) = C/2 f(3) = C/3 in generale, al crescere del rango, lo scarto C/n-C/n+ tra la frequenza della parola di rango n e la frequenza della parola di rango n- diminuisce progressivamente all aumentare del rango la frequenza diminuisce sempre più lentamente prevede un decremento progressivo della frequenza di una parola proporzionale all aumentare del suo rango la parola di rango 2 dovrebbe occorrere la metà delle volte della parola più frequente parole che appaiono molto in basso nella lista di Zipf tendono ad avere frequenze simili la coda della curva di Zipf conterrà dunque tante parole con frequenza : gli hapax 2
3 in doppia scala logaritmica 0000 andamento teorico previsto alla Legge di Zipf C = 685 a=,04 frequenza y = 685.5x andamento del rapporto tra rango e frequenza osservato in Pinocchio rango è una legge teorica della distribuzione delle parole in un testo, che approssima la distribuzione reale maggiori discostamenti nella testa e nella coda della distribuzione nelle distribuzioni reali, la coda della retta è costituita da gradoni sempre più larghi esistono più parole con la stessa frequenza e il numero di queste aumenta all aumentare del rango In ogni testo (e in ogni lingua) la distribuzione delle parole approssima la Legge di Zipf la retta varia nella pendenza e nelle intercette la Legge di Zipf definisce una famiglia di distribuzioni che dipendono da C e da a 3
4 La Legge di Zips alcune conseguenze Le parole non si distribuiscono in maniera normale in un corpus ci sono sempre poche parole molto frequenti corrispondono solitamente a parole appartenenti a classi chiuse (articoli, preposizioni, congiunzioni, ecc.) Ci sono sempre moltissime parole a bassa frequenza e hapax (LNRE, Large Number of Rare Events) sono parole piene (nomi, verbi, ecc.), solitamente estremamente informative sul contenuto di un documento il vocabolario è aperto nuovi temi e concetti portano a introdurre nuove parole produttività lessicale nuovi termini derivati morfologici, ecc. Intepretare la Legge di Zipf Secondo Zipf la distribuzione delle parole nei testi riflette un principio di economicità nella comunicazione parlante e ascoltatore cercano entrambi di minimizzare i loro sforzi La frequenza di una parola è correlata ad altre sue proprietà le parole più frequenti sono più corte (l = lunghezza in caratteri) fv l v le parole più frequenti hanno più significati (s = significati di una parola) sv f v Le distribuzioni di Zipf non sono solo una proprietà delle parole accessi ai siti web numero degli abitanti per città distribuzione del reddito 4
5 Lunghezza delle parole e frequenza At least since Horn (92) and Zipf (935), it has been known (to those who cared) that there is a strong inverse correlation between signal length and signal frequency, both in natural languages and in other human semiotic systems. It has long been clear that this must be due to a rational principle of least effort or economy (see Haiman (983), Hawkins (2004; ch. 3-4) for more recent discussion). Two mechanisms for creating such human semiotic systems have also long been recognized: shortening of signs when their frequency (and hence expectedness) increases, and the creation of more rarely used signs by compounding other signs. (Levinson: 6) Lunghezza delle parole e frequenza Serie Rapporto tra frequenza e lunghezza in caratteri delle parole in Pinocchio 5
Linguistica Computazionale
Linguistica Computazionale La Legge di Zipf 13 ottobre 2014 Distribuzione della frequenza delle parole Rango di una parola (r v ) posizione occupata da una parola in un ordinamento di frequenza discendente
Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)
Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp) Malvina Nissim [email protected] 1 Aprile 2009 1 ssh gollum.sitlec.unibo.it login passwd cqp 1 Cercare e contare 1.1 Contare
informatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia sesta lezione: la dinamica del testo vito
Linguistica Computazionale
Linguistica Computazionale Frequenze di parole 7 ottobre 2014 Statistica terminologia di base Popolazione (collettivo) l insieme delle entità (oggetti, individui, eventi, ecc.) che rappresentano il dominio
Esclusione dei valori meno probabili Il criterio di Chauvenet
Esclusione dei valori meno probabili Il criterio di Chauvenet Nel campo dell analisi sperimentale è frequente trovare, in una serie di misure, qualche dato che non concorda con gli altri. 1 Il criterio
MODELLI QUANTITATIVI. f x r = c
MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico
Alcune domande. Da che dipende la disoccupazione? Da che dipende l inflazione?
Alcune domande 4 Da che dipende la disoccupazione? Da che dipende l inflazione? Ci sono anche tante altre domande. Per esempio: Che cosa è il PIL? E perché è importante? Perché in certi periodi l attività
Esercizi Svolti Di Programmazione Lineare Tomo G Pag 421 E
Esercizi Svolti Di Programmazione Lineare Tomo G Pag 421 E We have made it easy for you to find a PDF Ebooks without any digging. And by having access to our ebooks online or by storing it on your computer,
Patients Who Have Been Resuscitated From Cardiac Arrest
Università degli Studi di Palermo Facoltà di Medicina e Chirurgia Scuola di Specializzazione in Malattie dell apparato Cardiovascolare Direttore: Prof. Pasquale Assennato Seminario tecnico su: La centralina
11. Il lessico dei testi
Modulo B I testi brevi 11. Il lessico dei testi 27 aprile 2016 Linguistica italiana II Mirko Tavosanis A. a. 2015-2016 Analisi quantitativa del testo Vediamo esempi di analisi quantitativa del testo condotta
Alessandro Scopelliti.
Alessandro Scopelliti [email protected] Il tasso di crescita ed il tasso di disoccupazione negli USA dal 1970 ad oggi Nel grafico precedente sono state riportate le variazioni del Pil e della
Graphs: Cycles. Tecniche di Programmazione A.A. 2012/2013
Graphs: Cycles Tecniche di Programmazione Summary Definitions Algorithms 2 Definitions Graphs: Cycles Cycle A cycle of a graph, sometimes also called a circuit, is a subset of the edge set of that forms
Spesa effettiva e spesa programmata Nella Teoria Generale Keynes ha ipotizzato che il reddito totale prodotto da un economia nel breve periodo sia
Spesa effettiva e spesa programmata Nella Teoria Generale Keynes ha ipotizzato che il reddito totale prodotto da un economia nel breve periodo sia determinato in larga misura dalla domanda La spesa effettiva
ISTITUTO MAGISTRALE STATALE LEONARDO DA VINCI ALBA (CN) a.s
ISTITUTO MAGISTRALE STATALE LEONARDO DA VINCI ALBA (CN) a.s. 2015-2016 PROGRAMMA DI LINGUA E LETTERATURA STRANIERA: INGLESE insegnante BALOCCO SILVANA libro di testo; OPEN MIND PRE-INTERMEDIATE DI M.Rogers,
GABBIE A RULLINI NEEDLE ROLLER AND CAGE ASSEMBLIES
GABBIE A RULLINI NEEDLE ROLLER AND CAGE ASSEMBLIES Gabbie a rullini Needle roller and cage assemblies Le gabbie a rullini NBS costituiscono una parte dei cuscinetti volventi. Sono principalmente formate
Gestione dei rischi e finanza internazionale
PROGRAMMA 1) Nozioni di base di finanza aziendale 2) Opzioni 3) Valutazione delle aziende 4) Rischio di credito 5) Risk management Gestione dei rischi e finanza internazionale 6) Temi speciali di finanza
Esercizi Di Macchine Elettriche Temi Di Elettrotecnica Dettagliatamente Svolti
Esercizi Di Macchine Elettriche Temi Di Elettrotecnica Dettagliatamente Svolti We have made it easy for you to find a PDF Ebooks without any digging. And by having access to our ebooks online or by storing
PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE
PROGRAMMAZIONE DISCIPLINARE PER COMPETENZE ANNO SCOLASTICO 2016-17 CLASSE 1 SEZIONE AT DISCIPLINA Lingua straniera DOCENTE Verrone Clementina QUADRO ORARIO (N. 3 ore settimanali nella classe) Scansione
IRPPS Working Papers. Indagine su atteggiamenti e conoscenze di docenti e studenti nel corso del progetto:
IRPPS Working Papers Istituto di Ricerche sulla Popolazione e le Politiche Sociali - CNR ISSN 2240-7332 Indagine su atteggiamenti e conoscenze di docenti e studenti nel corso del progetto: LA BIODIVERSITÀ:
MICROECONOMIA. Prof.ssa Carla Massidda
Università degli Studi di Cagliari Facoltà di Scienze Economiche, Giuridiche e Politiche Corso di Laurea in Economia e Gestione Aziendale A.A. 2016-2017 MICROECONOMIA Prof.ssa Carla Massidda Argomenti
Economia monetaria e creditizia. Slide 6
Economia monetaria e creditizia Slide 6 La trasmissione monetaria nello schema neoclassico The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have
Leader Di Te Stesso Come Sfruttare Al Meglio Il Tuo Potenziale Per Migliorare La Qualit Della Tua Vita Personale E Professionale
Leader Di Te Stesso Come Sfruttare Al Meglio Il Tuo Potenziale Per Migliorare La Qualit Della Tua Vita Personale We have made it easy for you to find a PDF Ebooks without any digging. And by having access
Algoritmi Priority-Driven RT. Corso di Sistemi RT Prof. Davide Brugali Università degli Studi di Bergamo
Algoritmi Priority-Driven RT Corso di Sistemi RT Prof. Davide Brugali Università degli Studi di Bergamo 2 Algoritmi Real Time Earliest Due Date (statico) Seleziona il task con la deadline relativa più
Flessione contestuale: realizzazione dei valori di categorie grammaticali associate alle forme flesse.
Flessione inerente Esprime un valore di una certa categoria grammaticale senza che esso dipenda da qualcosa di esterno al lessema Flessione contestuale: realizzazione dei valori di categorie grammaticali
INTERNET & MARKETING INNOVATIVE COMMUNICATION.
INTERNET & MARKETING INNOVATIVE COMMUNICATION www.sunet.it Passion Our passion to what we do every day allows us to have a special creativity and constantly improve the process of realization and execution.
Si usa. Lesson 14 (B1/B2) Present perfect simple / Present perfect continuous
Confronta i diversi usi del present perfect simple e del present perfect continuous. Si usa PRESENT PERFECT SIMPLE per parlare della DURATA (con for e since) di AZIONI/SITUAZIONI NON CONCLUSE, (azioni/situazioni
Lezione 12 Argomenti
Lezione 12 Argomenti Costi di produzione: differenza tra costo economico e costo contabile I costi nel breve periodo Relazione di breve periodo tra funzione di produzione, produttività del lavoro e costi
ESISTENZA DI INFINITI NUMERI PRIMI REGOLARI. Francesco Di Noto, Michele Nardelli. In this paper we describe about the regular prime
ESISTENZA DI INFINITI NUMERI PRIMI REGOLARI Gruppo B. Riemann * Francesco Di Noto, Michele Nardelli *Gruppo amatoriale per la ricerca matematica sui numeri primi, sulle loro congetture e sulle loro connessioni
Exam of ELECTRONIC SYSTEMS June 17 th, 2014 Prof. Marco Sampietro
Exam of ELETRONI SYSTEMS June 17 th, 2014 Prof. Marco Sampietro Matr. N NAME Problem 1 Operational Amplifier circuit 1. onsiderare il circuito seguente, in cui l Amplificatore Operazionale sia ideale,
Strutture grammaticali. Insegnante: Paola Piccinato Libri di testo: Venture 1 ed Oxford, Get inside grammar MacMillan MODULO 1
Ministero dell Istruzione dell Università e della Ricerca ISTITUTO TECNICO COMMERCIALE STATALE ABBA - BALLINI Via Tirandi n. 3-25128 BRESCIA www.abba-ballini.gov.it tel. 030/307332-393363 - fax 030/303379
10 year of Fairies. 10 Anni di Fatine.
1 Anni di Fatine. Questo libretto digitale contiene la raccolta di 1 anni di schemi pubblicati nel giorno di an Giovanni Battista, che solitamente cade al solstizio d estate.. Questo, si dice, sia proprio
Lez. 10. La legge di Zipf. La distribuzione sistematica delle parole e la loro socievolezza 25/03/12
Lez. 10 La legge di Zipf La distribuzione sistematica delle parole e la loro socievolezza 25/03/12 Scimmie e Divina Commedia Una scimmia, posta davanti ad una macchina da scrivere, battendo i tasti a casaccio,
Basic English Grammar. long forms short forms long forms short forms
Lesson 29 www.englishforitalians.com 1 contractions abbreviazioni to be (present simple) I am I m I am not I ----- you are you re you are not you aren t he is he s he is not he isn t she is she s she is
Soluzioni Del Libro Matematica Con Metodo 2
We have made it easy for you to find a PDF Ebooks without any digging. And by having access to our ebooks online or by storing it on your computer, you have convenient answers with soluzioni del libro
Esercizi Risolti E Temi D Esame Corsi Di Laurea A Distanza
Esercizi Risolti E Temi D Esame Corsi Di Laurea A Distanza We have made it easy for you to find a PDF Ebooks without any digging. And by having access to our ebooks online or by storing it on your computer,
Flessione inerente: realizzazione dei valori di categorie grammaticali associate al lessema.
Flessione inerente: realizzazione dei valori di categorie grammaticali associate al lessema. Esprime un valore di una certa categoria grammaticale senza che esso dipenda da qualcosa di esterno al lessema
Si faccia riferimento all Allegato A - OPS 2016, problema ricorrente REGOLE E DEDUZIONI, pagina 2.
Scuola Sec. SECONDO Grado Gara 2 IND - 15/16 ESERCIZIO 1 Si faccia riferimento all Allegato A - OPS 2016, problema ricorrente REGOLE E DEDUZIONI, pagina 2. Sono date le seguenti regole: regola(1,[a],b)
DESIGN: RENATO DE LORENZO
D I V A N O L E T T O DESIGN: RENATO DE LORENZO 2 INFINITO Schienale Alto / High backrest 3 INFINITO Schienale Alto / High backrest 98 Bracciolo Classico / Armrest Classic INFINITO Schienale Basso / Low
Esercizi Svolti Sul Piano Inclinato Formule Equazioni
We have made it easy for you to find a PDF Ebooks without any digging. And by having access to our ebooks online or by storing it on your computer, you have convenient answers with esercizi svolti sul
Quarantacinque disegni di Alberto Giacometti Edited by Lamberto Vitali, foreword by Jean Leymarie Einaudi, Turin, 1963
Quarantacinque disegni di Alberto Giacometti Edited by Lamberto Vitali, foreword by Jean Leymarie Einaudi, Turin, 1963 The album of facsimiles Quarantacinque disegni di Alberto Giacometti has been published
L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora
L italiano di stranieri, l italiano di apprendenti indagati attraverso corpora Costruzione di corpora 10. Valutazione del lessico 15 aprile 2014 Linguistica italiana II Mirko Tavosanis Ad una prima scorsa
PROBABILITÀ - SCHEDA N. 3 VARIABILI ALEATORIE CONTINUE E SIMULAZIONE
PROBABILITÀ - SCHEDA N. 3 VARIABILI ALEATORIE CONTINUE E SIMULAZIONE (da un idea di M. Impedovo Variabili aleatorie continue e simulazione Progetto Alice n. 15, ) 1. La simulazione Nelle schede precedenti
sensori per cilindri magnetic sensors for cylinders
Schema di collegamento: fili Wiring diagram: wires Modello Model RS1-A RS-A RS5-C RS-A RS-A Funzione Function Reed NC Reed NC Numero fili Number of wires Lunghezza cavo Lenght of wires Connettore Connector
Blanchard, Macroeconomia, Il Mulino Capitolo V. I mercati dei beni e i mercati finanziari: il modello IS-LM
Capitolo V. I mercati dei beni e i mercati finanziari: il modello IS-LM 1. Il mercato dei beni e la curva IS L equilibrio sul mercato dei beni attraverso la condizione di uguaglianza tra produzione, Y,
Economia Politica (Mod I) Nota integrativa n. 3
Economia Politica (Mod I) Nota integrativa n. 3 I costi di produzione Mankiw, Capitolo 13 Premessa Nell analisi della legge dell offerta, vista fino a questo momento, abbiamo sinteticamente descritto le
TLR05S-350. Extender in corrente costante, 3 x 350mA per TLR04M_
TLR05S-350 Extender in corrente costante, 3 x 350mA per TLR04M_350-500 IT DATI TECNICI Alimentazione Uscita Tipo di carico Sistema di collegamento master/slave/slave Distanza massima delle connessioni
