Linguistica Computazionale. 12 ottobre 2016

Documenti analoghi
Linguistica Computazionale

Linguistica Computazionale. 17 ottobre 2017

Parole e frequenze. Alessandro Lenci

La scala logaritmica

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

Linguistica Computazionale

Linguistica Computazionale. 18 ottobre 2016

Linguistica Computazionale. 30 novembre 2016

Linguistica Computazionale. 25 ottobre 2016

Linguistica Computazionale. 11 ottobre 2016

IL PENDOLO REVERSIBILE DI KATER

Il piano cartesiano, la retta e le funzioni di proporzionalità

þ k Þy ¼ ð 1 3k Þx 2 þ 21 k

Linguistica Computazionale

Modelli di secondo grado

Obiettivi dell unità didattica

La statistica descrittiva

DEL DIPARTIMENTO DI MATEMATICA

DINAMICA DI SISTEMI AEROSPAZIALI

L EQUAZIONE DIFFERENZIALE DELLA LINEA ELASTICA

LE POTENZE DEI NUMERI

Interpolazione Lineare. Emilia Pecori anno scolastico

Esempio di risoluzione di struttura iperstatica col metodo misto. Complemento alla lezione 47/50: Telai a nodi mobili

Linguistica Computazionale. 7 novembre 2017

I materiali. I materiali. Introduzione al corso. Tecnologia di produzione I materiali La misura della durezza. Le prove meccaniche distruttive

kx 1 cos 2 ax 3 kx 2 cos 2 ax 3 ak 2 (x2 1 + x2 2 ) sin 2ax 3

Scopo dell esperienza: verificare le leggi del pendolo e la validità dell approssimazione delle piccole oscillazioni.

Le affinità. Una affinità è una corrispondenza biunivoca fra i punti di un piano che ha come invarianti l allineamento dei punti e il parallelismo.

informatica di base per le discipline umanistiche

Università di Pisa. Esame di SCIENZA DELLE COSTRUZIONI I Corso di Laurea in Ingegneria Civile, Ambientale e Edile

1) Scrivere le espressioni lagrangiane delle energie cinetica e potenziale e usarle per scrivere le equazioni di Lagrange per il sistema.

Le disequazioni CAPITOLO 2 1. LE DISEQUAZIONI CON DERIVE

Le funzioni goniometriche

Linguistica Computazionale. 8 novembre 2017

Prof. Roma Carmelo CARICO DI PUNTA

Prof. Roma Carmelo CARICO DI PUNTA

Linguistica Computazionale. 24 ottobre 2017

Due incognite ipertstatiche con cedimento elastico lineare sul vincolo

Esercitazione 4 - Forze distribuite

RAPPRESENTARE LA TERRA

x -x-2 =3 x 2 x-2 lim

II Appello 2011 Misure Elettriche. Esercizio 1 (punti 6) È dato il sistema trifase simmetrico in cui sono collegati i seguenti strumenti di misura

Risoluzione di una trave iperstatica soggetta a cedimento vincolare col metodo delle forze

MODELLI QUANTITATIVI. f x r = c

La nuova norma europea sui blocchi in laterizio da solaio: parte I Vincenzo Bacco

Il modello quadratico di sopravvivenza (versione provvisoria)

Figura 1.1. La struttura illustrata in figura risulta essere, dall analisi cinematica, una struttura due volte iperstatica a nodi spostabili.

non ha significato in R ¼

VI. POLINOMI ORTOGONALI

FM210 - Fisica Matematica I

Grafici di particolari funzioni lineari

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Nicola De Rosa, Liceo scientifico sperimentale sessione straordinaria 2012, matematicamente.it

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Linguistica Computazionale. 28 novembre 2016

Scale Logaritmiche. Matematica con Elementi di Statistica, Anna Torre a.a

Le equazioni e le disequazioni lineari

informatica di base per le discipline umanistiche

Figure piane. Due figure sono congruenti se sovrapposte coincidono perfettamente. figure a contorno mistilineo

PROBLEMA 1 RISOLUZIONE. Punto 1

IL CALCOLO DEI LIMITI. Le operazioni sui limiti Le forme indeterminate le funzioni continue Gli asintoti Il grafico probabile di una funzione

Statistica. Alfonso Iodice D Enza

Rappresentazione e codifica dell informazione

Rappresentazione e codifica dell informazione

Lezione 2 Equazioni famose

Un metodo di calcolo per le strutture monodimensionali piane

Linguistica Computazionale. 19 ottobre 2016

La risposta numerica deve essere scritta nell apposito riquadro e giustificata accludendo i calcoli relativi.

ROTAZIONI DEGLI ESTREMI DI UNA TRAVE PRISMATICA APPOGGIATA ALLE ESTREMITÁ E SOGGETTA AD UN CARICO VERTICALE

LIMITI E CONTINUITA. 1. Sul concetto di limite

Laboratorio di Algoritmi e Strutture Dati

i(t) + v(t) S + + R C

VI. POLINOMI ORTOGONALI

Soluzione di Strutture Iperstatiche: Il Metodo delle Forze

algoritmi e strutture di dati

DINAMICA DI SISTEMI AEROSPAZIALI

Predittori ad albero

Linguistica Computazionale

Linguistica Computazionale. 11 ottobre 2017

APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD

Esempio di risoluzione di struttura iperstatica col metodo misto. Complemento alla lezione 46/50: Il metodo misto

Liceo Scientifico L. Cremona. Classe 5E. Novembre Verifica di Fisica. Docente: Mauro Saita Induzione elettromagnetica

Appunti sulle Equazioni differenziali. Franco Rampazzo

Statistica. Alfonso Iodice D Enza

Esercizi. 1. Disegnare il grafico qualitativo della seguente funzione:

1. LA PARABOLA CON GEOGEBRA

Astronomia Parte I Proprietà fondamentali delle stelle

Elasticità e durezza

Soluzione della prova scritta di Fisica 1 del 10/09/2013. Figura 1: Quesito 1

Linguistica Computazionale. 26 ottobre 2016

3.5 Funzioni d onda di un elettrone sottoposto a forze centrali z per gli atomi idrogenoidi si ottiene risolvendo l equazione di

Scale Logaritmiche. Matematica con Elementi di Statistica a.a. 2015/16

Linguistica Computazionale. 27 settembre 2016

Esercitazione 7 del corso di Statistica 2

Ricerca di massimi e minimi col metodo della derivata prima

Rappresentazioni grafiche di distribuzioni doppie

Esercitazione 7 del corso di Statistica 2

Esercitazione 1 - Soluzioni

Transcript:

Linguistica Computazionae 12 ottobre 2016

Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Frequenza dee paroe sort input_fie uniq c 2

Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Frequenza dee paroe, ordinata per frequenza discendente sort input_fie uniq c sort -nr 3

Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Estrazione de vocaboario sort input_fie uniq Numero di token compessivi wc input_fie Numero di types compessivi sort input_fie uniq wc 4

Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Cacoo dea frequenza reativa sort input_token.txt uniq -c sort -nr awk '{print $1 "\t" $2 "\t" $1/freq_tot}' 5

Anaisi statistica con a she di Linux Input: fie tokenizzato, un token per riga Cacoo dee cassi di frequenza sort input_token.txt uniq -c awk '{print $1}' sort uniq -c sort nk2 cardinaità dea casse di frequenza indice di frequenza 6

Distribuzione dea frequenza dee paroe Rango di una paroa (r v ) posizione occupata da una paroa in un ordinamento di frequenza discendente Le 30 paroe più frequenti in Pinocchio 7

Distribuzione dea frequenza dee paroe Distribuzione dee frequenze dee paroe in Pinocchio rispetto a oro rango 8

La Legge di Zipf Legge di Zipf (George Kingsey Zipf, 1949) a frequenza di una paroa è inversamente proporzionae a suo rango f ( z) = C a z f(z) = frequenza dea paroa di rango z C è una costante corrispondente aa frequenza dea paroa di rango 1 C dipende daa unghezza de corpus e da suo vocaboario a è un indice inverso dea ricchezza essicae de corpus più grande a e più ristretto è i vocaboario de corpus per Zipf, a 1 9

La Legge di Zipf Per a = 1, vae che f(1) = C f(2) = C/2 f(3) = C/3 in generae, a crescere de rango, o scarto (C/n)-(C/n+1) tra a frequenza dea paroa di rango n e a frequenza dea paroa di rango n-1 diminuisce progressivamente a aumentare de rango a frequenza diminuisce sempre più entamente La Legge di Zipf prevede un decremento progressivo dea frequenza di una paroa proporzionae a aumentare de suo rango a paroa di rango 2 dovrebbe ricorrere a metà dee vote dea paroa più frequente paroe che appaiono moto in basso nea ista di Zipf tendono ad avere frequenze simii a coda dea curva di Zipf conterrà dunque tante paroe con frequenza 1: gi hapax 10

La Legge di Zipf La Legge di Zipf in doppia scaa ogaritmica 10000 andamento teorico previsto aa Legge di Zipf C = 6185 a=1,04 frequenza 1000 100 10 y = 6185.5x -1.0418 andamento de rapporto tra rango e frequenza osservato in Pinocchio 1 1 10 100 1000 10000 rango 11

I ogaritmi I ogaritmo in base a di un numero x è 'esponente da dare ad a per ottenere x se x = a y, aora y = og a x og a a = 1 og a 1 = 0 (i og in quasiasi base di 1 è 0) 12

I ogaritmi Acune proprietà dei ogaritmi og m (a * b) = og m a + og m b og m (a/b) = og m a - og m b La scaa ogaritmica ingrandisce e distanze tra i punti vicini ao zero e comprime e stesse distanze tra punti ontani dao zero 0 0,1 1 2 3 4 5 6 7 8 9 10 100-1 0 1 2 trasforma rapporti costanti tra distanze in differenze costanti 10/1 = 1000/100 og(10) og(1) = og(1000)-og(100) 13

La Legge di Zipf La egge di Zipf in doppia scaa ogaritmica diventa equazione di una retta (per e proprietà dei ogaritmi) og f ( z) = ogc a og z intercetta su asse y corrisponde a og (C) og dea frequenza massima ne corpus intercetta de asse x corrisponde a rango in cui incominciamo a trovare hapax a pendenza dea retta è data da a (coefficiente angoare) dipende daa ricchezza essicae de testo In scaa ogaritmica f(1)-f(10) = f(100)-f(10) = f(1000)-f(100), ecc. secondo a egge di Zipf e frequenze per paroe con ranghi ati decrescono moto più entamente 14

Equazione dea retta y = mx + q m è i coefficiente angoare e determina a pendenza (positiva o negativa) di una retta q è intercetta, ovvero i punto in cui a retta incrocia asse y se q = 0, a retta passa per origine 15

La Legge di Zipf La Legge di Zipf è una egge teorica dea distribuzione dee paroe in un testo, che approssima a distribuzione reae maggiori discostamenti nea testa e nea coda dea distribuzione nee distribuzioni reai, a coda dea retta è costituita da gradoni sempre più arghi esistono più paroe con a stessa frequenza e i numero di queste aumenta a aumentare de rango In ogni testo (e in ogni ingua) a distribuzione dee paroe approssima a Legge di Zipf a retta varia nea pendenza e nee intercette a Legge di Zipf definisce una famigia di distribuzioni che dipendono da C e da a 16

Invarianza di scaa La Legge di Zipf fa parte dee eggi di potenza (power aws) y=ax k cf. frattai (Mandebrot) Le eggi di potenza godono dea proprietà di invarianza di scaa motipicando argomento per un fattore di scaa c, i vaore dea funzione viene motipicato di un fattore c k f(cx) = a(cx) k =c k f(x) es. funzione ineare: y = 3x => 2(y) = 3(2x) Ampiando a dimensione de testo, si ha soo un cambiamento di scaa, che non muta a forma dea distribuzione di Zipf 17

La Legge di Zipf e invarianza di scaa Brown BNC Wikipedia ukwac 18

Atre Leggi di Zipf La frequenza di una paroa è correata ad atre sue proprietà e paroe più frequenti sono più corte ( = unghezza in caratteri) f v 1 v e paroe più frequenti hanno più significati (s = significati di una paroa) sv f v Atri eventi ne mondo si distribuiscono secondo a Legge di Zipf accessi ai siti web numero degi abitanti per città distribuzione de reddito reti sociai (socia networks) 19