Linguistica Computazionale

Похожие документы
Parole e frequenze. Alessandro Lenci

Linguistica Computazionale

Linguistica Computazionale

informatica di base per le discipline umanistiche

La Statistica: introduzione e approfondimenti

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

Concetti base - Classificazione dei caratteri. Antonello Maruotti

LA STATISTICA

MODELLI QUANTITATIVI. f x r = c

11. Il lessico dei testi

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

Distribuzioni e rappresentazioni grafiche

Metodologia Statistica

STATISTICHE DESCRITTIVE Parte II

Classificazione dei caratteri

CURRICOLO DI ITALIANO CLASSE PRIMA

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

Università degli Studi di Cassino. Corso di Laurea in Economia Aziendale. Corso di. Statistica. Docente: Simona Balzano.

Statistica. (Dr. Elvira Di Nardo)

ESERCITAZIONI N. 1 Corso di Statistica

Matematica per psicologi

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

1 Modulo operativo: Le abilità linguistiche: ascoltare. 2 Modulo operativo: Le abilità linguistiche: parlare

PROGETTAZIONE DISCIPLINARE. LINGUA ITALIANA classe 5^

ISTITUTO COMPRENSIVO CASTELLO DI SERRAVALLE - SAVIGNO

Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

Indagine statistica. Indagine Totale Indagine Campionaria Fasi dell indagine

LEZIONI DI STATISTICA MEDICA

Scale di Misurazione Lezione 2

Statistica. Lezione 1

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Lezione 1. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 1. A. Iodice.

Università di Cassino Corso di Statistica 1 Esercitazione del 14/01/2008 Dott. Alfonso Piscitelli

Linguistica Computazionale

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

LA MISURA IN PSICOLOGIA

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie

Analizzare in termini quantitativi significa basarsi su dati e non su idee o ipotesi

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Campionamento La statistica media campionaria e la sua distribuzione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Fonti e strumenti statistici per la comunicazione

08/04/2014. Misure di posizione. INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA

Titolo della lezione Corso di Statistica Prof. Andrea CICCARELLI

PROGETTAZIONE DISCIPLINARE

PROGETTARE E CONDURRE UN INDAGINE STATISTICA. Qualche richiamo per cominciare

Tipi di variabili. Indici di tendenza centrale e di dispersione

APPUNTI DI STATISTICA

Транскрипт:

Linguistica Computazionale Frequenze di parole 7 ottobre 2014

Statistica terminologia di base Popolazione (collettivo) l insieme delle entità (oggetti, individui, eventi, ecc.) che rappresentano il dominio di interesse e di ricerca, su cui vogliamo acquisire conoscenza l Università, ecc. Unità statistiche gli elementi che compongono la popolazione gli studenti universitari (ma anche le facoltà, i dipartimenti, ecc.) Variabili attributi delle unità statistiche, che vengono misurate e/o rilevate età, reddito, provenienza, sesso, ecc. i valori che possono assumere le variabili si dicono modalità sesso = {M, F} età = {20, 25, ecc.} 2

Statistica terminologia di base Le variabili sono di tipo diverso a seconda del tipo di valori che ammettono nominali (o categoriali) hanno un numero finito di valori che definiscono classi a cui appartengono le unità statistiche (sesso, provenienza, categoria grammaticale, ecc.) non esistono relazioni di ordinamento tra le unità, ma solo di appartenenza o meno alla stessa classe ordinali hanno valori (gradi) che permettono di confrontare le unità statistiche ordinandole lungo una scala (voti degli esami, ecc.) differenze tra i gradi della scala non sono comparabili intervallo (o ratio) hanno valori che permettono di stabilire non solo relazioni di ordinamento, ma anche di comparare le differenze e i rapporti tra i valori (es. altezza, lunghezza in caratteri di una parola, ecc.) 3

Statistica terminologia di base Le unità statistiche differiscono per uno o più valori nelle variabili gli studenti hanno diversa provenienza, diversa età, ecc. La rilevazione del valore delle variabili delle unità statistiche fornisce i dati a partire dai quali si cerca di acquisire conoscenza sul comportamento della popolazione dati statistica descrittiva statistica inferenziale conoscenza 4

Statistica terminologia di base In generale i dati vengono acquisiti su un sottoinsieme della variabili popolazione (campione) unità statistiche studente sesso provenienza età 34356 M Pisa 19 43553 F Lucca 22 I dati raccolti vengono riassunti attraverso le distribuzioni di frequenza per ogni modalità x viene specificato quante unità nel campione hanno x (frequenza di x) provenienza F modalità della variabile Pisa 45 Lucca 72 Viareggio 29 5

Statistica distribuzione di frequenze Provenienza 80 70 60 Frequenze 50 40 Provenienza 30 20 10 0 Pisa Lucca Viareggio Livorno Firenze Bologna Roma Milano Modalità della variabile 6

Statistica e testo Popolazione linguistica linguaggio oggetto di studio Campione corpus di testi della popolazione linguistica Unità statistiche parole altre unità linguistiche possono essere scelte come unità statistiche morfemi, sintagmi, frasi, ecc. 7

(Word) Tokens <t n="1">non</t><t n="2">era</t><t n="3">un</t><t n="4">legno</t><t n="5">di</t><t n="6">lusso</ t><t n="7">ma</t><t n="8">un</t><t n="9">semplice</t><t n="10">pezzo</t><t n="11">da</t><t n="12">catasta</t><t n="13">di</t><t n="14">quelli</t><t n="15">che</t><t n="16">d </t><t n="17">inverno</t><t n="18">si</t><t n= 19">mettono</t><t n="20">nelle</t><t n="21">stufe</t><t n="22">e</t><t n="23">nei</t><t n="24">caminetti</t><t n="25">per</t><t n="26">accendere</t><t n="27">il</t><t n="28">fuoco</t><t n= 29">e</t><t n="30">per</t><t n="31">riscaldare</t><t n="32">le</t><t n="33">stanze</t> Frammento 1 Ogni (word) token (o parola unità) rappresenta una distinta occorrenza di parola nel testo NB: le parole sono un sottoinsieme dei token di un testo Le parole token sono le unità statistiche 8

Attributi delle parole Gli attributi di una parola unità sono le dimensioni che la caratterizzano e possono essere operazionalizzate come variabili (tipicamente di natura categoriale) tipo, lemma, categoria grammaticale, lunghezza in caratteri, ecc. attributi parole unità ATTRIBUTO CATEGORIA (PAROLA) TIPO LEMMA LUN parola unità GRAMMATICAL E Non 1 non NON 3 AVVERBIO era 2 era ESSERE 3 VERBO un 3 un UN 2 ARTICOLO legno 4 legno LEGNO 5 NOME di 5 di DI 2 PREPOSIZIONE lusso 6 lusso LUSSO 5 NOME ma 7 ma MA 2 CONGIUNZIONE un 8 un UN 2 ARTICOLO semplice 9 semplice SEMPLICE 8 AGGETTIVO pezzo 10 pezzo PEZZ O 5 NOME da 11 da DA 2 PREPOSIZIONE catasta 12 catasta CATASTA 7 NOME valori degli attributi

Statistica e testo Gli attributi delle parole unità formano le variabili statistiche da rilevare Dato un attributo, contare quante parole unità ricorrono con un certo valore v dell attributo significa calcolare la frequenza (assoluta) di v quanti tokens sono nomi? = frequenza dei nomi quanti tokens appartengono al lemma CANE? = frequenza di CANE (Word) type (parola tipo) classe di tutti i tokens che contengono la stessa sequenza di caratteri due parole unità appartengono allo stesso tipo se sono formalmente indistinguibili a prescindere dalla posizione che occupano nel testo l individuazione del tipo di parola non tiene conto di ulteriori analisi linguistiche (es. lemmatizzazione, ecc.) 10

Tokens e types La porta è chiusa. La strada porta al mare. tokens porta type PORTA PORTARE lemmi 11

Distribuzione di frequenze di parole Frequenza (assoluta) di una parola tipo v i (v i ) numero delle occorrenze (tokens) della parola tipo v i in un testo esempio: nel Frammento 1, di = 2 frequenze parola tipo 12

Frequenze di parole Lunghezza del corpus (C) numero di tokens nel testo Se v 1,, v n sono i types del testo vale che v + 1 v + 2 v + 3... + v = n C In generale, le frequenze assolute di due distribuzioni, non sono confrontabili, in quanto si riferiscono a un diverso numero totale di unità Frequenza relativa di una parola (f(v i )) f ( vi ) = v i C v normalizzata come i 100 percentuale C 13

Il vocabolario Vocabolario del corpus (V C ) numero delle parole tipo distinte (type) nel corpus esempio Nel Frammento 1, V C = 29 Alcune distinzioni importanti Vocabolario del corpus insieme dei type distinti che ricorrono nel corpus Lessico repertorio di tutte le parole possibili di quella lingua (oppure di tutte le parole conosciute da quel parlante) insieme potenzialmente infinito di parole Dizionario repertorio di lemmi e forme flesse di una lingua selezionato per qualche scopo 14

Distribuzioni di frequenze ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione, senza distinzione alcuna, per ragioni di razza, di colore, di sesso, di lingua, di religione, di opinione politica o di altro genere, di origine nazionale o sociale, di ricchezza, di nascita o di altra condizione. nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico, giuridico o internazionale del paese o del territorio cui una persona appartiene, sia indipendente, o sottoposto ad amministrazione fiduciaria o non autonomo, o soggetto a qualsiasi limitazione di sovranità. C = 105 tokens V C = 70 types parola freq. freq. rel., 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02. 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 15

Il vocabolario Classe di frequenza (V i ) l insieme dei type che hanno come frequenza i V 4 = l insieme dei type che hanno frequenza 4 V 1 = l insieme dei type che ricorrono una volta sola (hapax legomena) V 1 + V2 + V3 +... + V f max = Vc La ripetizione di una stessa parola tipo v determina il passaggio di v da una classe V i alla classe V i+1 non cambia però il valore complessivo di V c perché non viene inserito un nuovo tipo in V c Con le classi di frequenza è possibile ricostituire la lunghezza del corpus: max V1 1+ V2 2+ V3 3+... + V f max = C 16

Classi di frequenza ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione, senza distinzione alcuna, per ragioni di razza, di colore, di sesso, di lingua, di religione, di opinione politica o di altro genere, di origine nazionale o sociale, di ricchezza, di nascita o di altra condizione. nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico, giuridico o internazionale del paese o del territorio cui una persona appartiene, sia indipendente, o sottoposto ad amministrazione fiduciaria o non autonomo, o soggetto a qualsiasi limitazione di sovranità. parola freq. freq. rel., 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02. 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 V 1 = 63 V 2 = 4 V 8 = 1 V 12 = 1 V 14 = 1 17

Il vocabolario Spettro di frequenze permette di analizzare la distribuzione delle parole tipo in classi di frequenza grafico che si ottiene mettendo in ascissa valori crescenti di classi di frequenza i da 1 a max; sulle ordinate, riportiamo quante parole tipo hanno frequenza i Gli hapax formano la classe più numerosa: 3270 membri. Le classi di frequenza i > 10 contengono ciascuna fino a un massimo di 40 parole tipo circa parole tipo 4000 3000 2000 1000 0 spettro di frequenze in Pinocchio classi di frequenza riportate in scala logaritmica 1 10 100 1000 10000 classe frequenza 18

Indici statistici del testo ricchezza lessicale Rapporto tipo-unità (Type Token Ratio o TTR) la ricchezza lessicale come funzione del numero di parole diverse esempio Frammento 1, TTR = 29/33 = 0,87 Distribuzione degli hapax V 0 C V C 1 Square TTR C C Frammento 1 V1 25 hapax C 25/33= 0,75 19

Frequenze cumulate Frequenze cumulate di parole unità per ogni classe di frequenza i, f ci è il numero di parole unità che ricorrono da 1 a i volte f i c = V 1+ V 2 +... + V 1 2 i i se dividiamo f ci per C, otteniamo la frequenza relativa cumulata la percentuale di testo coperta dal numero di parole unità corrispondente a f ci 20

Frequenze cumulate Frequenze cumulate di parole tipo per ogni classe i, V ci è uguale al numero di parole tipo che appaiono nel testo da 1 a i volte V c = V + V +... + i V 1 2 i se dividiamo V ci per V C, otteniamo la frequenza relativa cumulata di parole tipo la percentuale di vocabolario coperta dal numero di parole tipo corrispondente a V ci 21

Frequenze cumulate in Pinocchio Il 90% del vocabolario di Pinocchio copre poco più del 28% della lunghezza complessiva del libro la maggior parte delle parole tipo sono parole rare (riccorrono poche volte nel testo) 100 91.65% 99.20% 50 54.73% 60.91% 28.18% 0 8.08% 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo 22

Frequenze cumulate Due testi possono presentare fino al 70% di parole unità in comune anche quando i loro rispettivi vocabolari non si sovrappongono per più del 10% bastano poche differenze testuali per far parlare due documenti di cose completamente diverse Due categorie di parole parole grammaticali (congiunzioni, articoli, preposizioni, ecc.) formano il tessuto connettivo grammaticale del testo sempre molto frequenti, indipendentemente dall argomento del testo poco informative lista chiusa e ristretta parole lessicalmente piene (nomi, aggettivi, verbi, ecc.) sono i portatori del vero contenuto informativo meno frequenti e i tipi di parola dipendono dall argomento del testo lista aperta e potenzialmente infinita 23