Linguistica Computazionale

Documenti analoghi
Linguistica Computazionale. 17 ottobre 2017

informatica di base per le discipline umanistiche

Parole e frequenze. Alessandro Lenci

Linguistica Computazionale. 11 ottobre 2016

Linguistica Computazionale

Linguistica Computazionale

Rappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

informatica di base per le discipline umanistiche

Progetto Patrimonio Linguistico o delle Parole Mancanti

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

La Statistica: introduzione e approfondimenti

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

Modelli descrittivi, statistica e simulazione

Concetti base - Classificazione dei caratteri. Antonello Maruotti

LA STATISTICA

MODELLI QUANTITATIVI. f x r = c

11. Il lessico dei testi

Classificazione dei caratteri

Laboratorio di matematica: processamento, interpretazione ed elaborazione dei dati

Pedagogia sperimentale

Classificazione dei caratteri

I fenomeni collettivi sono quei fenomeni il cui studio richiede una pluralità di osservazioni.

informatica di base per le discipline umanistiche

UNIVERSITA DEGLI STUDI DI PERUGIA STATISTICA MEDICA. Prof.ssa Donatella Siepi tel:

informatica di base per le discipline umanistiche

Distribuzioni e rappresentazioni grafiche

Data set relativo a 40 titolari di esercizi commerciali. Durata del percorso casa lavoro (in minuti) Numero dipendenti che lavorano nel negozio

Metodologia Statistica

La struttura dei dati

STATISTICHE DESCRITTIVE Parte II

Statistica descrittiva in una variabile

Unità Carattere Modalità

Classificazione dei caratteri

Statistica Sociale - modulo A

Lez. 9. Gli spogli lessicali. Parte seconda 02/11/09

CURRICOLO DI ITALIANO CLASSE PRIMA

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Campionamento 29/4/2005

Capitolo 1 La rilevazione dei fenomeni statistici

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

CORSO DI STATISTICA MEDICA Prof. Enzo Ballone

Università degli Studi di Cassino. Corso di Laurea in Economia Aziendale. Corso di. Statistica. Docente: Simona Balzano.

Statistica. (Dr. Elvira Di Nardo)

ESERCITAZIONI N. 1 Corso di Statistica

Statistica Descrittiva - Lezione 1

Matematica per psicologi

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

(f o -f a ) f a fo = frequenza osservata fa = frequenza attesa per effetto del caso (cioè se è vera l'ipotesi nulla) DISEGNI CON UNA SOLA VARIABILE

1 Modulo operativo: Le abilità linguistiche: ascoltare. 2 Modulo operativo: Le abilità linguistiche: parlare

Unità Carattere Modalità

PROGETTAZIONE DISCIPLINARE. LINGUA ITALIANA classe 5^

Dott.ssa Marta Di Nicola

RILEVAZIONI STATISTICHE

Dipartimento di Fisica a.a. 2003/2004 Fisica Medica 2 Indici statistici 22/4/2005

ISTITUTO COMPRENSIVO CASTELLO DI SERRAVALLE - SAVIGNO

Definizioni preliminari:

Stefania Taralli Anno Accademico 2017/2018 1

Misurazione dei caratteri quantitativi

Distribuzione di frequenza relativa e percentuale: esempio

Gli strumenti statistici

Introduzione alla statistica descrittiva

LE CONCORDANZE. Gli spogli lessicali CONCORDANZE - 2. I caratteri jolly. Il formato KWIC 27/03/14. Parte seconda

Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

-Validità di un test diagnostico: Sensibilità e Specificità

Indagine statistica. Indagine Totale Indagine Campionaria Fasi dell indagine

LEZIONI DI STATISTICA MEDICA

Scale di Misurazione Lezione 2

Statistica. Lezioni: 3, 4. Statistica Descrittiva Univariata 2

Statistica. Lezione 1

Criteri per la validazione dei termini dell estrazione automatica. (Versione 2) Elisa Bianchi

Corso di laurea in Comunicazione pubblica e d'impresa. Docente: Mariangela Zenga Ricevimento: mercoledì

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Lezione 1. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 1. A. Iodice.

Università di Cassino Corso di Statistica 1 Esercitazione del 14/01/2008 Dott. Alfonso Piscitelli

Linguistica Computazionale

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

LA MISURA IN PSICOLOGIA

Lezione 2. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 2. A. Iodice. Distribuzioni unitarie

Concetti Introduttivi Lezione 1

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Analizzare in termini quantitativi significa basarsi su dati e non su idee o ipotesi

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Campionamento La statistica media campionaria e la sua distribuzione

Suggerimento a proposito di decimali

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Prof.ssa M. Di Nicola

Fonti e strumenti statistici per la comunicazione

08/04/2014. Misure di posizione. INDICI DI POSIZIONE (measures of location or central tendency) 1. MODA 2. MEDIA 3. MEDIANA

Titolo della lezione Corso di Statistica Prof. Andrea CICCARELLI

Statistica: la scienza dei dati. Prof. Stefano Bonnini

NOZIONE DI VARIABILE. Varie accezioni

PROGETTAZIONE DISCIPLINARE

PROGETTARE E CONDURRE UN INDAGINE STATISTICA. Qualche richiamo per cominciare

Tipi di variabili. Indici di tendenza centrale e di dispersione

APPUNTI DI STATISTICA

Statistica e informatica

Lo spazio lessicale della poesia antico inglese

Psicometria con Laboratorio di SPSS 1

Transcript:

Linguistica Computazionale Frequenze di parole 7 ottobre 2014

Statistica terminologia di base Popolazione (collettivo) l insieme delle entità (oggetti, individui, eventi, ecc.) che rappresentano il dominio di interesse e di ricerca, su cui vogliamo acquisire conoscenza l Università, ecc. Unità statistiche gli elementi che compongono la popolazione gli studenti universitari (ma anche le facoltà, i dipartimenti, ecc.) Variabili attributi delle unità statistiche, che vengono misurate e/o rilevate età, reddito, provenienza, sesso, ecc. i valori che possono assumere le variabili si dicono modalità sesso = {M, F} età = {20, 25, ecc.} 2

Statistica terminologia di base Le variabili sono di tipo diverso a seconda del tipo di valori che ammettono nominali (o categoriali) hanno un numero finito di valori che definiscono classi a cui appartengono le unità statistiche (sesso, provenienza, categoria grammaticale, ecc.) non esistono relazioni di ordinamento tra le unità, ma solo di appartenenza o meno alla stessa classe ordinali hanno valori (gradi) che permettono di confrontare le unità statistiche ordinandole lungo una scala (voti degli esami, ecc.) differenze tra i gradi della scala non sono comparabili intervallo (o ratio) hanno valori che permettono di stabilire non solo relazioni di ordinamento, ma anche di comparare le differenze e i rapporti tra i valori (es. altezza, lunghezza in caratteri di una parola, ecc.) 3

Statistica terminologia di base Le unità statistiche differiscono per uno o più valori nelle variabili gli studenti hanno diversa provenienza, diversa età, ecc. La rilevazione del valore delle variabili delle unità statistiche fornisce i dati a partire dai quali si cerca di acquisire conoscenza sul comportamento della popolazione dati statistica descrittiva statistica inferenziale conoscenza 4

Statistica terminologia di base In generale i dati vengono acquisiti su un sottoinsieme della variabili popolazione (campione) unità statistiche studente sesso provenienza età 34356 M Pisa 19 43553 F Lucca 22 I dati raccolti vengono riassunti attraverso le distribuzioni di frequenza per ogni modalità x viene specificato quante unità nel campione hanno x (frequenza di x) provenienza F modalità della variabile Pisa 45 Lucca 72 Viareggio 29 5

Statistica distribuzione di frequenze Provenienza 80 70 60 Frequenze 50 40 Provenienza 30 20 10 0 Pisa Lucca Viareggio Livorno Firenze Bologna Roma Milano Modalità della variabile 6

Statistica e testo Popolazione linguistica linguaggio oggetto di studio Campione corpus di testi della popolazione linguistica Unità statistiche parole altre unità linguistiche possono essere scelte come unità statistiche morfemi, sintagmi, frasi, ecc. 7

(Word) Tokens <t n="1">non</t><t n="2">era</t><t n="3">un</t><t n="4">legno</t><t n="5">di</t><t n="6">lusso</ t><t n="7">ma</t><t n="8">un</t><t n="9">semplice</t><t n="10">pezzo</t><t n="11">da</t><t n="12">catasta</t><t n="13">di</t><t n="14">quelli</t><t n="15">che</t><t n="16">d </t><t n="17">inverno</t><t n="18">si</t><t n= 19">mettono</t><t n="20">nelle</t><t n="21">stufe</t><t n="22">e</t><t n="23">nei</t><t n="24">caminetti</t><t n="25">per</t><t n="26">accendere</t><t n="27">il</t><t n="28">fuoco</t><t n= 29">e</t><t n="30">per</t><t n="31">riscaldare</t><t n="32">le</t><t n="33">stanze</t> Frammento 1 Ogni (word) token (o parola unità) rappresenta una distinta occorrenza di parola nel testo NB: le parole sono un sottoinsieme dei token di un testo Le parole token sono le unità statistiche 8

Attributi delle parole Gli attributi di una parola unità sono le dimensioni che la caratterizzano e possono essere operazionalizzate come variabili (tipicamente di natura categoriale) tipo, lemma, categoria grammaticale, lunghezza in caratteri, ecc. attributi parole unità ATTRIBUTO CATEGORIA (PAROLA) TIPO LEMMA LUN parola unità GRAMMATICAL E Non 1 non NON 3 AVVERBIO era 2 era ESSERE 3 VERBO un 3 un UN 2 ARTICOLO legno 4 legno LEGNO 5 NOME di 5 di DI 2 PREPOSIZIONE lusso 6 lusso LUSSO 5 NOME ma 7 ma MA 2 CONGIUNZIONE un 8 un UN 2 ARTICOLO semplice 9 semplice SEMPLICE 8 AGGETTIVO pezzo 10 pezzo PEZZ O 5 NOME da 11 da DA 2 PREPOSIZIONE catasta 12 catasta CATASTA 7 NOME valori degli attributi

Statistica e testo Gli attributi delle parole unità formano le variabili statistiche da rilevare Dato un attributo, contare quante parole unità ricorrono con un certo valore v dell attributo significa calcolare la frequenza (assoluta) di v quanti tokens sono nomi? = frequenza dei nomi quanti tokens appartengono al lemma CANE? = frequenza di CANE (Word) type (parola tipo) classe di tutti i tokens che contengono la stessa sequenza di caratteri due parole unità appartengono allo stesso tipo se sono formalmente indistinguibili a prescindere dalla posizione che occupano nel testo l individuazione del tipo di parola non tiene conto di ulteriori analisi linguistiche (es. lemmatizzazione, ecc.) 10

Tokens e types La porta è chiusa. La strada porta al mare. tokens porta type PORTA PORTARE lemmi 11

Distribuzione di frequenze di parole Frequenza (assoluta) di una parola tipo v i (v i ) numero delle occorrenze (tokens) della parola tipo v i in un testo esempio: nel Frammento 1, di = 2 frequenze parola tipo 12

Frequenze di parole Lunghezza del corpus (C) numero di tokens nel testo Se v 1,, v n sono i types del testo vale che v + 1 v + 2 v + 3... + v = n C In generale, le frequenze assolute di due distribuzioni, non sono confrontabili, in quanto si riferiscono a un diverso numero totale di unità Frequenza relativa di una parola (f(v i )) f ( vi ) = v i C v normalizzata come i 100 percentuale C 13

Il vocabolario Vocabolario del corpus (V C ) numero delle parole tipo distinte (type) nel corpus esempio Nel Frammento 1, V C = 29 Alcune distinzioni importanti Vocabolario del corpus insieme dei type distinti che ricorrono nel corpus Lessico repertorio di tutte le parole possibili di quella lingua (oppure di tutte le parole conosciute da quel parlante) insieme potenzialmente infinito di parole Dizionario repertorio di lemmi e forme flesse di una lingua selezionato per qualche scopo 14

Distribuzioni di frequenze ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione, senza distinzione alcuna, per ragioni di razza, di colore, di sesso, di lingua, di religione, di opinione politica o di altro genere, di origine nazionale o sociale, di ricchezza, di nascita o di altra condizione. nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico, giuridico o internazionale del paese o del territorio cui una persona appartiene, sia indipendente, o sottoposto ad amministrazione fiduciaria o non autonomo, o soggetto a qualsiasi limitazione di sovranità. C = 105 tokens V C = 70 types parola freq. freq. rel., 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02. 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 15

Il vocabolario Classe di frequenza (V i ) l insieme dei type che hanno come frequenza i V 4 = l insieme dei type che hanno frequenza 4 V 1 = l insieme dei type che ricorrono una volta sola (hapax legomena) V 1 + V2 + V3 +... + V f max = Vc La ripetizione di una stessa parola tipo v determina il passaggio di v da una classe V i alla classe V i+1 non cambia però il valore complessivo di V c perché non viene inserito un nuovo tipo in V c Con le classi di frequenza è possibile ricostituire la lunghezza del corpus: max V1 1+ V2 2+ V3 3+... + V f max = C 16

Classi di frequenza ad ogni individuo spettano tutti i diritti e tutte le libertà enunciate nella presente dichiarazione, senza distinzione alcuna, per ragioni di razza, di colore, di sesso, di lingua, di religione, di opinione politica o di altro genere, di origine nazionale o sociale, di ricchezza, di nascita o di altra condizione. nessuna distinzione sarà inoltre stabilita sulla base dello statuto politico, giuridico o internazionale del paese o del territorio cui una persona appartiene, sia indipendente, o sottoposto ad amministrazione fiduciaria o non autonomo, o soggetto a qualsiasi limitazione di sovranità. parola freq. freq. rel., 14 0.13 di 12 0.11 o 8 0.08 distinzione 2 0.02 del 2 0.02 ad 2 0.02. 2 0.02 una 1 0.01 tutti 1 0.01 tutte 1 0.01 V 1 = 63 V 2 = 4 V 8 = 1 V 12 = 1 V 14 = 1 17

Il vocabolario Spettro di frequenze permette di analizzare la distribuzione delle parole tipo in classi di frequenza grafico che si ottiene mettendo in ascissa valori crescenti di classi di frequenza i da 1 a max; sulle ordinate, riportiamo quante parole tipo hanno frequenza i Gli hapax formano la classe più numerosa: 3270 membri. Le classi di frequenza i > 10 contengono ciascuna fino a un massimo di 40 parole tipo circa parole tipo 4000 3000 2000 1000 0 spettro di frequenze in Pinocchio classi di frequenza riportate in scala logaritmica 1 10 100 1000 10000 classe frequenza 18

Indici statistici del testo ricchezza lessicale Rapporto tipo-unità (Type Token Ratio o TTR) la ricchezza lessicale come funzione del numero di parole diverse esempio Frammento 1, TTR = 29/33 = 0,87 Distribuzione degli hapax V 0 C V C 1 Square TTR C C Frammento 1 V1 25 hapax C 25/33= 0,75 19

Frequenze cumulate Frequenze cumulate di parole unità per ogni classe di frequenza i, f ci è il numero di parole unità che ricorrono da 1 a i volte f i c = V 1+ V 2 +... + V 1 2 i i se dividiamo f ci per C, otteniamo la frequenza relativa cumulata la percentuale di testo coperta dal numero di parole unità corrispondente a f ci 20

Frequenze cumulate Frequenze cumulate di parole tipo per ogni classe i, V ci è uguale al numero di parole tipo che appaiono nel testo da 1 a i volte V c = V + V +... + i V 1 2 i se dividiamo V ci per V C, otteniamo la frequenza relativa cumulata di parole tipo la percentuale di vocabolario coperta dal numero di parole tipo corrispondente a V ci 21

Frequenze cumulate in Pinocchio Il 90% del vocabolario di Pinocchio copre poco più del 28% della lunghezza complessiva del libro la maggior parte delle parole tipo sono parole rare (riccorrono poche volte nel testo) 100 91.65% 99.20% 50 54.73% 60.91% 28.18% 0 8.08% 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo 22

Frequenze cumulate Due testi possono presentare fino al 70% di parole unità in comune anche quando i loro rispettivi vocabolari non si sovrappongono per più del 10% bastano poche differenze testuali per far parlare due documenti di cose completamente diverse Due categorie di parole parole grammaticali (congiunzioni, articoli, preposizioni, ecc.) formano il tessuto connettivo grammaticale del testo sempre molto frequenti, indipendentemente dall argomento del testo poco informative lista chiusa e ristretta parole lessicalmente piene (nomi, aggettivi, verbi, ecc.) sono i portatori del vero contenuto informativo meno frequenti e i tipi di parola dipendono dall argomento del testo lista aperta e potenzialmente infinita 23