informatica di base per le discipline umanistiche

Documenti analoghi
informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche

Linguistica Computazionale

Distribuzione Normale

Distribuzione Normale

Parole e frequenze. Alessandro Lenci

Analisi dei Dati Tabelle e Grafici

Distribuzione Normale

Derivate di ordine superiore

Distribuzione normale

Linguistica Computazionale

MATEMATICA E STATISTICA

MATEMATICA E STATISTICA

Scale Logaritmiche. Matematica con Elementi di Statistica, Anna Torre a.a

Studio del segno delle derivate. Lezione 11 del 6/12/2018

Analisi dei Dati Tabelle e Grafici

Utilizzo di index() per determinare la colonna delle x

Esercizi. 1. Disegnare il grafico qualitativo della seguente funzione:

Scale Logaritmiche. Matematica con Elementi di Statistica a.a. 2015/16

ITI M. FARADAY PROGRAMMAZIONE DIDATTICA A.s CLASSI: QUARTE Materia: MATEMATICA e COMPLEMENTI Ore settimanali previste: 4 Matematica

Tipi di variabili. Indici di tendenza centrale e di dispersione

Trasformazioni Logaritmiche

IIS Algarotti, Venezia a.s. 2017/18 Classe 1C Turistico Materia: Fisica PROGRAMMA SVOLTO

Correzione secondo compitino, testo A

Microeconomia (C.L. Economia e Legislazione di Impresa); A.A. 2010/2011 Prof. C. Perugini

DERIVATE. Equazione della retta tangente al grafico di f nel suo punto P(x 0 ;y 0 ):

Esame di Matematica e Abilità Informatiche - 12 Luglio Le soluzioni

Corso di Analisi Matematica. Calcolo differenziale

PROGRAMMA DI MATEMATICA APPLICATA Classe III SIA sez. A A.S. 2015/2016

Esercitazioni di ISTITUZIONI di MATEMATICA 1 Facoltà di Architettura Anno Accademico 2005/2006

Matematica Lezione 20

LA DISTRIBUZIONE NORMALE

Esercizi di ricapitolazione

Correzione secondo compitino, testo B

Rappresentazione di Dati: Scala lineare Scala logaritmica. Grafici Lin Lin Grafici Lin Log Grafici Log Log

Programma Didattico Annuale

100 domande sul corso di Fisica Ambientale

PROGRAMMA DI MATEMATICA APPLICATA

INDICE. XIII Prefazione

Analisi dei Dati Tabelle e Grafici

By Fabriziomax. Storia del concetto di derivata:

Funzioni Esponenziale e Logaritmica. Prof. Simone Sbaraglia

xg x x 3 e essendo x positiva per dominio 3 e

LICEO SCIENTIFICO "R. NUZZI" - ANDRIA Anno Scolastico 2015/16 MATEMATICA

Teoria e tecniche dei test. Concetti di base

VERIFICA DI MATEMATICA Simulazione La funzione esponenziale e logaritmica - Soluzioni

TRE Università degli Studi

Contenuti del programma di Matematica. Classe Terza

Programmazione disciplinare per competenze (Rif.to ALLEGATI del DPR 15 marzo 2010 n. 89)

CORSO DI MATEMATICA E LABORATORIO ESERCIZI ASSEGNATI NELL A.A. 2016/17

Lezione Derivata seconda Flessi e concavità Studi di funzione

una funzione mediante le altre. Risolvere triangoli. saper applicare la trigonometria sia a problemi geometrici che a casi pratici

ITI M. FARADAY PROGRAMMAZIONE MODULARE A.s

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 4BPT A. S. 2015/2016

Concavità verso il basso (funzione concava) Si dice che in x0 il grafico della funzione f(x) abbia la concavità rivolta verso il basso, se esiste

Proprietà delle funzioni. M.Simonetta Bernabei & Horst Thaler

Indici di eterogeneità e di concentrazione

Esercitazioni di Matematica Generale A.A. 2016/2017 Pietro Pastore Lezione del 12 Dicembre Calcolo di Derivate

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 2 Concetti di base

ISTITUTO ISTRUZIONE SECONDARIA SUPERIORE. Leonardo da Vinci. Martina Franca ANNO SCOLASTICO 2015/2016

Derivata di una funzione

Esercizi di Ricapitolazione

f x = cos(5x 2 + 3) f t = sin(6x + 4)

Breve ripasso di statistica

Indici di eterogeneità e di concentrazione

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

PROGRAMMA SVOLTO. Classe 1G Matematica Anno scolastico:

UNITÀ DIDATTICA 2 LE FUNZIONI

Diario delle lezioni di Calcolo e Biostatistica (O-Z) - a.a. 2013/14 A. Teta

4. CALCOLO DIFFERENZIALE PER FUNZIONI DI UNA VARIABILE REALE.

L analisi dei dati. Primi elementi. EEE- Cosmic Box proff.: M.Cottino, P.Porta

Funzioni di una variabile reale

RICHIAMI DI CALCOLO DELLE PROBABILITÀ

CORSO DI MATEMATICA E LABORATORIO ESERCIZI ASSEGNATI NELL A.A. 2017/18

1 è l estremo inferiore della funzione (inf f = 1 R) e quindi la funzione è limitata inferiormente

PROGRAMMI DI MATEMATICA CLASSE 3 SEZIONE C

PROBABILITÀ - SCHEDA N. 3 VARIABILI ALEATORIE CONTINUE E SIMULAZIONE

Derivate. Rette per uno e per due punti. Rette per uno e per due punti

LA DISTRIBUZIONE NORMALE o DI GAUSS

Facoltà di AGRARIA anno accademico 2009/10

Retta Tangente. y retta tangente. retta secante y = f(x) f(x )

Liceo Scientifico Statale Einstein

Ricerca di massimi e minimi col metodo della derivata prima

Problema 1 PNI. = 2 vale 2. Abbiamo allora. ae b 2. a 1 + e b 2 = 4

QUESITO 1. Indichiamo con x e y le dimensioni del rettangolo che contiene l area di stampa; si ha:

PROBABILITÀ ELEMENTARE

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

La distribuzione delle frequenze. T 10 (s)

Esercitazione 9 - Funzioni

Derivate. Hynek Kovarik. Analisi A. Università di Brescia. Hynek Kovarik (Università di Brescia) Derivate Analisi A 1 / 33

Laboratorio di Fisica I A.A. 2018/ /12/2018

La casualità nello spazio o nel tempo: la distribuzione di Poisson

MATEMATICA MATURITA LINGUISTICA. Istituto Paritario A.Ruiz Istituto Paritario A.Ruiz

APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD

Lezione 11 (30 novembre)

REGISTRO DELLE LEZIONI*

Tema 1: esercizi. 1. Studiare la funzione seguente e tracciarne un grafico qualitativo. + = Soluzione 1) Dominio x ( ) { }

Transcript:

informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

sesta lezione: la dinamica del testo vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

come cresce il vocabolario di un testo? il lessico di un testo cresce quando introduciamo nel testo una parola mai usata prima intuitivamente la crescita di un lessico è rapida all inizio, in quanto ogni parola che usiamo ha la tendenza ad essere nuova (raramente ci sono ripetizioni nella stessa frase) aumentando il numero di frasi, tuttavia, aumenta la probabilità di riusare parole già usate il ritmo di crescita del lessico di un testo tende quindi a diminuire all aumentare del numero di frasi... (per saperne di più clicca sulle parole evidenziate in giallo!)

come cresce il vocabolario di un testo (prime 1000 parole) coefficiente angolare intercetta coefficiente angolare

come cresce il vocabolario di un testo (prime 1000 parole, interpolazione a potenza) (fine (fine excursus)

come cresce il vocabolario di un testo? (II) esistono classi di parole che è praticamente impossibile non ripetere all interno di un testo anche molto breve queste classi sono formate dalle cosiddette parole grammaticali (articoli, preposizioni, ausiliari ecc.), che costituiscono l impalcatura morfosintattica di una frase queste classi sono, tipicamente, relativamente ristrette (contengono pochi elementi) e chiuse, cioè non sono soggette ad espandersi attraverso processi produttivi del lessico come la derivazione o la composizione (per saperne di più clicca sulle parole evidenziate in giallo!)

come cresce il vocabolario di un testo? (III) un altro fattore evidente che ritarda la crescita esponenziale del vocabolario all interno dello stesso testo è la coerenza lessicale : la necessità, cioè,di ripetere concetti che sono legati al dominio o alla situazione specifica di cui parla il testo

la frequenza media la frequenza media di una parola nel testo è data dal rapporto tra la lunghezza del testo e la grandezza del suo lessico: C / V all inizio ogni parola è usata in media poco più di una sola volta (freq media 1) non appena ripetiamo una stessa parola, tuttavia, la freq media cresce (freq media > 1) in generale freq media tende a crescere per due ragioni: le parole grammaticali si ripetono, andando ad aggiungersi a C ma lasciando V invariato; il vocabolario a sua volta, come abbiamo visto, rallenta il suo ritmo di crescita col passare del testo (per saperne di più clicca sulle parole evidenziate in giallo!)

come cresce freq media? il ritmo di crescita di freq media tende a rallentare col passare del testo perché? la frequenza cresce linearmente al crescere del testo se il peso del lessico fosse costante, la crescita di freq media resterebbe lineare, ma avrebbe un ritmo inferiore (la retta che descrive questo andamento sarebbe più inclinata verso l asse delle x) se il peso del lessico aumentasse in modo lineare, freq media sarebbe costante dal momento che il lessico cresce in modo non lineare (con una potenza di poco inferiore all unità) solo una crescita di frequenza non lineare (con esponente di poco inferiore a 2) potrebbe consentire a freq media di crescere linearmente (per saperne di più clicca sulle parole evidenziate in giallo!)

crescita di freq media in un testo di 70.000 parole (fine excursus)

curve di crescita del vocabolario

crescita di freq media (fine (fine excursus)

cresce tutto in questo modo? no! la lunghezza media di una parola tende a stabilizzarsi col passare del testo, cioè tende ad assumere un valore costante dopo una serie di oscillazioni casuali (legge dei grandi numeri)

campionamento casuale analogamente se invece di monitorare lo stesso testo nel tempo, se ne estraggono tanti campioni casuali, e se ne calcola per ciascuno lun media, il valore più volte attestato tenderà a riprodurre lun media di tutto il testo...

campionamento casuale (II)... tanto meglio, quanto maggiore è la lunghezza dei campioni:

campionamento casuale (III) per il teorema del limite centrale, i valori campionari di lunghezza media tenderanno a distribuirsi intorno al valore più attestato (valor medio) secondo una caratteristica forma a campana (curva gaussiana) e cioè con valori progressivamente decrescenti, disposti simmetricamente rispetto all asse della campana... (per saperne di più clicca sulle parole evidenziate in giallo!)

la legge di Zipf all interno di una porzione di testo, esiste una correlazione inversa tra le frequenza di una parola e la sua posizione relativa (rango) in una lista di parole che va dalla più frequente alla meno frequente f = C r α, 3434. 2421 di 2258 il 1309 e 1297 la 1165 a 914 che 864 e' 847 in 830 per 789 un 693 L' 647 del 587 I 585 con 467 si 467 le 466 ha 456 una 449 non 441 della 435 : 400 da 393 al 331-323 sono 291 dei 262 Piu' 260 dell' 251 ( 241 Ma 239 ) 238 Nel 238 anche 213 gli 213 alla 208 hanno 186 dal 181 anni 173 delle 159 all' 158 come 149 stato 145 Lo 143

Zipf in Pinocchio rango forma frequenza rango forma frequenza 1 e 1752 16 ma 290 2 di 1338 17 i 283 3 che 1019 18 come 234 4 a 932 19 da 233 5 il 925 20 io 225 6 la 711 21 mi 219 7 un 708 22 le 211 8 non 507 23 più 210 9 per 481 24 l' 206 10 in 453 25 disse 202 11 Pinocchio 415 26 lo 199 12 si 393 27 burattino 195 13 gli 364 28 se 189 14 una 360 29 con 188 15 è 296 30 era 185

Zipf (II)

Zipf (III) su doppia scala logaritmica la legge di Zipf dà origine a una retta inclinata verso il basso... log( f ) = log( C) α log( r) y = 0.8797x + 3.4481 (per saperne di più clicca sulle parole evidenziate in giallo!)

la struttura del vocabolario (classi di frequenza) chiamiamo V i la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora V = V 1 + V 2 +...+ V max, dove max è la frequenza massima con cui una parola appare nel nostro testo

le frequenze cumulate 100 91.65% 99.20% 50 54.73% 60.91% 28.18% 0 8.08% 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo

sesta lezione la dinamica del testo fine sesta lezione (lezione 7)

logaritmo e funzione esponenziale

conseguenze della scala logaritmica le potenze di 10 vengono compresse in un intervallo unitario il livello di compressione cresce al crescere della potenza (fine excursus)

derivazione la derivazione è uno di quei processi morfologici produttivi attraverso i quali il nostro vocabolario si arricchisce la derivazione consiste nel generare una parola nuova a partire da un altra già esistente attraverso l uso di un suffisso derivazionale ad esempio, dal sostantivo industria possiamo derivare l aggettivo industriale, da quest ultimo il verbo industrializzare e da quest ultimo il sostantivo industrializzazione una parola derivata è una parola nuova, con una sua categoria grammaticale autonoma e un suo paradigma flessionale, non una forma flessa di una parola esistente (fine excursus)

composizione la composizione è uno di quei processi morfologici produttivi attraverso i quali il nostro vocabolario si arricchisce la composizione, a differenza della derivazione, consiste nel generare una parola nuova giustapponendo due (o più) parole esistenti ad esempio, oggetto ricordo, conferenza stampa, nave scuola, sala riunioni ecc. (fine excursus)

la distribuzione gaussiana 68.27% (fine excursus)