informatica di base per le discipline umanistiche

Documenti analoghi
informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche

informatica di base per le discipline umanistiche

Linguistica Computazionale

Distribuzione Normale

Distribuzione Normale

Distribuzione normale

Distribuzione Normale

Tipi di variabili. Indici di tendenza centrale e di dispersione

Microeconomia (C.L. Economia e Legislazione di Impresa); A.A. 2010/2011 Prof. C. Perugini

Studio del segno delle derivate. Lezione 11 del 6/12/2018

IIS Algarotti, Venezia a.s. 2017/18 Classe 1C Turistico Materia: Fisica PROGRAMMA SVOLTO

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Problema 1 PNI. = 2 vale 2. Abbiamo allora. ae b 2. a 1 + e b 2 = 4

MATRIMONI IN ITALIA - TREND. Movimento Ciclico Netto. y = -3849,2x SERIE DETRENDIZZATA MCN ANNI MATRIMONI TREND

MATEMATICA E STATISTICA

LA DISTRIBUZIONE NORMALE

La distribuzione delle frequenze. T 10 (s)

By Fabriziomax. Storia del concetto di derivata:

L analisi dei dati. Primi elementi. EEE- Cosmic Box proff.: M.Cottino, P.Porta

REGISTRO DELLE LEZIONI*

MATEMATICA E STATISTICA

Esame di Matematica e Abilità Informatiche - 12 Luglio Le soluzioni

informatica di base per le discipline umanistiche

PROGRAMMA DI MATEMATICA APPLICATA Classe III SIA sez. A A.S. 2015/2016

Linguistica Computazionale

Derivata di una funzione

APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD

Parole e frequenze. Alessandro Lenci

Esercitazioni di ISTITUZIONI di MATEMATICA 1 Facoltà di Architettura Anno Accademico 2005/2006

Statistica. Lezione 4

Breve ripasso di statistica

MICROECONOMIA. Prof.ssa Carla Massidda

Programma Didattico Annuale

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Indici di eterogeneità e di concentrazione

Matematica Lezione 20

Tema 1: esercizi. 1. Studiare la funzione seguente e tracciarne un grafico qualitativo. + = Soluzione 1) Dominio x ( ) { }

Derivate di ordine superiore

CORSO DI MATEMATICA E LABORATORIO ESERCIZI ASSEGNATI NELL A.A. 2016/17

Dispensa sulla funzione gaussiana

Analisi dei Dati Tabelle e Grafici

INDICE. XIII Prefazione

Teorema del limite centrale TCL Questo importante teorema della statistica inferenziale si applica a qualsiasi variabile aleatoria che sia combinazion

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Indici di eterogeneità e di concentrazione

c. Verifica, relativamente al modello scelto, che ammette un minimo relativo.

Liceo Scientifico Statale Einstein

Teoria e tecniche dei test

Fondamenti di Meccanica Quantistica (Prof. Tarantelli)

PROGRAMMA DI MATEMATICA APPLICATA

Esercitazione: La distribuzione NORMALE

Lezione 2. La cassetta degli arnesi

lezione 10 AA Paolo Brunori

ITI M. FARADAY PROGRAMMAZIONE DIDATTICA A.s CLASSI: QUARTE Materia: MATEMATICA e COMPLEMENTI Ore settimanali previste: 4 Matematica

APPUNTI DI STATISTICA INFERENZIALE. Avalle Fulvia, maggio 2014, ITSOS MARIE CURIE CLASSI 4A BIO e 4B BIO

La logistica: una curva semplice con molte applicazioni

Correzione secondo compitino, testo B

Lezione 11 (30 novembre)

f x = cos(5x 2 + 3) f t = sin(6x + 4)

Prime nozioni sui segnali

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

QUADRO DI RIFERIMENTO DI ITALIANO PROVE INVALSI 2009

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA

Correzione secondo compitino, testo A

Segnali e trasformate

Per rispondere al primo quesito è necessario avere una stima de volume della stanza, la cui base è la regione rappresentata in figura 1

SCIENTIFICO COMUNICAZIONE OPZIONE SPORTIVA PROBLEMA 2. Figura 1

Esercitazioni di Matematica Generale A.A. 2016/2017 Pietro Pastore Lezione del 12 Dicembre Calcolo di Derivate

Controlli Automatici LA Segnali e trasformate

Laboratorio di Fisica I - A.A. 2017/2018. Relazione dell esperienza N. 3

Regressione Lineare Semplice e Correlazione

19 Marzo Equazioni differenziali.

CORSO DI MATEMATICA E LABORATORIO ESERCIZI ASSEGNATI NELL A.A. 2017/18

ISTITUTO ISTRUZIONE SECONDARIA SUPERIORE. Leonardo da Vinci. Martina Franca ANNO SCOLASTICO 2015/2016

Analisi dei Dati Tabelle e Grafici

PROBABILITÀ ELEMENTARE

DISTRIBUZIONI DI PROBABILITA

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità

Teoria e tecniche dei test. Concetti di base

Programma della parte introduttiva: Lezione 5

Programmazione disciplinare per competenze (Rif.to ALLEGATI del DPR 15 marzo 2010 n. 89)

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 4BPT A. S. 2015/2016

Verifica delle ipotesi

Diario delle lezioni di Calcolo e Biostatistica (O-Z) - a.a. 2013/14 A. Teta

INVILUPPO DI VOLO VELOCITÀ MASSIMA IN VOLO ORIZZONTALE RETTILINEO UNIFORME

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Interpolazione Lineare. Emilia Pecori anno scolastico

Contenuti del programma di Matematica. Classe Terza

ESERCIZI DI METODI MATEMATICI PER L ECONOMIA FACOLTÀ DI ECONOMIA DI FERRARA A.A. 2011/2012

Corso di Analisi Matematica. Calcolo differenziale

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

ITI M. FARADAY PROGRAMMAZIONE MODULARE A.s

Statistica Inferenziale

LA DISTRIBUZIONE NORMALE o DI GAUSS

La casualità nello spazio o nel tempo: la distribuzione di Poisson

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Transcript:

informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia ottava lezione: la dinamica del testo vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia 1

come cresce il vocabolario di un testo? il vocabolario di un testo cresce quando introduciamo nel testo una parola mai usata prima intuitivamente la crescita di un vocabolario è rapida all inizio, in quanto ogni parola che usiamo ha la tendenza ad essere nuova (raramente ci sono ripetizioni nella stessa frase) aumentando il numero di frasi, tuttavia, aumenta la probabilità di riusare parole già usate il ritmo di crescita del vocabolario di un testo tende quindi a diminuire all aumentare del numero di frasi... (per saperne di più clicca sulle parole evidenziate in giallo!) come cresce il vocabolario di un testo (prime 1000 parole) coefficiente angolare intercetta coefficiente angolare 2

come cresce il vocabolario di un testo (prime 1000 parole, interpolazione a potenza) come cresce il vocabolario di un testo? (II) esistono classi di parole che è praticamente impossibile non ripetere all interno di un testo anche molto breve queste classi sono formate dalle cosiddette parole grammaticali (articoli, preposizioni, ausiliari ecc.), che costituiscono l impalcatura morfosintattica di una frase queste classi sono, tipicamente, relativamente ristrette (contengono pochi elementi) e chiuse, cioè non sono soggette ad espandersi attraverso processi produttivi del lessico come la derivazione o la composizione (per saperne di più clicca sulle parole evidenziate in giallo!) 3

come cresce il vocabolario di un testo? (III) un altro fattore evidente che ritarda la crescita esponenziale del vocabolario all interno dello stesso testo è la coerenza lessicale : la necessità, cioè,di ripetere concetti che sono legati al dominio o alla situazione specifica di cui parla il testo la frequenza media la frequenza media di una parola nel testo è data dal rapporto tra la lunghezza del testo e la grandezza del suo lessico: T / V _ f ( T ) = f ( v 1 ) + f ( v 2 ) +... + V f ( v V ) T = V 4

la frequenza media (II) all inizio ogni parola è usata in media poco più di una sola volta (freq media 1) non appena ripetiamo una stessa parola, tuttavia, la freq media cresce (freq media > 1) in generale freq media tende a crescere per due ragioni: le parole grammaticali si ripetono, andando ad aggiungersi a T ma lasciando V invariato; il vocabolario a sua volta, come abbiamo visto, rallenta il suo ritmo di crescita col passare del testo (per saperne di più clicca sulle parole evidenziate in giallo!) come cresce freq media? il ritmo di crescita di freq media tende a rallentare col passare del testo perché? la frequenza cresce linearmente al crescere del testo se il peso del lessico fosse costante, la crescita di freq media resterebbe lineare, ma avrebbe un ritmo inferiore (la retta che descrive questo andamento sarebbe più inclinata verso l asse delle x) se il peso del lessico aumentasse in modo lineare, freq media sarebbe costante dal momento che il lessico cresce in modo non lineare (con una potenza di poco inferiore all unità) solo una crescita di frequenza non lineare (con esponente di poco inferiore a 2) potrebbe consentire a freq media di crescere linearmente (per saperne di più clicca sulle parole evidenziate in giallo!) 5

frequenza media in Pinocchio curve di crescita del vocabolario 6

crescita di freq media (fine cresce tutto in questo modo? no! la lunghezza media di una parola tende a stabilizzarsi col passare del testo, cioè tende ad assumere un valore costante dopo una serie di oscillazioni casuali (legge dei grandi numeri) 7

campionamento casuale analogamente se invece di monitorare lo stesso testo nel tempo, se ne estraggono tanti campioni casuali, e se ne calcola per ciascuno lun media, il valore più volte attestato tenderà a riprodurre lun media di tutto il testo... campionamento casuale (II)... tanto meglio, quanto maggiore è la lunghezza dei campioni: 8

campionamento casuale (III) per il teorema del limite centrale, i valori campionari di lunghezza media tenderanno a distribuirsi intorno al valore più attestato (valor medio) secondo una caratteristica forma a campana (curva gaussiana) e cioè con valori progressivamente decrescenti, disposti simmetricamente rispetto all asse della campana... (per saperne di più clicca sulle parole evidenziate in giallo!) nona lezione la dinamica del testo fine ottava lezione (lezione 9) 9

derivazione la derivazione è uno di quei processi morfologici produttivi attraverso i quali il nostro vocabolario si arricchisce la derivazione consiste nel generare una parola nuova a partire da un altra già esistente attraverso l uso di un suffisso derivazionale ad esempio, dal sostantivo industria possiamo derivare l aggettivo industriale, da quest ultimo il verbo industrializzare e da quest ultimo il sostantivo industrializzazione una parola derivata è una parola nuova, con una sua categoria grammaticale autonoma e un suo paradigma flessionale, non una forma flessa di una parola esistente composizione la composizione è uno di quei processi morfologici produttivi attraverso i quali il nostro vocabolario si arricchisce la composizione, a differenza della derivazione, consiste nel generare una parola nuova giustapponendo due (o più) parole esistenti ad esempio, oggetto ricordo, conferenza stampa, nave scuola, sala riunioni ecc. 10

la distribuzione gaussiana 68.27% 11