Lez. 9. Gli spogli lessicali. Parte seconda 02/11/09

Documenti analoghi
LE CONCORDANZE. Gli spogli lessicali CONCORDANZE - 2. I caratteri jolly. Il formato KWIC 27/03/14. Parte seconda

Lez. 8. Gli spogli lessicali. Parte seconda 18/03/13

TEI TEI. I marcatori. Sintassi dei marcatori. Tei: macrostruttura 21/03/17

Gli strumenti statistici

Strumenti elementari: parte seconda

Codifica informazione testuale

Linguistica Computazionale

Linguistica dei Corpora (2) Lezione 3: Manipolare testi (non solo con cqp)

Biblioteca di Cervia I FOGLI DI CALCOLO

Norme generali sugli esami

Elaborazione Testi (Word) G. Toraldo, F. Giannino, V. Monetti

Word Elaborazione di testi

Fondamenti di informatica. Word Elaborazione di testi

PER SALVARE UN FILE FILE - SALVA CON NOME SCEGLIERE: 1) il nome da dare al file. 2) la posizione in cui salvare: documenti, desktop, penna usb, etc.

D B M G Il linguaggio HTML

Programmazione Web D B M G. Il linguaggio HTML

Video Scrittura (MS Word) Lezione 2 Tabelle e Immagini

Il giorno 18 febbraio 2013 verrà effettuato un esame finale (test) di verifica

@2011 Politecnico di Torino 1

ARCADIA TECNOLOGIE S.R.L.

(A) CONOSCENZA TERMINOLOGICA (B) CONOSCENZA E COMPETENZA (C) ESERCIZI DI COMPRENSIONE

Corso di Introduzione all Informatica. Microsoft Word Nozioni di base

Concordanze e collocazioni. Analisi del testo letterario 1 Isabella Chiari

PERCORSO FORMATIVO A. Modulo 3a

Linguistica Computazionale

Come utilizzare il servizio Link for PDF

Grafici e Pagina web

MODELLI QUANTITATIVI. f x r = c

Elaborazione dei testi con Micosoft Word

INDICE. 1. Procedura d esame. 2. Tipi di domande. Inizio esame Ambiente d esame Fine esame. Check box Option box Collegamenti Ordinamenti Simulazioni

L ANALISI COMPUTAZIONALE DI DATI LINGUISTICI

Modulo 1 Information Communication Technology. ICT e computer... Pag. 6 Classificazione dei computer...» 8

4.5 Formattazione. La finestra è composta dalle schede Numero, Allineamento, Carattere, Bordo, Riempimento e Protezione.

MODULO 5 - USO DELLE BASI DI DATI 2 FINALITÁ

Dematerializzazione registri TAWEB. Guida alle principali novità della versione Autore: Laura Marchione 26 Maggio

Argo Lab. Sistema di gestione del processo di PMA Rel.1.1_r. Manuale amministratore

Avviate Specifi dall icona presente sul vostro Desktop.

Un incontro di discipline. Lettere (testualità) Informatica Statistica SCOPI E STRUMENTI IL TESTO DOPO LA MEMORIZZAZIONE 20/03/17

1.2d: La codifica Digitale dei caratteri

1. Introduzione 3 / 27

Modulo 1: Le I.C.T. UD 1.2d: La codifica Digitale dei caratteri

Logopedia AA 2005/06. Laboratorio di Informatica M.A. Alberti. Formati dei file 1. Formato dei file e programmi. Laboratorio di Informatica.

EUROPEAN COMPUTER DRIVING LICENCE SYLLABUS VERSIONE 5.0

L INTERFACCIA GRAFICA DI EXCEL

STRUMENTI DIGITALI PER LA VIDEOSCRITTURA-2 COMUNICAZIONE- ( WRITER MICROSOFT WORD (OPPURE, OPENOFFICE

AVVIO ALLA RICERCA. Le chiavi di ricerca di Sintalex sono: - il Codice CAS - il codice CEE - tutti i SINONIMI della sostanza.

Creare una tabella di pivot

Visualizzazione ed elaborazione dei risultati in ALOORA


La Back Office Console consente di costruire lo scheletro degli schema.

Invio File. Fig.1: Maschera per l Invio dei File Precompilati

Introduzione a Unix/Bash. Insieme minimo di strumenti per interagire con la shell Bash, compilare ed eseguire

NOVITA X2308. Sommario

Modulo. Quiz. 3.1 Utilizzo dell applicazione. 3.2 Creazione di un documento

FOGLIO ELETTRONICO. Microsoft Office EXCEL. LibreOffice CALC CALC. E' un software che assegna come estensione ai propri file (foglio elettronico).ods.

Foglio di calcolo. Concetti base. Impostazioni di base. Microsoft Excel

Informatica d ufficio

5.3 Elenchi puntati e numerati

Il foglio elettronico

Vista Dettagli Titoli La vista Dettagli titoli mostra le operazioni e le informazioni sui prezzi che riguardano un titolo specifico del portafoglio

Uso di base dell ordinamento di dati in Microsoft Excel

REGIONE BASILICATA UFFICIO S. I. R. S.

CINAHL with Full Text ricerca avanzata guidata

Vademecum inserimento Modello Organizzativo attraverso

L AMBIENTE DI MICROSOFT WORD 2003

Raccolta e memorizzazione dei dati immessi nei moduli dai visitatori

Un grafico utilizza i valori contenuti in un foglio di lavoro per creare una rappresentazione grafica delle relazioni esistenti tra loro;

DEFINIZIONI SMART E RELATIVE ESERCITAZIONI. MODULO 2 Creazione e gestione di documenti di testo

PROGRAMMA DIDATTICO CORSO MICROSOFT OFFICE (INIZIO GIOVEDÌ 5 FEBBRAIO 2015 ORE / 20.00) MODULO WORD. Unità didattica 1 Concetti di base

provvedimenti.comune.rimini.it

Gestione degli audit (ed Azioni di Miglioramento conseguenti alle NC ed Osservazioni rilevate) Caso di Studio Q106

Definizione di file. Directory e file File binari e file di testo

Corso di Access Modulo L2 A (Access) I tipi di query

Manuale d istruzioned

Guida all utilizzo. Regione Emilia-Romagna. minerva. D.G. Cura del Territorio ed Ambiente

L INTERFACCI DELL APPLICAZIONE

Video Scrittura (MS Word) Lezione 3 Formattazione e Stampa documenti

PROGRAMMA ARGOMENTI CORSO DI INFORMATICA DI BASE (Microsoft Windows)

Guida a SacramentiWeb 1.2

U.T.E Università della Terza Età

Guida pratica per la creazione di un documento Word accessibile Sommario

EXCEL: FORMATTAZIONE E FORMULE

Sommario. A proposito di A colpo d occhio 1. Novità e miglioramenti 5. Introduzione a Excel Ringraziamenti... xi Autore...

Manuale sistema ANAGRAFICA ASSOUTENTI

Microsoft Word. Sommario. Cos è Word? Spostamenti rapidi del cursore. Esercitazione 1. Corso di introduzione all informatica.

Scelta del Browser. Accesso Area Redazione

PROVA Quale dei seguenti tasti permette di cercare del testo e sostituirlo con altro testo?

Applicazioni statistiche e utilizzo del package statistico Spss - 3

Fogli di Calcolo. Corso di Informatica. Fogli di Calcolo. Fogli di Calcolo. Corso di Laurea in Conservazione e Restauro dei Beni Culturali

Premesse metodologiche. Gli strumenti statistici. Il rapporto Token/type. La ricchezza del linguaggio. Tutto è relativo! 27/03/14

Microsoft Word. Nozioni avanzate

GUIDA UTENTE BILLIARDS COUNTER (Vers )

FOGLIO DI CALCOLO. Funzionalità -- > Effettuare calcoli ripetitivi in automatico e visualizzare i risultati in forma grafica

Corso di Informatica

Transcript:

Lez. 9 Gli spogli lessicali Parte seconda 02/11/09

LE CONCORDANZE È l elenco delle parole contenute in un testo, ordinate alfabeticamente e accompagnate da alcuni riferimenti che ne rendono possibile il ritrovamento nell originale Si devono selezionare le parole da espungere o da includere; la concordanza di tutte le parole di un testo è un retaggio della forma cartacea di questa operazione Si deve definire la dimensione del contesto Si possono usare gli operatori standard

I caratteri jolly Sono simboli che sostituiscono un carattere o un insieme di caratteri MS-DOS li ha ereditato dai sistemi Unix (con molte limitazioni)? = un carattere qualsiasi * = più caratteri qualsiasi

CONCORDANZE - 2 Le forme di output delle concordanze dei moderni programmi sono di due tipi: Kwic e Kwoc Kwic (Key Word In Context): le forme vengono allineate a partire da una stessa colonna di stampa Kwoc (Key Word Out of Context): le forme si trovano esternamente, come esponente

Il formato KWIC Le forme possono essere centrate, allineate a destra oppure a sinistra per aumentare la leggibilità Il contesto è breve (una riga, in genere) I riferimenti di mappatura del testo si trovano ad inizio riga (possono variare a seconda della codifica)

Esempio tratto da La patente di Luigi Pirandello Programma TACT

Il formato KWOC La parola chiave si trova esternemante, come esponente È sostanzialmente un indice al quale viene associata una riga di contesto È particolarmente indicato per contesti ampi, sviluppati su più righe

Esempio tratto da La patente di Luigi Pirandello Programma TACT

Indici di rilievo che studieremo Token Rapporto T/t Type Rapporto t/t (TTR) Hapax legomena Frequenza assoluta Hapax dislegomena Frequenza relativa Deviazione standard Frequenza cumulativa Costante di Zipf Coefficiente di Variazione Z-score Range Indice di Kurtosis Media Caratteristica di Herdann

Text Analysis Portal for Research

Cos è Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali File di testo semplice (plain text) File HTML File XML Il progetto nasce come collaborazione tra 6 università

Le 6 università canadesi McMaster University University of Alberta Université de Montreal University of New Brunswick University of Toronto University of Victoria

Un problema spinoso Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard Generalmente si tratta di file con estensione TXT (plain text) Tact legge solo formati MS-DOS, TAPoR tutte le tipologie di plain text

Salvare il file È consigliabile salvare il file come testo normale.txt, in formato Unicode UTF-8

Selezionare l opzione inserisci interruzioni di riga con separatore solo ritorno a capo

Il programma si può occupare da solo di sostituire i caratteri non presenti nelle tabelle Ascii a 256 caratteri I caratteri non compatibili tra il set utilizzato da Office e le tabelle Ascii vengono segnalati in rosso. Un segnale di attenzione mette l utente in allarme.

Muoversi in Tapor Tre tipologie di testi analizzabili (TXT, HTML, XML) Diversi strumenti per le diverse tipologie Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a Internet

Lista di frequenze Concordanza Collocazioni Collocazioni dx/sx Clusters Estrattore di date Distribuzione

Analisi plain text: gli strumenti 1. List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa) 2. Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo (NON è case sensitive)

BOX DI SELEZIONE PER L OPZIONE LIST WORDS Qui si inserisce il file.txt da analizzare Selezionare l opzione All words per ottenere la lista di frequenze completa Accertarsi di lasciare selezionata l opzione di ordinamento per frequenza Flaggare la casella per visualizzare i risultati in una nuova scheda del browser Tasto per avviare l elaborazione

I punti interrogativi aprono altrettante finestre di aiuto contestuale BOX DI SELEZIONE PER L OPZIONE LIST WORDS

RISULTATO INTERROGAZIONE SUL 1 CAP. PROMESSI SPOSI

ORDINAMENTO ALFABETICO

RISULTATO INTERROGAZIONE 1 NOVELLA DECAMERON

Stop word list È una lista di parole che verranno escluse dall analisi Normalmente sono numeri e parole vuote (con l eccezione dell analisi per clusters) Articoli, congiunzioni, proposizioni, singoli caratteri sono inutili ai fini della ricerca, e potrebbero causare anche errori nella pertinenza delle ricerche

STRUMENTO FIND TEXT - CONCORDANZA

CONCORDANZA PER LA PAROLA ABBONDIO

L INDICE Può essere considerato un caso particolare di concordanza senza contesto È una lista delle parole contenute in un testo (o corpus) accompagnata dai riferimenti ai luoghi in cui è possibile rintracciare le singole parole In genere è ordinato alfabeticamente in forma ascendente (A-Z)

La lemmatizzazione Le forme che otteniamo dalle liste viste finora sono per lo più flesse Ci sono quindi vari tempi dei verbi, maschili e femminili, singolare e plurale, enclitiche, e così via Lemmatizzare significa riportare le diverse forme sotto un unico lemma (entrata di vocabolario) e ricostruire quindi un dizionario del testo

Pro e Contro Nel modo lemmatizzato il vantaggio è la facilità di consultazione, lo svantaggio è la distanza che si crea tra il lemma e la parola (rischio di perdita di informazione). Nel modo non-lemmatizzato il vantaggio è la perfetta aderenza dello spoglio con le parole usate nel testo, lo svantaggio una difficoltà di consultazione.

L INDICE LEMMATIZZATO Si tratta di una variazione dell indice classico È sostanzialmente un piccolo vocabolario dell opera in analisi, nel senso proprio del termine Come il suo progenitore in genere è ordinato alfabeticamente in forma ascendente (A-Z)