La codifica digitale dei testi. Daniela Trotta

Похожие документы
La struttura: DTD. Laura Farinetti Dip. Automatica e Informatica Politecnico di Torino. laura.farinetti@polito.it

XML e TEI: introduzione alla codifica dei testi letterari. La nascita del linguaggio. Il concetto di metalinguaggio di codifica SGML

La Guida Generale degli Archivi di Stato italiani informatizzata SGML XML

extensible Markup Language

Mediasoft snc. Classi documentali. Allegato al manuale di Conservazione sostitutiva. Versione del 2 novebre 2015

a cura di Maria Finazzi

Introduzione alla codifica XML per i testi umanistici

XML: La nascita del linguaggio

XML. Parte VI - Introduzione e nozioni fondamentali di sintassi. XML: Extensible Markup Language:

XML. XML è contemporaneamente: XML non è:

Laboratorio Matematico Informatico 2

HTML e Linguaggi. Politecnico di Milano Facoltà del Design Bovisa. Prof. Gianpaolo Cugola Dipartimento di Elettronica e Informazione

Modellazione e Gestione di Informazioni non Strutturate

I metadati per la gestione e conservazione dei documenti elettronici. Fiorella Foscarini Firenze, 17 giugno 2007

Tecniche Multimediali

XML: sintassi. Prof. Carlo Blundo Tecnologie di Sviluppo per il Web 1

G I O R D A N I A L E S S A N D R A I T T S E R A L E G. M A R C O N I

Creare documenti XML. La natura epistemologica della codifica. Perché comprare XML? La struttura gerarchica ordinata. Riassumendo le componenti

Simple & Efficient.

SVI Nuovo Sistema Revisioni

Introduzione a XML. Language

TECN.PROG.SIST.INF. XML. Roberta Gerboni

COMUNE DI SAGRADO. ALLEGATO AL MANUALE DI CONSERVAZIONE Affidatario Regione Friuli Venezia Giulia ATTRIBUTI COMUNI A TUTTE LE CLASSI DOCUMENTALI

XML: una introduzione

Comunicazione Digitale

ALLEGATO AL MANUALE DI CONSERVAZIONE Affidatario Regione Friuli Venezia Giulia ATTRIBUTI COMUNI A TUTTE LE CLASSI DOCUMENTALI

HTML 1. HyperText Markup Language

Tecnologie Web T Introduzione a XML

Rappresentazione dell informazione Codifica Binaria

Document Type Definition (DTD)

Applicazioni e Architetture Internet. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

Laboratorio di Basi di Dati e Multimedia

Informatica A per Ingegneria Gestionale ( ) Il linguaggio HTML. Elisa Quintarelli-Laura Mandelli. HyperText Markup Language

Dichiarazione accessibilità

LISTA TITOLI ACCESSI

La sintassi di un DTD si basa principalmente sulla presenza di quattro dichiarazioni:

I linguaggi di marcatura e XML per la codifica dei dati d archivio

connessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI

Il file system. Le caratteristiche di file, direttorio e partizione sono del tutto indipendenti dalla natura e dal tipo di dispositivo utilizzato.

L organizzazione dei documenti nei sistemi multimediali

Infrastrutture INFormatiche Ospedaliere 2 Corso di laurea di Ingegneria Medica. Indice

Le presentazioni: contesto d uso e buone prassi per la realizzazione di learning objects. Gianni Vercelli DISA Univ. Di Genova

RICERCA DELL INFORMAZIONE

G.U. 3 maggio 2002, n Standard per la rappresentazione dei provvedimenti normativi

Introduzione alla codifica dei testi

XML e standard connessi. XML, XML-Names, XSL, XPointer, XLink

2.1 Introduzione ai linguaggi di marcatura

Introduzione alla Linguistica Computazionale

Il calcolatore. Architettura di un calcolatore (Hardware)

Semantic Web. Semantic Web. Il Semantic Web: una semplice estensione. Il Web oggi. Il Semantic Web. Semantic Web

RIEPILOGHI ACCESSI. Allegato B. Formato ASCII a campi fissi

Linguaggi per il web oltre HTML: XML

Università Ca Foscari di Venezia Linguistica Informatica Mod. 1 Anno Accademico TEI. Rocco Tripodi rocco@unive.it

Introduzione alla codifica XML per i testi umanistici

Linguistica Computazionale. Tokenizzazione

(71,1), (35,1), (17,1), (8,1), (4,0), (2,0), (1,0), (0,1) 0, = 1, 431 0, = 0, 862 0, = 1, 792 0, = 1, 448 0, = 0, 896

PROGETTAZIONE DISCIPLINARE MATEMATICA classe 2^

Lezione 8 Il networking. Mauro Piccolo piccolo@di.unito.it

XML: extensible Markup Language

Elementi di Informatica. ( Lezione II, parte I ) Sistemi di numerazione: binario, ottale ed esadecimale

Parte II.4 World Wide Web

INGEGNERIA DEL SOFTWARE. Prof. Paolo Salvaneschi

Inquadramento XML. Il problema dell Information- Integration. Esempio

Assembler di Spim. Assembler di SPIM. Struttura di un programma assembler. Direttive

Linguistica dei corpora

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

SQL Server Architettura Client-Server. SQL Server Introduzione all uso di SQL Server Dutto Riccardo.

Ing. Michele DEL MASTRO Foto 1 Foto 2

Guida all uso del web service SDMX

Il documento riporta:

Транскрипт:

La codifica digitale dei testi Daniela Trotta dtrotta@unisa.it

The lexicographic data that are available in computer form as of today are the following: published dictionaries [ ], electronic dictionaries [ ], corpora GROSS, Maurice. A bootstrap method for constructing local grammars. In: Proceedings of the Symposium on Contemporary Mathematics. University of Belgrad, 1999. p. 229-250. 2

Che cos è un corpus Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali per le analisi linguistiche. 3

Chomsky VS corpora AARTS, Bas. Corpus linguistics, Chomsky and fuzzy tree fragments. Language and Computers, 2000, 33: 5-14. 4

Criteri di classificazione dei corpora generalità modalità cronologia lingua integrità dei testi codifica digitale dei testi + estensione 5

Che cos è la codifica? Rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico CIOTTI, Fabio. Testo rappresentazione e computer. Contributi per una teoria della codifica testuale. Internet e le Muse, 1997. 6

Teoria della comunicazione di Jakobson (1966) 7

Il problema Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. 8

La codifica si articola su due livelli. Zero (o basso) 01010101 Alto selezione di aspetti strutturali e funzionali scelta di un linguaggio di rappresentazione 9

E quindi? 10

La codifica trasforma il dato testuale in fonte esplicita di informazione linguistica struttura del testo, struttura del contesto, struttura linguistica 11

Definizione schema di codifica o annotazione repertorio di categorie per la codifica regole di compatibilità specifica criteri di applicazione delle categorie selezionate 12

L annotazione del testo è dunque un processo delicato, aperto e incrementale, che investe direttamente il linguista in più fasi successive e che può avere ripercussioni non banali sulla sua comprensione dei fenomeni da annotare LENCI, Alessandro; MONTEMAGNI, Simonetta; PIRRELLI, Vito. Testo e computer. Introduzione alla linguistica computazionale. Carocci editore, 2005. 13

Morfosintattica Sintattica Tipologie annotazione Semantica Pragmatica 14

15

16

Linguaggi di mark-up XML extensible Mark-up Language Vantaggi portabilità e interscambiabilità massimo grado di espressività 17

Tratti caratterizzanti l xml marcatura dichiarativa marcatura strutturata marcatura gerarchica 18

elemento: ogni componente della struttura linguistico-testuale, identificato da un nome definito come con un indicatore generico (generic identifier, GI) Componenti della marcatura <titolo>le avventure di Pinocchio</titolo> attributo: informazioni aggiuntive che specificano alcune caratteristiche dell elemento che non fanno parte del contenuto del testo nome_attributo=valore <capoverso num=«2»>c era una volta </capoverso> 19

Componenti della marcatura II riferimenti a caratteri e entità: caratteri appartenenti al codice Unicode attraverso il loro valore numerico in notazione decimale o esadecimale + sequenze di byte associate a nomi mnemonici <testo>l&apos;amico</testo> commenti: note dell annotatore ignorate dall elaboratore <! --- rivedere questo tag --- > 20

DTD Document Type Definition In essa vengono dichiarati una e una sola volta tutti gli oggetti necessari alla costruzione del linguaggio di marcatura. Cosa si dichiara? elementi attributi entità 21

Si articola in due parti: a) etichetta o tag (GI) b) descrizione del contenuto in termini strutturali (content model) Dichiarazione di un elemento <!ELEMENT tag_elemento (modello di contenuto)> 22

Dichiarazione di un attributo <!ATTLIST tag_elemento tag_attributo tipo_valore modificatore > 23

Dichiarazione di un attributo I <!ATTLIST tag_elemento tag_attributo tipo_valore modificatore > Specifica obbligatorietà/opzionalità e/o eventuale valore di default: # REQUIRED specificazione valore per attributo obbligatoria # IMPLIED specificazione attributo opzionale # FIXED valore fisso per attributo 24

25

La proliferazione degli schemi di codifica ha reso evidenti gli svantaggi derivanti da una babele informatica che ostacola lo scambio di risorse e strumenti scientifici, stimo fondamentale per far avanzare la ricerca PIERAZZO, Elena. La codifica dei testi: un'introduzione. Carocci editore, 2005. 26

La nascita delle Guidelines 1994: pubblicazione della prima versione completa e stabile della Guidelines fot Text Encoding and Interchange (Sperberg- Mc Queen, Burnard, 1995a) https://tei-c.org/ Le Guidelines in apertura definiscono gli scopi della codifica TEI: fornire un formato standard per l interscambio di informazioni fornire una guida per la codifica in questo formato supportare la codifica di tutti i tipi di caratteristiche di ogni genere di testo essere indipendente dalle applicazioni 27

Conseguenze - scelta di SGML, XML e ISO 646 17 - preparazione di un ampio set di tag predefiniti - distinzione fra codifica richiesta, raccomandata e opzionale - codifica per diverse interpretazioni del testo - presenza di codifiche alternative per la stessa caratteristica testuale - creazione di un sistema di estensioni dello schema definite dall utente 28

Domande? Place your screenshot here 29