La codifica digitale dei testi Daniela Trotta dtrotta@unisa.it
The lexicographic data that are available in computer form as of today are the following: published dictionaries [ ], electronic dictionaries [ ], corpora GROSS, Maurice. A bootstrap method for constructing local grammars. In: Proceedings of the Symposium on Contemporary Mathematics. University of Belgrad, 1999. p. 229-250. 2
Che cos è un corpus Un corpus è una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri che li rendono funzionali per le analisi linguistiche. 3
Chomsky VS corpora AARTS, Bas. Corpus linguistics, Chomsky and fuzzy tree fragments. Language and Computers, 2000, 33: 5-14. 4
Criteri di classificazione dei corpora generalità modalità cronologia lingua integrità dei testi codifica digitale dei testi + estensione 5
Che cos è la codifica? Rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico CIOTTI, Fabio. Testo rappresentazione e computer. Contributi per una teoria della codifica testuale. Internet e le Muse, 1997. 6
Teoria della comunicazione di Jakobson (1966) 7
Il problema Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. 8
La codifica si articola su due livelli. Zero (o basso) 01010101 Alto selezione di aspetti strutturali e funzionali scelta di un linguaggio di rappresentazione 9
E quindi? 10
La codifica trasforma il dato testuale in fonte esplicita di informazione linguistica struttura del testo, struttura del contesto, struttura linguistica 11
Definizione schema di codifica o annotazione repertorio di categorie per la codifica regole di compatibilità specifica criteri di applicazione delle categorie selezionate 12
L annotazione del testo è dunque un processo delicato, aperto e incrementale, che investe direttamente il linguista in più fasi successive e che può avere ripercussioni non banali sulla sua comprensione dei fenomeni da annotare LENCI, Alessandro; MONTEMAGNI, Simonetta; PIRRELLI, Vito. Testo e computer. Introduzione alla linguistica computazionale. Carocci editore, 2005. 13
Morfosintattica Sintattica Tipologie annotazione Semantica Pragmatica 14
15
16
Linguaggi di mark-up XML extensible Mark-up Language Vantaggi portabilità e interscambiabilità massimo grado di espressività 17
Tratti caratterizzanti l xml marcatura dichiarativa marcatura strutturata marcatura gerarchica 18
elemento: ogni componente della struttura linguistico-testuale, identificato da un nome definito come con un indicatore generico (generic identifier, GI) Componenti della marcatura <titolo>le avventure di Pinocchio</titolo> attributo: informazioni aggiuntive che specificano alcune caratteristiche dell elemento che non fanno parte del contenuto del testo nome_attributo=valore <capoverso num=«2»>c era una volta </capoverso> 19
Componenti della marcatura II riferimenti a caratteri e entità: caratteri appartenenti al codice Unicode attraverso il loro valore numerico in notazione decimale o esadecimale + sequenze di byte associate a nomi mnemonici <testo>l'amico</testo> commenti: note dell annotatore ignorate dall elaboratore <! --- rivedere questo tag --- > 20
DTD Document Type Definition In essa vengono dichiarati una e una sola volta tutti gli oggetti necessari alla costruzione del linguaggio di marcatura. Cosa si dichiara? elementi attributi entità 21
Si articola in due parti: a) etichetta o tag (GI) b) descrizione del contenuto in termini strutturali (content model) Dichiarazione di un elemento <!ELEMENT tag_elemento (modello di contenuto)> 22
Dichiarazione di un attributo <!ATTLIST tag_elemento tag_attributo tipo_valore modificatore > 23
Dichiarazione di un attributo I <!ATTLIST tag_elemento tag_attributo tipo_valore modificatore > Specifica obbligatorietà/opzionalità e/o eventuale valore di default: # REQUIRED specificazione valore per attributo obbligatoria # IMPLIED specificazione attributo opzionale # FIXED valore fisso per attributo 24
25
La proliferazione degli schemi di codifica ha reso evidenti gli svantaggi derivanti da una babele informatica che ostacola lo scambio di risorse e strumenti scientifici, stimo fondamentale per far avanzare la ricerca PIERAZZO, Elena. La codifica dei testi: un'introduzione. Carocci editore, 2005. 26
La nascita delle Guidelines 1994: pubblicazione della prima versione completa e stabile della Guidelines fot Text Encoding and Interchange (Sperberg- Mc Queen, Burnard, 1995a) https://tei-c.org/ Le Guidelines in apertura definiscono gli scopi della codifica TEI: fornire un formato standard per l interscambio di informazioni fornire una guida per la codifica in questo formato supportare la codifica di tutti i tipi di caratteristiche di ogni genere di testo essere indipendente dalle applicazioni 27
Conseguenze - scelta di SGML, XML e ISO 646 17 - preparazione di un ampio set di tag predefiniti - distinzione fra codifica richiesta, raccomandata e opzionale - codifica per diverse interpretazioni del testo - presenza di codifiche alternative per la stessa caratteristica testuale - creazione di un sistema di estensioni dello schema definite dall utente 28
Domande? Place your screenshot here 29