Linguistica Computazionale
|
|
|
- Claudia Irma Porta
- 9 anni fa
- Просмотров:
Транскрипт
1 Linguistica Computazionale La codifica digitale del testo Salvatore Sorce Dipartimento di Ingegneria Chimica, Gestionale, Informatica e Meccanica Lucidi Adattati da Alessandro Lenci Dipartimento di Linguistica T. Bolelli
2 La codifica digitale del testo Il testo e la sua organizzazione intestazione capitolo titolo testo 57
3 La codifica digitale del testo Il testo e la sua struttura linguistica sintagma nominale V andare pass. rem. 3 sing. frase relativa articolo indefinito femminile singolare stanza come luogo tutti = soggetto 58
4 La codifica digitale del testo Rappresentazione del testo su supporto digitale in un formato leggibile da un computer Machine Readable Form (MRF) I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (cifre binarie) Ogni tipo di informazione deve essere codificata in cifre binarie codificare informazione = associare a ciascuna unità di informazione un codice (sequenza di cifre binarie) che la identifica in maniera univoca I testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione (codifica) binaria 59
5 La codifica digitale del testo Il testo come sequenza di caratteri Ciascun carattere alfanumerico, di punteggiatura o di controllo che compone il testo deve essere rappresentato nei termini di un codice binario Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. 60
6 La codifica digitale del testo Il testo come sequenza di caratteri Surrogato parziale del testo originario completa equivalenza solo dal punto di vista dei caratteri che lo compongono perdita di informazione l informazione implicitamente veicolata dalla formattazione del testo relativa a: le coordinate meta testuali» il nome dell autore, il titolo, ecc. la struttura e organizzazione testuale» la suddivisione logica in sezioni, capitoli, paragrafi, ecc. nessun guadagno di informazione l informazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale) 61
7 La codifica digitale del testo Due livelli di codifica del testo digitale codifica di basso livello (codifica di livello 0) riguarda la rappresentazione binaria della sequenza ordinata dei caratteri codifica di alto livello arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali organizzazione del testo in strutture macrotestuali articolazione del testo in strutture linguistiche La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo 62
8 La codifica di livello 0 Il testo come sequenza di caratteri dietro le quinte 63
9 Maestro Ciliegia La codifica di livello 0 caratteri e numeri a carattere 97 codice (decimale) del carattere codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bits (0,1) 64
10 Numeri e numeri X numero 10 A 1010 rappresentazione di un numero Sistema binario vengono usate due cifre (0 e 1) per rappresentare un numero problema: i numeri binari sono estremamente lunghi e difficili da ricordare Sistema esadecimale ogni numero è rappresentato con 16 cifre (0 9, A F) i numeri sono più corti di quelli binari estrema facilità di conversione tra binario ed esadecimale in una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale numero binario (6) (15) (6) 6 F 6 numero esadecimale 65
11 Come sono rappresentati i caratteri nel computer? Repertorio di caratteri un insieme di caratteri (es. A, a,!, à, P, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) a, a, a, a sono tutti lo stesso carattere a la stessa realizzazione grafica può corrispondere a caratteri diversi (es. A latino e A cirillico e A greco) Set di carattere (codice) una tabella che definisce una corrispondenza biunivoca (1 a 1) tra un repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice o code position) Codifica di carattere algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes) 66
12 Il codice ASCII Primo standard per l assegnazione di codici a caratteri (dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come ASCII Standard o ISO 646 Codifica 7 bits ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità) 7 bits = 2 7 punti di codice = 128 caratteri rappresentati Sufficiente per rappresentare l inglese mancano i caratteri accentati, ecc. per rappresentare altri alfabeti occidentali 67
13 ASCII Standard decimale ed esadecimale 68
14 Il set di caratteri ISO Latin 1 ISO Latin 1 (ISO o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bits = 2 8 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.) ASCII Standard Caratteri di controllo
15 La famiglia di caratteri ISO set di caratteri standardizzati da ISO (International Standard Organization) Codifica 1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard punti di codice (parte comune) ASCII punti di codice codici di controllo (non corrispondono a caratteri grafici) punti di codice (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ecc. I set di ISO 8859 sono tutti reciprocamente incompatibili Punto di codice 232 ISO (Latin 1) = è ISO (Cyrillic) = ш ISO 8859 non copre lingue come giapponese, cinese, ecc. 70
16 La famiglia di caratteri ISO 8859 ISO-Latin-1 71
17 The Universal Character Set UNICODE (ISO 10646) Standard internazionale che permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti lingue europee, asiatiche, arabo, ebraico, cirillico, ugaritico, ecc. basato su principi di composizione dinamica dei caratteri utile per caratteri complessi, e.g., cinesi, latini con segni diacritici, etc. ç = c + Assegna un numero di codice univoco ad ogni carattere è = 232 ш = 1096 Risolve i problemi di incompatibilità dei sistemi ISO 8859 estende l insieme dei caratteri supportati permette la realizzazione di documenti multilingue Unicode è un soprainsieme di ASCII 72
18 The Universal Character Set UNICODE (ISO 10646) Molteplici tipi di codifica: UCS 2, UCS 4, UTF 8, UTF 16, ecc. Codifica comune UTF 8 codifica di Unicode a lunghezza variabile che usa da 1 a 4 bytes per ogni carattere UTF 8 usa 1 byte per la codifica dei caratteri corrispondenti al set ASCII (cioè la compatibilità non si estende per i caratteri da 128 a 255) totale compatibilità con la codifica ASCII ( ma non con ISO latin 1!!!) 73
19 The Universal Character Set UNICODE (ISO 10646) 74
20 Caratteri e computer Unicode ISO-Latin-1 من ٦ و Ab bkйd ds kjdks kdsk sybco oθδjpjp Ab bkƛd ƛƛƛƛ ds kjdks kdsk sybco oƛƛjpjp 75
Linguistica Computazionale
Linguistica Computazionale Codifica del testo digitale 30 settembre 2014 Strumenti e risorse per la linguistica computazionale Tre requisiti per la linguistica computazionale e NLP dati linguistici corpora
Linguistica Computazionale
Linguistica Computazionale La codifica di alto livello del testo Salvatore Sorce Dipartimento di Ingegneria Chimica, Gestionale, Informatica e Meccanica Lucidi Adattati da Alessandro Lenci Dipartimento
Rappresentazione di dati: caratteri di testo. Appunti a cura del prof. Ing. Mario Catalano
Rappresentazione di dati: caratteri di testo Appunti a cura del prof. Ing. Mario Catalano Come si presenta un testo di un documento da un programma di videoscrittura Testo formattato Per migliorare la
1.2d: La codifica Digitale dei caratteri
1.2d: La codifica Digitale dei caratteri 2 12 ott 2011 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 12 ott 2011 La codifica dei caratteri Un testo
1.2d: La codifica Digitale dei caratteri
1.2d: La codifica Digitale dei caratteri 2 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 La codifica dei caratteri Un testo è rappresentato attraverso
La rappresentazione delle informazioni
Procedimento di codifica La rappresentazione delle informazioni Come il computer rappresenta le informazioni Il computer per lavorare sui dati, ha bisogno che questi siano espressi come sequenze di 1 e
La codifica digitale del testo
La codifica digitale del testo Codifica digitale La codifica Il computer elabora esclusivamente numeri binari. Le informazioni per essere trattate ed elaborate dal computer devono essere prima trasformate
Codifica dell Informazione
Introduzione all Informatica Fabrizio Angiulli Codifica dell Informazione CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati
La rappresentazione delle informazioni
La rappresentazione delle informazioni In queste pagine cercheremo di capire come sia possibile rappresentare mediante numeri e memorizzare in un file testi, immagini, video, suoni... Il computer per lavorare
Codifica dell Informazione
Francesco Folino CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati e istruzioni in un formato tale che l esecutore automatico
La codifica digitale dei testi. Daniela Trotta
La codifica digitale dei testi Daniela Trotta [email protected] The lexicographic data that are available in computer form as of today are the following: published dictionaries [ ], electronic dictionaries
Quante informazioni posso rappresentare con n bit?
Codifica dell informazione: A causa delle caratteristiche del computer, per comunicare con esso disponiamo di due soli simboli: lo zero e l uno. La codifica è la tecnica che permette di rappresentare i
La rappresentazione dell informazione. Capitolo 5 Fluency Conoscere e usare l informatica
La rappresentazione dell informazione Capitolo 5 Fluency Conoscere e usare l informatica Quanti sono? Nel mondo ci sono 10 tipi di persone quelli che capiscono il codice binario e quelli che non lo capiscono.
Pag. 1. La Rappresentazione e la Codifica delle informazioni (parte 2) Tipi di dati. Informatica Facoltà di Medicina Veterinaria
1 Università degli studi di Parma Dipartimento di Ingegneria dell Informazione Informatica a.a. 2012/13 Tipi di dati Informatica Facoltà di Medicina Veterinaria La Rappresentazione e la Codifica delle
Prof. Maristella Agosti, Ing. Marco Dussin
Università degli Studi di Padova Facoltà di Lettere e Filosofia Progettazione di siti web (ING-INF/05) LMSGC, mutuato da LMLIN e Sc. Stat. a.a. 2010-11 Indice: Prof. Maristella Agosti, Ing. Marco Dussin
Fondamenti di Informatica
Fondamenti di Informatica Introduzione al Digitale [Sez: 2.3, 2.4, 2.5] Prof. De Maio Carmen [email protected] Analogico/Digitale Segnale analogico - come un onda (es. sonora, luminosa) che trasporta informazioni,
Tabella dei codici ASCII standard
Tabella dei codici standard 0 00000000 0 nul 43 00101011 2B + 86 01010110 56 V 1 00000001 1 soh 44 00101100 2C, 87 01010111 57 W 2 00000010 2 stx 45 00101101 2D - 88 01011000 58 X 3 00000011 3 etx 46 00101110
Numeri e caratteri in binario. Prof.ssa Antonella Serra
Numeri e caratteri in binario SISTEMI DI NUMERAZIONE Viene definito sistema di numerazione o numerazione l'insieme delle regole e dei simboli per rappresentare i numeri. Assumono particolare caratteristica
Il Modello di von Neumann (2) Prevede 3 entità logiche:
Introduzione all Architettura degli Elaboratori Sommario Macchina di von Neumann Esecuzione dei programmi Rappresentazione dei dati Dati numerici Dati alfabetici 1 2 Il Modello di von Neumann (1) L architettura
LE AREE TRATTEGGIATE SONO I MARGINI DI UNA TABELLA WORD E SONO PURAMENTE INDICATIVI: CANCELLARE LE SCRITTE ED INSERIRE I CONTENUTI.
NOME: COGNOME: CLASSE: DATA: _ LE AREE TRATTEGGIATE SONO I MARGINI DI UNA TABELLA WORD E SONO PURAMENTE INDICATIVI: CANCELLARE LE SCRITTE ED INSERIRE I CONTENUTI. NOME: COGNOME: CLASSE: DATA: N O M
La codifica dell informazione
La codifica dell informazione Algoritmo Codifica dati e istruzioni descrizione della soluzione di problema scritta in modo da poter essere eseguita da un esecutore (eventualmente diverso dall autore dell
LA CODIFICA DELL INFORMAZIONE. Introduzione ai sistemi informatici D. Sciuto, G. Buonanno, L. Mari, McGraw-Hill Cap.2
LA CODIFICA DELL INFORMAZIONE Introduzione ai sistemi informatici D. Sciuto, G. Buonanno, L. Mari, McGraw-Hill Cap.2 Codifica dati e istruzioni Per scrivere un programma è necessario rappresentare istruzioni
Sistema di numerazione binario
Sistema di numerazione binario Liberamente tratto da: Wikipedia, l'enciclopedia libera http://www.lezionidimatematica.net/ Il sistema numerico binario è un sistema numerico posizionale in base 2. Posizionale
I.4 Rappresentazione dell informazione
I.4 Rappresentazione dell informazione Università di Ferrara Dipartimento di Economia e Management Insegnamento di Informatica Ottobre 13, 2015 Argomenti Introduzione 1 Introduzione 2 3 L elaboratore Introduzione
La codifica dell informazione
La codifica dell informazione Ci sono tipi di persone in questo mondo, quelli che capiscono il binario e quelli che non lo capiscono. Michael Gittelsohn (?!) Parte I Sui testi di approfondimento: leggere
Un ripasso di aritmetica: Conversione dalla base 10 alla base 2
Un ripasso di aritmetica: Conversione dalla base 10 alla base 2 Dato un numero N rappresentato in base dieci, la sua rappresentazione in base due sarà del tipo: c m c m-1... c 1 c 0 (le c i sono cifre
Appunti del corso di Informatica 1 (IN110 Fondamenti) 5 Rappresentazione delle informazioni
Università di Roma Tre Dipartimento di Matematica e Fisica Corso di Laurea in Matematica Appunti del corso di Informatica 1 (IN110 Fondamenti) 5 Rappresentazione delle informazioni Marco Liverani ([email protected])
Modulo: Elementi di Informatica
LE UNITA DI MISURA(1/4) Facoltà di Medicina Veterinaria Corso di laurea in Tutela e benessere animale Corso Integrato: Fisica medica e statistica Modulo: Elementi di Informatica A.A. 2009/10 Lezione 2
La codifica dei caratteri di un testo
La codifica dei caratteri di un testo L obiettivo è quello di comunicare con il calcolatore usando il nostro linguaggio. Dobbiamo rappresentare le lettere dell alfabeto L insieme di simboli comunemente
Sistemi di Elaborazione delle Informazioni 6 CFU
Università degli Studi di Palermo Dipartimento di Ingegneria Chimica, Gestionale, Informatica, Meccanica Sistemi di Elaborazione delle Informazioni 6 CFU Anno Accademico 2015/2016 Docente: ing. Salvatore
La Rappresentazione dell Informazione
La Rappresentazione dell Informazione Parte III I codici Codici a.a. 27-28 Un codice è una funzione che associa ad una sequenza di simboli un significato Codice : {entità} {sequenze di simboli} Un codice
Informatica di Base - 6 c.f.u.
Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica di Base - 6 c.f.u. Anno Accademico 27/28 Docente: ing. Salvatore Sorce Rappresentazione delle informazioni Sistemi di
Laboratorio di Informatica
Rappresentazione delle informazioni Pagina 1 Calcolatori digitali tutte le informazioni vengono rappresentate in forma numerica binaria (0,1): Numeri Caratteri Immagini Video Suoni Pagina 2 La codifica
La codifica dei caratteri di un testo
La codifica dei caratteri di un testo L obiettivo è quello di comunicare con il calcolatore usando il nostro linguaggio. Dobbiamo rappresentare le lettere dell alfabeto L insieme di simboli comunemente
La codifica dei numeri
La codifica dei numeri La rappresentazione dei numeri con il sistema decimale può essere utilizzata come spunto per definire un metodo di codifica dei numeri all interno degli elaboratori: la sequenza
Algoritmi Istruzioni che operano su dati. Per scrivere un programma è necessario. che l esecutore automatico sia in grado di.
Codifica di Dati e Istruzioni Fondamenti di Informatica Codifica dell Informazione Prof. Francesco Lo Presti Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare
LA CODIFICA DELL INFORMAZIONE
LA CODIFICA DELL INFORMAZIONE Prof. Enrico Terrone A. S: 20/2 Lo schema di Tanenbaum Il livello al quale ci interessiamo in questa lezione è il linguaggio macchina, l unico dove le informazioni e istruzioni
