CODIFICA DEI CARATTERI

Размер: px
Начинать показ со страницы:

Download "CODIFICA DEI CARATTERI"

Транскрипт

1 CODIFICA DEI CARATTERI A lunghezza fissa: 7 bit (ASCII) 8 bit (ISO 8859: Latin-1, Latin-2 Latin-15) A lunghezza fissa: 16, 32 bit (UCS-2, UCS-4) A lunghezza variabile: da 1 a 4 byte (UTF-8 e UTF-16) Si consiglia la lettura Raffaella Gasparotto Set di caratteri appunti novembre

2 Set di caratteri a lunghezza fissa ASCII (American Standard Code for Information Interchange) standard ANSI (X ) che definisce valori per 128 caratteri, ovvero 7 bit su 8 (l ottavo bit è utilizzato per il controllo di parità). ASCII possiede 33 caratteri (0-31 e 127) di controllo 8 (BACKSPACE, CR, LF ) Gli altri 95 sono caratteri dell'alfabeto latino, maiuscole e minuscole, numeri e punteggiatura. ISO 8859: Estensioni di ASCII sono state fatte per utilizzare tutti gli 8 bit senza controllo di parità. Lettera T / ASCII ISO 8859 Latin 1 2

3 TABELLE DI CARATTERI UNICODE Al momento sono stati definiti 95'221 caratteri diversi, appartenenti a tre categorie: Script moderni Latin; Greek; Cyrillic; Armenian; Hebrew; Arabic; Syriac; Thaana; Devanagari; Bengali; Gurmukhi; Oriya; Tamil; Telegu; Kannada; Malayalam; Sinhala; Thai; Lao; Tibetan; Myanmar; Georgian; Hangul; Ethiopic; Cherokee; Canadian-Aboriginal Syllabics; Ogham; Runic; Khmer; Mongolian; Han (Japanese, Chinese, Korean ideographs); Hiragana; Katakana; Bopomofo and Yi Script antichi Aegean; Alphabetic and syllabic LTR & RTL; Brahmic; African scripts; Scripts for invented languages; Cuneiform; Undeciphered scripts; North American ideographs and pictograms; Egyptian and Mayan hieroglyphs; Sumerian pictograms; Large Asian scripts; Segni speciali punctuation marks, diacritics, mathematical symbols, technical symbols, arrows, dingbats, etc 3

4 Character Encoding Tutti I simboli sono rappresentati in una tabella UNICODE. Il CODE POINT è la posizione del carattere nella tabella. Il CODE POINT non è la RAPPRESENTAZIONE del carattere. I due concetti coincidono per L'ASCII (0-127 caratteri), ISO (0-255 caratteri) Windows-1252(0,255) e per il 1- byte UTF-8 (0-127 caratteri) Ma Non lo è per la codifica multi-byte UTF-8.ere.

5 UTF-8 può rappresentare qualsiasi linguaggio al mondo. COMPLETAMENTE ASCII-compatible, ma non è Latin-1 compatible (..PERCHE??). UTF-8 usa da 1 a 4 byte. Quando usa un solo byte, UTF-8 = ASCII (a 7 bit) E il code point = representation. Esempi di 1-byte UTF-8: A -> & -> >

6 Codifica di caratteri a lunghezza variabile: UTF-8 In generale, il primo byte contiene tanti 1 quanti sono i byte complessivi usati per rappresentare il carattere (lunghezza). 0xxxxxxx UTF-8 110yyyyx 10xxxxxx UTF z z z z 10 z yyyyx 10xxxxxx UTF-8 Il secondo byte o i successivi byte contengono la sequenza: - '10' bit di continuazione seguito da - 6 bit significativi per la rappresentazione del code point 6

7 Codifica UTF-8 con 2-byte HA code point!= representation visto che il code point viene distribuito nei 2 byte come rappresentato x x x x x 1 0 x x x x x x Codifica UTF-8 con 3-byte HA code point!= representation visto che il code point viene distribuito nei 3 byte come rappresentato e nel byte più significativo, si pone x x x x 1 0 x x x x x x 1 0 x x x x x x Analogamente la Codifica UTF-8 con 4-byte HA code point!= representation

8 COME CALCOLARE I BYTE NECESSARI? Range di caratteri UTF-8 octet sequence (hexadecimal) (binary) F 0xxxxxxx FF 110xxxxx 10xxxxxx FFFF 1110xxxx 10xxxxxx 10xxxxxx FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

9 ESEMPIO CODIFICA UTF-8 La sequenza di caratteri Lällê si codifica in UTF-8 come segue: L ä l l ê ASCII76 UNICODE228 ASCII108 UNICODE234 I codici ASCII dei caratteri L e l vengono preservati così come sono in UTF-8. Il carattere ä ha codice UNICODE 228. Siccome , saranno necessari due ottetti (byte) per la sua codifica in UTF-8. Questi ultimi avranno la seguente configurazione: 110xxxxx 10xxxxxx NB: - 11 perché uso 2 byte per la rappresentazione del numero - ora dobbiamo dare un valore alle x mancanti. Raffaella Gasparotto Set di caratteri

10 228 in binario si scrive e utilizzando gli 11 bit liberi (quelli indicati con x) otteniamo la rappresentazione binaria A partire dai bit meno significativi (a destra) suddividiamo la rappresentazione binaria di 228 in due parti composte da 6 e 5 bit come segue: Ora siamo in grado di completare la codifica UTF-8 specificando i valori delle singole x come segue: 110 x x x x x 1 0 x x x x x x (195)10 (164)10 Raffaella Gasparotto Set di caratteri

11 Per il carattere ê (codice UNICODE 234) si procede in modo analogo, a partire dalla sua rappresentazione binaria a 11 bit: = U x x x x x 10 x x x x x x (195)10 (170)10 Quindi la codifica binaria finale della sequenza di caratteri Lällê è la seguente: L (ASCII 76) ä (UNICODE 228) l (ASCII 108) l (ASCII 108) ê(unicode 234) Raffaella Gasparotto Set di caratteri

12 ALTRI ESEMPI Codifica UTF-8 ( code point!= representation)

13 U+0026, la e commerciale, occupa un byte. U+0416, Cyrillic zhe, sono 2 bytes (in hex): D0, 96. U+4E2D, the Chinese character, sono 3 bytes: E4, B8, AD. U+10346, from the astral plane, sono 4by: F0, 90, 8D, 86.

14 Cosa significa se compare Niño sostituita da Ni?o Niño sostituita da Ni o Il carattere di sostituzione (spesso un diamante nero con un punto interrogativo bianco) è usato per indicare che il sistema non è in grado di decodificare un flusso di dati in un simbolo corretto. ha Code point U+FFFD e quindi la codifica UTF-8 è 0xEF 0xBF 0xBD (verifica la codifica per esercizio!!)

15 Si consideri un file di testo contenente la parola tedesca für codificata in ISO Se ora apro questo testo con un editor di testo UTF-8 osservo: 1) il primo byte (f=66) è interpreto correttamente come un f. 2) Il secondo byte (ü=fc) non è un valore legale per l'avvio di qualsiasi caratteri UTF-8 codificato in quanto il bit più significativo non è 0 bensì 1 perchè la ü è codificata ISO QUINDI L'editor di testo UTF-8 sostituisce questo byte non compatibile con il simbolo per avvertire l'utente che qualcosa è andato storto. 3) L'ultimo byte (0x72) è anche nel campo codice 0x00-0x7F e può essere decodificato correttamente. L'intera stringa ora mostra in questo modo: f r

16 Se ora l'editor di testo UTF-8 salva la parola f r La codifica salvata è 66 EF BF BD 72 Riaprendola con un editor di testo ISO , verrà visualizzato in ISO di nuovo come f ï» r 66 EF BF BD 72 È solo un esempio dell'encoding Hell!!!

La codifica digitale del testo

La codifica digitale del testo La codifica digitale del testo Codifica digitale La codifica Il computer elabora esclusivamente numeri binari. Le informazioni per essere trattate ed elaborate dal computer devono essere prima trasformate

Подробнее

La rappresentazione delle informazioni

La rappresentazione delle informazioni Procedimento di codifica La rappresentazione delle informazioni Come il computer rappresenta le informazioni Il computer per lavorare sui dati, ha bisogno che questi siano espressi come sequenze di 1 e

Подробнее

La Rappresentazione dell Informazione

La Rappresentazione dell Informazione La Rappresentazione dell Informazione Parte III I codici Codici a.a. 27-28 Un codice è una funzione che associa ad una sequenza di simboli un significato Codice : {entità} {sequenze di simboli} Un codice

Подробнее

Il CODICE UNICODE (Prof. M. NASO)

Il CODICE UNICODE (Prof. M. NASO) ITIS Euganeo Este (PD) Via Borgofuro, 6 www.itiseuganeo.it Corso Istruzione e Formazione di INFORMATICA per gli adulti MODULO 2 SISTEMI Il CODICE UNICODE (Prof. M. NASO) Commissione Educazione degli Adulti

Подробнее

La rappresentazione delle informazioni

La rappresentazione delle informazioni La rappresentazione delle informazioni In queste pagine cercheremo di capire come sia possibile rappresentare mediante numeri e memorizzare in un file testi, immagini, video, suoni... Il computer per lavorare

Подробнее

La codifica dei caratteri di un testo

La codifica dei caratteri di un testo La codifica dei caratteri di un testo L obiettivo è quello di comunicare con il calcolatore usando il nostro linguaggio. Dobbiamo rappresentare le lettere dell alfabeto L insieme di simboli comunemente

Подробнее

Somma di numeri binari

Somma di numeri binari Fondamenti di Informatica: Codifica Binaria dell Informazione 1 Somma di numeri binari 0 + 0 = 0 0 + 1 = 1 1 + 0 = 1 1 + 1 = 10 Esempio: 10011011 + 00101011 = 11000110 in base e una base Fondamenti di

Подробнее

Tabella dei codici ASCII standard

Tabella dei codici ASCII standard Tabella dei codici standard 0 00000000 0 nul 43 00101011 2B + 86 01010110 56 V 1 00000001 1 soh 44 00101100 2C, 87 01010111 57 W 2 00000010 2 stx 45 00101101 2D - 88 01011000 58 X 3 00000011 3 etx 46 00101110

Подробнее

Architettura di un elaboratore. Rappresentazione dell informazione digitale

Architettura di un elaboratore. Rappresentazione dell informazione digitale Architettura di un elaboratore Rappresentazione dell informazione digitale Rappresentazione dell informazione digitale L informatica è la scienza della rappresentazione e dell elaborazione dell informazione.

Подробнее

1.2d: La codifica Digitale dei caratteri

1.2d: La codifica Digitale dei caratteri 1.2d: La codifica Digitale dei caratteri 2 12 ott 2011 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 12 ott 2011 La codifica dei caratteri Un testo

Подробнее

Fondamenti di Informatica

Fondamenti di Informatica Fondamenti di Informatica Introduzione al Digitale [Sez: 2.3, 2.4, 2.5] Prof. De Maio Carmen [email protected] Analogico/Digitale Segnale analogico - come un onda (es. sonora, luminosa) che trasporta informazioni,

Подробнее

La codifica del testo

La codifica del testo La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni I slide Informatica e sistemi

Подробнее

Lezione 5 La codifica dei caratteri

Lezione 5 La codifica dei caratteri Lezione 5 Claudio Gennaro ISTI - CNR Sommario Introduzione (terminologia) Standards ASCII (e varianti) La famiglia ISO 8859 ISO/IEC 10646, UCS e Unicode Cenni sui Glifi e Fonts 2 Teminologia Nel mondo

Подробнее

Rappresentazione di dati: numerazione binaria. Appunti per la cl. 3 Di A cura del prof. Ing. Mario Catalano

Rappresentazione di dati: numerazione binaria. Appunti per la cl. 3 Di A cura del prof. Ing. Mario Catalano Rappresentazione di dati: numerazione binaria Appunti per la cl. 3 Di A cura del prof. Ing. Mario Catalano Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze

Подробнее

Codifica dell Informazione

Codifica dell Informazione Introduzione all Informatica Fabrizio Angiulli Codifica dell Informazione CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati

Подробнее

Rappresentazione dell Informazione

Rappresentazione dell Informazione Rappresentazione dell Informazione Rappresentazione delle informazioni in codice binario Caratteri Naturali e Reali positivi Interi Razionali Rappresentazione del testo Una stringa di bit per ogni simbolo

Подробнее

Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte

Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte Rappresentazione digitale delle informazioni Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte Ordini di grandezza Codifica delle immagini Codifica

Подробнее

La codifica binaria. Fondamenti di Informatica. Daniele Loiacono

La codifica binaria. Fondamenti di Informatica. Daniele Loiacono La codifica binaria Fondamenti di Informatica Introduzione q Il calcolatore usa internamente una codifica binaria (0 e 1) per rappresentare: i dati da elaborare (numeri, testi, immagini, suoni, ) le istruzioni

Подробнее

Codifica dell Informazione

Codifica dell Informazione Francesco Folino CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati e istruzioni in un formato tale che l esecutore automatico

Подробнее

Codifica binaria dell informazione

Codifica binaria dell informazione Codifica binaria dell informazione Marco D. Santambrogio [email protected] Ver. aggiornata al 20 Marzo 2016 Un obiettivo per domarli tutti 2 Un obiettivo per domarli tutti 3 Obiettivi Rappresentazione

Подробнее

1.2d: La codifica Digitale dei caratteri

1.2d: La codifica Digitale dei caratteri 1.2d: La codifica Digitale dei caratteri 2 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 La codifica dei caratteri Un testo è rappresentato attraverso

Подробнее

modificato da andynaz Cambiamenti di base Tecniche Informatiche di Base

modificato da andynaz Cambiamenti di base Tecniche Informatiche di Base Cambiamenti di base Tecniche Informatiche di Base TIB 1 Il sistema posizionale decimale L idea del sistema posizionale: ogni cifra ha un peso Esempio: 132 = 100 + 30 + 2 = 1 10 2 + 3 10 1 + 2 10 0 Un numero

Подробнее

Pag. 1. La Rappresentazione e la Codifica delle informazioni (parte 2) Tipi di dati. Informatica Facoltà di Medicina Veterinaria

Pag. 1. La Rappresentazione e la Codifica delle informazioni (parte 2) Tipi di dati. Informatica Facoltà di Medicina Veterinaria 1 Università degli studi di Parma Dipartimento di Ingegneria dell Informazione Informatica a.a. 2012/13 Tipi di dati Informatica Facoltà di Medicina Veterinaria La Rappresentazione e la Codifica delle

Подробнее

Rappresentazione di dati: caratteri. Appunti a cura del prof. Ing. Mario Catalano

Rappresentazione di dati: caratteri. Appunti a cura del prof. Ing. Mario Catalano Rappresentazione di dati: caratteri Appunti a cura del prof. Ing. Mario Catalano 1 Rappresentazione di caratteri Tipologia di caratteri: alfabeto e interpunzioni: A, B,.., Z, a, b,.., z, ;, :,,.. cifre

Подробнее

Appunti del corso di Informatica 1 (IN110 Fondamenti) 5 Rappresentazione delle informazioni

Appunti del corso di Informatica 1 (IN110 Fondamenti) 5 Rappresentazione delle informazioni Università di Roma Tre Dipartimento di Matematica e Fisica Corso di Laurea in Matematica Appunti del corso di Informatica 1 (IN110 Fondamenti) 5 Rappresentazione delle informazioni Marco Liverani ([email protected])

Подробнее

Tipi di elaboratori Rappresentazione della informazione Codifica della informazione

Tipi di elaboratori Rappresentazione della informazione Codifica della informazione Contenuti del corso Introduzione all informatica L elaboratore Tipi di elaboratori Rappresentazione della informazione Codifica della informazione HW dell elaboratore SW dell elaboratore 1 Tipi di Elaboratori

Подробнее

Rappresentazione dell Informazione. Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1

Rappresentazione dell Informazione. Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1 Rappresentazione dell Informazione Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1 Il bit Si consideri un alfabeto di 2 simboli: 0, 1 Che tipo di informazione si può rappresentare

Подробнее

Il Modello di von Neumann (2) Prevede 3 entità logiche:

Il Modello di von Neumann (2) Prevede 3 entità logiche: Introduzione all Architettura degli Elaboratori Sommario Macchina di von Neumann Esecuzione dei programmi Rappresentazione dei dati Dati numerici Dati alfabetici 1 2 Il Modello di von Neumann (1) L architettura

Подробнее

La codifica binaria. Informatica B. Daniele Loiacono

La codifica binaria. Informatica B. Daniele Loiacono La codifica binaria Informatica B Introduzione Il calcolatore usa internamente una codifica binaria ( e ) per rappresentare: i dati da elaborare le istruzioni dei programmi eseguibili Fondamenti di codifica

Подробнее

Il trattamento del testo

Il trattamento del testo Il trattamento del testo L avvento del calcolatore ha portato dei benefici anche nel trattamento delle fonti di informazione testuali (tipiche delle discipline umanistiche). Per passare da un testo (in

Подробнее

Rappresentazione dell Informazione

Rappresentazione dell Informazione Rappresentazione dell Informazione Fondamenti dell Informatica Michele Ceccarelli Università del Sannio [email protected] Angelo Ciaramella DMI-Università degli Studi di Salerno [email protected] Argomenti

Подробнее

Linguistica Computazionale

Linguistica Computazionale Linguistica Computazionale La codifica digitale del testo Salvatore Sorce Dipartimento di Ingegneria Chimica, Gestionale, Informatica e Meccanica Lucidi Adattati da Alessandro Lenci Dipartimento di Linguistica

Подробнее

INFORMATICA GENERALE. Informatica Generale

INFORMATICA GENERALE. Informatica Generale INFORMATICA GENERALE a.a. 2006/2007 COGNOMI A-L Silvano Antonelli -Ricevimento : durante il corso: Martedì ore 15.30 presso Dipartimento di Informatica, Largo Pontecorvo 2 Stanza 394 negli altri periodi:

Подробнее

LA CODIFICA DELL INFORMAZIONE

LA CODIFICA DELL INFORMAZIONE LA CODIFICA DELL INFORMAZIONE Prof. Enrico Terrone A. S: 20/2 Lo schema di Tanenbaum Il livello al quale ci interessiamo in questa lezione è il linguaggio macchina, l unico dove le informazioni e istruzioni

Подробнее

CODIFICA DELL INFORMAZIONE E CODICI BINARI

CODIFICA DELL INFORMAZIONE E CODICI BINARI Codifica dell informazione 1 CODIFICA DELL INFORMAZIONE E CODICI BINARI Andrea Bobbio Anno Accademico 2001-2002 Codifica dell informazione 2 La codifica dell informazione I sistemi di elaborazione operano

Подробнее

Rappresentazione dell informazione Codifica Binaria

Rappresentazione dell informazione Codifica Binaria Fondamenti di Informatica Rappresentazione dell informazione Codifica Binaria Fondamenti di Informatica - D. Talia - UNICAL 1 Rappresentazione dell informazione Tutta l'informazione in un calcolatore è

Подробнее

Prof. Maristella Agosti, Ing. Marco Dussin

Prof. Maristella Agosti, Ing. Marco Dussin Università degli Studi di Padova Facoltà di Lettere e Filosofia Progettazione di siti web (ING-INF/05) LMSGC, mutuato da LMLIN e Sc. Stat. a.a. 2010-11 Indice: Prof. Maristella Agosti, Ing. Marco Dussin

Подробнее

I CARATTERI E LE STRINGHE

I CARATTERI E LE STRINGHE I CARATTERI E LE STRINGHE IL CODICE ASCII Per memorizzare i simboli grafici corrispondenti ai caratteri bisogna associare un numero intero a ciascuno di essi Il codice ASCII / æski/ (American Standard

Подробнее

LabVIEW parte II. Ing. Gianfranco Miele November 3, 2010

LabVIEW parte II. Ing. Gianfranco Miele  November 3, 2010 Ing. Gianfranco Miele ([email protected]) http://www.docente.unicas.it/gianfranco_miele November 3, 2010 Le stringhe Una stringa è una sequenza di caratteri Ogni carattere ha una corrispondente codifica

Подробнее

La codifica dell informazione

La codifica dell informazione La codifica dell informazione Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze di due soli simboli : 0 e 1 L unità elementare di informazione si chiama bit

Подробнее

Informatica di Base - 6 c.f.u.

Informatica di Base - 6 c.f.u. Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica di Base - 6 c.f.u. Anno Accademico 27/28 Docente: ing. Salvatore Sorce Rappresentazione delle informazioni Sistemi di

Подробнее

Numeri e caratteri in binario. Prof.ssa Antonella Serra

Numeri e caratteri in binario. Prof.ssa Antonella Serra Numeri e caratteri in binario SISTEMI DI NUMERAZIONE Viene definito sistema di numerazione o numerazione l'insieme delle regole e dei simboli per rappresentare i numeri. Assumono particolare caratteristica

Подробнее

Quante informazioni posso rappresentare con n bit?

Quante informazioni posso rappresentare con n bit? Codifica dell informazione: A causa delle caratteristiche del computer, per comunicare con esso disponiamo di due soli simboli: lo zero e l uno. La codifica è la tecnica che permette di rappresentare i

Подробнее