CODIFICA DEI CARATTERI
|
|
|
- Andrea Gerardo Micheli
- 8 anni fa
- Просмотров:
Транскрипт
1 CODIFICA DEI CARATTERI A lunghezza fissa: 7 bit (ASCII) 8 bit (ISO 8859: Latin-1, Latin-2 Latin-15) A lunghezza fissa: 16, 32 bit (UCS-2, UCS-4) A lunghezza variabile: da 1 a 4 byte (UTF-8 e UTF-16) Si consiglia la lettura Raffaella Gasparotto Set di caratteri appunti novembre
2 Set di caratteri a lunghezza fissa ASCII (American Standard Code for Information Interchange) standard ANSI (X ) che definisce valori per 128 caratteri, ovvero 7 bit su 8 (l ottavo bit è utilizzato per il controllo di parità). ASCII possiede 33 caratteri (0-31 e 127) di controllo 8 (BACKSPACE, CR, LF ) Gli altri 95 sono caratteri dell'alfabeto latino, maiuscole e minuscole, numeri e punteggiatura. ISO 8859: Estensioni di ASCII sono state fatte per utilizzare tutti gli 8 bit senza controllo di parità. Lettera T / ASCII ISO 8859 Latin 1 2
3 TABELLE DI CARATTERI UNICODE Al momento sono stati definiti 95'221 caratteri diversi, appartenenti a tre categorie: Script moderni Latin; Greek; Cyrillic; Armenian; Hebrew; Arabic; Syriac; Thaana; Devanagari; Bengali; Gurmukhi; Oriya; Tamil; Telegu; Kannada; Malayalam; Sinhala; Thai; Lao; Tibetan; Myanmar; Georgian; Hangul; Ethiopic; Cherokee; Canadian-Aboriginal Syllabics; Ogham; Runic; Khmer; Mongolian; Han (Japanese, Chinese, Korean ideographs); Hiragana; Katakana; Bopomofo and Yi Script antichi Aegean; Alphabetic and syllabic LTR & RTL; Brahmic; African scripts; Scripts for invented languages; Cuneiform; Undeciphered scripts; North American ideographs and pictograms; Egyptian and Mayan hieroglyphs; Sumerian pictograms; Large Asian scripts; Segni speciali punctuation marks, diacritics, mathematical symbols, technical symbols, arrows, dingbats, etc 3
4 Character Encoding Tutti I simboli sono rappresentati in una tabella UNICODE. Il CODE POINT è la posizione del carattere nella tabella. Il CODE POINT non è la RAPPRESENTAZIONE del carattere. I due concetti coincidono per L'ASCII (0-127 caratteri), ISO (0-255 caratteri) Windows-1252(0,255) e per il 1- byte UTF-8 (0-127 caratteri) Ma Non lo è per la codifica multi-byte UTF-8.ere.
5 UTF-8 può rappresentare qualsiasi linguaggio al mondo. COMPLETAMENTE ASCII-compatible, ma non è Latin-1 compatible (..PERCHE??). UTF-8 usa da 1 a 4 byte. Quando usa un solo byte, UTF-8 = ASCII (a 7 bit) E il code point = representation. Esempi di 1-byte UTF-8: A -> & -> >
6 Codifica di caratteri a lunghezza variabile: UTF-8 In generale, il primo byte contiene tanti 1 quanti sono i byte complessivi usati per rappresentare il carattere (lunghezza). 0xxxxxxx UTF-8 110yyyyx 10xxxxxx UTF z z z z 10 z yyyyx 10xxxxxx UTF-8 Il secondo byte o i successivi byte contengono la sequenza: - '10' bit di continuazione seguito da - 6 bit significativi per la rappresentazione del code point 6
7 Codifica UTF-8 con 2-byte HA code point!= representation visto che il code point viene distribuito nei 2 byte come rappresentato x x x x x 1 0 x x x x x x Codifica UTF-8 con 3-byte HA code point!= representation visto che il code point viene distribuito nei 3 byte come rappresentato e nel byte più significativo, si pone x x x x 1 0 x x x x x x 1 0 x x x x x x Analogamente la Codifica UTF-8 con 4-byte HA code point!= representation
8 COME CALCOLARE I BYTE NECESSARI? Range di caratteri UTF-8 octet sequence (hexadecimal) (binary) F 0xxxxxxx FF 110xxxxx 10xxxxxx FFFF 1110xxxx 10xxxxxx 10xxxxxx FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
9 ESEMPIO CODIFICA UTF-8 La sequenza di caratteri Lällê si codifica in UTF-8 come segue: L ä l l ê ASCII76 UNICODE228 ASCII108 UNICODE234 I codici ASCII dei caratteri L e l vengono preservati così come sono in UTF-8. Il carattere ä ha codice UNICODE 228. Siccome , saranno necessari due ottetti (byte) per la sua codifica in UTF-8. Questi ultimi avranno la seguente configurazione: 110xxxxx 10xxxxxx NB: - 11 perché uso 2 byte per la rappresentazione del numero - ora dobbiamo dare un valore alle x mancanti. Raffaella Gasparotto Set di caratteri
10 228 in binario si scrive e utilizzando gli 11 bit liberi (quelli indicati con x) otteniamo la rappresentazione binaria A partire dai bit meno significativi (a destra) suddividiamo la rappresentazione binaria di 228 in due parti composte da 6 e 5 bit come segue: Ora siamo in grado di completare la codifica UTF-8 specificando i valori delle singole x come segue: 110 x x x x x 1 0 x x x x x x (195)10 (164)10 Raffaella Gasparotto Set di caratteri
11 Per il carattere ê (codice UNICODE 234) si procede in modo analogo, a partire dalla sua rappresentazione binaria a 11 bit: = U x x x x x 10 x x x x x x (195)10 (170)10 Quindi la codifica binaria finale della sequenza di caratteri Lällê è la seguente: L (ASCII 76) ä (UNICODE 228) l (ASCII 108) l (ASCII 108) ê(unicode 234) Raffaella Gasparotto Set di caratteri
12 ALTRI ESEMPI Codifica UTF-8 ( code point!= representation)
13 U+0026, la e commerciale, occupa un byte. U+0416, Cyrillic zhe, sono 2 bytes (in hex): D0, 96. U+4E2D, the Chinese character, sono 3 bytes: E4, B8, AD. U+10346, from the astral plane, sono 4by: F0, 90, 8D, 86.
14 Cosa significa se compare Niño sostituita da Ni?o Niño sostituita da Ni o Il carattere di sostituzione (spesso un diamante nero con un punto interrogativo bianco) è usato per indicare che il sistema non è in grado di decodificare un flusso di dati in un simbolo corretto. ha Code point U+FFFD e quindi la codifica UTF-8 è 0xEF 0xBF 0xBD (verifica la codifica per esercizio!!)
15 Si consideri un file di testo contenente la parola tedesca für codificata in ISO Se ora apro questo testo con un editor di testo UTF-8 osservo: 1) il primo byte (f=66) è interpreto correttamente come un f. 2) Il secondo byte (ü=fc) non è un valore legale per l'avvio di qualsiasi caratteri UTF-8 codificato in quanto il bit più significativo non è 0 bensì 1 perchè la ü è codificata ISO QUINDI L'editor di testo UTF-8 sostituisce questo byte non compatibile con il simbolo per avvertire l'utente che qualcosa è andato storto. 3) L'ultimo byte (0x72) è anche nel campo codice 0x00-0x7F e può essere decodificato correttamente. L'intera stringa ora mostra in questo modo: f r
16 Se ora l'editor di testo UTF-8 salva la parola f r La codifica salvata è 66 EF BF BD 72 Riaprendola con un editor di testo ISO , verrà visualizzato in ISO di nuovo come f ï» r 66 EF BF BD 72 È solo un esempio dell'encoding Hell!!!
La codifica digitale del testo
La codifica digitale del testo Codifica digitale La codifica Il computer elabora esclusivamente numeri binari. Le informazioni per essere trattate ed elaborate dal computer devono essere prima trasformate
La rappresentazione delle informazioni
Procedimento di codifica La rappresentazione delle informazioni Come il computer rappresenta le informazioni Il computer per lavorare sui dati, ha bisogno che questi siano espressi come sequenze di 1 e
La Rappresentazione dell Informazione
La Rappresentazione dell Informazione Parte III I codici Codici a.a. 27-28 Un codice è una funzione che associa ad una sequenza di simboli un significato Codice : {entità} {sequenze di simboli} Un codice
Il CODICE UNICODE (Prof. M. NASO)
ITIS Euganeo Este (PD) Via Borgofuro, 6 www.itiseuganeo.it Corso Istruzione e Formazione di INFORMATICA per gli adulti MODULO 2 SISTEMI Il CODICE UNICODE (Prof. M. NASO) Commissione Educazione degli Adulti
La rappresentazione delle informazioni
La rappresentazione delle informazioni In queste pagine cercheremo di capire come sia possibile rappresentare mediante numeri e memorizzare in un file testi, immagini, video, suoni... Il computer per lavorare
La codifica dei caratteri di un testo
La codifica dei caratteri di un testo L obiettivo è quello di comunicare con il calcolatore usando il nostro linguaggio. Dobbiamo rappresentare le lettere dell alfabeto L insieme di simboli comunemente
Somma di numeri binari
Fondamenti di Informatica: Codifica Binaria dell Informazione 1 Somma di numeri binari 0 + 0 = 0 0 + 1 = 1 1 + 0 = 1 1 + 1 = 10 Esempio: 10011011 + 00101011 = 11000110 in base e una base Fondamenti di
Tabella dei codici ASCII standard
Tabella dei codici standard 0 00000000 0 nul 43 00101011 2B + 86 01010110 56 V 1 00000001 1 soh 44 00101100 2C, 87 01010111 57 W 2 00000010 2 stx 45 00101101 2D - 88 01011000 58 X 3 00000011 3 etx 46 00101110
Architettura di un elaboratore. Rappresentazione dell informazione digitale
Architettura di un elaboratore Rappresentazione dell informazione digitale Rappresentazione dell informazione digitale L informatica è la scienza della rappresentazione e dell elaborazione dell informazione.
1.2d: La codifica Digitale dei caratteri
1.2d: La codifica Digitale dei caratteri 2 12 ott 2011 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 12 ott 2011 La codifica dei caratteri Un testo
Fondamenti di Informatica
Fondamenti di Informatica Introduzione al Digitale [Sez: 2.3, 2.4, 2.5] Prof. De Maio Carmen [email protected] Analogico/Digitale Segnale analogico - come un onda (es. sonora, luminosa) che trasporta informazioni,
La codifica del testo
La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni La codifica delle informazioni Informatica e sistemi di elaborazione delle informazioni I slide Informatica e sistemi
Lezione 5 La codifica dei caratteri
Lezione 5 Claudio Gennaro ISTI - CNR Sommario Introduzione (terminologia) Standards ASCII (e varianti) La famiglia ISO 8859 ISO/IEC 10646, UCS e Unicode Cenni sui Glifi e Fonts 2 Teminologia Nel mondo
Rappresentazione di dati: numerazione binaria. Appunti per la cl. 3 Di A cura del prof. Ing. Mario Catalano
Rappresentazione di dati: numerazione binaria Appunti per la cl. 3 Di A cura del prof. Ing. Mario Catalano Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze
Codifica dell Informazione
Introduzione all Informatica Fabrizio Angiulli Codifica dell Informazione CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati
Rappresentazione dell Informazione
Rappresentazione dell Informazione Rappresentazione delle informazioni in codice binario Caratteri Naturali e Reali positivi Interi Razionali Rappresentazione del testo Una stringa di bit per ogni simbolo
Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte
Rappresentazione digitale delle informazioni Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte Ordini di grandezza Codifica delle immagini Codifica
La codifica binaria. Fondamenti di Informatica. Daniele Loiacono
La codifica binaria Fondamenti di Informatica Introduzione q Il calcolatore usa internamente una codifica binaria (0 e 1) per rappresentare: i dati da elaborare (numeri, testi, immagini, suoni, ) le istruzioni
Codifica dell Informazione
Francesco Folino CODIFICA DI DATI E ISTRUZIONI Algoritmi Istruzioni che operano su dati Per scrivere un programma è necessario rappresentare dati e istruzioni in un formato tale che l esecutore automatico
Codifica binaria dell informazione
Codifica binaria dell informazione Marco D. Santambrogio [email protected] Ver. aggiornata al 20 Marzo 2016 Un obiettivo per domarli tutti 2 Un obiettivo per domarli tutti 3 Obiettivi Rappresentazione
1.2d: La codifica Digitale dei caratteri
1.2d: La codifica Digitale dei caratteri 2 Bibliografia Curtin, 3.6 (vecchie edizioni) Curtin, 2.5 (nuova edizione) CR pag. 9-14 Questi lucidi 3 La codifica dei caratteri Un testo è rappresentato attraverso
modificato da andynaz Cambiamenti di base Tecniche Informatiche di Base
Cambiamenti di base Tecniche Informatiche di Base TIB 1 Il sistema posizionale decimale L idea del sistema posizionale: ogni cifra ha un peso Esempio: 132 = 100 + 30 + 2 = 1 10 2 + 3 10 1 + 2 10 0 Un numero
Pag. 1. La Rappresentazione e la Codifica delle informazioni (parte 2) Tipi di dati. Informatica Facoltà di Medicina Veterinaria
1 Università degli studi di Parma Dipartimento di Ingegneria dell Informazione Informatica a.a. 2012/13 Tipi di dati Informatica Facoltà di Medicina Veterinaria La Rappresentazione e la Codifica delle
Rappresentazione di dati: caratteri. Appunti a cura del prof. Ing. Mario Catalano
Rappresentazione di dati: caratteri Appunti a cura del prof. Ing. Mario Catalano 1 Rappresentazione di caratteri Tipologia di caratteri: alfabeto e interpunzioni: A, B,.., Z, a, b,.., z, ;, :,,.. cifre
Appunti del corso di Informatica 1 (IN110 Fondamenti) 5 Rappresentazione delle informazioni
Università di Roma Tre Dipartimento di Matematica e Fisica Corso di Laurea in Matematica Appunti del corso di Informatica 1 (IN110 Fondamenti) 5 Rappresentazione delle informazioni Marco Liverani ([email protected])
Tipi di elaboratori Rappresentazione della informazione Codifica della informazione
Contenuti del corso Introduzione all informatica L elaboratore Tipi di elaboratori Rappresentazione della informazione Codifica della informazione HW dell elaboratore SW dell elaboratore 1 Tipi di Elaboratori
Rappresentazione dell Informazione. Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1
Rappresentazione dell Informazione Sistemi di Elaborazione delle Informazioni Rappresentazione Informazione 1 Il bit Si consideri un alfabeto di 2 simboli: 0, 1 Che tipo di informazione si può rappresentare
Il Modello di von Neumann (2) Prevede 3 entità logiche:
Introduzione all Architettura degli Elaboratori Sommario Macchina di von Neumann Esecuzione dei programmi Rappresentazione dei dati Dati numerici Dati alfabetici 1 2 Il Modello di von Neumann (1) L architettura
La codifica binaria. Informatica B. Daniele Loiacono
La codifica binaria Informatica B Introduzione Il calcolatore usa internamente una codifica binaria ( e ) per rappresentare: i dati da elaborare le istruzioni dei programmi eseguibili Fondamenti di codifica
Il trattamento del testo
Il trattamento del testo L avvento del calcolatore ha portato dei benefici anche nel trattamento delle fonti di informazione testuali (tipiche delle discipline umanistiche). Per passare da un testo (in
Rappresentazione dell Informazione
Rappresentazione dell Informazione Fondamenti dell Informatica Michele Ceccarelli Università del Sannio [email protected] Angelo Ciaramella DMI-Università degli Studi di Salerno [email protected] Argomenti
Linguistica Computazionale
Linguistica Computazionale La codifica digitale del testo Salvatore Sorce Dipartimento di Ingegneria Chimica, Gestionale, Informatica e Meccanica Lucidi Adattati da Alessandro Lenci Dipartimento di Linguistica
INFORMATICA GENERALE. Informatica Generale
INFORMATICA GENERALE a.a. 2006/2007 COGNOMI A-L Silvano Antonelli -Ricevimento : durante il corso: Martedì ore 15.30 presso Dipartimento di Informatica, Largo Pontecorvo 2 Stanza 394 negli altri periodi:
LA CODIFICA DELL INFORMAZIONE
LA CODIFICA DELL INFORMAZIONE Prof. Enrico Terrone A. S: 20/2 Lo schema di Tanenbaum Il livello al quale ci interessiamo in questa lezione è il linguaggio macchina, l unico dove le informazioni e istruzioni
CODIFICA DELL INFORMAZIONE E CODICI BINARI
Codifica dell informazione 1 CODIFICA DELL INFORMAZIONE E CODICI BINARI Andrea Bobbio Anno Accademico 2001-2002 Codifica dell informazione 2 La codifica dell informazione I sistemi di elaborazione operano
Rappresentazione dell informazione Codifica Binaria
Fondamenti di Informatica Rappresentazione dell informazione Codifica Binaria Fondamenti di Informatica - D. Talia - UNICAL 1 Rappresentazione dell informazione Tutta l'informazione in un calcolatore è
Prof. Maristella Agosti, Ing. Marco Dussin
Università degli Studi di Padova Facoltà di Lettere e Filosofia Progettazione di siti web (ING-INF/05) LMSGC, mutuato da LMLIN e Sc. Stat. a.a. 2010-11 Indice: Prof. Maristella Agosti, Ing. Marco Dussin
I CARATTERI E LE STRINGHE
I CARATTERI E LE STRINGHE IL CODICE ASCII Per memorizzare i simboli grafici corrispondenti ai caratteri bisogna associare un numero intero a ciascuno di essi Il codice ASCII / æski/ (American Standard
LabVIEW parte II. Ing. Gianfranco Miele November 3, 2010
Ing. Gianfranco Miele ([email protected]) http://www.docente.unicas.it/gianfranco_miele November 3, 2010 Le stringhe Una stringa è una sequenza di caratteri Ogni carattere ha una corrispondente codifica
La codifica dell informazione
La codifica dell informazione Rappresentazione binaria Tutta l informazione interna ad un computer è codificata con sequenze di due soli simboli : 0 e 1 L unità elementare di informazione si chiama bit
Informatica di Base - 6 c.f.u.
Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica di Base - 6 c.f.u. Anno Accademico 27/28 Docente: ing. Salvatore Sorce Rappresentazione delle informazioni Sistemi di
Numeri e caratteri in binario. Prof.ssa Antonella Serra
Numeri e caratteri in binario SISTEMI DI NUMERAZIONE Viene definito sistema di numerazione o numerazione l'insieme delle regole e dei simboli per rappresentare i numeri. Assumono particolare caratteristica
Quante informazioni posso rappresentare con n bit?
Codifica dell informazione: A causa delle caratteristiche del computer, per comunicare con esso disponiamo di due soli simboli: lo zero e l uno. La codifica è la tecnica che permette di rappresentare i
