La compressione audio

Documenti analoghi

Università degli Studi di Palermo. Dipartimento di Ingegneria Chimica, Gestionale, Informatica, Meccanica. Informatica per la Storia dell Arte

La compressione audio. Come risparmiare spazio e tempo lavorando sulla forma d onda

La compressione audio

Compressione del Segnale (Audio)

La compressione audio. Come risparmiare spazio e tempo lavorando sulla forma d onda

) *!' " * +! #"#, ( -. - ( #

wave a 44,1 khz, 16 bit, PCM, stereo (standard cd audio) L utilizzo di una risoluzione dipende anche dal supporto che la dovrà ospitare.

Flussi Multimediali. Introduzione

Informatica. Rappresentazione binaria Per esempio diventa /10/2007. Introduzione ai sistemi informatici 1

Università degli Studi di Palermo. Dipartimento di Ingegneria Chimica, Gestionale, Informatica, Meccanica

Realizzazione siti web. I suoni

Informatica per la Storia dell Arte

Elementi di teoria dei segnali /b

Lezione 8: La rappresentazione dell informazione Multimediale Suoni e Video Venerdi 6 Novembre 2009

Come si misura la memoria di un calcolatore?

Linguaggi ed Applicazioni mul1mediali

Corso di Fondamenti di Telecomunicazioni

ELETTRONICA DIGITALE

COMUNICAZIONI ELETTRICHE + TRASMISSIONE NUMERICA COMPITO 13/7/2005

Informatica per la comunicazione" - lezione 7 -

FILE: ESTENSIONI o Formati. Augusto Grossi

Introduzione all analisi dei segnali digitali.

Gli audio suoni sono deti anche segnali acustici e sono quelli udibili dall orecchio umano

Compressione del suono. Come risparmiare spazio e tempo lavorando sulla forma d onda

Codifica Musicale (Standard MPEG)

DISCRETIZZAZIONE DI UN SEGNALE ANALOGICO:

Codifica delle Informazioni

VideoStreaming su IP

xdsl Generalità xdsl fa riferimento a tutti i tipi di Digital Subscriber Line

Elaborazione di Immagini e Suoni / Riconoscimento e Visioni Artificiali 12 c.f.u. I suoni parametri fisici (cenni)

Suono: aspetti fisici. Tutorial a cura di Aldo Torrebruno

Lezione 8: Suono (1) Sommario. Informatica Multimediale. Docente: Umberto Castellani

GUIDA ALLE SOLUZIONI

ARCHITETTURA DI RETE FOLEGNANI ANDREA

Rappresentazione delle immagini

La memoria - generalità

v in v out x c1 (t) Molt. di N.L. H(f) n

Oggetti e modelli OGGETTI / ENTITA MODELLI MATEMATICI

Informatica grafica e Multimedialità. 4 Immagini grafiche

Corso di Fondamenti di Segnali e Trasmissione - Appello del 07 Settembre 2005

La Videosorveglianza Criteri per il dimensionamento dello storage

IL CODICE BINARIO. Il codice binario. Codifica posizionale. Aritmetica binaria

Digital Signal Processing: Introduzione

Software di compressione

La codifica delle Immagini. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132Sesto San Giovanni

Plextalk Pocket PTP1

Immagini digitali. Paolo Zatelli. Dipartimento di Ingegneria Civile ed Ambientale Università di Trento. Immagini digitali

Utilizzo efficiente del canale di comunicazione

Corso di Informatica

Classificazione delle applicazioni multimediali su rete

Generatori di segnale. Generatore sinusoidale BF. Generatori di funzione. Generatori sinusoidali a RF. Generatori a battimenti. Oscillatori a quarzo

CAMPIONAMENTO E RICOSTRUZIONE DI SEGNALI

Un ripasso di aritmetica: Rappresentazione binaria - operazioni. riporti

Rappresentazione delle informazioni

Laboratorio di Informatica

Automazione Industriale (scheduling+mms) scheduling+mms.

Algoritmi e strutture dati. Codici di Huffman

Introduzione alle reti di telecomunicazioni

Sistemi a larga banda (Broadband)

Inquadramento legislativo e normativo: dal D.Lgs.81/2008 alla UNI/TR 11450:2012 Modena 12 ottobre 2012

Audacity Esercitazione 2

L A B O R A T O R I O D I I N F O R M A T I C A M U S I C A L E

La memoria centrale (RAM)

21-Mar-03-2 ETLCE - B DDC. 21-Mar-03-4 ETLCE - B DDC. segnale modulato. transiszioni. finestra per trans fisse.

MODELLO CLIENT/SERVER. Gianluca Daino Dipartimento di Ingegneria dell Informazione Università degli Studi di Siena

Elaborazione di segnali biologici

INFORMATICA E GRAFICA PER IL WEB

Università degli Studi di Cassino e del Lazio Meridionale. Area Didattica di Ingegneria. Corso di Laurea in Ingegneria Industriale

Facoltà di Scienze e Tecnologie

IMMAGINE BITMAP E VETTORIALI

FONDAMENTI DI INFORMATICA. Ing. DAVIDE PIERATTONI. Facoltà di Ingegneria Università degli Studi di Udine. Compressione MPEG

Strutturazione logica dei dati: i file

Università di Napoli Parthenope Facoltà di Ingegneria

Tutto digitale. Musica Giornali, Libri satellite (TV, GPS) Telefoni: ISDN, GSM rete telefonica, internet Video (DVD) oh, anche il PC

Trasmissione Dati. Trasmissione Dati. Sistema di Trasmissione Dati. Prestazioni del Sistema

Elementi di Informatica e Programmazione

LA SOMMINISTRAZIONE DEGLI ESAMI CILS ISTRUZIONI PER LO SVOLGIMENTO DEL

Documento tecnico. Standard di compressione video H.264. Nuove opportunità per il settore della videosorveglianza.

Università degli Studi di Cagliari Corso di Laurea Specialistica in Ingegneria Elettronica SISTEMI OPERATIVI

Modulazioni. Vittorio Maniezzo Università di Bologna. Comunicazione a lunga distanza

Corso di Informatica

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Codifiche a lunghezza variabile

La codifica delle immagini

Codifica dell informazione

Numerazione binaria e rappresentazione delle informazioni

ATTIVITÀ DI STAGE PRESSO STMICROELECTRONICS

PIANO BIENNALE PER I DIRITTI DELLE PERSONE CON DISABILITÀ

Modulazione DMT* (Discrete Multitone Modulation) sulla banda ADSL (up to 1104 KHz)

Architettura dei calcolatori II parte Memorie

Ingegneria Aerospaziale Prof. A. Palomba - Elementi di Informatica (E-Z) Rappresentazione caratteri Rappresentazioni immagini Rappresentazione suoni

Funzioni trigonometriche e modulazione dei segnali

Capitolo V : Il colore nelle immagini digitali

Il colore. IGEA febbraio 2007

PDF created with pdffactory trial version

Dal foglio di carta alla multimedialità

Introduzione all acquisizione Dati

Internet e il World Wide Web. Informatica di Base A -- Rossano Gaeta 1

Transcript:

Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Elaborazione di Immagini e Suoni / Riconoscimento e Visioni Artificiali 12 c.f.u. Anno Accademico 2008/2009 Docente: ing. Salvatore Sorce La compressione audio sulla base di materiale didattico originale del prof. Vincenzo Lombardo MultiD@MS Torino

La compressione audio L arte di minimizzare le risorse per i dati audio ridurre la memoria occupata ridurre i costi di trasmissione Risultati attuali: buona qualità in confronto all audio non compresso (stesso tasso di trasferimento dati)

Obiettivo: riproduzione trasparente Audio che anche orecchie sensibili non riescono a distinguere dall originale Numero minimo di bit mantenendo una riproduzione trasparente del segnale

L audio digitale Vantaggi alta fedeltà delle copie del segnale robustezza gamma dinamica estesa Svantaggio: alto tasso di trasferimento dati campionamento: 44.1 khz (CD), 48 khz (DAT) quantizzazione: PCM lineare a 16 bit

Perché nasce la compressione L audio digitale non compresso occupa... molto spazio sull hard-disk per la memorizzazione una banda ampia sul canale di trasmissione

Esempio: brano di 1 min con qualità CD Parametri campionamento = 44,100 campioni/sec quantizzazione = 16 bit/campione = 2 byte/campione canali = 2 Memoria = 44.100 c/s * 2 can * 2 byte/c * 60 s ~ 10 Mbyte per ogni minuto di musica stereo. Tempo necessario per il trasferimento di un minuto di musica stereo su un collegamento a 200 kbps = 10 Mbyte * 8 bit/byte 10*1024*1024*8 = ~ 7 minuti (200 kbps * 60 s) 200*1024*60 per scaricare un solo minuto di musica stereo! (sarebbe impossibile qualsiasi applicazione live, come la web-radio)

Due livelli di applicazioni Bassa qualità telefonia Alta qualità colonne sonore per giochi su CD-ROM memorie allo stato solido (flash) per i suoni audio su Internet broadcast di audio digitale (Radio e TV)

Compressione e decompressione Dati audio non compressi lossy lossless Audio non compresso che suona come l originale Encoding, Codifica, Compressione Decoding, Decodifica, Decompressione Bitstream in modalità compressa

ITU-T G.711, μ-law e A-law +32767 255 +32767-32768 0-32768

μ-law compansion (compression-expansion) +7 +3-8 -4 Quantizzazione logaritmica Gamma dinamica di 14 bit con una codifica a 8-bit Usata per i servizi voce ISDN in Nord America e Giappone Semplice il computo della codifica

Codifica μ-law Codifica PCM lineare (a 16 bit) codifica μ-law a 8-bit Decodifica PCM lineare (a 16 bit)

Esempi di codifica μ-law

Lossy μ-law - 200 (a 16 bit) 106 a 8-bit - 193 (a 16 bit) μ = 255 0 x 1

ADPCM (CCITT G.721, G.723, e ITU-T G.726) Standard per la compressione di dati vocali CCITT G.721 (ADPCM a 32 Kbps) CCITT G.723 (ADPCM a 24 e 40 Kbps) ADPCM = Adaptive Differential PCM metodo comune di compressione buon compromesso tra velocità di elaborazione, tasso di compressione e decodifica di qualità

Codifica della differenza (DPCM) +1 +1 0 0 +1-1 -1 0 0 +1 0-1 +3-3 -1-1 0 +1 +2 Ridondanze temporali tra campioni (è molto probabile che campioni vicini nel tempo siano abbastanza simili, cioè differiscano di poco) La differenza tra due campioni a n bit si può rappresentare con meno bit di n Si memorizza la differenza rispetto al campione precedente

Problema: Slope Overload +1 +1 +1 0 0-1 -1 0 +1 0 0-1 +5 +6-2 +4-4 -4-8 In questa zona bastano 2 bit per codificare le differenze In questa zona servono 4 bit Differenze elevate (alte frequenze) non si possono rappresentare con un numero piccolo di bit Gli errori introdotti porterebbero a distorsioni sulle alte frequenze

Adaptive DPCM (ADPCM) Passi di quantizzazione più grandi per differenze più grandi, e viceversa Si usano i campioni precedenti per stimare i cambiamenti futuri

La compressione di tipo percettivo MP3 & Co. Principi psicoacustici applicati

X(n) Schema generale Analisi tempo/ frequenza Analisi psicoacustica Parametri Soglie di mascheramento Quantizzazione e Codifica Allocazione di bit Compressione senza perdite (entropia) Info aggiuntive Codifica del bitstream bitstream nel canale X (n) Sintesi segnale Ricostruzione campioni per banda Decodifica del bitstream X (n) X(n), ma nei limiti della larghezza di banda disponibile, deve suonare come X(n)

Soglia assoluta dell udito

Le bande di frequenza critiche Suono 1: nota pura a frequenza costante f 0 = 220 Hz Suono 2: glissando (frequenza variabile con continuità) tra 220 Hz e 290 Hz Suono 3: sovrapposizione dei suoni 1 e 2 Cosa si avverte? All'inizio le due frequenze sono uguali e viene percepita solo la nota iniziale; Non appena la frequenza variabile inizia a discostarsi dal valore f 0 percepiamo nell'ordine: un suono che subisce lente oscillazioni dell'intensità (è questo il fenomeno dei battimenti); un suono nel quale le oscillazioni dell'intensità aumentano di frequenza fino a tradursi in un suono aspro, estremamente dissonante e fastidioso per l'orecchio; un suono che torna ad essere gradevole ma nel quale si percepiscono chiaramente le due note che lo costituiscono come entità separate (è quello che i musicisti chiamano un bicordo).

Le bande di frequenza critiche Le note cominciano ad essere percepite come distinte dall istante in cui il tono più alto ha una frequenza di circa 250 Hz. Le due note in questo istante differiscono di 30 Hz e cioè ad una distanza molto maggiore del potere risolutivo in frequenza per suoni non simultanei. Verifica: Suono 1: nota pura a 245 Hz Suono 2: nota pura a 250 Hz

Le bande di frequenza critiche Suoni molto ravvicinati in frequenza eccitano posizioni molto vicine della membrana basilare, compromettendo la facoltà di percepire i due suoni come entità distinte. Due suoni vengono percepiti come distinti solo se coinvolgono terminazioni nervose sufficientemente distanti, cioè se mettono in oscillazione regioni differenti della membrana basilare, ovvero se cadono in due bande critiche distinte. Una banda critica è quindi un intervallo di frequenze entro alla quale due toni puri simultanei non possono essere percepiti come distinti. Bande larghe 100 Hz fino a circa 500 Hz, poi l ampiezza cresce con la frequenza di centro banda Banda 1 2 3 7 11 15 19 20 25 Centro (Hz) 50 150 250 700 1370 2500 4800 5800 19500 Estremi (Hz) -100 100-200 200-300 630-770 1270-1480 2320-2700 4400-5300 5300-6400 15500-

Soglie di mascheramento globale

Mascheramento simultaneo db SNR SMR MNR Soglia di mascheramento m-1 m m+1 Tono di mascheramento Minima soglia di mascheramento Banda critica Banda vicina frequenza

Mascheramento temporale db Pre (5 ms) Simultaneo Post (50-300ms) masker -50 0 50 100150 0 50 100 150 250 ms

MPEG (Motion Picture Experts Group) Gruppo di lavoro di ISO/IEC per lo sviluppo di standard internazionali per: compressione, decompressione, elaborazione, e rappresentazione codificata di Video Audio combinazioni A/V

Standard MPEG MPEG-1: memorizzazione/recupero video/audio (11/92) MPEG-2, standard per la TV digitale (11/94) MPEG-4 v. 1, standard applicazioni multimediali (10/98) v. 2, standard audio/video HDTV (12/99) MPEG-7: standard per la rappresentazione dei contenuti ricerca, filtraggio, gestione di info multimediale rilasciato a luglio 2001

MPEG-1/2 Layer III (MP3) 1987 progetto Eureka (Digital Audio Broadcasting) lavoro su audio percettivo in collaborazione tra Fraunhofer IIS e l Università di Erlangen risultato: algoritmo molto potente ISO-MPEG Audio Layer- III http://it.wikipedia.org/wiki/mp3

Lo schema di compressione MPEG-1 Struttura di base comune su più layer calcolo delle sottobande calcolo del modello psicoacustico 3 Layer Layer I: semplice, poco efficace Layer III: complesso, efficace Scelta del layer - rapporto qualità/compressione

Modalità di compressione Più frequenze di campionamento (32/44.1/48) Bitstream compresso supporta mono, dual mono, stereo, joint stereo Bit rate da 32 a 224 kbps (compressione da 2,7 a 24 volte) tassi fissi e variabili Supporta il controllo e la correzione degli errori Informazioni supplementari

Layer I I tre livelli di compressione il più semplice (bitrate oltre 128 kbps a canale) DCC di Philips usa la compressione di Layer I a 192 Layer II complessità media (bitrate circa 128 kbps a canale) applicazioni in DAB Layer III il più complesso, migliore qualità 64 kbps adatto per trasmissione audio su ISDN

MPEG 1 - Layer III audio digitale PCM Analisi tempo-frequenza Banco di filtri (32 sottobande) 31 0 Analisi psicoacustica MDCT 575 0 Allocazione dei bit, quantizzazione e codifica Loop controllo distorsione Loop controllo quant. log. Codifica di Huffman Riserva FFT 1024 punti Modello psicoacustico Codifica info agg. Codifica del bitstream bitstream audio digitale decompresso Ricostruzione dei campioni nel tempo Ricostruzione dei campioni per bande Decodifica del bitstream

Corrispondenza bande critiche e MPEG

Modello psicoacustico Calcolo soglie mascheramento globale Necessario per stabilire il livello max di quantizzazione Non si deve udire il rumore di quantizzazione Analisi psicoacustica FFT 1024 punti Modello psicoacustico

Compressione dei dati audio Più cicli di quantizzazione e codifica Modello psicoacustico + bitrate in uscita Allocazione dei bit, quantizzazione e codifica 575 0 Loop controllo distorsione Loop controllo quant. log. Codifica di Huffman Riserva

Allocazione dei bit Spettro di ampiezza per 32 sottobande Soglia globale di mascheramento Allocazione di bit per banda

Due cicli di lavoro Loop interno sui limiti del bitrate (RATE LOOP) Loop esterno sul controllo del rumore per banda bit per banda (576) LOOP ESTERNO LOOP INTERNO Codifica di Huffman Riserva bitrate

Tipiche riduzioni di MPEG Riferimento standard (CD): 16 bit * 2 canali * 44100 sr = 1.411 kbps 1:4 con Layer I (PASC) corrisponde a 384 kbps per un segnale stereo 1:6...1:8 con Layer II corrisponde a 256..192 kbps per un segnale stereo 1:10...1:12 con Layer III (MP3) corrisponde a 128..112 kbps per un segnale stereo sempre mantenendo percettivamente la qualità audio CD

Decodifica Sintetizza un segnale a partire dalle componenti spettrali codificate Non si ha più lo stesso segnale!!! Tutto dipende dal bit-rate bitstream audio digitale decompresso Ricostruzione dei campioni nel tempo Ricostruzione dei campioni per bande Decodifica del bitstream

Esempi di bitrate bit-rate = numero medio di bit consumati da un secondo di dati audio (kbps) bit-rate per il CD = 1411.2 kbps bit-rate per MP3 per qualità CD = 128 kbps

Le performance di MP3 qualità telefonica: 96:1 (2.5 khz / mono / 8 kbps) meglio di AM radio: 24:1 (7.5 khz / mono / 32 kbps) simile a FM radio: 26...24:1 (11 khz / stereo / 56...64 kbps) quasi-cd: 16:1 (15 khz / stereo / 96 kbps) CD: 14..12:1 (>15 khz / stereo / 112..128kbps) prende approx. 1Mb/minute di spazio hard-disk Oltre: 8 4:1 per la musica acustica

MP3 Codec programma del tipo di una libreria di sistema (collezione di funzioni) vengono lanciate dai programmi di frontend codec in distribuzione con frontend MP3

L encoder migliore Non ha senso chiedersi quale sia l encoder migliore: la risposta dipende dalle esigenze encoder veloci/lenti (> velocità, < fedeltà audio) confrontare mp3 ottenuti da encoder diversi a parità di bit-rate Consiglio pratico: creare MP3 con basso (ma adeguato) bitrate con encoder lenti

I Frontend MP3 interfaccia ai codec Alcuni frontend implementano funzioni per normalizzare il volume, o realizzano ID TAGS IDTAG è informazione (testuale, in genere) nel file di layer III (autore, titolo, etc...) Esempio: MP3Editor

Player MP3 suona mentre decomprime i dati audio (campioni) vengono inviati alla scheda per la conversione