Tecnico di Sala di Registrazione. La codifica MP3 ed altri formati

Transcript

1 Tecnico di Sala di Registrazione La codifica MP3 ed altri formati Diplomando: Tacchetto Loris Matricola: Relatore: Matteo Costa Anno accademico:

2 Tecnico di Sala di Registrazione La codifica MP3 ed altri formati Diplomando: Tacchetto Loris Matricola: Relatore: Matteo Costa Anno accademico:

3 PREFAZIONE Il valore di un uomo dovrebbe essere misurato in base a quanto dà e non in base a quanto è in grado di ricevere. A. Einstein La necessità di una compressione è risultata indispensabile sin dall'inizio del mondo dell'audio digitale, a fronte di una grande quantità di dati da registrare. Tutto ciò prevedeva quindi, una necessità di salvare il segnale audio originale in bit rate inferiori rispetto al segnale non compresso proprio per avere una minor quantità di informazioni. Si pensò a quali informazioni dovessero essere considerate inutili o non necessarie. La psico acustica, i cui concetti verranno specificati nella mia tesi, ci può dare una risposta: possiamo togliere o non considerare tutte le componenti non udibili in fase di registrazione. E' utile anche quantizzare questa compressione ovvero calcolare quanto ci potrà permettere di guadagnare in termini di spazio. Considerando che circa 60 secondi di segnale musicale (stereo) nel formato PCM1 occupano all'incirca 10Mbytes si può utilizzare un metodo di compressione in grado di ridurre il nostro segnale di ben 10 volte senza notare alcuna perdita di qualità. Tutto ebbe inizio a fronte della necessità di ridurre il bitrate di un flusso di dati audio, in modo da poterlo trasmettere più facilmente via rete. E' chiaro come i primi esperimenti di compressione non fossero all' altezza e in grado di soddisfare determinate esigenze e tutto questo porto ad ulteriori studi di sviluppo e ricerca. 1 PCM (pulse code modulation): modulazione a codice di impulsi Metodo usato per rappresentare un segnale analogico in digitale campionandolo ad intervalli di tempo regolari dettati dalla frequenza di campionamento. I valori poi acquisiti vengo quantizzati ed infine digitalizzati in forma binaria. 2

4 Attualmente lo standard MPEG 1 viene usato in modo più diffuso soprattutto per necessità di trasmissione e/o riproduzioni di segnali musicali di alta qualità. Inevitabile, considerato il rapido sviluppo dell'audio digitale, l'origine di una lunga serie di nuovi formati ognuno diverso dall'altro ed incompatibili. Alcuni dei quali duravano giusto lo spazio di un mattino, altri come l'mp3, durare molto più tempo fino ai giorni nostri non solo per le caratteristiche tecniche e di sviluppo, ma dalla strategia e potenza economica e commerciale degli sviluppatori. Diversamente non poteva essere e tutto ciò portò ad una assidua competizione e non di cooperazione tra i vari proprietari. Ma come possiamo definire un formato? Possiamo definirlo come un metodo di disposizione di dati e di codifica e qualsiasi file scritto su disco viene caratterizzato dall'algoritmo di codifica e dal formato. Perciò il formato può essere definito più per il modo con cui vengono organizzati i dati piuttosto che per il modo con cui vengono codificati. Lo scopo quindi dell'mp3 è di ridurre i valori di bit-rate da un massimo di 384 kbit. Per far ciò ovviamente si dovrà eliminare delle informazioni: tutto questo viene gestito dalla codifica MPEG, in grado tramite il parametro di controllo dell'entità della compressione, di ottenere una miglior qualità risultante ma con un'inevitabile aumento della dimensione del file. Vari coder permettono di gestirli in vari modi avendo a che fare con un bit-rate costante, medio oppure variabile, naturalmente ognuno con dei vantaggi e svantaggi rispetto a loro. 3

5 RINGRAZIAMENTI Desidero ringraziare il prof. Costa, relatore di questa tesi, per la disponibilità e cortesia dimostratemi e per tutto l aiuto fornito. Un sentito ringraziamento ai miei genitori, che, con il loro sostegno morale ed anche economico, mi hanno permesso di raggiungere questo traguardo. Un ultimo ma non meno importante ringraziamento ai miei compagni di studi per questi fantastici tre anni passati insieme e per essermi stati vicini. A tutti i miei amici e persone che mi son state vicino e che mi hanno sopportato lungo tutto questo percorso di formazione. 4

6 INDICE PREFAZIONE pag. 2 RINGRAZIAMENTI pag. 4 INDICE pag. 5 CAPITOLO 1: MPEG Un po' di storia sulla compressione MP3 pag Campionamento digitale pag Classificazione degli algoritmi di compressione pag Codifiche nel dominio del tempo pag Codifiche per modelli pag Codifiche nel dominio della frequenza pag Psicoacustica pag Compressione pag Codifica di Huffman pag. 31 CAPITOLO 2: MPEG-1 Layer I 2.1 Struttura di un sistema audio MPEG- 1 pag MPEG-1 MPEG-2 ed i Layer pag MPEG Layer 3 pag ID3: metadati audio per MP3 ed AAC pag MPEG-2 pag Joint Stereo pag Metodi o modalità della codifica stereo pag MP3 Channel coupling mid/side (MS) pag MP3 Channel coupling Intensity Stereo pag. 47 5

7 2.6 Formati Lossless e Lossy pag. 48 Lossless (WAV, AIFF, FLAC, Apple Lossless, APE) pag. 51 Lossy (MP3, MP3 Pro, AAC, OGG Vorbis, WMA, MP4) pag. 53 Struttura di un file MP3 pag Seek table pag Gapless playback pag Lame tag pag. 58 CAPITOLO 3: CODER & DECODER LAYER III Codifica audio MPEG Layer III pag Audio Frame pag Header pag Audio Data pag Ancillary bit pag. 71 Decoder Layer III pag Algoritmo di decodifica pag Sincronizzazione pag Error check pag Decodifica header e side information pag Decodifica Main Data pag Filtri polifase pag IMDCT (Inverse modified Discrete Cosine Transform pag Riduzione dell' errore di aliasing pag Ricostruzione del segnale PCM pag. 79 6

8 CAPITOLO 4: CONFRONTO FRA VARI FORMATI AUDIO 4.1 Descrizione del confronto eseguito fra i formati pag Il brano preso in esame pag Confronto 1 Exp_ [21sec 25sec] pag Exp_1 FLAC vs WAV pag Exp_1 FLAC vs MP3 pag Exp_1 FLAC vs M4A pag. 92 Confronto 1 Exp_2 pag. 94 [1min.30 1min.40] Exp_2 FLAC vs WAV pag Exp_2 FLAC vs MP3 pag Exp_2 FLAC vs M4A pag. 97 Confronto 1 Exp_3 pag. 98 [2min.07 2min.15 ] Exp_3 FLAC vs WAV pag Exp_3 FLAC vs MP3 pag Exp_3 FLAC vs M4A pag. 101 CONCLUSIONI pag. 104 BIBLIOGRAFIA pag. 107 SITOGRAFIA pag

9 Capitolo 1 MPEG UN PO' DI STORIA SULLA COMPRESSIONE MP3 Già dagli albori della scrittura si potevano individuare degli esempi di compressione. Situazione molto frequente quando si presentava la necessità di dover incidere, con uno scalpellino parole troppo lunghe su lastre di pietra troppo piccole. Più recente, un esempio lo ritroviamo nel Vocabolario degli Accademici della Crusca, che nell'edizione del 1612 fece comparire lunghe serie di abbreviazioni allo scopo di risparmiare spazio per le righe. L'avvento della memorizzazione elettronica avanzò ancor di più questa necessità di compressione dei dati creandone un vero business. Vari studi sono stati fatti in diversi campi di utilizzo, quali ad esempio, immagini, file in generale ed audio ma è sull'audio che verte la mia mia attenzione in questa tesi. Svariate ricerche e sviluppi sono stati fatti per raggiungere tale scopo e uno dei massimi sforzi in questo campo fu fatto in Germania dal Fraunhofer Institute assieme all'università di Erlangen. Nel 1987 si cominciò a lavorare al progetto nell'ambiente del DAB 2 su di una codifica audio basata sulla percezione del suono. Il tutto fu finanziato dall'unione Europea come parte del progetto EUREKA3 meglio conosciuto come progetto EU DAB: Digital Audio Broadcast : sistema di radiodiffusione digitale in grado di trasmettere dei programmi radiofonici con qualità paragonabile a quella di un normale CD. EUREKA: organizzazione europea di ricerca tecnologica per lo sviluppo produttivo.. Nasce a Parigi il 17 luglio 1985 durante una conferenza di ministri e membri di commissione di vari comunità europee. 8

10 Si cerco appunto di ideare, sviluppare ed infine standardizzare un algoritmo di compressione specifico per dati digitali di tipo audio. Da questo gruppo di lavoro di vari consorzi furono sviluppate delle tecnologie che diedero origine ai famosi tre layer dello standard ISO/IEC (meglio conosciuto come MPEG-1 Audio). Layer I e II proposta dal consorzio Musicam costituito da CCETT, IRT e Philips Layer III proposta dal consorzio ASPEC costituito da AT&T, Fraunhofer, Thomson. Fu approvato alla fine lo standard ISO/EIC a novembre 1992 e successivamente l'acronimo MP3 nel 1997 da un gruppo di esperti MPEG. Fu quindi accolto come standard internazionale. Negli anni successivi si cerco di proseguire il progetto MPEG Audio concludendosi con la creazione dell' MPEG2 definito come standard internazionale con il codice ISO/IEC e pubblicato nel Negli anni successivi la diffusione dei file MP3 trovò largo campo nel mondo di Internet, prevalentemente alla nascita di siti e programmi di condivisione file di musica (peer to peer), nei quali più utenti collegati con una connessione internet si potevano scambiare file musicali e usufruirli direttamente nel computer o convertirli in cd-audio tramite un masterizzatore. Data la rapida diffusione di questo formato, le aziende erano all'ascolto delle esigenze, producendo dispositivi portatili molto più comodi di un computer in grado di riprodurre questi file (lettori mp3). Non poche controversie legali portò questa comodità di fruizione specie per i diritti d'autore violati. Furono poi leggermente attenuati dallo sviluppo di sistemi anti-copia e dalla nascita di siti web che offrono file musicali in formato mp3 a 9

11 pagamento (e-store) riuscendo perciò all'artista e alle case discografiche di riceverne i ricavati sui diritti. La proliferazione di materiale audio codificato MPEG su Internet ha dimostrato una crescita esponenziale dal 1995, permettendo che la parola mp3" diventi il termine più ricercato già dall'inizio del Di MP3 se ne è parlato e descritto a lungo in numerosi articoli e quotidiani periodici, in TV ma soprattutto in giornali che trattavano argomenti di economia dato il suo potenziale impatto sul mercato discografico. Ma per quali motivi l' MPEG-1/2 Layer-3 e non un'altra tecnologia di compressione è divenuto il principale strumento per la diffusione audio in Internet? tecnologie di supporto: mentre la compressione audio è vista come una tecnologia nuova e di grande potenziale, si diffonde in modo parallelo l'uso di calcolatori, schede audio, computer sempre più potenti e performanti da poter soddisfare software di decodifica e codifica audio sempre più rapidi. Per non parlare di accessi ad Internet per le Università e le imprese come nonché la diffusione di CD-ROM e masterizzatori hanno contribuito alla facilità di distribuzione della musica in formato MP3 tramite computer. standard aperto: MPEG è definito come uno standard aperto, la specifica è disponibile (a pagamento) a tutti gli interessati per svilupparlo ulteriormente. disponibilità di codificatori e decodificatori: spinto prima dalla richiesta di uso professionale per broadcasting, hardware (DSP) e software di decodifica, sono stati disponibili per un certo numero di anni. 4 Fonte ufficiale: 10

12 Per dirla in breve, l' MPEG-1/2 Layer-3 è stata la giusta tecnologia disponibile al momento giusto ed esistono comunque tecnologie più recenti di compressione audio. L' MPEG-1 Layer-3 è stato definito nel 1991 e da allora la ricerca sulla codifica audio percettiva è progredita rendendo disponibili nuovi codec con una migliore efficienza di compressione. Tra questi troviamo l'mpeg-2 ACC 5 che è stato sviluppato come successore per MPEG-1 Audio. Successivamente anche altri sistemi di compressione per l'audio sono stati introdotti proprio per avere prestazioni migliori, ma l'acc merita un'attenzione particolare. 5 ACC: Advanced Audio Coding 11

13 1.3 CAMPIONAMENTO DIGITALE Un qualsiasi segnale audio è un segnale analogico per cui varia in modo continuo nel tempo. Rappresentandolo graficamente, otterremo un andamento in Fig. 1.1: Fig Segnale analogico rappresentato graficamente Possiamo notare come non abbiamo alcun cambiamento drastico nella curva e l'ampiezza può assumere un numero di valori infiniti compresi fra un valore massimo ed un valore minimo. In termini di grandezza di tempo, una forma d'onda di questo tipo dura un tempo dell'ordine di grandezza di qualche millisecondo. Diversamente, un grafico nel dominio digitale lo si può vedere rappresentato in Fig. 1.2: Fig Segnale digitale rappresentato graficamente 12

14 Viene da definire ora la teoria dell'informazione che detta le regole per poter rappresentare un segnale audio analogico con infiniti valori, in un segnale digitale con un numero finito di valori, pur mantenendo a pieno l'informazione o il segnale audio di partenza. La soluzione è quella di campionare, o meglio prelevare ad intervalli di tempo regolari precisi, il valore che l'onda sta assumendo in quel preciso istante, rappresentato da un segnale elettrico variante nel tempo. A multipli di un dato periodo di tempo dettato dalla frequenza di campionamento, creo un passo di campionamento rappresentato nel grafico precedente da un rettangolo che definisce il valore assunto dalla forma d'onda. Vien naturale perciò affermare l'importanza di un maggior numero di rettangoli e quindi della frequenza di campionamento in modo da avere un serie fitta, necessaria a rappresentare il segnale iniziale con minor spigoli. Stessa storia per l'ampiezza, che viene denominata quantizzazione dell'ampiezza che potrà assumere valori discreti fra un valore ed un altro con una approssimazione che implicherà una inevitabile distorsione. Anche qui vanno scelti valori di quantizzazione ottimale per ottenere la miglior rappresentazione del segnale di partenza. In ambiente informatico si opera a potenze di 2. Ad esempio dovendo quantizzare un'ampiezza con 16 livelli ( 24 ) : tale ampiezza dovrà assumere solo i valori compresi tra 0 e 15. In questo caso ho bisogno di 4 bit che verranno trasmessi ad ogni intervallo di campionamento. Un esempio concreto lo possiamo trarre dai CD. Nei compact disc sono registrate e immagazzinate le informazioni in file binari con il medesimo principio sopra descritto. Ogni secondo vengono prelevati campioni e ogni campione viene quantizzato con 16 bit. 13

15 Sapendo che il CD contiene una traccia stereo, abbiamo: = bit al secondo Esso è corrispondente al valore normale di lettura 1X di un lettore e tali valori non son stati presi a caso ma tenendo presente alcuni fattori. L'orecchio umano non è in grado di percepire frequenze al di sotto di 20Hz e al di sopra dei 20kHz. Tramite il teorema di campionamento di Nyquist-Shannon è necessario dover scegliere una frequenza di campionamento almeno pari al doppio o superiore alla massima frequenza che si dovrà rappresentare se non si vogliono avere distorsioni nel segnale. Il calcolo è presto fatto: = Si è optato per proprio per avere quella tolleranza al rumore nella costruzione dei filtri utilizzati al trattamento dei segnali. Tutto questo produce un file di dimensioni notevoli, ma grazie al progresso della tecnologia, oggi disponiamo di grosse memorie nei comuni personal computer domestici e di potenze di calcolo che con il tempo hanno permesso la rapida diffusione di sistemi di compressione audio per poter ridurre notevolmente la dimensione di ciascun file. 14

16 1.3 CLASSIFICAZIONE DEGLI ALGORITMI DI COMPRESSIONE Il fine degli algoritmi di compressione è quello di ridurre il più possibile il prodotto in uscita in modo tale da occupare minor spazio rispetto all'informazione originale o una minor banda necessaria nel caso si voglia effettuare una trasmissione. Una prima classificazione viene fatta fra lossy e lossless, ovvero con perdita e senza perdita di informazioni e verranno spiegate con maggior dettaglio qualche capitolo successivo di questa tesi. Tutte le codifiche di compressione, numerose anche nel campo audio, utilizzano tecniche differenti e classificabili in questo modo. codifiche nel dominio del tempo codifiche per modelli codifiche nel dominio della frequenza Si fa utilizzo delle codifiche nel dominio del tempo e per modello soprattutto per comprimere segnale vocale diversamente dalle codifiche nel dominio della frequenza impiegate negli algoritmi di MP3, AAC, WMA etc di buon impiego nell'ambito musicale Codifiche nel dominio del tempo Con questa codifica, il suo algoritmo prevede l'elaborazione direttamente del segnale campionato e non l'estrazione di informazioni spettrali o di frequenze. Si punta piuttosto ad identificare eventuali correlazioni tra i campioni e/o 15

17 proprietà della sorgente e destinazione, in modo da agevolare la riduzione del numero di bit da impiegare per la rappresentazione di un campione audio. Alcuni esempi di maggior rilievo sono il DPCM e l' ADPCM. Se poste in ordine cronologico queste tre codifiche, quella nel dominio del tempo risulta essere stata la prima a venir sviluppata ma possiede una bassa efficienza. Anche per questo motivo ormai le codifiche nel dominio del tempo son state di gran lunga superate. DPCM e ADPCM La DPCM, ovvero Differential Code Pulse Modulation, è una tecnica simile ma non uguale alla PCM (Pulse-Code Modulation). Considerando come la voce umana non riesca ad avere una dinamica elevata e passi da volumi bassi a volumi più alti o da frequenze alte a frequenze basse in non meno di alcune decine di millisecondi e in questo periodo di tempo centinaia di campioni vengono registrati, viene considerato il fatto di trasmettere la differenza fra il campione passato e quello attuale piuttosto che soltanto il campione attuale. Con un esempio risulta più facile la comprensione di quanto appena affermato. Considerando un campione X la cui ampiezza è di 100, il campione X+1 avrà ampiezza pari a 100, 101 o 99. Non possiamo presupporre che il campione successivo X+1 possa avere valore 200 in quanto fra un campione e l'altro ci passano solo poche centinaia di microsecondi e la gola e le corde vocali hanno un tempo di rilassamento molto maggiore. Si preferisce quindi non trasferire il valore 101 del campione X+1, ma trasmetto soltanto il valore +1. Il decoder, non appena riceve l'informazione, osserva quanto vale X (es: 100) e apprende che il valore del campione X+1 è pari a quello di N da cui dovrà essere sommato 1 e trae la conclusione che il valore del campione X+1 è

18 Si nota il minor impiego di numero di bit per questa tecnica di trasferimento di informazione in quanto viene trasmessa soltanto la differenza fra i campioni e non i valori effettivi codificati a 16 bit. Considerando le proprietà della voce umana possiamo constatare come tale sistema possa essere applicato solo ad essa. Discorso diverso se si tratta di voce e strumenti musicali, non otterremo più un qualcosa di soddisfacente. Con la tecnica ADPCM, ovvero Adaptative Differential PCM simile alla DPCM, vado a trasmettere anche qui la differenza fra i bit ma tenendo in considerazione i bit già processati. E' un po' più complesso in quanto il processo cerca di individuare e prediligere i valori dei campioni futuri della fonda d'onda sulla base dei campioni già processati. Questa tecnica permette di ottenere un rapporto di compressione di 1:2 rispetto all'informazione di partenza non compressa. Anche qui il meccanismo, sebbene più complesso, è simile al DPCM in quanto trasmette l'informazione collegata alle differenza fra i campioni, piuttosto fra i valori effettivi, riducendo drasticamente, quando possibile, il numero di bit qualora le caratteristiche del segnale preso in considerazione lo permettano. 17

19 1.3.1 Codifiche per modelli Le tecniche a codifiche per modelli, legate ad una particolare sorgente sonora come la voce, permettono di emularla tramite un modello più o meno semplificato. Questo è possibile se consideriamo quanto le corde vocali e la gola abbiano delle precise caratteristiche fisiche e pertanto il loro comportamento potrà quindi essere predicibile tramite un modello. Vengono utilizzate molto nella telefonia mobile GSM, su Internet e rappresentano una scelta ottimale per la comprensione della voce. Codifiche per modelli più famose sono le LPC e il CELP. LPC e CELP La LPC, Linear Predictive Coding, è una tecnica ristretta ad uso esclusivo per grandi compressioni di voce (vocoder) e la si può riconoscere dal fatto che può trasformare una qualsiasi voce umana, quindi con timbri frequenze diverse, in una voce prodotta da un computer e uguale per tutti. Tale tecnica permette un' utilizzo ristretto in fatto di bit-rate che arrivano a soli 2.4 Kbit al secondo con un fattore di compressione pari a 1:26. Il procedimento avviene a grandi linee in questo modo: tramite l'utilizzo di un modello precedentemente identificato, viene associato un valore e posto in una tabella. Questo modello può essere una vocale, una consonante, del silenzio etc. Avviene perciò l'invio soltanto dell'informazione associata a tale modello. La CELP, Code Excited Linear Predictor fa anch'essa uso della tecnica LPC ma è stata sviluppata per migliorarne la qualità pur mantenendo una buona qualità e un bit-rate molto basso. Il rapporto però cambia e si parla di 4.8 Kbit al secondo pari a 1:13. 18

20 1.3.3 Codifiche nel dominio della frequenza Diversamente dagli algoritmi di codifiche nel dominio del tempo, esaminano e processano il segnale nel dominio della frequenza. Considerando che ogni suono, voce e strumento musicale ad esempio, ha una propria caratteristica spettrale con una combinazione di frequenza contenute in uno spettro più o meno ampio, si è riuscito dopo vari progressi ed evoluzioni ad ottenere una maggiore compressione nel dominio della frequenza rispetto alle tecniche nel dominio del tempo. Fig Range di frequenze percepibili dall'uomo 19

21 Con un esempio è più facile comprenderne il suo impiego: Considerando ad esempio un segnale persistente a frequenza di 440 Hz, come un LA di uno strumento, abbiamo con molta probabilità un numero di armoniche importanti a frequenze multiple della nostra fondamentale a 440 Hz. In ogni caso, nel dominio delle frequenze, il suono sarà caratterizzabile da un numero limitato di valori numerici indicanti la frequenza e l'intensità di tali componenti spettrali mentre nel dominio del tempo saranno sempre necessari i soliti campioni al secondo. 20

22 1.4 PSICOACUSTICA La codifica MPEG audio, basata sulle tecniche di compressione sviluppate dal Motion Picture Expert Group (MPEG), si affermò rapidamente. I dati di origine vengono compressi in modo tale da poterne ridurre anche di 10 volte il loro volume. La tecnica per realizzare tutto ciò sfrutta l'effetto di mascheramento e comportamento del sistema uditivo umano, utilizzando algoritmi dedicati alla eliminazione di componenti ridondanti. Fig Sensibilità dell'orecchio umano Molte prove e verifiche su vari soggetti sono state fatte per poter tracciare una curva che rappresenti in maniera più precisa la sensibilità dell'orecchio umano. Tale grafico lo si può consultare in Fig. 1.4 qui sopra e tali dati si riferiscono a misurazioni effettuate in una stanza senza rumori. Questa ricerca e modalità hanno portato alla conoscenza più precisa in termine di sensibilità dell'orecchio umano. 21

23 Osservando il grafico in figura precedentemente rappresentato si può notare come la sensibilità si accentuata per frequenze comprese tra 2 e 4kHz e come può considerarsi nulla al di fuori del range 20 / 20kHz. Scopriamo come i suoni, il cui livello di intensità è al di sotto di questa curva, non possano essere percepiti e/o uditi. Altre caratteristiche ritroviamo nell'orecchio umano; tra questi il fenomeno di adattamento che permette di udire suoni molto bassi ma anche suoni molto alti parlando di un range dinamico di circa 96 db. Fig Effetto del mascheramento Altro concetto della psicoacustica è l'effetto di mascheramento in frequenza in grado di coprire altri segnali. Può capitare che in presenza di suoni di intensità elevata non permettano di udire suoni di intensità inferiore. Nella Fig. 1.5 si può notare come con un segnale di intensità fissa (30db) a 1kHz vada a coprire tutte le frequenze vicine con intensità minore. 22

24 Fig Mascheramento con differenti frequenze Medesima situazione in Fig. 1.6 si può notare una linea di soglia per diverse frequenze dei toni di prova aumentandone l'intensità al crescere della frequenza. Una differenza di zone di mascheramento al cambiare della frequenza. Parliamo di zone di mascheramento più accentuate per frequenze più alte (come nel caso del grafico a 500Hz è di circa 4kHz) e meno accentuate per frequenze inferiori. Lo studio e la definizione di queste zone di mascheramento sta alla base del processo di compressione audio e permettono di definire le cosiddette bande critiche in grado di rappresentarne e spiegarne il diverso comportamento dell'orecchio umano in termini di risoluzione frequenziale all'interno di esse. Altro concetto molto importante da tenere in considerazione è l'effetto di mascheramento temporale. Dopo la riproduzione di un tono o segnale di forte intensità ad una certa frequenza e per un determinato intervallo di tempo, le frequenze adiacenti vengono mascherate anche dopo il termine della riproduzione del segnale. Modello percettivo di notevole importanza da tenerne conto per la codifica dell'informazione digitale. 23

25 Fig Effetto mascheramento Per spiegare ulteriormente questo fenomeno possiamo osservare Fig. 1.7; mediante questo grafico si ha un'idea come un segnale di intensità 60 db di durata 5ms, abbiamo una conseguente diminuzione della capacità uditiva allo cessare del segnale emesso di prova. Fig Soglia di mascheramento audio La soglia dell'udito determina il suono più debole udibile dall'orecchio umano nel range 20-20KHz. Un tono di prova di circa 300 Hz solleva questa soglia nella gamma di frequenza vicina. Si è osservato e rappresentato in Fig. 1.8, come due toni a 180 Hz e 450 vengano mascherati dal tono di prova, perciò non saranno udibili. 24

26 Fig Curva di Fletcher Munson La Fig. 1.9 mostra l'insieme di curve che rappresentano la sensibilità dell'orecchio umano rispetto alle varie frequenze, per diversi livelli di pressione sonora. Questo grafico prende il nome dai suoi realizzatori ovvero Fletcher Munson, che nel 1993 con appurati test su diversi soggetti, furono in grado di rappresentare e descriverne l'applicazione. E' chiaro come l'intensità sonora percepita dipenda da molti fattori psicologici e fisiologici quindi il risultato ottenuto in grafico è una mediazione tra il test effettuato su più soggetti diversi ed una media delle misure ottenute. Il sistema uditivo dell'uomo ha un range di frequenze uditivo che varia dai 20Hz ad un massimo di circa 20KHz. Il valore massimo udibile è dato dall'età dell'ascoltatore, che si abbassa all'aumentare dell'età. In linea di massima la sensibilità diminuisce per le frequenze più basse ( Hz), aumenta fino alla banda di frequenze della voce umana (attorno a 1KHz), un aumento consistente (3KHz 5KHz) per poi calare (15 KHz 20 KHz). Oltre quest'ultima frequenza l'orecchio medio non percepisce più nulla. 25

27 Il riquadro a destra fa notare come l'effetto di mascheramento di un rumore (quale ad esempio del rumore bianco etc) possa coprire l'intera banda ovvero come tutte le frequenze vengano mascherate. Nel riquadro centrale, il medesimo effetto ma con una frequenza di 3500 Hz; cade subito l'attenzione come l'effetto di mascheramento sia notevolmente ridotto per le frequenze alte. Infine nell'ultimo riquadro a sinistra, considerando una segnale mascherante da 800 Hz di varie ampiezze, quando questa frequenza si trova a 20dB sopra la soglia di percezione, tutta l'informazione che si trova al di sotto della zona viola scompare. Tutto ciò aumenta con l'aumentare dell'ampiezza della frequenza del segnale mascherante. Il nostro segnale di 800 Hz, a 60 db è in grado di mascherare una frequenza di 1000 Hz con ampiezza fino a 40 db. Un segnale di 2KHz però dovrà avere intensità maggiore di 15dB per non essere mascherato, mentre tale segnale nella zona verde dovrà superare i 70 db. 26

28 1.5 COMPRESSIONE L'ISO, organizzazione internazionale preposta alla approvazione definitiva di uno standard, riconosce l' MPEG/Audio come standard nel lontano Esso è solamente una parte di ciò che si occupa ed è composto da altre parti elencati qui di seguito: MPEG Standard - Video - Layer 1 MPEG Standard - Audio - Layer 2 MPEG Standard - Other datastreams - Layer 3 Il layer 2 ed il layer 3, sono delle versioni migliorate del layer 1 e sono in grado di offrire una migliore compressione e qualità audio utilizzando codificatori e algoritmi psico acustici sempre più complessi ed elaborati. Necessitano quindi di grossa potenza di calcolo, ormai ampiamente supportata dal più comune personal computer presente nelle nostre case. I lettori capaci di leggere file codificati con layer 3 sono in grado di leggere correttamente file codificati con layer 1 e 2 ma non viceversa. L'algoritmo di codifica, se riassunto in vari steps, può essere rappresento come segue: Come primo step, vengono utilizzati dei filtri in grado di dividere il segnale audio campionato ad una certa frequenza, si solito di campioni al secondo, in 32 sotto bande. Ad ognuna di queste 32 bande viene applicato un algoritmo in grado di tener conto dei parametri di mascheramento sia nel tempo che in frequenza,. 27

29 Viene perciò calcolato ad ogni banda, l'entità del mascheramento generato dalle bande adiacenti. In caso di potenza di una sotto banda inferiore alla soglia di mascheramento, viene esclusa dalla codifica in uscita in quanto non sarebbe udibile. Se la potenza di una sotto banda risulta superiore alla soglia di mascheramento, viene calcolato il numero di bit necessari alla codifica e viene effettuata la rappresentazione dell'informazione su quella specifica banda. Tutto questo però tenendo conto dell'inevitabile rumore introdotto dal processo di approssimazione e assicurandosi sempre che sia al di sotto di tale soglia. Come ultimo passaggio avviene la formazione del flusso di bit, chiamato bitstream, in uscita alla catena. Volendo rappresentare su uno schema a blocchi la codifica MP3 si ottiene quanto segue: 28

30 Il layer 3 impiega nella sua codifica una trasformata discreta del coseno modificata chiamata MDCT. Viene effettuata un'operazione in grado di migliorare la risoluzione in frequenza di ognuna delle sotto bande. Questo avviene suddividendo ognuna delle 32 sotto bande, in ulteriori sotto frequenze (6-short oppure 18-long), tramite un processo chiamato filtraggio sotto banda (sub-band filtering). Il modello psico-acustico effettua un'operazione ulteriore su queste sotto-sotto bande, in particolare nei coefficienti della MDCT che le rappresentano. Tramite questo modello, vengono decisi i coefficiente che passeranno oppure no per l'uscita, tenendo in considerazione i criteri di mascheramento ed inoltre dalla presenza o meno di dati ridondanti, magari provenienti dal canale sinistro e destro che spesso trasportano la medesima informazione. Tutte le informazioni immagazzinate contenenti i dati necessari vengono organizzati in uscita, dalla frequenza più bassa a quella più alta. Dato che la massima informazione viene contenuta nelle basse frequenze, ci sarà una maggiore quantità di coefficienti a bassa frequenza. Ecco spiegato un altro motivo per la mancanza di qualità dell' MP3 nelle frequenze alte. Tutto ciò viene suddiviso in tre parti, basse medie e alte. Questi intervalli vengono codificati singolarmente uno ad uno tramite l'algoritmo di Huffmann, che sta alla base di tutta la teoria della compressione. L'algoritmo e ottimizzato per ognuno dei tre intervalli. A questo punto i dati vengono inviati in uscita sotto forma di pacchetti che contengono un CRC (codice per la correzione dell'errore) per rendere il sistema più robusto agli eventuali errori che si possono presentare durante il trattamento del file. Il fattore di compressione che tipicamente si ottiene e quello di 1:11 (128Kbit/s), per cui e possibile immagazzinare un minuto di musica in poco meno di un megabyte. 29

31 Il tutto è sicuramente più comprensibile con un esempio posto qui di seguito. Dopo l'analisi del flusso dati in ingresso, quindi dell'informazione suddivisa in 32 sotto bande, viene calcolato il livello massimo di segnale in ognuna di queste e tali valori li mettiamo su di una tabella. Tabella come in questo caso, composta da soli 16 intervalli per una questione di spazio e di semplicità. Prendendo in esame l' 8 sotto banda, consideriamo dai dati del modello psico acustico che tale banda se presenta una intensità di 60dB, viene generata una maschera di 12dB nella 7 sotto banda e di 15dB nella 9 sotto banda. La 7 sotto banda avendo un livello pari a 10dB, quindi inferiore a 12dB, sarà sicuramente mascherata, perciò verrà tagliata dall'uscita. La 9 sotto banda avendo un livello pari a 35dB, quindi maggiore di 15dB, non verrà mascherata, per cui passerà in uscita. Ora si presenta il quesito con quanti bit dovrò codificare. La teoria dell'informazione afferma che per ogni bit di quantizzazione utilizzato aumento di 6dB il rapporto segnale/rumore. Considerando anche il fatto di non dover scendere sotto il limite di mascheramento, spiegato nel punto 4 dell'algoritmo impostato a 15dB, posso usare un minimo di 3bit per la quantizzazione. Diversamente, usando in quantizzazione un valore inferiore a 3bit, avrei un conseguente aumento del rumore di quantizzazione, risultando troppo alto e facilmente avvertibile dal processo che mi comprometterà la qualità finale. Questo è il procedimento o algoritmo base, valido per tutti i layer dell' MPEG e l'mp3 ha dentro di se diverse novità e migliorie con una conseguente maggior richiesta di risorse e potenza per la sua codifica. 30

32 Differenza ad esempio nella dimensione di bande, diverse nella loro dimensione rispetto al layer 1 e 2 in quanto certe frequenze contengono molta più informazione e perciò devono essere trattate con una maggior precisione. 1.6 CODIFICA DI HUFFMAN La tecnica di Huffman viene sviluppata nel 1956 ed è ancora molto utilizzata nei giorni nostri. Il suo funzionamento è abbastanza semplice. Per poterlo spiegare, supponiamo di avere un file di testo composto da lettere minuscole, lettere maiuscole, segni di interpunzione, spazi bianchi, numeri etc. Possiamo tracciare un grafico sulla frequenza di questi elementi e lo rappresento in Fig. 1.10: Fig Grafico indicativo frequenza caratteri Si può dedurre che l'elemento maggiormente presente siano gli spazi e i caratteri minuscoli. Come sappiamo ogni carattere è codificato con lo standard ASCII richiedente 8bit e viene trattato nella stessa maniera, ignorando il quante volte si ripresenta nel testo. Ad ogni carattere quindi associa una stringa di 8bit. E' possibile notare come, in un file di testo, sia presente per i 90% di 31 caratteri assieme al return, spazio bianco, virgola, lettere minuscole, maiuscole. 31

33 Possiamo ad esempio ridurre questi 31 caratteri e codificarli con 5bit solamente, permettendoci di ridurre di 5/8 il 90% del testo. L'ultima o 32 stringa, composta da 1111, è un flag ovvero un simbolo utile a farci capire se i bit che seguono (8bit) fanno parte di quei 5bit oppure no. Quello che rimane, ovvero il 10% dei caratteri da identificare, richiederà 5+8 bit = 13bit per la codifica. Per riassumerla in breve, utilizziamo meno bit per i caratteri più ricorrenti e viceversa, ai caratteri meno frequenti maggior numero di bit. Altro ragionamento applicabile può portarci all'assegnare 1 o 2 bit al punto e allo spazio, mentre per i caratteri meno frequenti, assegnar loro una dozzina di bit. In ogni campo può essere applicata la codifica di Huffman, in quanto è sufficiente considerare un byte, ovvero 8bit, rappresentabile come un carattere e quindi poter applicare le regole precedentemente descritte: ai byte più frequenti minor numero di bit e viceversa, ai caratteri meno frequenti un maggior numero di bit. 32

34 Capitolo 2 MPEG-1 Layer I 2.1 STRUTTURA DI UN SISTEMA AUDIO MPEG-1 Il sistema di codifica MPEG si compone di tre parti fondamentali: Encoder: porzione di programma che permette di trattare un file non compresso audio immesso nel suo input (come ad esempio un file WAV) e convertirlo in un formato compresso tramite lo standard di codifica specificato dall'utente che ha richiesto la compressione. Decoder: porzione di programma che permette di trattare un file audio già compresso tramite MPEG immesso nel suo input e riportarlo nel formato non compresso. Formato di codifica: vengono racchiuse tutte le regole di definizione degli standard MPEG come ad esempio per l' MPEG-1 Layer 3 e l'isoiec) che permettono e dettano istruzioni su come trattare e codificare l'informazione compressa. Qui di seguito nella fig. 2.1 si può osservare lo schema a blocchi di un Encoder Audio MPEG-1 ed MPEG-2. 33

35 Fig. 2.1 Encoder audio MPEG-1 ed MPEG-2 Nel encoder-decoder la complessità algoritmica è maggiore nell'encoder garantendo perciò una maggior velocità e semplicità il lavoro del decoder. Viene lasciato a chi gestisce piattaforme multimediali il compito di creare un file MP3 con un buon rapporto di qualità e tasso di compressione, mentre per l'utente finale rimane solamente l'utilizzo del decoder per l'ascolto tramite l'utilizzo di software richiedente un minor spazio e modesta richiesta di processore del PC. Nella figura AA si può notare come al suo ingresso, riceve un file codificato in PCM6, a seconda del formato MPEG e layer utilizzato viene letto in blocchi di 384, 576 o 1152 campioni, il tutto eseguendo queste operazioni: Banco di filtri ibrido: proprio qui avviene la conversione dei campioni PCM nel corrispondente dominio della frequenza, comunemente chiamato spettro tramite l'utilizzo di un banco di filtri polifase seguito da una trasformata di coseno modificata nota come MDCT. Modello psico-acustico: questo è un passaggio principale di tutto il procedimento e rappresenta uno spazio in cui avvengono le decisioni 6 PCM: Pulse Code Modulation codifica a modulazione di impulsi 34

36 durante l'analisi dello spettro del segnale, calcolato con la trasformata di Fourier. Viene definito subito dopo il livello di soglia di udibilità SMR (Signal to Mask Ratio) conoscendo molto bene le proprietà acustiche dell'orecchio umano. Nel capitolo psico acustica ho spiegato nel preciso i vari fenomeni per cui il nostro orecchio è in grado di percepire alcune informazioni rispetto ad altre. Viene poi passato al blocco successivo. Quantizzatore non lineare: qui avviene la codifica numerica dello spettro ricevuto dal banco di filtri ibrido in funzione dell'importanza di ogni banda di frequenze. Tramite il criterio di giudizio del modello psico-acustico, in grado di indicare se una particolare banda di frequenze venga percepita o meno, verrà poi codificata con l'utilizzo di un numero minimo di bit. Diversamente se la banda di frequenza è percepita in modo intenso, ad essa verrano associati un maggior numero di bit per la sua codifica. Tutto questo per poter ottenere una quantizzazione dello spettro riducendo il rumore di quantizzazione introdotto entro valori inferiori al valore dettato dalla soglia di udibilità SMR imposta dal modello psico-acustico. Impacchettamento: qui viene preso in carico la codifica numerica dello spettro frequenziale e trattato il suo impacchettamento tramite i criteri dettati dallo standard MPEG richiesto. E' proprio qui che il layer 3 introduce una ulteriore compressione utilizzando l'algoritmo di Huffman 35

37 Qui di seguito nella fig. 2.2 si può osservare lo schema a blocchi di un decoder Audio. Fig. 2.2 Schema a blocchi decoder audio Spacchettamento: vengono lette da ogni frame tutte le informazioni codificate secondo lo standard MPEG e viene estrapolato lo spettro. Nella codifica MP3 avviene un'ulteriore passaggio, ovvero la decodifica di Huffman. Banco di filtri inverso: ricevendo al suo ingresso lo spettro del segnale vengono creati i campioni PCM corrispondenti, composti sempre da una quantità fra 386, 576 o Successivamente vengono passate al DAC (Digital to Analog Convert) presente nella scheda audio se di lettura oppure ad un file ad esempio WAV se solo in conversione. 36

38 2.2 MPEG-1, MPEG-2 ed i Layer Tramite diversi algoritmi di compressione, qualunque encoder MPEG/Audio è in grado di comprimere un segnale PCM. Questi algoritmi, per quanto riguardo l' MPEG-1 ed MPEG-2 sono 3. layer 1: il primate e più semplice degli algoritmi ma comunque in grado di offrire buoni risultati a parità di bitrate; con un bitrate pari a 384 kbit/s per un segnale stereo. Vengono associati ad ogni frame PCM 384 campioni e la sua estensione file è l' MP1. layer 2: diversamente dal layer 1, vengono associati ad ogni frame 1152 campioni rendendolo di fatto più complesso. Ottimale per codifiche con bitrate intorno ai kbit/sec per un segnale stereo e la sua estensione file è MP2. layer 3: più complesso di quelli precedenti ma con migliori prestazioni. Il formato MPEG-1 associa ad ogni frame 152 campioni PCM mentre l' MPEG-2 ne associa 576 aumentando la risoluzione temporale. Possiamo ottenere una qualità sufficiente già a bitrate intorno ai 160 e 192 kbit/s e l'estensione file a lui associata è l' MP3. A lui vengono associati i concetti di dominio frequenziale suddiviso in funzione delle bande critiche, introduzione della tecnica del bit reservoir in grado i migliorarne sensibilmente la qualità audio a parità di bitrate e l'uso della codifica di Huffman. Ogni layer sviluppato è stato fatto per garantire piena compatibilità con le versioni precedenti. 37

39 2.3.1 MPEG Layer 3 Il formato di codifica MPEG-1 viene utilizzato principalmente per effettuare compressioni su materiale musicale, in quanto supporta solamente frequenze di campionamento piuttosto alte come ad esempio 32, 44,1 e 48 khz, mentre i valori di bitrate possibili per il layer 3 sono compresi tra 32 e 320kbit/s. La sigla MP3 fa quindi riferimento ad un formato di file che può contenere al suo interno tre diversi formati di codifica audio tra cui: MPEG-1, MPEG-2 e MPEG2.5 Layer 3. Da precisare come formato della codifica audio vada a definire la modalità con cui vengono rappresentati i dati audio, diversamente dal formato file che rappresenta in modo chiaro il metodo di archiviazione tramite scrittura in un file sul computer. Esistono varie alternative di codifica dei canali: single channel - mono dual channel - due canali mono distinti stereo - due canali indipendenti joint stereo avviene la codifica stereo in modo compresso tramite MS Stereo e Intensity Stereo, ovvero degli algoritmi in grado di eliminare ridondanze e quindi parti ripetute fra i due canali. Oltre alle alternative di codifica dei canali esistono diversi tipi di bitrate: bitrate fisso viene associato il medesimo valore di bitrate a tutti i frame presenti nel file rendendo preventivamente nota quale sarà poi la sua dimensione. 38

40 bitrate variabile viene associato un valore diverso ad ogni frame in modo indipendente in funzione della quantità di bit necessari alla corretta codifica dell'informazione al suo interno. Volendo fare un paragone, il silenzio avrà bisogno di un numero di bit inferiori tendente allo zero rispetto ad un attacco di una nota che richiede maggior numero di bit. Otteniamo una buona qualità audio ma diversamente dal bitrate fisso non è possibile preventivamente conoscere la dimensione del file che si otterrà dalla codifica. average bitrate una tecnica di codifica che sfrutta il riallineamento dei frame ma non ampiamente supportata da encoder meno recente. bitrate free format in questo caso il valore di bitrate usato dovrà rispettare una regola ben precisa: potrà avere un valore diverso da quelli standard, dovrà essere fisso e non superare il valore massimo dettato dal layer. Purtroppo anche il bitrate free format, come il precedente descritto, non è ampiamente supportato da lettori di vecchia generazione. Sebbene il formato di codifica MPEG-2 è l'evoluzione dell' MPEG-1, non porta con se grossi novità, tranne un miglioramento degli algoritmi di compressione (layer) e una maggior scelta di frequenze di campionamento inferiori fino a 16 khz. Oltre alla scelta più estesa per quanto riguarda la frequenza di campionamento, è possibile anche per il bitrate, esteso in basso fino a 32 kbit/sec. Nell' MPEG-2 i bitrate sono gli stessi supportati dall' MPEG-1 ma introduce un supporto nuovo ovvero le codifiche multi canale a 3, 4, 5 e 5.1 canali. Si parla anche in questo caso di retro-compatibilità. Altro formato riconosciuto è l' MPEG 2.5 che permette una frequenza di campionamento ancora più piccola dell'ordine di 8, , 12 khz). 39

41 2.3.2 ID3: metadati audio per MP3 ed AAC Lo standard MPEG/Audio Layer 3 ed AAC è frutto di varie evoluzioni e con il passare del tempo si è fatto fronte alla necessità di inserimento di metadati che permettesse di conoscere svariate informazioni per la corretta identificazione e la conseguente catalogazione del brano. Fu così che venne introdotto e standardizzato lo standard ID3 inizialmente in versione VI in grado di poter salvare all'interno del file l'autore del brano, data pubblicazione e altro negli ultimi 128 byte. Venne deciso di inserirli negli ultimi byte per non incorrere in problemi di compatibilità con sistemi di lettura più vecchi in quanto all'origine i primi byte erano associati ai primi frame di informazione. La struttura ID3 può essere schematizzata in questo modo in figura 2.3: Fig. 2.3 Struttura ID3 L'evoluzione successiva dell' ID3 V1, in quanto 128 byte non erano sufficienti, fu l' ID3 V2 venendo anteposta al bit-stream MP3. Di grandezza variabile e strutturata a chunk7 in grado di immagazzinare ognuno al proprio interno tutte le informazioni dell' ID3 V1 più altre informazioni aggiuntive. Informazioni utili aggiuntive tra cui diritti di copyright, informazioni sull'artista, link a siti web etc. Vanno considerate in modo indipendente e possono essere usate sia entrambe che singolarmente. 7 Un chunk è un blocco di memoria residente in un vettore ed è composto da un header (o intestazione) di dimensione costante 8 byte seguito da uno spazio di memoria variabile, la cui dimensione minima è la stessa utilizzata per l'intestazione e cresce seguendo l'ordine dei suoi multipli. 40

42 La struttura finale dell' MP3 si presenterà in questo modo visibile in fig. 2.3: Fig. 2.4 Struttura finale MP3 Le prestazioni di un codificatore MP3 Si possono riportare in una tabella in fig. 2.5 le sue prestazioni con differenti bitrate, in modalità mono e/o stereo ed il conseguente rapporto di compressione che si ottiene nella sua uscita. Fig. 2.5 prestazioni di un codificatore MP3 C'è da considerare quanto il rapporto di compressione possa variare in base al segnale che si sta analizzando e la tabella fa riferimento a dati ottenuti dal Fraunhofer Institut e riferenti al loro codificatore. 41

43 Un altro possibile paragone, rappresentato in figura 2.6, lo si può fare tra MPEG e altre codifiche audio-musicali. Fig. 2.6 codificatori a confronto Appare evidente le migliori caratteristiche che l' MPEG possa fornire MPEG 2 Un secondo standard è stato sviluppato quando, con il passare del tempo, è venuta sempre più la necessità di un numero superiore a due canali e perciò la necessità di una codifica multi-canale. Tale spinta verso un aggiornamento è stato dato dal mondo del cinema e della TV, i quali richiedevano almeno 5 canali, ovvero centrale, destro, sinistro, destro surround e sinistro surround. Nella fase di sviluppo si è voluto conservare la retro-compatibilità con standard precedenti ma più avanti si è dovuto cambiare strada per ottenere maggiori prestazioni. Nella Fig. 2.6 si può notare quanto non siano state apportate grosse novità dal punto di vista strutturale rispetto alle versioni precedenti, ma diversamente dal punto di vista operativo, riescono ad includere frequenze di campionamento superiori dell'ordine di 16 khz, e a 24 khz. Anche il bitrate ha ricevuto beneficio, ampliando la scelta fra un massimo di 160 kbit/s ed un minimo di 8 kbit/s per canale. 42

44 Fig. 2.7 MPEG-2 coder e decoder La fase AAC (Advanced Audio Coding) è la seconda fase dell' MPEG-2 in grado di poter migliorare le prestazioni alla codifica multi canale, permettendo una codifica con frequenze di campionamento da 8 fino a 96 khz per canale fino ad un massimo di 48 canali. Si nota quanta innovazione abbia portato l'aac considerando che a parità di qualità e codifica a 5 canali, l'aac richieda un bitrate quasi dimezzato rispetto all' MPEG-2 Layer II. Anche l'aac segue gli stessi principi del layer III ma è in grado di migliorarne sensibilmente alcuni suoi punti interni specie con l'introduzione di nuovi blocchi strutturali in grado di migliorare la compressione e una riduzione del bitrate. 43

45 Fig. 2.8 schema a blocchi dell'encoder AAC Si hanno in questo modo un miglioramento sostanziale con l'introduzione di: codifica di Huffman tramite l'utilizzo di un numero maggiore di tabelle in grado di agevolare la quantizzazione e migliorarne la codifica. risoluzione di frequenza viene aumentato il numero di linee di frequenza in uscita dal banco filtri passando da 576 a 1024, sostituendo la dimensione delle finestre a 2028 campioni. Tutte potenza di 2 per garantire una più facile gestione. codifica stereo congiunta, M/S vengono codificati i canali con la loro media e la loro differenza anziché considerarli canali separati tenendo presente quanti valori piccoli richiedano un minor numero di bit. 44

46 2.4 Joint Stereo Joint-stereo è una proprietà di uno stream dati audio e sta a significare che il flusso supporta più di un metodo di codifica stereo, come ad esempio SS ( simple o L/R stereo o Dual Mono), MS ( mid-side stereo), o IS ( intensity stereo). Uno stream joint-stereo può anche impiegare un unico metodo di codifica, ma per ragioni di efficienza o di qualità può passare da un metodo ad un altro su di un frame o addirittura su sub-frame. Per esempio, un file MP3 a bitrate elevato joint-stereo può contenere una miscela di SS e MS frames, o può contenere tutti i frames in SS o tutti i frames in MS. Un MP3 che non utilizza un sistema joint-stereo non conterrà mai al suo interno vari tipi di frames. Metodi di codifica joint-stereo, si riferisce generalmente a qualsiasi alternativa al semplice (L/R) e sono supportati da un particolare formato, anche se il semplice stereo è comunque un'opzione. 2.5 Metodi o modalità di codifica stereo Channel coupling (accoppiamento dei canali) è un metodo utilizzato per ridurre la quantità di bitrate necessaria in modo più efficiente. Esistono diversi metodi di accoppiamento dei canali, nell' MP3 il più usato è appunto il joint-stereo. MP3 Channel Coupling Nell' MP3 si possono utilizzare due diversi metodi di channel coupling: codifica mid/side e intensity stereo. Left-Right (L/R) o Simple Stereo (SS) 45

47 Simple stereo (SS) è il metodo più semplice di codifica di un segnale stereo: ogni canale viene trattato come un'entità completamente separata. Ciò può essere inefficiente e può peggiorare notevolmente la qualità (rispetto ad altre modalità), specie nella situazione in cui entrambi i canali contengono segnali quasi identici (quasi mono oppure mono) Channel Coupling - Mid-side Stereo (MS) La codifica mid-side stereo calcola un mid channel calcolato con la somma del canale destro e sinistro e un side channel. Left = L Middle= Right = R L+ R 2 Side= Left = Middle + Side L R 2 Right = Middle - Side Ogni volta che un segnale è concentrato nel centro dell'immagine stereo (cioè assomigliante ad un mono), lo stereo mid-side può portare ad un notevole risparmio di bitrate, poiché si possono usare meno bit per la codifica del side channel. Ancora più importante è il fatto che applicando la matrice inversa nel decodificatore, il rumore di quantizzazione diventa correlato e cade nel centro dell'immagine stereo, dove viene mascherato dal segnale. Diversamente, l'intensità stereo distrugge le informazioni di fase ma la codifica mid-side riesce a mantenere le informazioni di fase piuttosto simile o intatte. Se utilizzato nel modo corretto e nella giusta situazione, il mid-side stereo, riesce a creare piccoli e quasi nulli errori o danni all'immagine stereo, aumenta l'efficienza di compressione, riduce la dimensione del file e aumenta la qualità complessiva. 46

48 2.5.2 Channel Coupling - Intensity Stereo Codifica intensity Stereo è un metodo che consente di ottenere un risparmio di bitrate sostituendo il canale destro e sinistro con un unico segnale che rappresenta più informazioni direzionali. Questa sostituzione è giustificata dal punto di vista psico-acustico nello spettro di frequenza in quando il sistema uditivo umano risulta insensibile alla fase del segnale a frequenze superiori a 20kHz. Intensity Stereo è per definizione un metodo di codifica lossy ed è utile soprattutto a basso bitrate. Per la codifica a bitrate superiori, è consigliata una codifica mid-side stereo. Alcuni encoder MP3 meno recenti non riescono a prendere delle decisioni in modo autonomo su quale modalità utilizzare nella codifica fra frame e frame in file joint-stereo o quanta larghezza di banda associare alla codifica del side channel. Tutto ciò ha portato ad una diffusa convinzione che un'abbondanza di M/S frames, o l'uso in generale di joint-stereo, porti sempre ad un impatto negativo fra la separazione dei canali e di altre misure di qualità audio. Tutto ciò non risulta più un problema con encoder più recenti e avanzati, in grado di passare fra codifica mid-side o semplice codifica stereo se necessaria. A seconda della correlazione tra i canali left e right verrà allocata la giusta larghezza di banda del canale per garantire la migliore modalità da utilizzare per ogni fotogramma. 47

49 2.6 Formati Lossless e lossy E' capitato a chiunque di sentir parlare del termine bitrate ed è facile avere un'idea di ciò che rappresenta. Bitrate si riferisce al numero di bit-o quantità di dati che vengono elaborati su una certa quantità di tempo. In audio, si parla generalmente di kilobit al secondo. Ad esempio, la musica che si acquista su itunes è di 256 kilobit al secondo e ciò significa che ci sono 256 kilobit di dati memorizzati in ogni secondo di un brano. Più alto è il bitrate di una traccia, più spazio occuperà il file sul nostro computer. Generalmente, un CD audio dedica molto più spazio ai file che si possono creare da esso, ecco il motivo per cui è diventato pratica comune comprimere i files ottenuti in modo da poterne immagazzinare in quantità superiore sul proprio disco rigido (o ipod, o Dropbox, o qualunque altro sistema). Ed è qui che entra in gioco l'argomento e la necessità di definire i termini audio "lossless" e "lossy". Quando parliamo di "lossless", intendiamo dire che non abbiamo davvero modificato il file originale. Abbiamo, cioè, strappato un brano da un CD al nostro disco rigido, ma non abbiamo compresso al punto di dover perdere alcuni o tutti i dati.è, per tutti gli effetti, lo stesso identico file del brano CD originale. Probabilmente avremo più volte deciso di estrarre la nostra musica nel formato lossy. Facendo ciò, abbiamo estratto le tracce da un CD per archiviarle nel nostro disco rigido effettuando una compressione in modo da occupar minor spazio Un album in formato MP3 o AAC occupa generalmente fino a 100MB circa. Lo stesso album in formato lossless, sia come formato FLAC o ALAC (noto anche come Apple Lossless) avrebbe occupato circa 300MB. Per questo motivo è diventata 48

50 pratica comune usare formati lossy per download più veloci e per un maggior risparmio di spazio nei dischi rigidi. Il problema è che quando si comprime un file per risparmiare spazio, si sta cancellando dei blocchi di dati. Ad esempio quando si prende uno screenshot PNG dello schermo del computer. Comprimendolo in formato JPEG, il computer sta prendendo i dati originali e barando su alcune parti dell'immagine, che la rende per lo più lo stessa ma con una certa perdita di chiarezza e qualità. Naturalmente, con la musica lossy, si ha il beneficio di una quantità maggiore di spazio libero su disco. E' tutta una questione di compromesso. Ci sono diversi livelli di lossy: 128kbps, ad esempio, occupa pochissimo spazio, ma avremmo anche una qualità inferiore a quella di un file 320kbps più grande, che è senza dubbio di qualità inferiore a quella di un file di 1411 kbps ancora più grande (che è considerato lossless). Anche qui c'è una questione sempre aperta se la maggior parte delle persone può sentire la differenza oppure no fra i diversi bitrate. Da quanto l'archiviazione su disco è diventata sempre meno costosa, l'ascolto di audio ad alto bitrate sta crescendo sempre più e diventando sempre più popolare. Ma ne vale la pena tutto ciò? Secondo me dipende. Molto dipende da quali sistemi si usano per la fruizione. Se si sta usando un paio di cuffie ad alta qualità o di altoparlanti abbiamo la possibilità di essere raggiunti da una quantità maggiore di suoni. Sarà più probabile notare alcune imperfezioni conseguenti ad una compressione a bitrate più bassi e un certo livello di dettagli che mancano quali sottili piste di fondo o alti e bassi che peccano di dinamica, o più semplicemente notare delle distorsioni. E' in questi casi che si preferiscono bitrate superiori. Se si sta ascoltando la propria musica con un paio di auricolari scadenti, probabilmente sarà quasi impossibile notare la differenza fra un file a 128 kbps e un file di 1411 kbps. 49

51 Per lo stesso concetto per cui, per notare le imperfezioni di un'immagine, si debba effettuare uno zoom maggiore. Altro punto importante, naturalmente, sono le nostre orecchie. Ad alcune persone può non importare abbastanza o potrebbe semplicemente non avere la capacità di ascolto o di sintonia per riconoscere o affermare la differenza fra due bitrate diversi. Questa caratteristica la si può sviluppare nel corso del tempo ma se in questo momento non si ha questa dote non ha alcuna differenza quale bitrate utilizzare. Come tutte le cose, si cerca di utilizzare ciò che va meglio per noi. La domanda viene naturale: quanto altro dovrò scegliere il mio bitrate? 320kbps è ok oppure devo utilizzare un formato lossless? Il nocciolo della questione è la notevole difficoltà nel sentire la differenza tra un file lossless ed un MP3 320kbps. Per far ciò dobbiamo aver bisogno di particolari attrezzature di ascolto, un orecchio molto allenato e un certo tipo di musica (come la musica classica o jazz) per notarne maggiormente la differenza. Per la stragrande maggioranza delle persone, 320kbps è un bitrate più che soddisfacente per l'ascolto e non necessita di grosse e lunghe ricerche per trovare, in questa qualità, l'album del cantante preferito. File di tipo lossless sono più per il futuro ed è sempre possibile comprimere la musica fino a un formato lossy, ma al contrario non lo è. Non si può prendere quindi un file lossy e farlo tornare lossless ma solamente estrapolandolo nuovamente dal cd originale. Non è più possibile quindi recuperare i dati precedentemente eliminati durante la conversione fra lossless e lossy. Questo è, ancora una volta, uno dei problemi fondamentali dei negozi di musica online : se si ha costruito una vasta libreria musicale in itunes e un giorno ci si decide di voler un bitrate più elevato, si dovrà acquistare tutto di nuovo ma questa volta in formato CD. Qui c'è naturalmente molto di cui poter parlare, come ad esempio bitrate variabile per l'efficienza della codifica. 50

52 2.6.1 Lossless (WAV, AIFF, FLAC, Apple lossless, APE) WAV e AIFF - Sia WAV che AIFF sono formati non compressi e ciò indica che sono copie esatte della sorgente audio originale. WAV - creato da IBM e Microsoft, è il formato universale più utilizzato in ambiente Windows: in grado di supportare diverse modalità di registrazione dei dati, in ambiente Windows viene usato soprattutto il PCM (WAV-PCM). Stiamo parlando di un ottimo formato audio non compresso, di elevata qualità e di grandi dimensioni come ovvio, in grado di supportare dati audio a 8, 16, 24, 32 bit ecc... a diverse frequenze di campionamento (44.1, 96, 192 khz...) sia mono che stereo. Data la sua universalità è utilizzato e riconosciuto da molti lettori audio, come anche da tutti i software di registrazione. Quando si parla di formati non compressi viene privilegiata la qualità a scapito della dimensione del file: solo per fare qualche esempio, una traccia musicale di durata 5 minuti a qualità 16 bit e 44.1 khz, produrrà un file di dimensione all'incirca su 50 MB. AIFF - come il wav, è un formato audio non compresso, sviluppato da Apple sulla base dell' Interchange File Format 8 (IFF, sviluppato in origine da Electronic Arts e Amiga) e comunemente utilizzato nei sistemi Mac. Anche lui, come il wav, riesce a supportare dati audio a varie risoluzioni in bit di 16, 24, 32 bit etc, come anche frequenze di campionamento 44.1, 96, 192 khz etc. Per il file AIFF si può incontrare la medesima universalità con lettori e programmi come anche lo spazio richiedente con file audio delle stessa durata. I due formati sono essenzialmente la stessa qualità e cambia solamente la

53 tipologia con cui vengono registrati i dati. AIFF è stato sviluppato da Apple, quindi lo si può incontrare più spesso in prodotti Apple, ed il formato WAV è praticamente universale. Tuttavia, dato che sono file non compressi, occupano molto spazio. FLAC - Il Free Lossless Audio Codec9 ( FLAC ) è il formato lossless più popolare che lo rende una buona scelta se si desidera memorizzare la propria musica senza alcuna perdita di informazioni. A differenza di WAV e AIFF, nella sua creazione, avviene una compressione, perciò si ha un effettiva riduzione della dimensione del file. Tuttavia, rimane ancora un formato senza perdita, il che significa che la qualità audio rimane invariata rispetto alla fonte originale, diventando a tutti gli effetti migliore per l'ascolto rispetto a WAV e AIFF. E' inoltre un formato gratuito e open source. APPLE LOSSLESS - Conosciuto anche come ALAC, è simile al formato FLAC E' un compromesso fra tutti i lossless, anche se sviluppato dalla Apple. Anche in esso avviene una compressione, ma non è così efficiente come quella che avviene nel FLAC ottenendo un file di dimensioni superiori. E' pienamente supportato da itunes e ios, diversamente dal FLAC che non lo è. Apple Lossless quindi viene consigliato se si utilizza itunes e ios come software e sistema operativo per l'ascolto

54 APE - APE è un file lossless altamente compresso, permettendo di avere un file di dimensione estremamente ridotte con un notevole risparmio. Di qualità audio medesima al FLAC, ALAC e ad altri file senza perdita, risulta non essere pienamente compatibile con moltissimi riproduttori. Tale compressione implica un maggior utilizzo del processore restringendo questo formato solamente se si dispone di poca memoria di archiviazione, buon processore di calcolo e naturalmente un lettore in grado di leggerlo Formati Lossy: MP3, MP3 Pro, AAC, OGG VORBIS, WMA, MP4 Per un ascolto normale, ormai è diventato cosa diffusa, preferire un file di tipo lossy. Si risparmia un sacco di spazio, avendo a disposizione più posto per un maggior numero di tracce musicali. Ad esempio nel proprio lettore portatile e se sono alte abbastanza in fatto di bitrate, sarà possibile renderli indistinguibili dalla fonte originale. Qui di seguito ho inserito i formati con cui potremmo aver a che fare nel caso si preferisca appunto un formato di tipo lossy. MP3 e MP3PRO - MPEG Audio Layer III10 o MP3 in breve, è il formato lossy più comune e diffuso. Talmente diffuso da diventare addirittura sinonimo con il download della musica. L'MP3 però risulta non essere il formato più efficiente fra tutti, ma è in definita quello maggiormente e ampiamente supportato senza alcun problema rendendolo perciò la scelta numero 1 in fatto di lossy. L'algoritmo MP3 si basa sulla modellazione psicoacustica per comprimere un file audio. Conosciamo quanto la sensibilità umana è massima fra gli 1 e i 5 khz, riducendosi notevolmente per valori di frequenza superiori e inferiori

55 Una attenta considerazione su ciò permette il taglio di frequenze, specie in quelle alte, nel processo di compressione, con un notevole risparmio di spazio. Tutto ciò lo si può notare se si ascolta tale file MP3 in un impianto stereo di elevata qualità. Esso risulterà meno brillante appunto per la riduzione di informazioni proprio sulle frequenze più alte. Una buona differenza nella codifica lo fa il programma usato nella compressione anche se molti software di registrazione e audio editing dispongono al suo interno dei buoni strumenti di conversione. mp3pro - L'mp3PRO viene ideato e sviluppato da Thomson e Fraunhofer e rappresenta l'evoluzione dell'mp3 In particolare tenendo conto di un miglior algoritmo di compressione sulle alte frequenze, noto come SBR 11 (Spectral Band Replication). Purtroppo molte informazioni a riguardo il suo procedimento sono ristrette in quanto le specifiche sono custodite dai detentori dei diritti. Il formato mp3pro è compatibile con tutti i lettori MP3 ma lo riproducono con la medesima qualità di un normale MP3. Necessita per cui di lettori specifici, purtroppo non molto diffusi, per sfruttarne al massimo le sue migliori caratteristiche. AAC - Advanced Audio Coding12, conosciuto anche come AAC, è un formato simile all' MP3 anche se leggermente più efficiente. Ciò significa che è possibile ottenere dei files che occupano minor spazio, ma con la medesima qualità audio di un MP3. Sviluppato dal consorzio MPEG e incluso nell' MPEG-4 lo si può definire come una versione audio dell' MPEG-4 equivalente nei fatti al formato M4A. Considerando inoltre che itunes ha reso questo formato molto popolare ed esteso, è largamente supportato tanto quanto il formato MP3. Personalmente ho sentito parlare di qualche lettore non in grado di leggere questo formato ma si

56 tratta di qualche anno fa, per cui ora lo si può considerare a tutti gli effetti una giusta scelta. OGG VORBIS Il formato Vorbis13 è spesso conosciuto come Ogg Vorbis proprio perché racchiuso nel contenitore formato chiamato Ogg14. Sviluppato dalla Xiphophorous Foundation, è gratuito e open-source e rappresenta l'alternativa all' MP3 e AAC. Il suo vantaggio principale è il fatto di non essere limitato da brevetto e ciò non influisce sulla sua qualità ma anzi, nonostante la sua natura gratuita e opensource offre una qualità simile all' MP3 e AAC specie nelle alte frequenze, sebbene sembri avere qualche altro difetto. Ma purtroppo risulta essere meno popolare con un conseguente minor supporto da parte di lettori. Risulta perciò una valida alternativa specie per chi predilige l'offerta open-source. WMA - Windows Media Audio15 è formato proprietario di Microsoft, simile all' MP3 o AAC sviluppato per un utilizzo in ambiente Windows. Si tratta di un formato compresso con relativa perdita di dati ma realmente non offre alcuna vantaggio rispetto agli altri formati e oltretutto non è ampiamente supportato. MP4 - Lo standard MPEG-4 supporta sia dati audio che video; i file audio con questo standard hanno estensione MP4 o M4A. L'MP4 offre una maggiore efficienza di compressione rispetto all' MP3 ottenendo per cui un file di ridotte dimensioni a parità di qualità sonora e bitrate

57 2.7 STRUTTURA FILE MP3 Un file MP3 è composto da frames multipli i quali sono costituiti da header MP3 e data MP3. Questa sequenza viene chiamata flusso elementare e i frames di cui è composta sono indipendenti. Uno di questi può separare degli altri frames da un file e un lettore MP3 dev'essere in grado di riprodurli. Fig. 2.9 Struttura file MP3 Il diagramma dimostra che l' header MP3 consiste in un sync word che viene impiegato per identificare l'inizio di un frame valido. E' seguito da un bit indicante che questo è lo standard MPEG a 2 bits e che verrà utilizzato il layer 3; quindi MPEG-1 Audio Layer 3 o MP3. Dopo questo, i valori saranno differenti a seconda del file MP3. 56

58 L'intervallo di valori per ciascuna sezione di header assieme alla sua specifica viene regolamentato da norma ISO/IEC Al giorno d'oggi molti files MP3 includono dei meta-data ID3 i quali precedono o seguono i frames MP3, come viene dimostrato in Fig: 2.9. Al loro inizio, spesso gli MP3 includono un singolo frame di silenzio contenente un header aggiuntivo il quale, se supportato dai decoder, vengono lette come un'informazione invece di essere riprodotte (anche se in alcuni casi avviene entrambe le azioni). L'header aggiuntivo è contenuto nel frame data section, prima dell'effettivo dato di silenzio audio, ed era originariamente destinato ad aiutare la riproduzione di file VBR. Xing e Fraunhofer hanno sviluppato differenti formati per questo header. Il formato sviluppato da Xing viene chiamato Xing-header o XING header, mentre l' header sviluppato da Fraunhofer viene chiamato VBRI header o VBR info header Seek table Entrambi i formati specificano una tabella di seek points, che aiutano i sistemi di riproduzione a correlare la posizione di riproduzione (ad esempio, in secondi o in percentuale) con dei byte offsets nel file Gapless playback info (informazioni di riproduzione senza pause) In aggiunta alla seek table, il formato Fraunhofer contiene un encoder delay ed un valore di padding (misurato in samples) che possono aiutare nella riproduzione senza pause. Il valore di encoder delay è il numero di campioni aggiunti all'inizio dei dati audio mentre il valore di padding è il numero di campioni aggiunti alla fine. C'è anche un encoder delay, di solito di 529 samples di campioni spazzatura aggiunti all'inizio dal decoder. Per determinare i samples di inizio e di fine, esclusi sia quelli di delay che di padding presenti in uscita del decoder, i lettori MP3 possono eseguire il seguente calcolo: 57

59 1 gapless_range_start = encoder_delay + decoder_delay 2 if encoder_padding < decoder_delay: 3 gapless_range_end = total_samples 4 else: 5 gapless_range_end = total_samples - encoder_padding + decoder_delay In alternativa, quando encoder_padding <decoder_delay, un lettore MP3 potrebbe emettere un frame MP3 ulteriore al decoder (ad esempio un frame di silenzio, o il primo frame del prossimo MP3 in una sequenza) e poi utilizzare il secondo calcolo gapless_range_end. Almeno un riproduttore (Rockbox) esegue quest'ultima ed è in grado di gestire un MP3 codificato appositamente per la riproduzione gapless, dove un lungo flusso è suddiviso e scritto su files separati Lame tag L' encoder Lame estende il formato di header Xing. Questo header modificato è a volte chiamato LAME header o LAME tag, anche se LAME tag son solamente i dati specifici LAME incorporati in uno spazio inutilizzato nell'intestazione. Quando l' header fu aggiunto nel LAME 3.12, il LAME tag conteneva una stringa LAME di soli 20-byte. Nel LAME 3.90, questa regione fu espansa per contenere dati aggiuntivi quali ad esempio: audio e tag di informazioni CRCs delay separati e valori di padding per riproduzione continue senza pause vari settaggi di codifica, espansi nel LAME 3.94 per contenere presets. L'header modificato è anche incluso nel file CBR (presente nel LAME 3.94), con Info invece che XING vicino all'inizio. 58

60 Capitolo 3 CODER & DECODER LAYER III 3.1 Codifica audio MPEG 1 layer III Dall' encoder esce il flusso codificato per poi essere suddiviso in frame di pari lunghezza i quali contengono tutte le informazioni riguardanti i campioni audio e le istruzioni per poterli decodificare Audio Frame Ogni audio frame del layer III e un blocco di dati costituito dalla codifica di 1152 campioni audio e non è decodificabile senza conoscerne i precedenti blocchi, diversamente dai layer I e layer II. Implica quindi che non sono decodificabili in modo autonomo. Al suo inizio ciascun frame è composto da un bit string di sincronizzazione e termina appena prima del successivo. E' composto dai seguenti elementi: Header contenente la syncword e le informazioni sui parametri di codifica. Error_check contenente le informazioni per il controllo di errori di trasmissione. Audio_data - contenente la codifica dei campioni audio. Ancillary_data contenente dati ausiliari. 59

61 Tramite una tecnica chiamata bit resorvoir, l'encoder del layer III è in grado di includere in un frame campioni audio relativi a frame seguenti. Con una limitazione ovvero può prendere in prestito bit solo dai frame precedenti e non dai successivi permettendo di ottimizzare l occupazione di spazio nei confronti delle variazioni di flusso di dati rispetto alla media. In fig. 3.1 si può notare un grafico rappresentazione del bitstream evidenziante la parola di sincronizzazione, le informazioni per la decodifica (side information) e il puntaore all'inizio dei dati relativi ai campioni audio. Nel secondo bitstream si vede come la ripartizione dei dati audio nel caso di un picco di domanda da parte del terzo frame. 60

62 Fig Bitstream 61

63 Tramite i seguenti parametri è possibile calcolare la lunghezza di un frame : numero di campioni per frame (per il layer III e pari a 1152); bit rate (BIT/SEC); frequenza di campionamento del segnale (SAMPLE/SEC). BIT/FRAME = SAMPLE/FRAME *BIT/SEC / SAMPLE/SEC Ad esempio, per una trasmissione con frequenza di campionamento di 48 khz: * / = bits/frame Tale formula può però non dare un numero intero nel caso di una trasmissione a frequenza di campionamento di 44.1 khz. Si ricorrerà quindi alla troncatura del risultato finale e verrà segnalato tramite un bit (padding bit) indicante l'arrotondamento al byte superiore del numero di bit trasmessi Header Tutte le informazioni di header sono contenute nei primi 32 bit di ogni audio frame e sono costituite dai seguenti campi: Fig Dimensione dei sotto campi dell header 62

64 Syncword - e il bit string ID identifica l algoritmo, ha valore 1 per ISO/IEC , 0 e riservato. Layer identifica il layer ( 11 layer I, 10 layer II, 01 layer III). Protection_bit indica se sono state inserite altre tecniche per la ricerca degli errori oltre all error_check descritto nel paragrafo 3.4. Bitrate_index indica il bit rate utilizzato per la compressione del flusso di dati. Per il layer III varia tra i 32 e i 320 Kbits/s (vedi tabella in appendice). Sampling_frequency indica la frequenza di campionamento (32, 44.1 o 48 khz) Padding_bit indica se il frame contiene byte aggiuntivi per raccordare il bit-rate con il valore della frequenza di campionamento. Mode indica la modalita di trasmissione ( 11 singolo canale, 10 doppio canale, 01 joint stereo, 00 stereo). Mode_extension nel layer III indica che tipo di joint stereo coding viene utilizzato a seconda della frequenza (vedi capitolo 3) Copyright il bit vale 1 se il bitstream e coperto da copyright. Original/copy il bit vale 1 se il bitstream e l originale, 0 se e una copia. Emphasis indica che tipo di de-enfasi deve essere utilizzata. 63

65 3.1.3 Audio Data L' Audio Data section contenuto in ogni frame e composta da 1152 campioni audio codificati, suddivisi in due blocchi definiti granule, di pari lunghezza contenenti anche le informazioni per la decodifica. Ogni granule puo essere costituito da un unico blocco di dati o da 3 blocchi di 192 campioni, ognuno con sue specifiche, come evidenziato in fig La suddivisione di un granule in tre blocchi più brevi per segnali con elevata dinamica, rende possibile una miglior risoluzione tempo - frequenziale molto simile a quella dell orecchio umano ed i campioni audio rappresentano delle linee di frequenza. Ciascun valore di ampiezza viene codificato con il metodo di Huffman, tramite l'impiego di una delle 32 tabelle indicate dallo standard, in base al valore da codificare. Fig Audio data layer III 64

66 Ogni sezione audio_data si compone dei seguenti campi: Main_Data_begin - e il puntatore al primo bit dei dati audio di un frame. Il suo valore rappresenta un offset negativo rispetto al primo byte della Syncword. Se il valore di Main _Data _begin e nullo, i dati audio sono posizionati dopo le side information. Private_bits e un campo di lunghezza variabile usato per rendere costante il numero di bit utilizzati come side information. La sua lunghezza e pari a 5 bit se la modalita di trasmissione e single channel, negli altri casi e di 3 bit. Big_values[gr][ch] i valori dei campioni contenuti in ogni granule sono codificati con il metodo di Huffman. Tutto il range di frequenze, da 0 alla frequenza di Nyquist, e diviso in sottobande che sono codificate con tabelle diverse in base al massimo valore quantizzato e alla statistica locale del segnale. Spesso le sottobande alle alte frequenze hanno ampiezza limitata e non e necessario codificarle. Partendo dalle alte frequenze si contano le coppie di valori non codificati. Il loro numero e definito rzero. Successivamente si contano i gruppi di quattro valori quantizzabili su tre livelli (-1,0,1). Questo numero e definito count1. Il numero rimanente di coppie di valori codificati a piu livelli e definito big_values. Queste tre regioni sono definite regione 0 (1..big_values*2), regione2 (big_values*2 +1..big_values*2+count_1*4), regione 3 i rimanenti valori. 65

67 Fig: Codifica delle linee di frequenza in un granule Scfsi[ch][scfsi_band] (scalefactor selection information), questo campo indica come applicare i fattori di scala (scalefactor) ai granule per il canale [ch] e per il gruppo di scalefactor [Scfsi_band]. Fig Applicazione dello scalefactor selection information Scfsi_band nel layer III tutto lo spettro delle frequenze udibili e suddiviso in 21 sotto-bande di diversa ampiezza, definite scalefactor bands. Esse approssimano le bande critiche dell orecchio umano (vedi tabella appendice 1). Scfsi_band definisce l uso di scfsi per i gruppi di scalefactor. Fig Suddivisione delle scalefactor bands 66

68 Scalefac_l[gr][ch][sfb], scalefac_s[gr][ch][sfb][window] nei layer I e II i fattori di scala sono dei valori per i quali vengono moltiplicati i campioni audio per riottenere il livello originale del segnale. Nel layer III i fattori di scala sono utilizzati per coprire il rumore di quantizzazione. Essi si riferiscono alla scalefactor band [sfb] e nel caso di filtraggio con short block (vedi block_type), alla finestra [window]. L utilizzo del campo scalefac_l (o scalefac_s) e definito dalla formula per la riquantizzazione (vedi capitolo successivo). Scalefac_scale[gr][ch] gli scalefactor sono quantizzati logaritmicamente con un fattore due o radice quadrata di due. Fig Fattore di moltiplicazione per la riquantizzazione Scalefac_compress[gr][ch] seleziona il numero di bit utilizzati per la trasmissione dei fattori di scala con le seguenti opzioni: se block_type e 0, 1 o 3 (vedi block_type) -slen1 e la lunghezza dei fattori di scala per le scalefactor bands da 0 a 10; -slen2 e la lunghezza dei fattori di scala per le scalefactor bands da 11 a 20 se block_type e 2 e mixed_block_flag e 0: -slen1 e la lunghezza dei fattori di scala per le scalefactor bands da 0 a 5; -slen2 e la lunghezza dei fattori di scala per le scalefactor bands da 6 a 11. se block_type e 2 e mixed_block_flag e 1: -slen1 e la lungezza dei fattori di scala per le scalefactor bands da 0 a 7 (relative alla tabella long window scalefactor band in appendice), e da 3 a 5 (relative alla tabella short window scalefactor band). 67

69 Le due partizioni sono contigue e ricoprono tutta la parte delle frequenze medio-basse. -slen2 e la lunghezza dei fattori di scala da 6 a 11 (tabella short window scalefactor band). La seguente tabella riporta il numero di bit allocati per gli scale factors a seconda del valore di scalefac_compress. Come si puo notare, per le prime bande (basse frequenze) sono allocati al massimo 4 bit, mentre, per le successive, solamente 3. Fig Bit allocati per gli scalefactors Part2_3_lenght[gr][ch] contiene il numero di bit utilizzati per gli scale factor e per i dati audio nel granule [gr]. E utilizzato per calcolare l inizio del successivo granule o la posizione delle informazioni ausiliarie. Global_gain[gr][ch] contiene il valore del passo di quantizzazione dei campioni. E utilizzato nella formula per la riquantizzazione (vedi capitolo successivo). Subblock_gain[gr][ch][window] indica la variazione del passo di quantizzazione per un blocco di dati rispetto al global_gain. E utilizzato quando un granule e composto da tre sotto blocchi. 68

70 Block_type indica il tipo di filtro che sara usato per il granule. Ci sono quattro possibili filtri secondo la dinamica del segnale; Long e il filtro per segnali stazionari; opera su blocchi di 576 campioni. Short e il filtro per segnali con elevata dinamica; opera su blocchi di 192 campioni. End block e il filtro di transizione tra il filtro short e quello long. Start block e il filtro di transizione tra il filtro long e quello short. Fig Selezione del tipo di filtraggio per il granule Mixed_block_flag[gr][ch] indica che le basse frequenze sono filtrate in modo diverso dalle altre. Se mixed_block_flag e 0, tutti i blocchi sono filtrati come indicato dal block_type. Se mixed_block_flag e 1, le prime due sottobande sono filtrate con modalità normale (block_type 0 ) e le altre 30 sottobande del filtro, con modalità indicata dal block_type[gr][ch]. Window_switching segnala che e utilizzato un filtro differente dal normale (filtro long, block_type 0 ). Preflag[gr][ch] e utilizzato per amplificare le alte frequenze (vedi paragrafo formula per la riquantizzazione). Region0_count[gr][ch], region1_count[gr][ch] questi campi indicano il numero di scalefactor bands contenute nelle prime due regioni descritte in big_values. Region0_count contiene il numero di bande meno uno della 69

71 regione 0 (big_values). Region1_count contiene il numero di bande meno uno, della regione 1 (count1). Huffmancodebits() le linee di frequenza quantizzate sono codificate usando una tra le 32 tabelle di Huffman disponibili. La scelta della tabella e operata dall encoder in base alla statistica locale del segnale e al massimo valore quantizzato. Le coppie di valori facenti parte della partizione big_values, con valore assoluto minore di 15, sono codificate direttamente con le tabelle. Le coppie contenenti valori maggiori o uguali a 15 sono codificate con un campo separato (linbitsx o linbitsy) seguente la codifica di Huffman. Questo campo e da considerare un unsigned integer da sommare al valore codificato. I campi che caratterizzano la codifica sono: Hlen[x][y]: contiene l indicazione del numero di bit utilizzati per la codifica del valore. Hcod[x][y]: contiene il valore codificato della coppia x, y. Linbits: e la lunghezza di linbitsx o linbitsy quando sono utilizzati. Linbitsx, linbitsy: sono usati solo quando e necessario codificare valori maggiori di 15. Signx, signy: segno di x o di y ( 0 se positivo, 1 se negativo). I valori compresi nella partizione count1 sono codificati a gruppi di quattro. I campi utilizzati per la codifica sono: Hcod[v][w[x][y]: e la codifica per il gruppo di valori v,w,x,y. Hlen[v][w][x][y]: e la lunghezza in bit della codifica dei valori v,w,x,y. In appendice sono riportati degli esempi di tabelle per la codifica di Huffman. 70

72 Count1table_select[gr][ch] questo campo seleziona una delle due tabelle per la codifica dei gruppi di quattro valori. Table_select[gr][ch][region] questo campo seleziona una tra le 32 tabelle per la codifica di Huffman delle coppie di valori. La tabella selezionata si applica ai valori facenti parte di una delle tre regioni in cui e divisa la sezione big_values Ancillary bit I bit ausiliari sono contenuti nel campo ancillary_bit. La sua lunghezza e data dalla distanza tra la fine del campo Huffmancodebits e la locazione puntata dal campo main_data_begin del successivo frame. L uso dei bit ausiliari e definito dall utilizzatore in fase di codifica. 71

73 3.2 Decoder layer III Decoder layer III è l algoritmo di decodifica che, a partire dai dati codificati contenuti nel bitstream, permette di ricostruire i campioni audio in formato PCM Algoritmo di decodifica Tutto ha inizio con il processo di decodifica del bitstream layer III ma non prima che il decoder si sia sincronizzato con il flusso di dati. Avviene successivamente un controllo degli errori di trasmissione di tipo CRC (Cyclic Redundancy Code). Subito dopo può iniziare la decodifica dei dati audio. Le operazioni che vengono eseguite le suguenti in ordine: decodifica dell header e delle side information per estrarre tutte le informazioni sul bitstream; decodifica della sezione main_data contenente gli scalefactors e i dati codificati con il metodo di Huffman; riquantizzazione e riordinamento dei campioni; elaborazione dei dati se sono state inserite modalità aggiuntive di codifica per il segnale stereo; filtraggio con Inverse Modified Discrete Cosine Transform per ottenere in uscita 32 sottobande; filtraggio con banco di filtri polifase per riottenere i campioni audio PCM. 72

74 Lo schema successivo rappresenta tutte le sequenze delle operazioni di decodifica: Fig Schema a blocchi operazioni del decoder layer III 73

75 L algoritmo di decodifica del layer III è decisamente più complesso rispetto agli altri due layer e nonostante ciò, è stata mantenuta la totale compatibilità tra tutte le versioni in modo che un decoder layer III possa essere in grado di decodificare anche i bitstream dei layer I e II. Tale complessità maggiore è conseguenza dall'utilizzo di un banco di filtri ibrido ed una serie di accorgimenti per raggiungere fattori di compressioni elevati Nei primi due layer il processo di codifica avviene utilizzando un banco di filtri polifase; essi trasformano i campioni audio PCM in 32 sottobande che coprono tutto il range di frequenze udibili. Queste sottobande vengono poi quantizzate e trasmesse. Il processo precisamente inverso, avviene in fase di decodifica, riottenendo i campioni audio. Il layer III utilizza una risoluzione frequenziale molto più accurata e lo si può notare come in fase di codifica, dopo il filtraggio con filtri polifase, ognuna delle 32 sottobande vienga suddivisa in 18 linee di frequenza con un filtraggio con MDCT (Modified Discrete Cosine Transform). Tutte le 576 linee di frequenza ottenute da questo processo vengono riorganizzate in 12 o 21 sottobande di diversa ampiezza tenendo conto delle caratteristiche del segnale di partenza, permettendo di ottenere una suddivisione dello spettro molto più vicina alla suddivisione in bande critiche. E' possibile inoltre nel layer III adattare il filtraggio al tipo di segnale da codificare: per segnali stazionari è utilizzato un filtraggio su blocchi di 576 campioni, mentre per segnali con elevata dinamica vengono utilizzati filtri con finestre più brevi (un terzo delle precedenti, pari a 192 campioni), ottenendo così una maggiore risoluzione temporale, riducendo gli indesiderati fenomeni di pre-eco. 74

76 3.2.2 Sincronizzazione La sincronizzazione tra il decoder e il bitstream avviene con la ricerca della syncword La posizione della successiva parola di sincronizzazione può essere calcolata con le informazioni fornite dai campi bitrate_index, padding_bit e sampling_frequency contenuti nell header. La lunghezza di un frame in bytes è calcolabile con la formula: BYTE / FRAME = BITRATE / FREQUENZA DI CAMPIONAMENTO * 144 Se il risultato della formula non è un intero, il padding bit vale 1 e la lunghezza del frame è arrotondata al byte successivo Error check Il controllo degli errori di trasmissione CRC (Cyclic Redundancy Code) viene applicato se il Protection_bit, contenuto nell header, è fissato a 0. Tale procedimento si basa sul confronto tra due campi di 16 bit, uno trasmesso con il bitstream, l altro ottenuto con un procedimento che opera sui bit trasmessi Decodifica header e side information Tutte le informazioni relative all header sono posizionate subito dopo la syncword; vengono prelevate e mantenute in memoria per tutta il tempo impiegato per la decodifica del frame. In particolare il campo sampling_frequency permette di selezionare le scalefactor_band_table. Queste tabelle contengono la suddivisione delle 576 linee di frequenza in sotto bande di diversa ampiezza a seconda della frequenza di campionamento (vedi tabelle 1.2 in appendice). 75

77 Le side information sono divise in questo modo: Side information valide per entrambi i granule Side information valide per il granule 1 Side information valide per il granule 2. I campi che contengono informazioni valide per entrambi i granule sono: main_data_begin scfsi[ch][scfsi_band] I campi validi per un singolo granule sono invece: part2_3lenght[gr][ch] big_values[gr][ch] global_gain[gr][ch] scalefac_compress[gr][ch] window_switching_flag[gr][ch] block_type[gr][ch] mixed_block_flag[gr][ch] table_select[gr][ch][region] subblock_gain[gr][ch][window] region0_count[gr][ch] region1_count[gr][ch] scalefac_scale[gr][ch] count1table_select[gr][ch] I campi relativi alla sezione side information devono essere memorizzati per tutta la durata della decodifica del frame. 76

78 3.2.5 Decodifica Main Data La sezione main data è costituita dai seguenti campi: scalefactor dati codificati con il metodo di Huffman dati ausiliari. I dati di questa sezione, diversamente dai layer I e II, non sono necessariamente contenuti all interno del frame di appartenenza, ma possono essere distribuiti su più frame antecedenti l attuale. L inizio di main data è indicato da un puntatore (main_data_begin). Il decoder dovrà quindi estrarre i dati a partire da questa locazione, saltando eventuali header e side information relativi ad altri frame. Questa operazione viene fatta alla base della conoscenza della lunghezza di ogni header (32 bit) e delle side information (17 o 32 bytes a seconda della modalità di trasmissione). Il valore di bitrate e della frequenza di campionamento vincolano la possibilità di distribuire i dati su più frame. Infatti è stato stabilito un buffer fisico di input massimo di 7680 bit. Alla frequenza di campionamento di 48 khz e con il bitrate di 320 kbit/s (massimo valore consentito dal layer III), si ha una lunghezza del frame d: (bit/s) / (campioni/s) *1152 (campioni per frame) = 7680 bit. L intero buffer di input perciò è completamente occupato dai dati di un solo frame. Nel caso in cui si sono applicati i valori massimi di bitrate e frequenza di campionamento, non è applicabile la tecnica di distribuzione dei dati su più frame. Con un bitrate di 128 kbit/s per segnali stereo (il valore più utilizzato per il layer III), il frame è costituito da 3072 bit e permette quindi, ampie variazioni di lunghezza della sezione main data. 77

79 3.2.6 Filtri polifase E' tramite un banco di filtri polifase che avviene la ricostruzione del segnale PCM. Partendo da 18 campioni nel tempo per ognuna delle 32 sottobande si ottengono 576 campioni nel tempo in formato PCM. Tale filtraggio viene effettuato inserendo 32 campioni alla volta (uno per sotto banda) e ottenendo in uscita 32 campioni audio. La caratteristica principale dei filtri polifase è di avere una bassa complessità computazionale derivante dalla composizione di un banco di filtri semplici, ognuno operante su una banda limitata, invece che un filtro unico per tutto lo spettro di frequenza. Purtroppo la risposta in frequenza di questi filtri non garantisce una perfetta suddivisione delle sottobande e tutto ciò rendere necessario un' operazione di riduzione dell aliasing durante l operazione di decodifica. Il nome di questo tipo di filtri deriva dal fatto che ogni banco di filtri polifase è costituito da una serie di filtri elementari. Ognuno di questi filtri deriva dallo stesso filtro base modulato con un termine coseno per spostare il suo centro banda alla frequenza voluta. Ogni filtro ha una frequenza centrale situata a kπ/32t con k dispari e dove T è il periodo di campionamento. La larghezza di banda è di Π/32T IMDCT (Inverse Modified Discrete Cosine Transform) Nella trasformata MDCT e la sua inversa impiegate nel layer III, a differenza dalla DCT (impiegata ad esempio nella codifica MPEG video), c'è la possibilità di avere un campionamento critico ovvero lo stesso numero di campioni dopo la trasformata tempo frequenza o viceversa) oltre che una migliore risoluzione frequenziale. 78

80 La MDCT e la sua inversa gode inoltre di una complessità computazionale molto bassa e di numerosi algoritmi ottimizzati per la sua implementazione. Nel layer III è possibile la variazione di lunghezza dei blocchi di campioni in cui verranno applicate le trasformate, come ad esempio in presenza di segnali con elevata dinamica la lunghezza del blocco da trasformare è di 1/3 rispetto a quella normale. Ciò permette una migliore risoluzione temporale del filtro ed un limitato errore di quantizzazione conun intervallo di tempo più ristretto. Tale trasformata se applicata ad un blocco normale (long block) è in grado di offrire una risoluzione frequenziale migliore. Vengono impiegate finestre di filtraggio diverse con il passaggio tra long block e short block, le cui forme diverse permettono un graduale passaggio Riduzione dell' errore di aliasing Questo procedimento si applica per ridurre l errore di sovrapposizione tra le linee di frequenza introdotto dalla forma della risposta in frequenza del banco di filtri polifase, non in grado di garantire una perfetta separazione tra le sottobande. Al campionamento con la MDCT delle sottobande, sui valori delle linee di frequenza si propaga l'errore di aliasing Ricostruzione del segnale PCM Dalle linee di frequenza, tramite il processo di decodifica, passiamo alla ricostruzione del segnale PCM operante in modo duale rispetto al processo di codifica. Ogni granule composto dalle 576 linee di frequenza vengono riconvertite tramite una IMDCT (Inverse Modified Discrete Cosine Transform) e successivamente tramite un banco di filtri polifase, in campioni audio nel dominio del tempo. Tale tipo di filtri per la codifica permette di avere fattori di compressione notevoli pur con un'alta fedeltà del segnale audio. 79

81 E' proprio questo tipo di codifica che impiega l'utilizzo di una struttura di filtri ibrida a permettere notevoli vantaggi rispetto ad altri metodi di filtraggio. Elenco qui di seguito le principali caratteristiche dei sistemi di filtraggio impiegati nella codifica dell'audio digitale: Filtri polifase: in questo tipo di filtraggio vengono utilizzate delle sottobande equi spaziate permettendo una ottima risoluzione frequenziale e temporale. Gode inoltre di una complessità computazionale di questi filtri molto bassa venendo utilizzati per l MPEG 1 layer I e II con 32 sottobande. Struttura ibrida MDCT e filtri polifase: in questo tipo di filtraggio è possibile avere una diversa risoluzione frequenziale al variare della frequenza. Anche in questo caso la complessità computazionale è bassa e viene impiegato nel layer III con 32 sottobande per i filtri polifase e una suddivisione di ogni sotto-banda in 18 linee di frequenza con la MDCT. QMF Tree Filter Banks: questo tipo di filtraggio permette di avere una diversa risoluzione frequenziale al variare della frequenza. Avviene l'utilizzo da 4 a 24 sottobande ma la complessità computazionale di questi filtri è elevata. MDCT Modified Discrete Cosine Transform (con cancellazione degli errori di campionamento nel dominio del tempo): tale trasformata unisce campionamento critico e una buona risoluzione frequenziale e può essere implementata con algoritmi efficienti di complessità paragonabile alla FFT. 80

82 Nel processo di decodifica del layer III le operazioni di filtraggio si possono dividere in 3 fasi: riduzione dell'errore di aliasing: IMDCT filtraggio con banco di filtri polifase 81

83 Capitolo 4 CONFRONTO FRA VARI FORMATO AUDIO 4.1 DESCRIZIONE DEL CONFRONTO ESEGUITO Incluso nella mia tesi ho voluto effettuare un esperimento che mi permettesse di misurare le eventuali differenze fra vari formati audio in esame fra cui FLAC, WAVE, MP3, e M4A. Ho considerato che, se si riuscisse a notare una differenza al cambiamento del formato file (ad esempio da FLAC a WAV), avremmo ottenuto di certo una modifica della forma d'onda e come tale può essere misurata. Se si confrontano formati file audio, la teoria afferma che FLAC e WAVE sono formati file lossless (senza perdite) per cui dovrebbero essere identici, di conseguenza la relativa forma d'onda identica. Quello che ho voluto fare nella mia tesi è fare uso di un software editing audio in grado di visualizzarmi più forme d'onda (Audacity 16) e di poter notare e misurare le differenze. Per accertarmi se realmente le forme d'onda siano le stesse o siano state alterate, le visualizzo in Audacity, eventualmente applico una normalizzazione, effettuo uno zoom estremo e specifico, inverto uno delle due forme d'onda e calcolo la loro somma. Se il risultato della somma fra le due forme d'onda sarà nullo allora potrò affermare che non esistono differenze fra i due. Riassumo qui si seguito tutti i passaggi che passo per passo andrò ad eseguire: importo i due formati audio da analizzare su un progetto Audacity, uno sopra all'altro;

84 creo uno zoom estremo alle due tracce, nello stesso punto. Preferirò un punto di zoom su una percussione per poter individuarlo più facilmente; inverto uno dei due segnali tramite l'apposito comando inverti in Audacity; effettuo la somma fra i due segnali tramite i comandi traccia > miscela e renderizza; il segnale che otterrò sarà la differenza fra i due segnali originali. Diversamente, tutto quello che verrà visualizzato sarà l'informazione andata persa durante la conversione. 4.2 Il brano preso in esame Il brano di confronto che ho scelto è una registrazione tratta da un Pure Audio Blu-ray di Simple Symphony Op. 4 (Boisterous Bourrée) eseguita da l'ensemble TrondheimSolistene e scaricabile gratuitamente da un sito 17 per ascoltatori audiofili. La mia scelta di download è caduta sul formato FLAC, profondità di 24bit a frequenza di campionamento 96 khz. Maggiormente motivato poi nella mia scelta grazie ad alcune note inserite personalmente dal produttore/ingegnere, in un link parallelo al link del download. Le note affermavano quanto segue: FLAC è un formato lossless, senza perdite, il quale suona esattamente allo stesso modo dalla sorgente originale di cui è stato tratto. Ho creato il file in formato FLAC direttamente dallo stesso master stereo in alta risoluzione non compresso a 24-bit 96 khz, utilizzato per il vinile e Blu Ray Disc. Quando ho comparato questi files con quello FLAC, la forma d'onda risultò virtualmente identica. Con il sistema giusto di riproduzioni potrete avvicinarvi il più possibile al formato iniziale

85 Posso quindi affermare dopo quanto scritto, di essere in possesso di una copia esatta, le cui forme d'onda risultano identiche al master originale analogico. Sarebbe molto utile e divertente se tutti i produttori mettessero a disposizione copie così precise e fedeli al master originale per un ascolto ancora più accurato. Simple Symphony, Op. 4, è un'opera per violini d'orchestra o quartetto d'archi scritto dal compositore, pianista e diretto d'orchestra britannico Benjamin Britten. Fu scritto tra il dicembre 1933 ed il Febbraio 1934 in Lowestoft, una città di abitanti della contea del Suffolk, in Inghilterra. Utilizzò pezzi di spartiti che il compositore scrisse per pianoforte verso il 1923 ed il 1926 e la sua prima esecuzione avvenne nel 1934 allo Stuart Hall a Norwich, dove Britten diresse un'orchestra amatoriale. Il pezzo è dedicato a Audrey Alston (Mrs Lincolne Sutton), insegnate di viola di Britten durante la sua infanzia ed è basato su otto temi scritti quand'era più giovane (2 per movimento) e per i quali nutriva un particolare affetto. Completò il lavoro di questo pezzo all'età di 20 anni. Autore: Benjamin Britten Titolo: Simple Symphony Op. 4 Orchestra: TrondheimSolistene18 1st violino 2nd violino Viola Cello Contrabasso

86 E' composto di 4 movimenti: (I) Boisterous Bourrée 3' Suite No. 1 in E per piano (18 Ottobre 1925), secondo movimento (Bourrée: Allegro vivace) [MOVIMENTO PRESO IN ESAME NEL MIO ESPERIMENTO] (II) Playful Pizzicato 3' Scherzo (piano) (1924) Sonata per Piano in B# maggiore, op. 5, Scherzo e Trio (Molto vivace) (III) Sentimental Sarabande 9' - Suite No. 3 (per piano) (1925) Suite No. 3, in F# minore, per piano, op. 25, Prelude (Allegro di molto) - Waltz per piano (1923) [Waltz in B major for piano], (Tempo di valse) (IV) Frolicsome Finale 3'15" Piano Sonata No. 9 (1926) Piano Sonata No. 9, in C# minore, op. 38, Finale - Song (1925) Non effettuerò il mio esperimento su un solo punto del brano, ma cercherò piuttosto di prendere in considerazione sia parti con attacchi veloci, parti con dinamica molto ridotta e parti con dinamica più accentuata, in modo tale da comprenderne e analizzarne le diverse risposte che i vari formati potrebbero o meno offrire. Di seguito, in fig. 4.1, le varie parti prese in esame evidenziate nella forma d'onda generale. 85

87 Fig Parti prese in esame Caratteristiche delle varie parti: Exp: 1 Attacchi molto veloci di tutti gli strumenti [0m:21sec 0:25sec] Exp: 2 Dinamica molto ridotta di tutti gli strumenti [1m:30s 1m:40s] Exp: 3 Dinamica accentuata di tutti gli strumenti [2m:07s 2m:15s] Partendo dal formato iniziale FLAC ho convertito in tutti gli altri formati presi in esame, con un ottimo software di conversione chiamato Switch Audio Converter su piattaforma Windows. 86

88 4.3 EXP_1 [0m:21sec 0m:25sec] Ad ogni esperimento cercherò di non ripetermi nello scrivere i vari passaggi, ma in quelli successivi mi limiterò ad inserire i vari screen-shot e particolari salienti EXP_1 - FLAC VS WAV Inizio il mio esperimento con l'analisi della prima parte del brano, una seziona di circa 4 secondi in cui tutti gli strumenti presentano attacchi molto veloci e dinamica varia. 87

89 La forma d'onda superiore è nel formato FLAC, con canale sinistro in alto e il canale destro sul fondo. La forma d'onda sotto sono i rispettivi canale sinistro e destro del file in formato WAV E il fondo due forme d'onda sono i canali sinistro e destro WAV. Q Nella precedente ho ingrandito in modo estremo per permette di visualizzare ogni singolo campione. Dopo aver selezionato una delle due forme d'onda (quella in basso in questo caso), invertito il segnale e applicato il comando miscela e renderizza ho ottenuto questo... Come si può notare, ho ottenuto del silenzio creato dall'annullamento totale fra le due forme d'onda miscelate. Uno sguardo anche allo spettro ed un' analisi delle frequenze ci può aiutare ad individuare eventuali componenti rimaste: 88

90 Spettro segnale risultante dalla miscelazione fra formato FLAC e formato WAV Anali delle frequenze dalla miscelazione fra segnali formato FLAC e WAV Nulla come preannunciato: posso affermare quindi che FLAC e WAV sono due formati perfettamente uguali e contengono la medesima informazioni. 89

91 4.3.2 EXP_1 - FLAC VS MP3 Qui si seguito il medesimo confronto di forma d'onda in audacity, amplificata, zoom estremo e allineato. Ho mantenuto la forma d'onda del file FLAC sul piano superiore e inferiore quella dell' MP3. Inverto una delle due forme d'onda (MP3) ed effettuo il missaggio. Osservo, diversamente dal caso precedente, che qui ho ottenuto del segnale. Dando un'occhiata allo spettro e all'analisi delle frequenze ho ottenuto quanto segue: 90

92 Confrontando con lo spettro originale ottenuto dal file FLAC posso affermare che il segnale rimanente è tutta l'informazione persa durante la conversione fra i due formati e si parla soprattutto di informazione relativa a bassa frequenze oltre che in alta frequenza. Analisi in frequenza del formato FLAC Analisi in frequenza del formato MP3 91

93 4.3.3 EXP_1 - FLAC VS M4A Ora provo ad effettuare il medesimo esperimento tra FLAC e M4A. Solito procedimento, confronto in Audacity delle due forme d'onda: Con gran fatica si può intravedere dell'informazione anche se a prima vista sembra del silenzio ma per rendercene conto andiamo a visualizzarlo con uno spettro e un analizzatore di frequenza. 92

94 Noto che il risultato in uscita è principalmente una serie di componenti a frequenza compresa fra 20 Khz e 25 khz le quali anche se non udibili in modo marcato se prese singolarmente, possono togliere limpidezza al brano in questione. Analisi in frequenza del formato FLAC Analisi in frequenza del formato M4A 93

95 4.4 EXP_2 [1min.30 1min.40] Prendo ora in analisi la parte centrale del brano, parte in cui l'esecuzione avviene ad un volume particolarmente basso. Seconda porzione di segnale analizzato EXP_2 - FLAC VS WAV Solito procedimento, inversione, miscelazione, visualizzazione segnale ottenuto, controllo spettro ed analisi delle frequenze: Segnale risultante 94

96 Spettro risultante Analisi delle frequenze Medesima situazione anche in questa parte del brano: preciso annullamento di tutte le frequenze indicante un segnale uguale in entrambe i due formati FLAC e WAV. 95

97 4.4.2 EXP_2 - FLAC VS MP3 Qui il confronto fra FLAC ed MP3 con lo stesso spezzone audio. Analisi in frequenza del formato FLAC 96

98 Analisi in frequenza del formato MP EXP_2 - FLAC VS M4A Ora il confronto con il formato M4A con la seconda porzione audio. 97

99 Nel risultato finale si tratta soprattutto di componenti ad alta frequenza con lunghezza d'onda molto ristretta dell'ordine dei 50ms. 4.5 EXP_3 [2min.07 2min.14] In questa porzione presa in analisi, ci troviamo di fronte ad una esecuzione di tutti gli strumenti ed una dinamica molto forte EXP_3 - FLAC VS WAV 98

100 Anche in questo caso perfetto annullamento di tutte le componenti EXP_3 - FLAC VS MP3 Segnale risultante dalla miscelazione fra formato FLAC e formato MP3 99

101 Spettro del segnale risultante dalla miscelazione fra formato FLAC ed MP3 Analisi in frequenza del formato FLAC 100

102 Analisi in frequenza del formato MP3 Anche in questo caso il formato MP3 non risulta abbastanza generoso nelle componenti di frequenza più alte, trascurando anche componenti di bassa frequenza EXP_3 - FLAC VS M4A Ultima parte del mio esperimento rimane il confronto con il formato M4A, il quale risulta fino ad ora essere l'unico fra i formato lossy ad avere una prestazione migliore. 101

103 Segnale risultante dalla miscelazione fra formato FLAC e formato M4A Spettro del segnale risultante dalla miscelazione fra formato FLAC ed M4A 102

104 Analisi in frequenza del formato FLAC Analisi in frequenza del formato M4A 103

Vedere altro