Corso di Laurea in Informatica Applicata Estratto da: Tesi di laurea di: Matteo Parlani Anno Accademico 2006-2007 Indice 1. Introduzione 2. Cepstrum Analysis 3. Caso di studio 4. Esperimenti 5. Risultati 6. Conclusioni
Indicizzazione dell audio Generazione di indici sintetici efficaci al fine di rappresentare il file in maniera compatta L audio può essere: strutturato (es. MIDI) rappresentazione simbolica dell audio campionato (es. WAVE) costituito da campioni Tecniche di indicizzazione dell audio campionato: Features based basata sull estrazione di particolari features, cioè valori sintetici (silence ratio, zero-crossing rate, energy distribution, etc ) Pitch Tracking prevede l estrazione dei pitch, cioè delle note dal file audio
Pitch Tracking Tecnica di indicizzazione dell audio campionato basata sull estrazione delle note e sulla loro rappresentazione in maniera simbolica Metodi sviluppati: Time-domain methods Frequency-domain methods Statistical frequency domain methods Altro Cepstrum Analysis: Frequency-domain method Il Cepstrum di un segnale è la Trasformata di Fourier del logaritmo della Trasformata di Fourier del segnale segnale FFT log FFT cepstrum Permette l individuazione della frequenza principale di un suono armonico
Cepstrum Analysis: Esempio Estrazione frequenza fondamentale (pitch) su finestre del segnale audio: Cepstrum Analysis Codifica dei pitch (indicizzazione) codifica relativa codifica assoluta Calcolo delle distanze tra i brani Allineamento globale Caso di studio Cluster Analysis (classificazione generi)
Codifica relativa Codifica dei pitch Confronto fra un pitch ed il precedente se il picco in analisi ha una frequenza maggiore rispetto al precedente viene codificato con un 1 (up) se il picco in analisi ha una frequenza minore rispetto al precedente viene codificato con un -1 (down) se il picco in analisi ha la stessa frequenza del precedente viene codificato con uno 0 (similar) Codifica assoluta Codifica del valore in frequenza del pitch Codifica relativa Versione con l informazione temporale Pitch identici ripetuti su più sequenze di 0 (similar) frame vengono codificati con Versione senza l informazione temporale Vengono codificate solo le variazioni di pitch
Codifica assoluta Versione con l informazione temporale Pitch identici ripetuti su più frame vengono codificati ripetendo il valore in frequenza Versione senza l informazione temporale Vengono codificate solo le variazioni dei pitch Calcolo della similarità tra brani I brani codificati con codifiche numeriche vengono confrontati con tecniche di edit distance (allineamento locale e globale) Allineamento locale: valuta similarità non estese a tutta la sequenza, ma localizzate in regioni circoscritte Allineamento globale: valuta la similarità su tutta la lunghezza delle stringhe da confrontare
Cluster Una volta calcolate le distanze fra un insieme di brani vengono applicati algoritmi di clusterizzazione Confronto fra raggruppamento naturale (clusterizzazione) e la classificazione in generi musicali al fine di valutare l efficacia della metodologia di indicizzazione proposta Esperimenti Sono stati eseguiti 2 esperimenti con brani audio stereo di 30 secondi e campionati ad una frequenza di campionamento pari a 44.100 Hz Per il primo test sono stati utilizzati 36 brani audio appartenenti a 3 generi musicali differenti (rock, jazz e classica) Per il secondo sono stati utilizzati 48 brani audio appartenenti a 6 generi musicali (rock, jazz, classica, pop, reggae e country)
Risultati: primo test Codifica assoluta senza l informazione temporale 3 cluster che ben corrispondono ai 3 generi musicali 41.6% 58.3% 58.3% 16.6% 16.6% 58.3% Risultati: primo test Codifica assoluta con l informazione temporale 5 5 16.6% 75% 8.3% 33.3% 8.3% 58.3%
Risultati: primo test Codifica relativa senza l informazione temporale Nessuna clusterizzazione evidente Impossibile discriminare fra i generi musicali Risultati: secondo test Codifica assoluta senza l informazione temporale 37.5% 12.5% 5 75% 12.5% 12.5% 37.5% 12.5% 12.5% 37.5% 5 12.5% 62.5%
Risultati: secondo test Codifica assoluta con l informazione temporale 87.5% 12.5% 12.5% 5 37.5% 37.5% 37.5% 5 12.5% 12.5% 5 Conclusioni Il metodo di indicizzazione proposto permette di ottenere risultati soddisfacenti nella classificazione dei generi musicali La codifica assoluta porta a risultati soddisfacenti La codifica relativa non permette di discriminare fra i diversi generi musicali L incremento del numero di generi musicali non ha peggiorato le percentuali di riconoscimento