Autenticazione Vocale (A. Gorziglia) INTRODUZIONE: perché usare i sistemi biometrici per l autenticazione. Il motivo principale è quello di impedire all utente di perdere (o dimenticare) la chiave di autenticazione in qualunque formato essa sia (codice, smart card, tesserino magnetico) grazie al fatto che per essere autenticato un utente ha solamente bisogno di una sua caratteristica fisica che dunque non può dimenticare né perdere. Un altro motivo potrebbe essere perché sono i più efficaci per garantire la sicurezza si un sistema, ma questa affermazione è ancora da dimostrare. INTRODUZIONE: prestazioni dei sistemi biometrici. Diversamente da un operazione di controllo password, l affidabilità di una autenticazione effettuata da un sistema biometrico non è 100%, la valutazione di parametri fisici da parte di apparecchiature elettroniche è sempre approssimata e condizionata da fattori esterni (posizione errata del soggetto rispetto a sensore di acquisizione, salienti modifiche dell ambiente di acquisizione, modifiche delle caratteristiche valutate di un soggetto, ecc ). La cosa migliore che si può sperare è di creare un sistema affidabile quanto basta alle proprie esigenze. L affidabilità di un sistema di autenticazione biometrico si misura in termini di: FRR (False Rejection Rate) ossia la frequenza con la quale un utente autorizzato non viene riconosciuta tale (in questa statistica non rientrano i casi in cui sono stati fattori esterni a pregiudicare il rilevamento corretto. FAR (False Acceptance Rate) ossia la frequenza con la quale un utente non autorizzato viene comunque accettato confondendolo con un altro. Questo è sicuramente il tipo di errore più grave. E abbastanza intuitivo che più si lavora per ridurre una tipologia di errore e più aumenta la probabilità di ricadere nell altra: se (per es.) si alza la tolleranza di diversità delle caratteristiche considerate per ogni utente per diminuire FRR aumenta la probabilità che estranei simili ad alcuni utenti vengano riconosciuti come tali. Bisogna dunque cercare il giusto compromesso che dia errore minimo. 1
ERRORE (FAR+FRR) SCANSIONE DELLA VOCE: caratteristiche generali. La voce di un individuo è sì generata dalla vibrazione delle corde vocali ma la parte più caratterizzante viene data dalle vibrazioni aggiunte da molti organi che essa incontra prima di fuoriuscire. La grande quantità delle variabili in gioco fa in modo che ognuno abbia una voce praticamente unica e che dunque può costituire la base per costruire un sistema di autenticazione basato su di essa. SCANSIONE DELLA VOCE: rappresentazione. La voce registrata in forma digitale e successivamente visualizzata ha l aspetto di un qualunque segnale che varia in un certo modo, diverso da persona a persona, al trascorrere del tempo. Onda vocale digitale (44100 Khz, 16 bit, mono) 2
Si nota subito che il certo modo di cui si parlava prima è molto difficile da trovare in questa rappresentazione: basta pensare che la stessa persona pronunciando la stessa frase due volte di seguito (con lo stesso tono) produce due segnali che in questa rappresentazione possono risultare molto diversi. Sono dunque stati introdotti metodi per trasformare questo tipo di segnale in altri formati che evidenzino caratteristiche persistenti su uno stesso individuo sui quali dunque ci si può basare per fare riconoscimento e dunque autenticazione. Le due tecniche principali sono: MFCC (Mel Frequancy Cepstrals Coefficients); RASTA-PLP. SCANSIONE DELLA VOCE: MFCC. La soluzione matematica più immediata che possa venire in mente per risolvere il problema di visualizzare gli aspetti caratterizzanti di un segnale (acustico nel nostro caso) è quello di farne la trasformata di Fourier. Ben presto si è scoperto però che l operazione di trasformazione di un segnale tramite trasformata di Fourier poteva dare segnali risultanti molto simili anche in presenza di due persone distinte in quanto non enfatizza sufficientemente le differenze dovute alla modulazione della potenza contenuta nel segnale vocale che è la principale responsabile del timbro vocale che distingue una persona dall altra. Il MFCC tramite una serie di trasformazioni matematiche estrae da un segnale i cosiddetti coefficienti cepstrali: sostanzialmente una sequenza di numeri che identificano [abbastanza] univocamente il segnale sonoro emesso da una certa persona tenendo conto di tutti gli elementi che lo caratterizzano (componenti armoniche, ampiezze di queste e potenza portata alle varie bande di frequenza). Funzionamento MFCC 3
Il segnale viene dunque: 1. campionato; 2. filtrato (con un filtro descritto matematicamente da una certa funzione H(z)); 3. diviso in frames della durata di 10 ms; ad ogni frame viene: 4. applicata la trasformata di Fourier per segnali campionati (dunque discreti) FFT; 5. applicati alcuni filtri che dividono il segnale in alcune bande di frequenza per le quali è valutata la potenza. Questa è la principale differenza con la trasformata di Fourier classica ed è ciò che da la possibilità reale di distinguere due individui diversi. SCANSIONE DELLA VOCE: RASTA-PLP. Sostanzialmente il segnale viene sottoposto alle trasformazioni precedenti ma in più subisce il filtraggio RASTA (RelAtive Spectrum TrAnsform) che elimina tutte le componenti nel segnale che verrebbero naturalmente eliminate durante l operazione di ascolto effettuata dal cervello umano (compreso il rumore di fondo), ottenendo di conseguenza un segnale che ha una rappresentazione trasformata più semplice e dunque meno coefficienti cepstrali con conseguente risparmio di spazio. Il fatto che questa sia la stessa operazione eseguita da un cervello umano ci da la garanzia che su questi dati si possano fare operazioni di riconoscimento e dunque autenticazione. CONFRONTO TRA SEGNALIVOCALI. Visto che con i metodi di prima il segnale vocale si rappresenta con vettori, per fare il riconoscimento basta acquisire il nuovo vettore dalla voce dell utente e guardare se è sufficientemente vicino a quello di un utente registrato con la distanza euclidea. Il calcolo è abbastanza leggero e rende la ricerca abbastanza efficiente. Il riconoscimento vocale può essere utilizzato in due modi: 1. Speaker Dependent: il sistema viene addestrato a riconoscere gli utenti che pronunciano una certa frase questa è l applicazione del riconoscimento vocale per la sicurezza vera e propria. 2. Speaker Independent: il sistema contiene un vocabolario di termini e può essere utilizzato da chiunque l obiettivo è quello di cercare di capire se un qualunque utente sta pronunciando una certa parola questa applicazione è improntata al riconoscimento di comandi vocali. 4
PREGI E DIFETTI DEL RICONOSCIMENTO VOCALE. Pregi: è un sistema di riconoscimento efficace soprattutto attualmente che è affiancato dal riconoscimento del movimento delle labbra impedendo imitazioni vocali o attacchi reply (ne parleremo più avanti); l utente è libero di compiere altre azioni mentre si identifica. Difetti: la procedura di registrazione della voce può durare molto in quanto bisogna acquisire diversi campioni per identificare un utente; la voce di una persona può cambiare molto ad in poco tempo, per esempio a causa di un raffreddore; i rumori di fondo possono essere troppo intensi (troppi anche per il RASTA); se la voce di un utente in qualche modo viene clonata non gli sarà più possibile accedere al sistema (non può cambiare voce come cambierebbe password). ATTACCHI. Reply Attack: l hacker, introducendosi nel sistema informatico, ruba una copia dell immagine digitalizzata della caratteristica biometrica e se ne serve per proiettarla (imitando la voce o con un riproduttore molto efficiente) in un altra occasione. Possono essere effettuati attacchi di manipolazione del valore di soglia di ciascun sistema, aumentando il valore del FAR e rendendo più facili gli accessi da parte di intrusi. Cavallo di Troia: cioè l inserimento di un software che inserisce nel sistema dati biometrici errati. 5