ANNOTAZIONE FUZZY E RETRIEVAL DI FORME MEDIANTE CLUSTERING SEMI-SUPERVISIONATO

Transcript

1 UNIVERSITÀ DEGLI STUDI DI BARI ALDO MORO DIPARTIMENTO DI INFORMATICA CORSO DI LAUREA MAGISTRALE IN INFORMATICA TESI DI LAUREA IN ELABORAZIONE DI IMMAGINI E TECNICHE FUZZY ANNOTAZIONE FUZZY E RETRIEVAL DI FORME MEDIANTE CLUSTERING SEMI-SUPERVISIONATO Relatrice: Chiar.ma Prof.ssa Giovanna CASTELLANO Correlatrice: Dott.ssa Maria Alessandra TORSELLO Laureando: Francesco PAPARELLA Anno Accademico 2011/2012

2 INDICE ELENCO DELLE FIGURE... 1 ELENCO DELLE TABELLE... 3 INTRDOZUIONE... 7 CAPITOLO I. ANNOTAZIONE DI IMMAGINI Cos è l annotazione di immagini Tecniche per l annotazione di immagini Vantaggi e svantaggi delle tecniche per l annotazione di immagini Annotazione automatica vs. manuale Valutare l efficacia dell annotazione Precision e recall Precision e recall per immagini Parole chiave con recall maggiore di Punteggio normalizzato Annotazione di immagini con apprendimento non supervisionato Modelli parametrici Modelli non parametrici Annotazione di immagini con apprendimento supervisionato Classificazione basata su scene globali Classificazione basata su oggetti locali Classificazione multi-livello Annotazione di forme: una breve panoramica... 36

3 CAPITOLO II. IMAGE RETRIEVAL Introduzione Text based Vs. Content based Il processo di Content Based Image Retrieval Esempi di sistemi CBIR CAPITOLO III. CLUSTERING DI FORME SEMI-SUPERVISIONATO Introduzione al clustering Definizioni e notazione I passi di un processo di clustering Misure di similarità Approccio fuzzy Algoritmo Fuzzy C-Means non supervisionato Fuzzy clustering Descrizione dell algoritmo I dati Algoritmo Fuzzy C-Means semi-supervisionato Clustering di forme semi-supervisionato Annotazione fuzzy di forme CAPITOLO IV. SPERIMENTAZIONE Introduzione Sperimentazione algoritmo Fuzzy C-Means non supervisionato Sperimentazione algoritmo Fuzzy C-Means semi-supervisionato Sperimentazione con numero di cluster pari a Etichettatura manuale Etichettatura random Etichettatura automatica Fuzzy C-Means non supervisionato Valutazione dei risultati Annotazione fuzzy

4 4.3.2 Sperimentazione con numero di cluster pari a Etichettatura manuale Etichettatura random Etichettatura automatica Fuzzy C-Means non supervisionato Valutazione dei risultati Annotazione fuzzy Valutazione delle sperimentazioni Sperimentazione retrieval Introduzione Risultati sperimentali con numero di cluster pari a Risultati sperimentali con numero di cluster pari a Valutazione dei risultati Sperimentazione immagini reali Introduzione Annotazione fuzzy Retrieval Valutazione dei risultati CAPITOLO V. CONCLUSIONI E SVILUPPI FUTURI Possibili sviluppi futuri BIBLIOGRAFIA

5 ELENCO DELLE FIGURE Figura 1.1: Architettura di un sistema di image annotation Figura 1.2: Processo di training del modello di co-occorrenza Figura 1.3: Processo di test del modello di co-occorrenza Figura 1.4: Modello di Barnard e Forsyth Figura 1.5: Modello Corr-LDA Figura 1.6: Modello GCap Figura 1.7: Sistema di annotazione di immagini basato sulla classificazione Figura 1.8: Insieme delle istanze positive e negative Figura 1.9: Esempio di concetto di ontologia utilizzato da Gao et. al Figura 2.1: Architettura di un sistema CBIR Figura 2.2: Schermata del sistema SQUID Figura 2.3: Schermata del sistema MARS Figura 2.4: Schermata del sistema CIRES Figura 2.5: Schermata del sistema QUICKLOOK Figura 3.1: Sequenza dei passi di un processo di clustering Figura 3.2: Confronto tra cluster fuzzy (F e F ) e cluster hard (H e H ) Figura 3.3: Panoramica dell approccio proposto Figura 4.1: Immagini di esempio del data-set di riferimento Figura 4.2: Valori DCC ottenuti con l algoritmo FCM non supervisionato Figura 4.3: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Figura 4.4: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Figura 4.5: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Figura 4.6: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM non supervisionato Figura 4.7: Confronto delle cardinalità delle categorie dominanti con numero di cluster pari a Figura 4.8: Confronto delle cardinalità delle categorie dominanti con numero di forme da etichettare pari a Pagina 1

6 Elenco delle figure Figura 4.9: Box-plot rappresentante la distribuzione delle forme etichettate Figura 4.10: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Figura 4.11: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Figura 4.12: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Figura 4.13: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM non supervisionato Figura 4.14: Confronto delle cardinalità delle categorie dominanti con numero di cluster pari a Figura 4.15: Confronto delle cardinalità delle categorie dominanti con numero di forme da etichettare pari a Figura 4.16: Box-plot rappresentante la distribuzione delle forme etichettate Figura 4.17: Confronto tra le due tipologie di algoritmi Figura 4.18: Panoramica dell approccio proposto Figura 4.19: Esempio di query ottenute applicando l algoritmo FCM semi-supervisionato e non supervisionato Figura 4.20: Valori di precision con numero di cluster pari a Figura 4.21: Valori di recall con numero di cluster pari a Figura 4.22: Box-plot rappresentante la distribuzione dei valori di precision Figura 4.23: Box-plot rappresentante la distribuzione dei valori di recall Figura 4.24: Valori di precision con numero di cluster pari a Figura 4.25: Valori di recall con numero di cluster pari a Figura 4.26: Box-plot rappresentante la distribuzione dei valori di precision Figura 4.27: Box-plot rappresentante la distribuzione dei valori di recall Figura 4.28: Immagini di esempio del data-set reale Figura 4.29: Valori di precision Figura 4.30: Valori di recall Figura 4.31: Box-plot rappresentante la distribuzione dei valori di precision Figura 4.32: Box-plot rappresentante la distribuzione dei valori di recall Pagina 2

7 ELENCO DELLE TABELLE Tabella 4.1: Suddivisione delle categorie presenti nel data-set Tabella 4.2: Risultati algoritmo FCM con numero di cluster pari a Tabella 4.3: Risultati algoritmo FCM con numero di cluster pari a Tabella 4.4: Risultati algoritmo FCM con numero di cluster pari a Tabella 4.5: Risultati algoritmo FCM con numero di cluster pari a Tabella 4.6: Risultati algoritmo FCM con numero di cluster pari a Tabella 4.7: Risultati algoritmo FCM con numero di cluster pari a Tabella 4.8: Risultati algoritmo FCM con numero di cluster pari a Tabella 4.9: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.10: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.11: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.12: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.13: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.14: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.15: Tabella riepilogativa relativa alla etichettatura manuale Tabella 4.16: Tabella relativa alla prova migliore dell etichettatura manuale Tabella 4.17: Prototipi relativi alla prova migliore con etichettatura manuale Tabella 4.18: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.19: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.20: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.21: Composizione della matrice cat_clust con numero di forme da etichettare pari a Pagina 3

8 Elenco delle tabelle Tabella 4.22: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.23: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.24: Tabella riepilogativa relativa alla etichettatura random Tabella 4.25: Tabella relativa alla prova migliore dell etichettatura random Tabella 4.26: Prototipi relativi alla prova migliore con etichettatura random Tabella 4.27: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.28: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.29: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.30: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.31: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.32: Composizione della matrice cat_clust con numero di forme da etichettare pari a Tabella 4.33: Tabella riepilogativa relativa alla etichettatura automatica Tabella 4.34: Tabella relativa alla prova migliore dell etichettatura automatica Tabella 4.35: Prototipi relativi alla prova migliore con etichettatura automatica Tabella 4.36: Tabella relativa alla prova migliore dell algoritmo FCM non supervisionato Tabella 4.37: Prototipi relativi alla prova migliore dell algoritmo FCM non supervisionato Tabella 4.38: Tabella relativa alla sperimentazione con numero di cluster pari a Tabella 4.39: Valori di media, deviazione standard, minimo e massimo per Tabella 4.40 : Composizione del data-set di test Tabella 4.41: Tabella riassuntiva relativa all annotazione con numero di cluster pari a Tabella 4.42: Valori di precision e recall per il processo di annotazione Tabella 4.43: Tabella riepilogativa relativa alla etichettatura manuale Pagina 4

9 Elenco delle tabelle Tabella 4.44: Tabella relativa alla prova migliore dell etichettatura manuale Tabella 4.45: Prototipi relativi alla prova migliore con etichettatura manuale Tabella 4.46: Tabella riepilogativa relativa alla etichettatura random Tabella 4.47: Tabella relativa alla prova migliore dell etichettatura random Tabella 4.48: Prototipi relativi alla prova migliore con etichettatura random Tabella 4.49: Tabella riepilogativa relativa alla etichettatura automatica Tabella 4.50: Tabella relativa alla prova migliore dell etichettatura automatica Tabella 4.51: Prototipi relativi alla prova migliore con etichettatura automatica Tabella 4.52: Tabella relativa alla prova migliore dell algoritmo FCM non supervisionato Tabella 4.53: Prototipi relativi alla prova migliore dell algoritmo FCM non supervisionato Tabella 4.54: Tabella relativa alla sperimentazione con numero di cluster pari a Tabella 4.55: Valori di media, deviazione standard, minimo e massimo Tabella 4.56: Tabella riassuntiva relativa all annotazione con numero di cluster pari a Tabella 4.57: Valori di precision e recall per il processo di annotazione Tabella 4.58: Valori di precision e recall con etichettatura manuale Tabella 4.59: Valori di precision e recall con etichettatura random Tabella 4.60: Valori di precision e recall con etichettatura automatica Tabella 4.61: Valori di precision e recall eseguendo l algoritmo FCM non supervisionato Tabella 4.62: Valori di media, deviazione standard, minimo e massimo relativi alla precision Tabella 4.63: Valori di media, deviazione standard, minimo e massimo relativi alla recall Tabella 4.64: Valori di precision e recall con etichettatura manuale Tabella 4.65: Valori di precision e recall con etichettatura random Tabella 4.66: Valori di precision e recall con etichettatura automatica Tabella 4.67: Valori di precision e recall eseguendo l algoritmo FCM non supervisionato Tabella 4.68: Valori di media, deviazione standard, minimo e massimo relativi alla precision Pagina 5

10 Elenco delle tabelle Tabella 4.69: Valori di media, deviazione standard, minimo e massimo relativi alla recall Tabella 4.70: Composizione del data-set di test costituito da immagini reali Tabella 4.71: Tabella riassuntiva relativa all annotazione Tabella 4.72: Valori di precision e recall per il processo di annotazione Tabella 4.73: Esempi di risultati dell annotazione Tabella 4.74: Valori di precision e recall con etichettatura manuale Tabella 4.75: Valori di precision e recall con etichettatura random Tabella 4.76: Valori di precision e recall con etichettatura automatica Tabella 4.77: Valori di precision e recall eseguendo l algoritmo FCM non supervisionato Tabella 4.78: Valori di media, deviazione standard, minimo e massimo relativi alla precision Tabella 4.79: Valori di media, deviazione standard, minimo e massimo relativi alla recall Pagina 6

11 INTRODUZIONE La diffusione esponenziale delle grandi collezioni di immagini digitali ha dato luogo ad un interesse crescente per i tool automatici in grado di memorizzare, organizzare e recuperare in modo efficiente le immagini. Questo ha reso possibile la crescita di una promettente area di ricerca conosciuta come Content-Based Image Retrieval (CBIR) che coinvolge la progettazione e lo sviluppo di sistemi capaci di utilizzare delle caratteristiche visuali di basso livello come texture, colore e forma per il processo di indicizzazione e recupero delle immagini [1], [2]. L estrazione di caratteristiche di basso livello collegate alla visualizzazione dei contenuti di una immagine è un compito abbastanza semplice e piuttosto diretto. Inoltre, l uso di caratteristiche di basso livello permette la definizione di misure di similarità adatte a sviluppare efficaci metodi da utilizzare nei processi CBIR. Tuttavia, molti utenti incontrano delle difficoltà nel formulare query di ricerca specificando direttamente attributi visuali di basso livello. Infatti, l essere umano tende a riconoscere immagini e ad esprimere il loro contenuto in relazione a concetti di alto livello, cioè essi di solito formulano le loro query in linguaggio naturale utilizzando dei concetti semantici. Quindi, uno dei principali problemi che incide pesantemente sulle performance dei sistemi CBIR è rappresentato dal semantic gap, definito come la mancanza di coincidenza tra l informazione automatica estratta dai dati visuali e la conoscenza semantica cioè l interpretazione che lo stesso dato visuale ha per un utente in una data situazione [3]. In letteratura, sono stati proposti differenti approcci per scoprire la correlazione nascosta tra le caratteristiche visuali di basso livello e i concetti di alto livello [4], [5]. Tra questi, un approccio lineare è l annotazione di immagini conosciuta come image labellling che consiste nella associazione di una descrizione testuale ai contenuti di una immagine fornendo così la capacità fondamentale di indicizzare semanticamente immagini [6], [7]. L annotazione manuale di immagini è soggettiva, tempo e processo soggetti ad errori. Quindi, l aumentare dello sforzo di ricerca ha indirizzato verso la definizione di metodi automatici per l annotazione di immagini basata su contenuti visuali di basso livello [8], [9], [10]. L annotazione di immagini può essere definita come il processo che assegna etichette testuali a immagini allo scopo di descrivere le categorie semantiche espresse nella immagine. Nella annotazione di immagini, diverse questioni da affrontare riguardano: la scelta delle caratteristiche di basso livello per descrivere il contenuto visuale di una immagine, la Pagina 7

12 Introduzione definizione delle categorie semantiche e l associazione di una nuova immagine per le categorie rilevate. In particolare, la scelta delle caratteristiche di basso livello è un dogma centrale nella annotazione di immagini. Molti lavori hanno dimostrato che le caratteristiche visuali come colore, texture e posizionamento, sono insufficienti per esprimere le informazioni che possono essere ottenute attraverso una analisi delle forme degli oggetti presenti nelle immagini [11], [12], [13], [14]. La forma gioca un ruolo critico per la rappresentazione di oggetti contenuti nelle immagini diventando una caratteristica fondamentale in molte applicazione di computer vision e comprensione delle immagini per scopi di indicizzazione e recupero. Infatti un notevole aumento delle informazioni è contenuto nei contorni degli oggetti, quindi secondo la comunità scientifica la forma deve essere considerata come uno strumento fondamentale per descrivere gli oggetti in una immagine. Inoltre, la forma è una importante caratteristica strettamente correlata alla percezione umana. Infatti, molti utenti tendono a percepire le immagini come una composizione di oggetti singoli identificati dalla loro forma ed essi di solito riconoscono immagini basate sulla forma degli oggetti contenuti nelle immagini fornendo un esempio o disegnandole [15], [16]. Per quanto riguarda la definizione delle categorie semantiche, molti degli approcci per l annotazione delle immagini assumono l esistenza a priori di un numero di categorie semantiche altamente dipendente dal dominio delle immagini considerate. Comunque, in molti casi il numero delle categorie semantiche non è noto in anticipo. Gli esperti spesso possono avere alcuni tipi di conoscenza circa il dominio dell immagine come l appartenenza di un numero di immagini a delle specifiche categorie semantiche. Naturalmente, l efficacia dell intero processo di annotazione delle immagini può beneficiare di metodi che sono capaci di spiegare alcuni tipi di conoscenza del dominio per scoprire automaticamente un numero di categorie semantiche con i corrispondenti prototipi visuali. Tipicamente l associazione di una immagine alle categorie semantiche è un processo crisp, cioè una immagine è classificata esattamente in una categoria semantica [17], [18]. Comunque, a causa della presenza di rumore e ambiguità nella caratteristiche di una immagine, risulta molto difficile o addirittura impossibile classificare precisamente una immagine in una categoria semantica. Pertanto, l incertezza sottostante il processo di annotazione può essere opportunamente catturata etichettando immagini con parole chiavi multiple derivanti da un processo di annotazione fuzzy, il quale assegna etichette multiple ad una immagine assieme a valori riguardanti il grado di appartenenza di una stessa immagine ad ciascuna categoria semantica [19], [20], [21]. Pagina 8

13 Introduzione Per affrontare tutti questi aspetti, in questo lavoro di tesi viene presentato un algoritmo per l annotazione fuzzy di forme. L idea fondamentale di questo algoritmo è quella di fornire al clustering un meccanismo di supervisione parziale, il quale rappresenta una guida utile durante il processo di scoperta automatica dei prototipi visuali delle forme, che rappresentano un certo numero di categorie semantiche. Il fuzzy clustering semi-supervisionato consente di identificare le categorie semantiche raggruppando insieme forme simili sfruttando la conoscenza del dominio espressa in termini di poche forme etichettate. Tale conoscenza può essere acquisita in differenti modi. Per esempio, essa può essere esplicitata da un esperto del dominio oppure derivata automaticamente dalle collezioni di forme disponibili come verrà descritto nei capitoli successivi. Al termine del processo di clustering, per ogni cluster si determina un prototipo di forma. Successivamente, ad ogni prototipo è associata manualmente una etichetta testuale corrispondente alla specifica categoria semantica. Infine, per etichettare una nuova forma, i suoi descrittori visuali sono confrontati con i descrittori visuali di tutti i prototipi e i valori di similarità sono utilizzati per creare un insieme fuzzy che esprime i gradi di appartenenza della forma ad ogni categoria semantica identificata. La tesi si articola nel seguente modo: capitolo 1: viene introdotto il processo di annotazione delle immagini, le tecniche utilizzate e presenti in letteratura ed infine ci si soffermerà in particolare sull annotazione di forme; capitolo 2: riporta una breve panoramica sull image retrieval e sui sistemi presenti in letteratura; capitolo 3: descrizione dell algoritmo implementato e analisi delle varie fasi che lo compongono; capitolo 4: descrizione delle due sperimentazioni condotte, la prima utilizzata per valutare le capacità dell algoritmo e la seconda per valutare la performance del processo di retrieval; capitolo 5: riporta le conclusioni e i possibili sviluppi futuri relativi al lavoro di tesi svolto. Pagina 9

14 CAPITOLO I ANNOTAZIONE DI IMMAGINI Pagina 10

15 Capitolo I Annotazione di Immagini In questo capitolo viene riportata una breve panoramica relativa allo stato dell arte dell annotazione delle immagini, ed in particolare ci si soffermerà sulle tecniche presenti in letteratura. Infine verrà introdotto il concetto di shape clustering. 1.1 COS È L ANNOTAZIONE DI IMMAGINI? Per accedere e recuperare in maniera efficiente ed efficace le immagini, la soluzione più comunemente adottata è quella di contrassegnare le immagini con dei metadati che esprimano effettivamente la semantica del contenuto rappresentato; questo modo di procedere è appunto definito come Image Annotation. Se l'immagine è descritta mediante informazioni di tipo testuale, allora le tecniche di ricerca testuale possono essere usate per migliorare la ricerca delle immagini. Tuttavia si è sentiti la necessità di migliorare la generazione di tali metadati rendendola automatica, tale operazione prende il nome di Automatic Image Annotation. Utilizzando questo metodo si ha la possibilità di effettuare ricerche sulle immagini utilizzando sistemi CBIR più efficaci. Molti ricercatori hanno proposto varie tecniche volte a colmare il problema noto come gap semantico. Nel tentativo di risolvere tale problematica, molti si sono trovati dinanzi ad un ulteriore ostacolo, cioè la forte dipendenza del sistema dal data-set utilizzato per la fase di apprendimento. Le ricerche sull'annotazione di immagini sono state condotte da molti ricercatori sulla base delle esigenze e delle immagini da annotare. Ad esempio, nell articolo A Survey of Methods for Image Annotation si suddivide l'approccio dell'image annotation in tre categorie distinte: 1) annotazione con testo libero; 2) annotazione con parole chiave; 3) annotazione basata sulle ontologie. Nell articolo Automatically Annotating Images with Keywords: A Review of Image Annotation Systems gli autori, descrivono gli studi condotti, nei quali hanno esaminato ben 50 sistemi di annotazione di immagini utilizzando macchine volte a supervisionare le tecniche di apprendimento atte all'annotazione delle immagini utilizzate per mappare le caratteristiche o Pagina 11

16 Capitolo I Annotazione di Immagini di basso livello, le features, assegnandogli concetti di alto livello, cioè semantica. Inoltre sempre nel 2008, Jiayu nella sua tesi di dottorato Automatic Image Annotation and Object Detection propone un'ulteriore classificazione per l'image annotation, secondo tale classificazione l'annotazione delle immagini può essere condotta mediante tre approcci: i. statistic approach (approccio statistico): le tecniche statistiche sono molto popolari nell'ambito dell'information retrieval, ma recentemente i ricercatori hanno iniziato ad applicarle anche nell'ambito dell'annotazione automatica di immagini, riscontrando promettenti risultati. L'idea alla base di tali tecniche è il valutare la possibilità che i documenti facciano riferimento alla query sottoposta dall'utente. I documenti sono ordinati in base a tale probabilità; ii. vector-space related approach (approccio basato su vettori correlati): esso risulta essere particolarmente usato nell'ambito dell'information retrieval, soprattutto per quanto riguarda la ricerca di documenti testuali. Generalmente, il documento è rappresentato mediante vettori, ciascuno dei quali contiene le occorrenze delle parole presenti nel relativo documento. La lunghezza del vettore è pari alla dimensione del vocabolario. Tale approccio applicato all'annotazione automatica delle immagini, tratta le immagini come fossero documenti testuali, paragonando gli oggetti visuali alle parole di un testo e considerando inoltre i descrittori delle feature dell'immagine per la generazione del vettore; iii. classification approach (classificazione): prevede l'assegnazione di una parola all'immagine classificandola come appartenente ad un gruppo fra un elenco inizialmente definito. Ognuno di questi gruppi è caratterizzato dal significato della parola ad esso associata. Fornendo al sistema di classificazione una immagine non annotata, tale algoritmo ne certifica il gruppo di appartenenza e la annota con la parola corrispondente. L'annotazione multipla può essere fatta assumendo che una immagine possa appartenere a più classi contemporaneamente. Dalle date e dal numero di pubblicazioni riguardanti l'image annotation, risulta evidente che esso rappresenta un'area di studio su cui si stanno focalizzando numerose attività di ricerca, soprattutto a causa del grande impatto che avrebbe sulla ricerca delle immagini all'interno di vaste collezioni e in particolare sulla ricerca di immagini via Web. Pagina 12

17 Capitolo I Annotazione di Immagini Lo schema di un generico sistema di Image Annotation è riportato qui di seguito: Image Segmentation n Block baseed Region based Texture Feature extraction Color Shape Annotation Pattern classification Annotated Image Figura 1.1: Architettura di un sistema di image annotation Pagina 13

18 Capitolo I Annotazione di Immagini 1.2 TECNICHE PER L ANNOTAZIONE DI IMMAGINI L annotazione delle immagini può essere effettuata con tre differenti tecniche: 1) manuale: l'utente, volta per volta, deve inserire manualmente le parole chiave che descrivono il contenuto dell'immagine; 2) automatica: all'insaputa dell'utente il sistema sulla base delle features riesce a ricavare la semantica del contenuto e associa delle parole chiave predefinite all'immagine; 3) semi-automatica: il sistema ha bisogni di interagire con l'utente, mediante feedback e query fornite dall'utente stesso. Le tre tecniche si differenziano sostanzialmente nel lavoro necessario per l'inizializzazione del sistema in modo che quest ultimo produca un risultato corretto. Di seguito vengono esaminati i singoli aspetti. Inizializzazione del sistema: Per quanto riguarda l'annotazione manuale, lo sforzo che l'utente deve eseguire affinché il sistema possa produrre risultati, risulta essere notevole in quanto è costretto ad associare manualmente le parole chiave ogni qualvolta una nuova immagine viene inserita nell'archivio di immagini. Completamente opposto è il caso dell'annotazione automatica, in cui l'interazione da parte dell'utente nella fase preliminare risulta essere completamente assente. Si può intuire che nel caso dell'annotazione semi-automatica, si abbia un compromesso fra le due tecniche precedentemente descritte, infatti in tale caso vi è interazione fra utente e sistema, ma risulta essere minima, in quanto prevede solo l'inserimento di una query. Task della macchina: Non ci sono solo differenze riguardanti il lavoro svolto dall'utente, ma anche il sistema stesso nei tre casi svolge compiti alquanto differenti. Nell annotazione manuale, il sistema non fa altro che memorizzare le immagini con le relative parole chiave associate, pertanto il sistema effettua interrogazioni sull'archivio di immagini sulla base delle parole chiave, senza dover utilizzare ulteriori elaborazioni. Pagina 14

19 Capitolo I Annotazione di Immagini Nel caso dell 'annotazione automatica lo sforzo da parte del sistema risulta essere alquanto gravoso, infatti è proprio il sistema ad analizzare ciascuna immagine, a valutarne il contenuto visivo e ad estrarne le keywords che la descriveranno e che verranno utilizzate in fase di ricerca. Infine la tecnica di annotazione semi-automatica risulta essere sempre un compromesso fra le due precedenti, infatti il sistema in questo caso analizza la query fornita dall'utente e ne estrae le informazioni semantiche con lo scopo di migliorare l'annotazione delle immagini. Contributo da parte dell'utente: Il contributo dell'utente nei tre tipi di annotazione non solo si distingue per quanto riguarda le operazioni compiute, ma anche per quanto riguarda il momento in cui l'utente interagisce con il sistema per il processo di annotazione. Per quanto riguarda l'annotazione di tipo manuale, l'interazione dell'utente con il sistema si ha, come abbiamo visto in precedenza, nella fase di inizializzazione del sistema stesso, e tale interazione è volta a fornire al sistema i mezzi necessari per poter effettuare una ricerca basata sul contenuto. In precedenza si è detto che l'annotazione di tipo automatica non presentava nessun tipo di interazione al momento dell'inizializzazione del sistema, ed infatti, in modo completamente opposto all'annotazione manuale, la totalità dell'interazione si ha nella fase finale del processo di annotazione, in cui l'utente verifica la correttezza e l'accuratezza del risultato ottenuto. Come nei precedenti casi, l'annotazione semi-automatica rappresenta una mediazione fra le altre due tecniche completamente opposte fra loro, infatti l'interazione fra l'utente e il sistema si ha durante tutto il corso del processo di annotazione e inoltre l'utente collabora con il sistema per la corretta annotazione delle immagini nella collezione. Pagina 15

20 Capitolo I Annotazione di Immagini VANTAGGI E SVANTAGGI DELLE TECNICHE PER L ANNOTAZIONE DI IMMAGINI Ciascuna delle tecniche descritte nel paragrafo precedente presenta dei vantaggi e degli svantaggi, che andremo ad analizzare e valutare qui di seguito: 1) Annotazione manuale: o vantaggi: fra le tecniche risulta essere la più accurata, in quanto le keywords vengono fornite dall'utente; o svantaggi: risulta essere molto dispendiosa in termini di tempo e si incontrano delle difficoltà nel caso di grandi quantità di immagini. 2) Annotazione automatica: o vantaggi: risulta essere fra le tre tecniche la più efficiente in termini di tempo e risorse; o svantaggi: risulta essere molto incline agli errori durante la fase di assegnazione delle keyword, pertanto è la meno accurata fra le tre tecniche. 3) Annotazione semi-automatica: o vantaggi: la qualità dell'annotazione viene migliorata mediante l'interazione tra il sistema e l'utente; o svantaggi: il tempo dedicato all'annotazione automatica è molto inferiore rispetto a quello dedicato a quella manuale. Dall'analisi dei vantaggi e degli svantaggi possiamo concludere che una maggiore qualità dei risultati, data dall'annotazione manuale, è inversamente proporzionale all'efficienza del sistema in termini di tempo, medesimo discorso vale per quanto riguarda l'annotazione automatica in cui viene ottimizzata al massimo l'efficienza a discapito dell'efficacia, infatti risulta essere la tecnica più rapida, ma contemporaneamente la più soggetta ad errore. Pagina 16

21 Capitolo I Annotazione di Immagini Per ottenere risultati ottimali è preferibile cercare un compromesso fra le due tecniche dato dall'annotazione semi-automatica, la quale risulta essere molto efficiente se comparata con l'annotazione manuale e molto accurata se comparata con quella automatica. 1.3 ANNOTAZIONE AUTOMATICA VS. MANUALE Nel paragrafo precedente abbiamo messo a confronto le tre tecniche di annotazione cercando di individuare le differenze sostanziali che le separano. In questo paragrafo verranno messe a confronto l'annotazione automatica e quella manuale. Come vedremo tali tecniche non si discostano l'una dall'altra solo per le differenze sostanziali e di natura generica prima precedentemente, come lo sforzo richiesto dall'utente e la precisione con cui eseguono l'annotazione, ma presentano anche differenze più sottili e su cui è opportuno riflettere. Nell articolo Automatic annotation of images from the practitioner perspective, vengono messe in evidenza due importanti limitazioni dell'annotazione automatica rispetto a quella manuale. La prima limitazione è data dal fatto che le parole chiave generate dalle tecniche di annotazione automatica si riferiscono unicamente alle entità visibili all'interno dell'immagine, anche se l'utente spesso tende a valutare solo gli elementi di maggior peso o addirittura lo scenario presente nell'immagine. Questo problema è dovuto al fatto che i concetti espressi e le informazioni sul contesto, che l'uomo può percepire dall'immagine, non possono essere facilmente rilevati dalle features che tali algoritmi di annotazione riescono ad estrapolare. Il secondo limite che l'annotazione automatica presenta è dovuto alla natura generica delle etichette presenti nel vocabolario. Infatti Enser afferma che gli oggetti hanno proprietà comuni dal punto di vista degli stimoli visivi ed hanno bisogno di un minimo di interpretazione da parte dell'osservatore in modo da poter essere distinti. In conclusione possiamo affermare che nonostante queste limitazioni l annotazione automatica ha ancora un valore fondamentale; in quanto, anche se, almeno per il momento, non è possibile far si che l'annotazione risenta dell'interpretazione concettuale dell'immagine, la possibilità di annotare semplici oggetti raffigurati nelle immagini, sarebbe di enorme aiuto considerando la mole di immagini esistenti al giorno d'oggi. Pagina 17

22 Capitolo I Annotazione di Immagini 1.4 VALUTARE L EFFICACIA DELL ANNOTAZIONE Una volta che le immagini di prova sono state contrassegnate con sistemi di auto-annotazione, le qualità di annotazione devono essere valutate per il confronto delle prestazioni tra i diversi sistemi. Un certo numero di metriche di valutazione sono stati utilizzati dai ricercatori, alcune delle quali vengono descritte qui di seguito PRECISION E RECALL Precision e recall, sono due tra le più popolari metriche utilizzate per la comparazione dei sistemi di information retieval, ma sono anche ampiamente usati per valutare l efficacia dell approccio dell auto-annotazione. Nella comunità dell information retrieval, la precision di una query è definita come il rapporto tra il numero dei documenti restituiti dal sistema e il numero totale dei documenti restituiti, mentre la recall è definita come il rapporto tra il numero totale dei documenti restituiti e il numero totale dei documenti rilevanti presenti nel database. Ci sono due versioni: per immagini e per documenti. Nel paragrafo successivo verrà analizzata relativa alle immagini, in quanto risulta essere quella attinente al progetto di tesi svolto PRECISION E RECALL PER IMMAGINI La precision e la recall nel caso delle immagini, sono calcolate sulla base del test di una singola immagine. Per ogni immagine di test, la precision è definita come il rapporto del numero delle parole che sono classificate correttamente e il numero di parole classificate. Mentre la recall è definita come il rapporto tra il numero di parole che sono classificate correttamente e il numero di parole oppure annotate manualmente. Matematicamente, esse sono calcolate nel seguente modo: Pagina 18

23 Capitolo I Annotazione di Immagini dove: a) r: è il numero di parole classificate correttamente; b) n: è il numero di etichette manuali nell immagine di test; c) w: è il numero di parole classificate in modo errato. I valori finali di precision e recall sono ottenuti dalla media dei valori calcolati sull intero insieme delle immagini di test PAROLE CHIAVE CON RECALL MAGGIORE DI 0 Duygulu, usa anche il numero della parole chiave aventi un valore di recall maggiore di 0 e che mostra la diversità delle parole corrette che possono essere classificate con l annotazione automatica. Una parola chiave ha un valore di recall maggiore di 0, se classifica correttamente una o più PUNTEGGIO NORMALIZZATO Barnard nel 2003, propone l utilizzo del punteggio normalizzato, il quale è calcolato tramite l equazione riportata qui di seguito e viene utilizzata per la valutazione della annotazione autoamtica: dove: a) r, n e w: hanno la stessa definizione utilizzata nel paragrafo ; b) N: è il numero di parole presenti nel vocabolario. Pagina 19

24 Capitolo I Annotazione di Immagini Esso è uguale a: o 1 se l immagine è correttamente annotata; o -1 se è classificato l esatto complemento dell insieme attuale di parole; o 0 per una qualsiasi classificazione. Infine, come sostenuto da Hare e Lewis nel 2005, il punteggio normalizzato è massimo quando sono prodotti risultati in cui abbiamo poca rumorosità, quando essa non è desiderata. 1.5 ANNOTAZIONE DI IMMAGINI CON APPRENDIMENTO NON SUPERVISIONATO I metodi di apprendimento non supervisionato per l annotazione di immagini hanno una caratteristica in comune, cioè essi considerano le parole chiave come un tipo di caratteristica, ovvero le caratteristuche testuali, in modo tale da essere distinte da quelle visuali. Questo approccio può essere suddiviso ulteriormente in due gruppi: modelli parametrici e modelli non parametrici. Tutti i modelli parametrici hanno fase di formazione per stimare i parametri di modello. In contrasto, i modelli non parametrici non devono necessariamente stimare qualche parametro di modello nella fase di formazione, ma essi hanno bisogno dell intero data-set di training quando devono annotare una nuova immagine MODELLI PARAMETRICI Il primo tentativo di annotazione automatica di immagini considerando le parole come caratteristiche testuali è forse il lavoro di Mori et. al. [22], in cui essi propose un modello di co-occorrenza per rappresentare le relazioni tra le parole chiavi e le caratteristiche visuali. Ogni immagine è convertita in un insieme di aree di immagini aventi forma rettangolare utilizzando una griglia regolare. Le aree delle immagini relative ai dati di training sono raggruppate in un certo numero di cluster. Per ogni immagine di training, si propagano le sue parole chiave ad ogni area delle immagini presenti nella stessa immagine. La distribuzione Pagina 20

25 Capitolo I Annotazione di Immagini condizionata delle parole chiave di ogni cluster relativo alle aree, può essere stimato da distribuzioni empiriche sui dati i training. Data una nuova immagine, la distribuzione condizionale di ogni parola chiave relativa a ciascuna area dell immagine è aggregata per generare la distribuzione condizionale delle parole chiavi delle immagini di test. Figura 1.2: Processo di training del modello di co-occorrenza Figura 1.3: Processo di test del modello di co-occorrenza Pagina 21

26 Capitolo I Annotazione di Immagini Il grave inconveniente del modello di co-occorrenza è dovuta all assunzione dell annotazione di alcune parole chiave ad una immagine, ed esse sono propagate a ciascuna regione presente nell immagine con uguale probabilità. Questa assunzione è violata in molte situazioni reali, in quanto molte parole chiavi sono nomi di oggetti come sole, acqua, cielo. L aspetto di questa tipologia di concetti in una immagine è di solito una piccola porzione di una immagine all interno dell intera immagine. Così Durygulu et. al. [23] propose un modello di traduzione automatica per l annotazione delle immagini, il quale è essenzialmente un miglioramento del modello di co-occorrenza di Mori. Essi rappresentano una immagine come un insieme di regioni di immagini ottenute dalla segmentazione e dalla esecuzione del vettore di quantizzazione su ciascuna delle caratteristiche relative alle regioni. Le regioni dell immagine quantizzate con i vettori sono trattate come parole visuali e la relazione tra queste e le parole chiavi testuali piò essere pensata come quella tra una lingua, come il francese, ed un altra lingua come il tedesco. L insieme dei dati di training è analogo all insieme di due lingue. Data una immagine di test, il processo di annotazione è simile al processo di traduzione delle parole visuali in parole chiavi tessiturali usando un lessico appreso dall insieme di due lingue. Essi hanno trovato che un modello di traduzione relativamente semplice usato per la traduzione delle lingue, cioè il modello di Brown et. al. [24] produce risultati migliori rispetto ad altri modelli di traduzione disponibili. In modo simile al modello di co-occorrenza, i parametri di apprendimento del modello di traduzione sono anche le probabilità di distribuzione condizionata, ma il modello di traduzione non deve propagare le parole chiave di una immagine a ogni regione con uguale probabilità. Invece, le probabilità di associazione di una parola chiave testuale a una parola visuale è presa come una variabile nascosta e stimata attraverso l algoritmo di massimizzazione attesa (Expectation-Maximization) [25]. Un approccio simile al modello di traduzione automatica è usato dal modello di Markov [26] proposto da Ghoshal et. al. [27]. In questo approccio, ogni parola chiave testuale è rappresentato da uno stato nascosto, il quale può generare caratteristiche visuali a seguito di una distribuzione di probabilità per Stato. Il processo di training mira a trovare la migliore corrispondenza tra le regioni dell immagine e stima i parametri per ogni stato. Il processo di annotazione di una nuova immagine è equivalente a recuperare lo stato nascosto più probabile di ogni regione dell immagine. Una maggiore differenza tra l approccio HMM e il modello di traduzione automatica è che l approccio HMM modella le distribuzioni continue di caratteristiche visuali, mentre il modelli di traduzione rappresenta la distribuzione delle parole Pagina 22

27 Capitolo I Annotazione di Immagini chiave di ogni regione dell immagine quantizzata da un vettore. Comunque, il modello HMM assume che un processo di traduzione fra differenti stati (parole chiavi testuali) che non è necessariamente supportata da dati reali. Invece di modellare la distribuzione condizionale delle parole chiave testuali basate su caratteristiche visuali, alcuni ricercatori hanno proposto metodi per modellare la distribuzione congiunta di caratteristiche testuali e visuali. Un tentativo è stato fatto da Barnard e Forsyth [28]. Essi definirono un documento come una combinazione di caratteristiche visuali e testuali. Un modello fattoriale gerarchico è proposto per modellare la distribuzione congiunta di caratteristiche visuali e testuali, come illustrato nella figura 1.4. Figura 1.4: Modello di Barnard e Forsyth Il modello assume che un documento appartiene ad un cluster, il quale è denotato dai nodi foglia nell albero gerarchico. Dati il documento e il relativo cluster di appartenenza, il documento è generato dai nodi basandosi sul percorso ottenuto percorrendo l albero dal nodo radice ai nodi foglia. Ogni aspetto sul percorso può generare regioni di immagini e caratteristiche testuali seguendo per un aspetto le distribuzioni di probabilità. Inoltre differenti cluster hanno diversi percorsi di attraversamento ed ognuno ha dei modelli di congiunzione separati. Peraltro, tutti gli aspetti sono organizzati in una struttura gerarchica, gli aspetti sono Pagina 23

28 Capitolo I Annotazione di Immagini molto compatti e essi possono modellare i punti in comune tra i cluster. Comunque, questo modello è ottimizzato per il clustering di immagini invece di collegare la parole testuali alle regioni dell immagine. Per l annotazione delle immagini, l obiettivo generale è trovare una relazione condizionale tra le caratteristiche dell immagine e le caratteristiche testuali. A tal fine, Blei e Jordan [29] proposero il modello Corr-LDA in cui le dipendenze delle parole testuali dalle regioni dell immagine sono modellate esplicitamente. Questo viene illustrato nella figura 1.5, in cui z denota l aspetto che genera una regione r, y è l aspetto che genera una parola w, mentre α e Ɵ denotano i parametri che generano z. N e M sono rispettivamente il numero di regioni e il numero di parole. La freccia da z a w indica che la generazione di una parola w dipende dal fattore che genera una regione. Figura 1.5: Modello Corr-LDA Zhang et. al. [30] propose un modello semantico probabilistico per rappresentare la distribuzione congiunta delle caratteristiche di una immagine e delle parole testuali. Essi assumono che ci sono un numero di semantiche nascoste in una immagine, ogni semantica ha una probabilità di generare la caratteristica visuale globale e le parole testuali. Data una specifica semantica, la generazione delle caratteristiche visuali e delle parole testuali sono indipendenti da ogni altro. La maggior differenza tra questo approccio e quello di Blei e Jordan è quella di prendere una immagine nel suo complesso all interno di un insieme di regioni. Pagina 24

29 Capitolo I Annotazione di Immagini MODELLI NON PARAMETRICI Differente dal modello parametrico, un modello non parametrico non ha un processo di training. Joen et. al. [31] formularono il problema di annotazione automatica delle immagini come un recupero di informazioni cross lingual e hanno applicato il modello relevance cross-media (CMRM) alla annotazione di immagini. Sebbene tale modello, prova a modellare la distribuzione congiunta delle caratteristiche visuali e delle parole testuali, esso non è un modello non parametrico, come il K-NN [32] per il modello di classificazione. L idea essenziale è di trovare le immagini di training che sono simili alle immagini di test e propagare la loro annotazione alle immagini di test. CMRM non assume qualunque forma della distribuzione di probabilità congiunta sulle caratteristiche visuali e testuali affinché essi non hanno una fase di addestramento per stimare i modelli parametrici. Uno svantaggio dei modelli CMRM è che il vettore quantizza le regioni dell immagine in masse di immagini e questo può ridurre la capacità discriminate di questo modello. Così Mammatha et. al. [33] hanno proposto un modello migliorato, cioè il modello di rilevanza cross-media continuo (CRM). Esso preserva il vettore di caratteristiche continuo di ogni regione e questo offre un maggior potere discriminante. Feng et. al. [34] proposero una ulteriore estensione del modello CRM chiamato modello di rilevanza multiplo di Bernoulli (MBRM). Essi suggerirono che l assunzione di una distribuzione multinomiale di parole chiavi in CRM e CMRM favorisce concetti importanti nelle immagini e uguale lunghezza di annotazione per ogni immagine. Così essi proposero di modellare la distribuzione delle parole chiave dell annotazione di una immagine come una distribuzione multipla di Bernoulli, la quale rappresenta soltanto lo stato (valore binario) di esistenza/non esistenza di ogni parola. I risultati sperimentali mostrarono che MBMR supera CMRM e CRM per l annotazione di video, nei quali la lunghezza dell annotazione di ogni immagine varia molto e la questione più importante è l esistenza di un concetto piuttosto che la sua importanza. Tutti i metodi menzionati predicono ogni parola indipendentemente da una immagine di test. Essi possono modellare la correlazione tra le parole chiavi e le caratteristiche visuali, ma non sono in grado di modellare la correlazione tra die parole testuali. Per risolvere questo problema, Jin et. al. [35] proposero un modello che estende CMRM [34]. Esso definisce un modello di linguaggio come una distribuzione multinomiale di parole. Invece di stimare la Pagina 25

30 Capitolo I Annotazione di Immagini distribuzione condizionale di una singola parola, essi stimano la distribuzione condizionale di un modello di linguaggio. La correlazione fra le parole può essere spiegata da un vincolo sulla distribuzione multinomiale la cui somma della distribuzione delle singole parole deve essere uguale a 1. Così la predizione di una parola ha effetto sulla predizione di un altra parola. Pan et. al. [36] proposero un approccio basato su grafo (GCap) per l annotazione automatica di immagini. Essi rappresentano una immagine come un insieme di regioni, ognuna delle quali è descritta da un vettore di caratteristiche visuali. Un grafo è costruito sulla base dei dati di training. Essi definiscono tre tipologie di nodi in questo grafo: i. nodi immagine, che rappresentano una immagine; ii. nodi regione, che rappresenta una regione dell immagine; iii. nodi parola, che rappresenta una parola chiave testuale. Il collegamento tra i nodi rappresenta la relazione fra differenti unità (immagini, regioni e parole), ed esso include: 1) collegamento all attributo dell immagine: connette una immagine alle sue parole chiavi e ai nodi delle caratteristiche visuali; 2) collegamento alle regioni: connette ogni nodo di una regione ai k nodi più vicini alle regioni limitrofe. Figura 1.6: Modello GCap Pagina 26

31 Capitolo I Annotazione di Immagini Data una immagine di test, le regioni dell immagine sono ottenute da una segmentazione dell immagine non supervisionata. Un nodo di una immagine rappresenta l immagine di test e parecchi nodi delle regioni rappresentano le regioni dell immagine di test e sono aggiunti al grafo costruito sull insieme di training. Dato che le parole testuali di una immagine di test mancano, non ci sono collegamenti diretti tra i nodi dell immagine di test a un qualsiasi nodo della parola chiave. Il processo di annotazione è modellato come un cammino casuale con ripartenza (RWR) [37] sul grafo. Lo stato fisso di probabilità di un cammino casuale per arrivare ad un nodo di una parola testuale da un nodo di una immagine di test è la probabilità di annotazione di questa parola ad una immagine. In modo analogo al modello CMRM, questo approccio è anche un modello non parametrico. Dato che esso necessita di memorizzare i dati di training in una struttura a grafo, esso non è efficiente e non è applicabile ad applicazioni che utilizzano data-set molto grandi. Liu et. al. [38] proposero un modello di grafo adattivo per l annotazione di immagini. Essi costruiscono anche un grafo sui dati di training. Ma a differenza di GCap [36], c è soltanto una tipologia di nodo, cioè il nodo immagine. Ogni nodo immagine è connesso al k- esimo nodo più vicino. Il modello grafico è adattivo nel senso che il numero dei nodi più vicini connessi a ogni nodo immagine, k, è differente da ogni altro e deciso aa un processo adattivo. La similarità fra due nodi immagine è una misura globale pesata. La probabilità di annotazione di ogni parola alle immagini è rappresentata da una matrice con punteggio. Per una immagine non annotata, la matrice è ottenuta aggiornando iterativamente la matrice ottenuta dall algoritmo [39]. 1.6 ANNOTAZIONE DI IMMAGINI CON APPRENDIMENTO SUPERVISIONATO Oltre a considerare le parole chiave annotate a immagini come una tipologia di caratteristiche nei metodi non supervisionati, diamo ora uno sguardo a differenti classi di etichette. Così facendo, il processo di annotazione di una immagine con una parola chiave diventa simile a quello di classificare l'immagine se essa appartiene a una particolare classe. Questa è la motivazione alla base dell annotazione di immagini basata sulla classificazione dell immagine.vale la pena notare che, sebbene l annotazione di immagini è emersa come un argomento attivo solo nel corso dell'ultimo decennio, il problema della classificazione delle oo Pagina 27

32 Capitolo I Annotazione di Immagini immagini ha una storia molto più lunga. Nei primi giorni antecedenti al 1990, la classificazione delle immagini si è principalmente focalizzata su alcuni settori particolari, come le immagini provenienti dai radar [40], mediche [41], multi-spettrali [42], quelle provenienti dal telerilevamento, ecc.. Solamente nel corso degli ultimi anni, l'attenzione si è riversata sulle immagini generali come le fotografie dei consumatori, forse perché questo tipo di immagini sono più facilmente reperibili grazie anche ai rapidi progressi che si sono avuti nella qualità del dispositivo di acquisizione. Più recentemente, l'annotazione automatica delle immagini è stata collegata alla classificazione delle immagini e nella maggior parte dei casi, il suo obiettivo è quello di fornire l'indicizzazione e il recupero delle immagini in database di immagini di grandi dimensioni. Gli approcci esistenti per l annotazione di immagini basata sulla classificazione si suddividono in tre categorie: 1. metodi di classificazione orientati su scene globali: sono in grado di estrarre un descrittore globale offerta da un'immagine e quindi di fornire un classificatore statistico per la classificazione delle immagini. Esempi di questo tipo di etichette di classe includono campagna, paesaggio, outdoor e così via. Il compito è quello di classificare l'immagine nel suo complesso; 2. metodi di classificazione locali: classificano le immagini con i nomi degli oggetti. Il contenuto di immagine assegnato alle etichette è di solito una parte dell'immagine. Esempi di queste etichette di classe sono balloon, acqua, persone e così via; 3. metodi di classificazione multi-livello: assegnano etichette di classe ad una struttura gerarchica, che comprende sia classi oriente alle scene e sia classi orientate agli oggetti. Figura 1.7: Sistema di annotazione di immagini basato sulla classificazione Pagina 28

33 Capitolo I Annotazione di Immagini CLASSIFICAZIONE BASATA SU SCENE GLOBALI Tra gli approcci di classificazione basati su scene globali, alcuni dei primi lavori si sono focalizzati sulla realizzazione di caratteristiche visive. Ad esempio, Gorkani e Picard [43] sono stati in grado di classificare le immagini di città / sobborgo utilizzando le caratteristiche globali di orientamento multi-scala. Lipson et al. [44] provò ad incorporare relazioni spaziali quantitative e fotometriche all'interno e tra le regioni in immagini a bassa risoluzione (ad esempio pixel) per la classificazione di immagini con scene naturali. Essi hanno realizzato manualmente il modello utilizzato per descrivere le relazioni spaziali e fotometriche per ciascuna classe di scena. In seguito, Ratan e Grimson [45] hanno proposto un metodo di classificazione basato su dei modelli di configurazione di ogni classe che apprendono da pochi esempi di training, selezionati da una persona. Huang et al. [46] hanno proposto uno schema di classificazione gerarchico delle immagini. Essi hanno usato correlogrammi di colore [47] come le caratteristiche visuali e un albero di classificazione come il classificatore. In un lavoro relativo, Vailaya et al. [48] ha esaminato la capacità discriminante delle diverse caratteristiche di classificazione visuali delle scene città vs paesaggio ed hanno trovato che la funzionalità basata sul contorno ha la migliore capacità discriminante sul loro data-set. Concentrandosi su diverse caratteristiche visuali, l approccio fornisce una buona base per il seguente lavoro di classificazione delle immagini, ma i classificatori statistici non sono abbastanza potenti. Con i rapidi progressi da parte della comunità di apprendimento delle macchine, sono stati resi disponibili classificatori statistici sempre più potenti, come ad esempio il Support Vector Machines (SVM) [49]. Chapelle et al. [50] ha tentato di risolvere il problema generale di classificazione delle immagini utilizzando la SVM e ha usato un kernel RBF per immagini aventi una risoluzione elevata. Fung e Leo [51], invece, decompongono la semantica della scena di una immagine in due livelli: i. la semantica primitiva a livello di patch; ii. la semantica di scena a livello di immagine. L'apprendimento di semantica primitiva si basa su un raggruppamento supervisionato delle caratteristiche di patch. La classificazione è ottenuta utilizzando la distribuzione di ciascuna primitiva in un'immagine. Pagina 29

34 Capitolo I Annotazione di Immagini La semantica di scena è stata esplicitata da Vailaya et al. [52] che ha proposto un metodo per la classificazione gerarchica di immagini professionali: al massimo livello, le immagini vengono classificati come indoor o outdoor ; le immagini outdoor sono ulteriormente classificati come città o paesaggio, infine, un sottoinsieme delle immagini di paesaggio è classificato in tramonto, foresta e montagna. Essi modellano la densità di probabilità di ciascuna classe di scena attraverso la quantizzazione vettoriale [53] e classificano le immagini in base al valore massimo di un criterio posteriore. Chang et al. [54] ha proposto un metodo di categorizzazione di immagini basato sulle Bayes Machine Point (BPM) [55], ovvero classificatore avanzato basato su kernel. I metodi sopra menzionati sono basati su caratteristiche visive globali estratte da una intera immagine. Come abbiamo già accennato in precedenza, suddividendo l'immagine in una raccolta di patch di immagini si può lavorare meglio. A tal fine, Wang e Li [56] hanno proposto un metodo per la categorizzazione di immagini basato sull'uso del 2-D multirisoluzione del modello Markov (2D-HMM) [57]. Le immagini sono segmentate in regioni impiegando una griglia regolare multi-risoluzione. 2D-HMM può modellare la dipendenza tra le regioni con la stessa risoluzione e le regioni che hanno diverse risoluzioni. Csurka et al. [58] ha proposto un modello basato su un insieme di punti chiave per la categorizzazione della classe dell oggetto. Ogni immagine è rappresentata come un insieme di regioni ottenute dai rivelatori dei punti di interesse, mentre ogni regione è rappresentata da un vettore delle caratteristiche visive. Dopo un processo di quantizzazione vettoriale sulle caratteristiche delle regioni, una immagine può essere vista come un insieme di parole visuali. Il vettore frequenza delle parole visuali considerato come il vettore delle caratteristiche global e un classificatore SVM, viene distribuito per classificare le immagini di classi di oggetti. Carneiro e Vasconcelos [59] hanno proposto un framework per l annotazione di una immagine basato sulla modellazione gerarchica della stima della densità di probabilità relativa ad ogni classe. Ogni immagine è rappresentata come un insieme di caratteristiche di patch. La distribuzione di queste caratteristiche di patch per ogni concetto è modellata come un modello Gaussiano e tutti i concetti sono modellati da un modello Gaussiano gerarchico (Hier-GMM). I risultati sperimentali dimostrano che il Hier-GMM è efficiente per database di grandi dimensioni. Maree et al. [60] ha proposto un metodo di classificazione delle immagini ottenuto dalla combinazione del campionamento casuale di sotto-finestre di immagini. Sono state aggiunte varie trasformazioni nel processo di astrazione casuale di sotto-finestre, e l approccio risulta essere robusto sia per la scala che per la rotazione. Esso però non è stato testato su data-set di immagini più complesse. Pagina 30

35 Capitolo I Annotazione di Immagini La combinazione di caratteristiche complementari è in grado di produrre risultati di successo. Datta et al. [61] ha proposto un sistema di categorizzazione per immagini generiche basato su due modelli generativi eterogenei per categorie di immagini. I due modelli forniscono la relazione per la classificazione di due differenti aspetti di immagini, ossia un modello di struttura-composizione (SC) costruito dalla distribuzione Beta per catturare la relazione spaziale tra le regioni segmentate di immagini, e un modello Gaussiano delle caratteristiche colore-struttura (C-T). Questa combinazione di un modello strutturato e non strutturato offre una potenza discriminante per la categorizzazione di immagini generiche rispetto ad altre soluzioni che utilizzano un solo tipo di modello. Alcuni metodi sono basati su sofisticati modelli probabilistici. Li e Wang [62] rappresentano ogni immagine come una distribuzione probabilistica delle caratteristiche colore e texture. Ogni categoria di immagini è modellata come distribuzione probabilistica delle distribuzioni probabilistiche. Approfittando dell algoritmo di ottimizzazione, questo approccio può raggiungere le prestazioni di annotazione su un data-set di grandi dimensioni. Tuttavia, non è chiaro come il loro metodo possa essere eseguito su concetti di oggetti individuali. Tra i lavori di classificazione di immagini, alcuni più recenti si sono focalizzati sulla classificazione di una serie molto piccola di concetti, quali categorie di scene naturali. Essi possono essere ulteriormente suddivisi in due categorie. La prima definisce le caratteristiche intermedie. Oliva e Torralba [63] hanno proposto un insieme di dimensioni percettive (naturalità, trasparenza, rugosità, espansione e robustezza) che rappresentano la struttura spaziale dominante di una scena. Ciascuna di queste dimensioni può essere automaticamente estratta e le immagini di scena possono essere classificate in una rappresentazione di basse dimensioni. Vogel e Schiele [64] utilizzano le occorrenze della frequenza di concetti diversi (acqua, roccia, ecc.) in una immagine come le caratteristiche intermedie per la classificazione di immagini di scena, e necessitano di una etichettatura manuale di ogni patch dell immagine nei dati di training. Mentre l'etichettatura manuale può migliorare la l'interpretazione semantica delle immagini, essa è ancora un lusso per un insieme di dati di grandi dimensioni e può anche introdurre incongruenze nel modo in cui una serie di concetti sono definiti [64]. Il secondo tipo di approccio è volto ad alleviare questo onere di etichettatura manuale e ad apprendere automaticamente le caratteristiche intermedie. Ciò si ottiene facendo una analogia tra un documento e un'immagine e approfittando degli approcci esistenti per l analisi dei documenti. Ad esempio, Fei-Fei e Perona [65] hanno o Pagina 31

36 Capitolo I Annotazione di Immagini proposto un modello gerarchico bayesiano esteso dall allocazione latente Dirichlet (LDA) per apprendere categorie di scene naturali. Bosch et al. [66] ha ottenuto buone prestazioni nella classificazione di scene combinando l analisi semantica latente probabilistica (PLSA) [67] e un classificatore K-NN. Un punto comune di questi approcci è che essi rappresentano una immagine come un insieme disordinata di parole visuali. Una eccezione è rappresentata dal lavoro di Lazebnik et. al. [68]. Questi esempi di classificazione delle immagini orientata sulla scena globale ha fornito buoni risultati nella classificazione delle categorie di scena, come tramonto, paesaggio e campagna, ma non hanno mostrato alcun vantaggio nel classificare i nomi degli oggetti, come cielo, tigre, cavallo, ecc CLASSIFICAZIONE BASATA SU OGGETTI LOCALI Per oggetti singoli, l'aspetto visivo corrispondente nell'immagine è solitamente un segmento dell'immagine anziché l'intera immagine. A volte, anche collettivamente, questi segmenti di oggetti possono rappresentare solo una piccola parte dell immagine. Questo rende una caratteristica globale visiva non sempre una soluzione adeguata, specialmente nel caso di in ci è presente un certo numero di oggetti nell'immagine. Pertanto, il trattamento di una immagine come un insieme di regioni e l'annotazione dell immagine con queste regioni è utile per la classificazione di immagini basata su oggetti. Come abbiamo affermato in precedenza, una immagine può essere suddivisa in un insieme di regioni. In tale modo, l annotazione dell immagine può essere formulata come un apprendimento di istanza multiple (MIL) e questo problema è stato descritto da Dietterich et al. [69]. Nell'impostazione MIL, l'oggetto da classificare è un insieme di istanze invece di una singola istanza. I dati di training sono formati da esempi positivi e negativi. Un insieme viene etichettato come positivo se almeno una delle istanze presenti al suo interno è etichettato come positivo. Un insieme è etichettato come negativo se nessuna delle istanze presenti è etichettata come positivo. Questo concetto è illustrato nella figura 1.8. Pagina 32

37 Capitolo I Annotazione di Immagini Figura 1.8: Insieme delle istanze positive e negative Le etichette sui dati di training sono fornite solo per ogni insieme e non per ogni singola istanza. Data una nuovo insieme senza etichetta, è necessario classificarlo come positivo o negativo. Questo tipo di problema non può essere risolto dai tradizionali classificatori statistici in cui ogni esempio di training è rappresentato come un unico vettore di caratteristiche invece che di un insieme di vettori di caratteristiche. Un certo numero di approcci sono stati proposti sulla base della formulazione MIL per l annotazione di una immagine. Maron e Raton [70] tentarono di applicare le tecniche MIL per classificare le immagini di scene naturali, distinguendo i termini come cielo, cascata e montagna. Essi rappresentano ciascuna immagine come un insieme di sotto-immagini di 2 2 pixel, ciascuna delle quali è rappresentata da un vettore contenente il colore medio e la differenza di colore fra di esse ed inoltre le quattro sotto-immagini limitrofe. L addestramento di MIL è ottenuto massimizzando le diverse densità (DD), cioè ricerca il punto nello spazio delle caratteristiche che è più vicino ad almeno una delle istanze di ciascun insieme positivo e lontano da tutte le istanze di ciascun insieme negativo. Successivamente, Yang et al. [71] hanno applicato MIL per annotare immagini con l'obiettivo di annotare in modo esplicito delle regioni singole di una immagine invece di etichettare l'intera immagine. Essi usano l algoritmo PWDD per trovare le corrispondenti regioni delle immagini presenti nel training set. Rispetto al tradizionale algoritmo DD di Maron et al. [70], l algoritmo PWDD trova sempre una regione di una immagine presente nel training set. Pagina 33

38 Capitolo I Annotazione di Immagini L'algoritmo sopra menzionato è computazionalmente costoso, così altri algoritmi sono stati proposti e applicati per eseguire l annotazione delle immagini. Andrews et al. [72] ha riformulato la problematicità MIL. Nella loro formulazione, le variabili intere sono le variabili di selezione che indicano quale istanza in un insieme di positivi indica un esempio positivo. Il loro algoritmo, chiamato MI-SVM, ha un ciclo esterno e un ciclo interno. Il ciclo esterno imposta i valori di queste variabili di selezione, mentre quello interno allena poi una SVM standard in cui l'istanza selezionata positiva sostituisce tutti gli insiemi positivi. L approccio MI-SVM tende a diventare una soluzione locale ottimale piuttosto che influire sulle prestazioni del classificatore finale. Così Yang et al. [73] ha proposto un metodo di supporto asimmetrico vettore macchina (ASVM) per risolvere il problema MIL e lo ha applicato alla annotazione di immagine basata su regioni. Il metodo, chiamato ASVM-MIL, estende le tradizionali support vector machine all'impostazione MIL con l'introduzione di funzioni di perdita asimmetriche per i falsi positivi ed i falsi negativi. Oltre a questi tentativi che utilizzano algoritmi di apprendimento differenti per l'algoritmo MIL, Cheng e Wang [74] sostengono che alcuni concetti non possono essere descritti da una singola istanza in un insieme, e rappresenta l'assunzione di base dell'algoritmo MIL tradizionale. Invece, questi concetti possono essere solamente descritte da una combinazione di diverse istanze. Ad esempio, una scena di sci : una combinazione di persone e neve. Per questo motivo, essi hanno proposto un algoritmo, chiamato DD- SVM, per apprendere i molteplici aspetti di un concetto. DDSVM si articola in due fasi: nella prima fase, una serie di prototipi sono identificati dall'algoritmo DD di Maron e Raton, ciascun prototipo è un massimizzatore locale della funzione di ottimizzazione DD. Nella seconda fase, avviene una mappatura di ogni insieme di istanze con un vettore di caratteristiche avente lunghezza fissa ed usa la distanza tra le istanze presenti nell insieme e l insieme dei prototipi. Dopo aver ottenuto questo vettore di caratteristica di lunghezza fissa, un classificatore SVM tradizionale viene applicato per classificare questo nuovo esempio dello spazio vettoriale delle caratteristiche CLASSIFICAZIONE MULTI-LIVELLO Sia la classificazione basata su scene globali che quella orientata agli oggetti locali risultano essere vantaggiose per trattare alcuni tipi di categorie di immagini. Tuttavia, siamo spesso di ob Pagina 34

39 Capitolo I Annotazione di Immagini fronte al problema dell annotazione di immagini che contengono sia classi orientate a scene globali e sia elementi di classi orientate a oggetti locali. Quindi abbiamo bisogno di un approccio globale in grado di annotare questi due tipi di classe insieme. Dal momento che la classificazione delle immagini da parte di un essere umano tende a seguire una struttura gerarchica [52], un schema multi-livello di classificazione risulta essere utile. Ad esempio, possiamo classificare una immagine come immagine di giardino, e il giardino può essere ulteriormente suddiviso in fiore, erba, ecc.. Con le virtù di questo tipo di concetti gerarchici, una annotazione di immagini multi-livello è stata proposta da Fan et al. [75, 76] e Gao e Fan [77]. Come illustrato in Figura 1.9, Gao e Fan [77] organizzano le parole chiave in diversi livelli di semantica in una struttura gerarchica. Al livello più basso sono presenti i concetti che possono essere rappresentati da oggetti salienti. I singoli rilevatori di questi oggetti salienti sono addestrati separatamente. Poiché la variazione dell'aspetto di ogni oggetto saliente è relativamente piccola, l'insieme dei sensori degli oggetti salienti può ottenere una elevata precisione di classificazione. Al livello più alto è presente il concetto di immagine semantica atomica. Essi vengono rilevati in modo probabilistico da un framework bayesiano, considerando la loro dipendenza dagli oggetti salienti. Figura 1.9: Esempio di concetto di ontologia utilizzato da Gao et. al. Per quanto riguarda la costruzione del concetto di ontologia, Gao e Fan [78], hanno proposto un algoritmo semi-supervisionato per imparare il loro concetto di ontologia dal dataset LabelMe [79] e WordNet [80]. Tuttavia, tale framework multi-livello di annotazione è stato provato solamente in un dominio molto speciale selezionando immagini di scene naturali. Pagina 35

40 Capitolo I Annotazione di Immagini La loro performance su immagini di grandi dimensioni non è chiara. In particolare, la generazione del concetto di ontologia sarà complicata soprattutto se sono presenti un gran numero di concetti in differenti livelli di semantica. 1.7 ANNOTAZIONE DI FORME: UNA BREVE PANORAMICA L annotazione di immagini sulla base della forma degli oggetti richiede un meccanismo automatico per associare i concetti di alto livello (categorie semantiche) alle caratteristiche di forma di basso livello. L associazione dei concetti semantici alle immagini può essere essenzialmente vista come un processo di classificazione. Per ogni forma, l appartenenza ad una categoria semantica è derivata in accordo con alcune misure di similarità. A questo punto la forma può essere classificata in una delle categorie considerate. Secondo la letteratura corrente, questo processo può essere eseguito mediante la supervisione o la non-supervisione degli algoritmi di apprendimento. L obiettivo principale dell apprendimento supervisionato consiste nella previsione delle etichette relative alle categorie semantiche per un oggetto basato sui descrittori di forma sfruttando le informazioni circa le forme etichettate in precedenza. Nell apprendimento non-supervisionato, nessuna etichetta è disponibile e l obiettivo è di scoprire come i descrittori di forma possono essere raggruppati sulla base di alcuni criteri di similarità. Alla fine, il risultato di ogni cluster può essere associato ad una etichetta di categoria. Il successo delle tecniche di supervisione è influenzato da diversi fattori. Per ottenere buone performance di classificazione, essi richiedono un grande numero di dati di training etichettati, ma fornendo questi dati si rischia di incorrere in errori. Quando i database di immagini iniziano a diventare molto grandi, tale pre-annotazione è sempre più difficile perché aumenta lo sforzo manuale coinvolto. Inoltre, quando il dominio dell applicazione cambia, nuovi esempi etichettati devono essere forniti. L uso delle tecniche non-supervisionate consente di superare tali limitazioni. In particolare, gli algoritmi di clustering possono essere propriamente applicate ad un gruppo di immagini di forma non etichettate, in modo tale che le forme che hanno caratteristiche di basso livello simili sono considerate simili ad altre (cioè hanno contenuti semantici simili) e così esse sono raggruppate nello stesso cluster. Una descrizione testuale di una categoria semantica può essere associata ad ogni cluster estratto. In questo modo, una nuova forma non etichettata può essere etichettata associando il cluster in ogg Pagina 36

41 Capitolo I Annotazione di Immagini modo che corrisponda meglio alle caratteristiche di basso livello delle forma considerata. Il clustering di forme riveste un ruolo fondamentale in molte applicazioni, comprese l analisi delle immagini, l indicizzazione e il loro riconoscimento. A causa del grande numero di potenziali domini applicativi, molte varietà di algoritmi di clustering sono state proposti per la classificazione di forme. Ad esempio, in [81] l algoritmo K-means è applicato per classificare le forme della sostanza bianca in fibra di tratti modellata usando i descrittori di Fourier. In [82] gli autori propongono un metodo per scoprire cluster di forme che sono rappresentati dai prototipi descrittivi. Questo metodo è formato da due passi: i. primo passo: un insieme iniziale di forme è messo in relazione con i prototipi potenziali dei cluster; ii. secondo passo: un approccio agglomerativo è applicato iterativamente per raffinare le etichette iniziali. Infine in [83] è proposto il clustering non-supervisionato di forme di oggetti, in cui gruppi di forme simili rappresentate dai descrittori di forma contestuali sono derivati applicando un algoritmo di clustering che utilizza le mappe di diffusione, un metodo di riduzione di dimensionalità non lineare, per incorporare i vettori di caratteristiche delle forme in spazi dimensionali inferiori. Un ulteriore esempio di tecniche di applicazione del clustering per classificare forme è presentato in [84]. Gli autori utilizzano in questo caso una rappresentazione geometrica delle forme e definiscono le similarità di forme usando il concetto della lunghezza geodetica. Un algoritmo di clustering basato sulla minimizzazione di un criterio di dispersione all interno dei cluster è utilizzato per raggruppare forme considerate simili ad altre. Per ogni gruppo, è derivato un prototipo rappresentativo della categoria come la forma più significativa calcolata sulle forme appartenenti al cluster corrispondente. Pagina 37

42 CAPITOLO II IMAGE RETRIEVAL Pagina 38

43 Capitolo II Image Retrieval Questo capitolo ha l obiettivo di introdurre il concetto di image retrieval, di descrivere il processo di Content Base Image Retrieval e di riportare una breve panoramica sui sistemi presenti in letteratura. 2.1 INTRODUZIONE L image retrieval (o visual retrieval) si interseca nel più ampio panorama dell information retrieval, ed è definito come il metodo di reperimento, in una collezione o in un database, di immagini rilevanti rispetto ad una determinata richiesta. Le ricerche nel campo dell Image Retrieval hanno fatto il loro esordio negli anni 70 e inizialmente l approccio utilizzato per il ritrovamento delle immagini era basato sul testo. Ciò accadeva perché le immagini erano annotate manualmente dall uomo e venivano memorizzate tramite parole chiave, le stesse che si dovevano impiegare per il ritrovamento delle immagini. Con il passare del tempo questo modo di operare è diventato troppo dispendioso e in termini di lavoro dell uomo e in termini di prestazione durante la fase di ritrovamento, per questo la ricerca si è incentrata sul contenuto visuale delle immagini. Di questo si occupa il MMIR (MultiMedia Information Retrieval) che definisce i sistemi di recupero delle informazioni multimediali digitali permettendo all utente di comunicare le proprie query al sistema non attraverso modalità testuali, ma visive, sonore e audiovisive. Tutto questo è fatto perché MMIR ha come scopo la costruzione di banche dati di documenti multimediali sulle quali agiranno i motori di ricerca operando con specifici linguaggi di programmazione. Per agevolare la ricerca all interno delle banche dati, l indicizzazione delle immagini è multimediale; tutto questo permette di affiancare la ricerca testuale a quella tramite immagini, figure e forme. Nell image retrieval, alle immagini sono associati diversi tipi di informazioni chiamati metadati 1 che possono essere: o metadati indipendenti dal contenuto: dati non direttamente collegati al contenuto delle immagini ma ad esse correlati, come ad esempio l autore, la data di realizzazione, ecc.; 1 Raccolgono le informazioni relative al dove, al quando, al come e da chi i dati sono stati ottenuti. Si tratta quindi di un corredo indispensabile per rendere tali dati fruibili correttamente da chiunque, anche a distanza di tempo e di spazio ottenuti. Pagina 39

44 Capitolo II Image Retrieval o dati relativi al contenuto visuale delle immagini: metadati dipendenti dal contenuto: relativi a caratteristiche di livello basso o intermedio come forma, colore, tessitura e relazioni spaziali; metadati descrittivi del contenuto (o relativi alla semantica): relativi alle relazioni tra entità e attributi delle immagini con oggetti del mondo reale, emozioni e quindi tutti quei significati che sono associabili all immagine o a parte di essa. Come già accennato, i primi sistemi di image retrieval inizialmente permettevano l accesso alle immagini solo attraverso stringhe e in questi sistemi i metadati indipendenti dal contenuto erano rappresentati da stringhe alfanumeriche, mentre i metadati descrittivi del contenuto (o dipendenti dal contenuto) erano espressi con parole chiave o script. Le parole chiave identificano entità significative presenti nell immagine, termini o concetti dipendenti dal contesto o una rappresentazione della scena; mentre gli script sono descrizioni più ampie che esprimono a parole il contenuto e il significato dell immagine. Questo modo di ritrovamento delle immagini però sfrutta solo la ricerca full text 2, non prendendo in considerazione le caratteristiche di livello basso o intermedio che sono correlate alle caratteristiche percettive delle immagini stesse. Molto spesso quest ultime hanno un ruolo secondario nel retrieval, ma in realtà possono essere estremamente importanti in molte applicazioni. Alla luce di queste considerazioni bisogna anche aggiungere che il dominio testuale è poco adatto a descrivere l importanza percettiva di alcune caratteristiche visuali e non fornisce misure di similarità che invece sono indispensabili quando si opera con le immagini. Infatti la descrizione testuale riflette il punto di vista di chi annota l immagine e, nella maggior parte dei casi, è una persona diversa dall utente che potrebbe trovare inappropriata la descrizione, in quanto essa è soggettiva e cambia da persona a persona. Per questo l'inadeguatezza della descrizione del testo è molto evidente poiché non si può: o catturare la salienza percettiva della funzionalità visiva; o caratterizzare alcune entità, gli attributi, i ruoli o gli eventi; o modellare la correlazione tra funzioni percettive e concettuali; 2 La logica full text permette di rappresentare un documento tramite l intero insieme delle parole ad esso associate. Pagina 40

45 Capitolo II Image Retrieval o descrivere in maniera oggettiva un immagine e il processo di annotazione potrebbe risultare incoerente, incompleto, ambiguo, e molto difficile da automatizzare. Attualmente, nei sistemi di image retrieval il ritrovamento è basato sul contenuto e l accesso all informazione è effettuato tramite testo affiancato all uso di misure oggettive e di appropriati modelli di similarità tra le immagini. Ad esempio possiamo decidere di effettuare una query basandoci sulla forma e definendo dei parametri che la descrivono. Un tipico sistema di recupero di immagini tramite somiglianza di forma presuppone: 1. una query by sketch: l utente disegna una sagoma approssimativa di ciò che sta cercando nel database di immagini; 2. la ricerca nel database avviene quindi tramite tecniche di indicizzazione e di riconoscimento provenienti dalla Computer Vision 3 ; 3. l output del sistema non si limita a dire cosa è stato o non è stato riconosciuto, ma deve fornire una lista di immagini ordinate per grado di somiglianza con la forma inserita dall utente. In sostanza possiamo dire che il salto di qualità nel ritrovamento delle immagini nel corso degli anni è stato determinato dalla consapevolezza, sempre più forte, che non sempre la parole riescono ad esprimere ciò che vediamo e che il contenuto dell'immagine è molto più versatile rispetto al testo. "Una foto vale più di mille parole" dice William I. Grosky 4 ed è proprio per questo che l approccio visuale nel ritrovamento delle immagini ha avuto un così enorme successo. Sostanzialmente possiamo dire che l image retrieval utilizza cinque modalità per indicizzare, archiviare, ricercare e recuperare le immagini: 1) modalità semantica: è il metodo più tradizionale, ma anche il più problematico nel campo delle immagini. Si definiscono etichette testuali che dovranno essere richiamate per consentire di recuperare l immagine a cui sono associate; 3 La Computer Vision permette di gestire le informazioni grafiche mediante sistemi di analisi che permettono di recuperare tutte le immagini legate a un argomento mostrato graficamente. Le immagini vengono archiviate in un database oppure mediante speciali librerie in database pubblici. 4 Professore del Dipartimento di Informatica e Scienze dell'informazione University of Michigan-Dearborn, Dearborn, MI, USA. Pagina 41

46 Capitolo II Image Retrieval 2) modalità formale: si basa sulla capacità del sistema di confrontare le forme estratte dall immagine archiviata con quelle estratte dal modello su cui si basa la query. Nella fase di recupero il sistema valuterà il grado di vicinanza tra i dati; 3) modalità strutturale: si basa sulla scomposizione delle immagini dell archivio e delle immagini modello in sezioni. Il recupero dell immagine sarà effettuato in base alla similitudine delle sezioni; 4) modalità coloristica: si basa sulla rappresentazione delle immagini attraverso i colori in esse contenuti. Il recupero sarà effettuato sulla base del confronto di tali caratteristiche; 5) modalità parametrica: si basa sulla determinazione dei parametri che rappresentano un immagine (forma, struttura e colore). Il recupero dell immagine sarà effettuato confrontando i valori dei parametri immessi nelle query con quelli già esistenti nelle immagini archiviate. Fino ad ora abbiamo analizzato la nascita e lo sviluppo dell image retrieval come strumento per la ricerca di immagini all interno dello spazio web. Ma come questo metodo si interfaccia con l utente permettendogli di poter effettuare le sue query?. In [85] è descritto come sia importante e necessaria la creazione di interfacce naturali che aiutino l utente a svolgere la propria ricerca. Gli anni recenti hanno visto uno sviluppo sempre maggiore del numero e delle dimensioni dei depositi di immagini digitali, ma esiste ancora un gap semantico tra utente e sistema. In questo tipo di sistema di ritrovamento delle immagini, l utente esprime la sua query facendo riferimento a caratteristiche di basso livello che le immagini ricercate dovrebbero contenere. I sistemi VIR (Visual Information Retrieval) hanno bisogno di manipolare le informazioni che l utente fornisce e lo fanno tramite un agente che comunica con lui attraverso meccanismi di linguaggio naturale, gesti, espressioni, ecc... Questo agente ha una struttura predeterminata, in cui sono memorizzate associazioni tra concetti e sensazioni, che risulta essere nettamente (e ovviamente) limitata rispetto alla memoria e al background della mente umana. Ciò provoca l uso di un canale comunicativo ristretto determinato dalla macchina che non permette processi inferenziali a cui l utente invece è abituato. Idealmente la comunicazione tra sistema e utente incorpora le migliori caratteristiche dei due partecipanti utilizzando le seguenti regole: Pagina 42

47 Capitolo II Image Retrieval a) l adozione di un linguaggio quanto più naturale possibile; b) l acquisizione della conoscenza dell utente da parte della macchina per migliorare i risultati delle query, adeguare il sistema e la sua interfaccia all utente. Possiamo avere due tipi di approcci nella comunicazione tra utente e sistema: 1. pull model: in cui l utente ha la responsabilità esclusiva per la specifica della query e il sistema gli fornisce assistenza; 2. push model: in cui il sistema ha un ruolo più attivo e non si limita solo a fare da assistente, ma diventa partner dell utente. Questo modello presuppone che il sistema apprenda come rilevare le informazioni che l utente gli fornisce e gli suggerisca i risultati conformi alle sue richieste. In entrambi gli approcci però un ruolo importante ha il background dell utente perché esso influisce sulla terminologia utilizzata da egli per formulare la query per l immagine desiderata. È anche dimostrato, che i diversi tipi di utenti richiedono diversi stili di interazione con il sistema e recenti studi si stanno occupando di questo problema per realizzare sistemi basati sull image retrieval più efficaci. Per attuare questo progetto di creazione di sistemi più vicini all utente si prendono in considerazione aspetti come: o sviluppare tecniche che permettono al sistema di acquisire informazioni dell utente e usarle per adattare il processo di ritrovamento delle immagini alle richieste dell utente stesso; o fornire un interfaccia multimodale 5 e che possa consentire l uso combinato tra testo e immagini nella formulazione delle query; o creare prototipi di assistenti da inserire nell interfaccia e valutarli; o modellazione sia degli aspetti oggettivi (basso livello) che soggettivi (alto livello) di un immagine, attraverso l uso di tecniche basate sulla conoscenza. 5 Interazione che coinvolge più di un canale percettivo. Pagina 43

48 Capitolo II Image Retrieval Per concludere la parte relativa all image retrieval e allo sviluppo di interfacce che utilizzano questa tecnica di retrieval, elenchiamo come i sistemi VIR possono essere classificati e come si differenziano tra loro a seconda di alcune caratteristiche: o automazione: vengono estratte e indicizzate le caratteristiche visuali delle immagini utili per le query visive. I sistemi si differiscono nel grado di automazione dell estrazione e indicizzazione di tali caratteristiche che in linea di massima usano metodi del tutto automatici per estrarre le caratteristiche di basso livello e si affidano all intervento dell uomo per determinare i concetti a livello semantico; o caratteristiche multimediali: i contenuti multimediali comprendono informazioni di diverso tipo (immagini, testi ) e i sistemi si differiscono nel trattamento multiplo di queste informazioni; o adattabilità: la maggior parte dei sistemi usa un insieme statico di caratteristiche estratte che vengono selezionate o dal sistema o dal progettista e ciò comporta alti costi di indicizzazione e nella ricerca. I sistemi si differiscono in questo senso in base alla capacità, più o meno alta, di estrarre e indicizzare in modo dinamico le caratteristiche al fine di adattarsi ai bisogni dell utente; o astrazione: i diversi sistemi si differiscono in base al livello di astrazione con cui si indicizza il contenuto. Si può astrarre a livello di oggetto, a livello di funzionalità, di sintassi e di semantica, ma in linea generale i sistemi automatici mirano al livello basso e per gli indici di alto livello ci si affida all uomo; o generalità: i sistemi si differiscono nella specificità del dominio di informazioni visive. Alcuni sistemi fanno riferimento a uno specifico dominio, altri invece mirano ad un indicizzazione svincolata da esso; o contenuto della collezione: i sistemi si differiscono nel modo in cui vengono aggiunte nuove informazioni visuali. Nei sistemi dinamici ciò avviene automaticamente, negli altri le informazioni visuali sono inserite manualmente; o elaborazione del dominio: i sistemi si differiscono nel loro approccio per elaborare le informazioni visuali (basso livello) e quelle soggettive (di alto livello) di un immagine, attraverso l uso di tecniche basate sulla conoscenza. Pagina 44

49 Capitolo II Image Retrieval 2.2 TEXT BASED VS. CONTENT BASED Nell era in cui ci troviamo, in cui tutto è basato su Internet e sul reperimento di informazioni tramite esso, è quasi naturale pensare ad un sistema che sia in grado di comprendere ciò che si cerca come se stessimo parlano con un umano. È dunque restrittivo continuare a pensare che la ricerca di un documento possa essere effettuata basandosi solo su un linguaggio testuale. Ancora più limitativo sarebbe pensare di usare questo metodo per la ricerca di immagini, così come è stato fino a poco fa. Infatti si operava esclusivamente nel campo dell image retrieval dove, ogni documento è ricercato tramite linguaggio testuale, attraverso sistemi text-based. In questi sistemi le informazioni sono descritte con etichette testuali, che serviranno anche per la ricerca di documenti (testuali e non) ad esse correlati. È chiaro che questi sistemi sono adatti per archivi il cui contenuto è essenzialmente un testo, ed è ovvio riferirsi ad essi tramite termini e frasi contenute nel documento stesso. Oggi invece la tecnologia ha permesso la creazione di sistemi di information retrieval content based (o multimedia information retrieval) in cui ogni documento elettronico può essere trattato e ricercato tramite gli elementi del linguaggio più adatti alla sua natura di documento multimediale. Negli archivi che contengono questi documenti si rivela troppo semplificativo e impreciso attribuire una descrizione testuale a tali contenuti. Ad esempio risulterebbe dispersivo ricercare l immagine di un tramonto attraverso l uso delle parole perché esso potrebbe essere descritto secondo vari punti di vista: il luogo in cui esso avviene, le sensazioni che suscita o i colori e sfumature presenti. Invece risulterebbe più appropriato usare un sistema di ricerca che operi direttamente sul contenuto visuale. In questa sezione si distinguono: a) sistemi di visual retrieval in cui sono estratte caratteristiche (features) riguardanti colore, tessitura, forma, ecc., di immagini 2D e 3D; b) sistemi di video retrieval che si basano sul linguaggio audiovisivo, cioè elementi di ricerca ricavati dal filmato, che comprendono il movimento degli oggetti nelle inquadrature, le tracce sonore, etc. Una fase importante per il recupero di tali informazioni è la suddivisione del video in shot, da cui sono estratti i keyframe, sui quali si basa la query dell utente. Pagina 45

50 Capitolo II Image Retrieval c) sistemi di audio retrieval in cui le informazioni estratte riguardano analisi di volumi, sonorità, ritmi e melodie. Anche questi sistemi, così come i video retrieval precedentemente illustrati, peccano di poca accuratezza. Per comprendere al meglio le tecniche del recupero delle immagini, è opportuno spiegare innanzitutto come avvengono le ricerche e le indicizzazioni su di esse, divise essenzialmente tra un sistema tradizionale chiamato Term-Based Image Retrieval (ricerca basata sui termini) e un sistema di recupero più innovativo come il Content-Based Image Retrieval (recupero basato sul contenuto). In un sistema TBIR, la query è espressa testualmente così come i descrittori a cui sono collegate le immagini. Insomma, tutto viene tradotto in parole: l immagine, il suo contenuto, le chiavi di accesso che lo identificano nella sua memorizzazione e anche la struttura della query nella fase di ricerca. Le query, quindi, sono nella forma di parole chiave o testo libero con o senza l utilizzo di operatori booleani. Il testo inserito per la ricerca è trasformato in una lista di elementi, chiamati token, ignorando solitamente numeri e punteggiatura e considerando token solamente le stringhe contigue di caratteri alfabetici, così come avviene quando si usano i comuni motori di ricerca. Anche se rappresenta il metodo maggiormente utilizzato, non sempre risulta essere il più efficace, in quanto a volte la punteggiatura o la differenza tra maiuscole e minuscole è significativa. Sono inoltre eliminate le stopwords, ovvero le parole che compaiono frequentemente in un linguaggio come pronomi, articoli o congiunzioni e applicate le tecniche di de-hyphenation e stemming che rispettivamente permettono la divisione in più parole delle parole che contengono il trattino e la riduzione delle parole alla loro radice grammaticale. L utilizzo di queste tecniche è positivo dal punto di vista dell occupazione dello spazio, ma non sempre migliora la qualità della risposta ad una query. Successivamente è effettuata la ricerca attraverso algoritmi di IR basati sulla ricerca di similarità tra query e testo associato alle immagini contenute negli archivi. Le immagini ritrovate sono ordinate in base alla probabilità che siano rilevanti per l utente, il quale infine le esamina ed eventualmente, se non è soddisfatto, raffina la query (relevance feedback). Concludendo, i sistemi TBIR, riescono a catturare i concetti di alto livello o astratti presenti nell immagine, come una persona che sorride o è triste, ma a fronte di ciò, presentano i seguenti svantaggi: Pagina 46

51 Capitolo II Image Retrieval 1) il testo non sempre, forse mai, è consistente e completo; 2) è necessario associare alla stessa immagine più sinonimi; 3) l etichetta testuale associata all immagine è soggettiva e quindi diversa da soggetto a soggetto. Un sistema più efficace, quindi, per la ricerca delle immagini è quello basato sul loro contenuto visuale: CBIR (Content Based Image Retrieval). L obiettivo di tali sistemi è descrivere, mediante modelli matematici e implementazioni informatiche delle immagini, il loro contenuto, cercando, per quanto possibile, di rispettare i principi del sistema visivo umano [4]. I sistemi attualmente sviluppati si basano sul riconoscimento del contenuto dell immagine utilizzando le seguenti tecniche: o histogram detection: è la tecnica più banale, ma anche la meno affidabile. È al primo livello di ogni sistema CBIR; o pattern recognition: si basa sul riconoscimento di elementi ripetuti all interno di un immagine ed è usato congiuntamente ad altre tecniche; o edge detection: permette di riconoscere i confini delle figure presenti nelle immagini attraverso il riconoscimento di cambiamenti di colore; o shape detection: è basata sull edge detection e riconosce le forme geometriche basilari; o object recognition: è la più complessa delle tecniche e ha come obiettivo il riconoscimento di oggetti in un immagine. 2.3 IL PROCESSO DI CONTENT BASED IMAGE RETRIEVAL L architettura di un sistema di CBIR è articolata in due fasi [86]: 1. pre-processing: consiste nel popolare il database. In questa fase sono estratte le caratteristiche di basso livello (low level features) dell immagine (forma, colore e tessitura), che vengono memorizzate e indicizzate. Queste caratteristiche vengono estratte dalle immagini mediante particolari algoritmi, che ne derivano vettori Pagina 47

52 Capitolo II Image Retrieval multidimensionali volti a rappresentare le features dell''immagine. Infatti questa fase risulta essere costosa in termini di tempo; 2. query processing: consiste nella fase di interrogazione in cui l utente, tramite un interfaccia grafica, formula un interrogazione utilizzando un immagine campione o disegnandone una. L mmagine query deve essere processata dal sistema per estrarre le caratteristiche, le quali saranno confrontate con quelle delle immagini memorizzate nel database. È importante che questa fase abbia una breve durata per permettere di presentare all utente i risultati in tempo reale. Nei sistemi più avanzati è presente anche il meccanismo di relevance feedback, che consente di interagire con l utente, il quale ha già visto i primi risultati ma è ancora insoddisfatto, e gli permette di raffinare la query di partenza. Figura 2.1: Architettura di un sistema CBIR Pagina 48

53 Capitolo II Image Retrieval 2.4 ESEMPI DI SISTEMI CBIR Nel corso degli anni sono stati progettati molti sistemi di Content based image retrieval, alcuni più semplici considerando come features solo le forme, ad altri che considerano tutti i tipi di features o prevedono anche una fase di relevance feedback. Alcuni esempi di sistemi sono CBIR sono i seguenti: o SQUID (Shape Queries Using Image Databases): è un sistema progettato e realizzato dal Centre for Vision Speech and Signal Processing dell Università di Surrey. Questo sistema utilizza tecniche di indicizzazione e di ricerca basate delle sole forme. Ogni immagine è processata per recuperare il contorno che è rappresentato poi da tre parametri di forma globali ed il massimo della curvatura nella sua immagine CSS (Curvature Scale Space). Il database impiegato è composto da 1100 immagini di creature marine; Figura 2.2: Schermata del sistema SQUID o MARS (Multimedia Analysis and Retrieval System): sistema basato sul relevance feedback in C++, proposto dall Università dell'illinois; Pagina 49

54 Capitolo II Image Retrieval Figura 2.3: Schermata del sistema MARS o CIRES (Computer and VIsion RESearch Center): sistema basato su query by example, proposto dall'università del Texas; Figura 2.4: Schermata del sistema CIRES Pagina 50

55 Capitolo II Image Retrieval o QUICKLOOK: sistema sviluppato in Italia dai ricercatori del Dipartimento di Informatica, Sistemistica e Comunicazione dell Università di Milano-Bicocca e dall'istituto per le Tecnologie della Costruzione del CNR di Milano. Il sistema si applica alle immagini fisse nonché ai video, ed è in grado di combinare interrogazioni basate sul contenuto visivo estratto automaticamente e interrogazioni basate sulla similarità testuale tra descrizioni associate agli elementi. Il sistema permette l'interrogazione dell archivio sulla base di differenti strategie, ma in particolare consente di raffinare progressivamente la risposta sulla base di un relevance feedback che l'utente fornisce sugli elementi visivi reperiti. Questo metodo permette all utente di interagire continuamente con il sistema, introducendo diversi parametri di aggiustamento della mira, i quali sono analizzati di volta in volta dal sistema e producono ulteriori indicazioni sulla rilevanza dei documenti recuperati nell archivio e permettono alla macchina di apprendere informazioni sul senso della ricerca. Figura 2.5: Schermata del sistema QUICKLOOK Pagina 51

56 CAPITOLO III CLUSTERING DI FORME SEMI-SUPERVISIONATO Pagina 52

57 Capitolo III Clustering di forme semi-supervisionato Questo capitolo ha l obiettivo di presentare il concetto di clustering nella sua accezione più generale, ed in particolare ci si soffermerà sul clustering di forme semi-supervisionato. In seguito verranno approfonditi gli aspetti componenti del processo di clustering non supervisionato e di quello semi-supervisionato, descrivendo tutte le componenti dell algoritmo implementato. 3.1 INTRODUZIONE AL CLUSTERING Il clustering è il processo di classificazione automatica (cioè non supervisionata) di dati, non etichettati, in gruppi omogenei (cluster). Esso consiste nell organizzazione di una collezione di dati, rappresentati solitamente come vettori di misure o come punti in uno spazio multidimensionale, in gruppi basati sulla somiglianza. Intuitivamente, i dati appartenenti a un gruppo sono più simili tra di essi rispetto a un dato appartenente a un gruppo diverso. La varietà di tecniche per rappresentare i dati, per misurare la somiglianza fra essi e infine per raggrupparli ha causato il proliferare di un vasto e confuso assortimento di metodi di clustering, che va anch esso, appunto, classificato. È innanzitutto importante comprendere la differenza fra clustering (classificazione non supervisionata) e analisi discriminante (classificazione supervisionata): nel primo caso il problema da risolvere consiste nel raggruppamento di una data collezione di dati non etichettati in gruppi significativi; nel secondo caso, data una collezione di dati etichettati (usata come training set al fine di descrivere le classi di dati o gruppi), il problema consiste nell etichettare i dati non ancora etichettati. Come già accennato il clustering è utile in alcuni processi di exploratory data analysis, ma anche di raggruppamento, decision-making e machine-learning, quali ad esempio: image segmentation, pattern recognition, information retrieval e data mining. In ogni campo di ricerca viene utilizzata una terminologia diversa per le parti componenti del processo di clustering e vengono fatte delle assunzioni sui dati diversi in base al contesto in cui il clustering viene usato. Pagina 53

58 Capitolo III Clustering di forme semi-supervisionato DEFINZIONI E NOTAZIONE In questa sezione vengono introdotte le definizioni e le notazioni di frequente utilizzo: o pattern: detto anche vettore delle feature, osservazione o dato, e corrisponde ad un singolo elemento usato dall algoritmo di clustering. Solitamente consiste in un vettore di d misure: x = {x1,, xd}; o feature: detta anche attributo, è il componente scalare xi di un pattern x; o dimensione del pattern: d è la cardinalità del vettore x; o pattern set: insieme dei pattern da raggruppare denotato con X = {x1,, xn}. L iesimo pattern di X è il vettore xi = {xi,1,.,, xi,d}. In molti casi questo insieme è rappresentato come una matrice di dimensione n x d; o class: detto anche cluster, è un insieme di pattern le cui feature sono caratterizzate da un criterio in comune (ad esempio: misura di similarità minore di una certa soglia); o label (o etichetta): assegnata dagli algoritmi di clustering di tipo hard 6 a ogni pattern xi al fine di identificare la sua classe d appartenenza; o label set: dato un pattern set X è l insieme delle label L = {l1,., ln} con {1,.., k} dove k è il numero di classi (o cluster); o grado di appartenenza: spesso chiamato anche fractional degree of membership, fij è un valore numerico assegnato dagli algoritmi di clustering di tipo fuzzy 7 a ogni pattern xi per il cluster j ed indica, appunto, il grado di appartenenza del pattern al cluster; 6 Algoritmi che assegnano ogni pattern a un unico cluster ed anche detti di tipo crisp. 7 Algoritmi che assegnano a ogni pattern un grado di appartenenza, f ij appunto, al cluster j-esimo. Pagina 54

59 Capitolo III Clustering di forme semi-supervisionato o distanza: metrica usata per quantificare la similarità fra pattern e ne esistono di vari tipi. Patterns Feature selection/extraction Pattern Representations Interpattern similarity Grouping Clusters Feedback loop Figura 3.1: Sequenza dei passi di un processo di clustering I PASSI DI UN PROCESSO DI CLUSTERING Generalmente il processo di clustering è composto dai seguenti passi: 1) rappresentazione dei pattern: riguarda la scelta del numero dei pattern, delle dimensioni e del tipo delle feature. Scegliere il giusto numero di feature, o effettuare trasformazioni su di esse, può portare a significativi miglioramenti sul risultato del procedimento. Tale fase può comprendere, eventualmente anche i seguenti passi: o feature selection : consiste nel selezionare un sottoinsieme significativo delle feature di cui si dispone; si noti che, in generale, non è banale riuscire a capire a priori quali siano gli attributi migliori ai fini del risultato. o feature extraction: opera trasformazioni sulle feature in ingresso al fine di trovarne di nuove e più significative. 2) definizione di una misura di prossimità: per poter raggruppare i pattern in insiemi omogenei occorre quantificare la diversità tra i vari elementi (spesso si tratta di una distanza tra punti nello spazio come la distanza euclidea); Pagina 55

60 Capitolo III Clustering di forme semi-supervisionato 3) raggruppamento (grouping o clustering): è la procedura che permette di effettuare la categorizzazione; 4) astrazione dei dati: consiste nell'estrarre una rappresentazione semplice e compatta dei dati. Tale rappresentazione deve essere sia comprensibile all'uomo, sia facile da elaborare. Un tipico esempio di astrazione è il fatto che un cluster può essere rappresentato per mezzo di un punto detto prototipo. 5) verifica dei risultati: per stimare la bontà dei risultati prodotti occorre avere un criterio di ottimalità; una struttura di cluster è detta valida se non è stata prodotta dal caso o da un artefatto interno all'algoritmo. Ci sono tre modi di accertare la validità: o verifica esterna: si controlla se la struttura dei dati ricostruita dall'algoritmo rispetta la struttura nota a priori. o verifica interna: si valuta che la struttura ottenuta dal clustering sia appropriata alla tipologia di dati. o verifica relativa: date due strutture di dati ricostruite dall'algoritmo, ne viene calcolata la qualità relativa MISURE DI SIMILARITÀ La prossimità fra pattern e la scelta riguardante le modalità con cui calcolarla è l aspetto che maggiormente influenza i risultati di un algoritmo di clustering. Essa è misurata calcolando la distanza fra le coppie di pattern facenti parte del pattern set. Esistono una lunga serie di misure di similarità, alcune delle quali, come la distanza euclidea, utilizzabili per riflettere la diversità fra due pattern, altre utili invece a caratterizzare la similarità concettuale fra pattern. A causa della già enunciata varietà di tipi e scale di feature, la scelta della misura di similarità da utilizzare per calcolare la distanza fra pattern in un algoritmo di clustering è di vitale importanza per la sua buona riuscita. Ciò poiché la similarità è un aspetto fondamentale per la definizione di un cluster di pattern. La scelta adottata più frequentemente a tal riguardo è quella di calcolare la similarità (o la difformità) fra una coppia di pattern utilizzando una funzione di distanza definita sullo spazio delle feature. Pagina 56

61 Capitolo III Clustering di forme semi-supervisionato euclidea, La misura di similarità più conosciuta per feature di tipo continuo è la distanza &,! " #$,%!,% " %' ( ) *! * 1a che è un caso speciale della metrica di Minkowski: & -,! " #$.,%!,%. %' ( ) *! * - 1b Il motivo principale per cui la distanza calcolata tramite la formula (1a) è comunemente usata risiede nel fatto che essa lavora bene su data set compatti oppure su data set le cui classi di dati sono isolate. Lo svantaggio invece di usare la misura calcolata dalla formula (1b) risiede nella sua tendenza a lasciar prevalere le feature con la scala maggiore rispetto alle altre. Comunque, una soluzione a questo problema esiste ed è relativamente semplice: è sufficiente normalizzare le feature a valori continui affinchè divengano così composte da intervalli di valori. Un problema comune alle misure di distanza (1a) e (1b) è la correlazione lineare fra le feature, tuttavia questa distorsione può essere limata applicando una trasformazione chiamata whitening o più semplicemente applicando la distanza di Mahalonobis. Diversamente, quando si deve computare la distanza fra pattern le cui feature sono di tipo non continuo, questo processo diventa molto più complesso per i due seguenti motivi: a) la nozione di prossimità è binaria per valori nominali e scalari; b) tipi differenti di feature non sono comparabili. Al fine di risolvere questo problema, in ambito pratico sono state sviluppate delle misure di prossimità per pattern composti da feature non omogenee anche se non è compito di questo lavoro di tesi analizzare queste particolarità. Una classe di misure di distanze di notevole interesse è sicuramente quella costituita dalle misure dipendenti da contesto; misure che tengono in considerazione gli effetti dei punti Pagina 57

62 Capitolo III Clustering di forme semi-supervisionato circostanti. Una misura di questo tipo, definita usando il contesto, è, ad esempio, la Mutual Neighbor Distance (MND). Nonostante essa non sia realmente una metrica, poiché non soddisfa la diseguaglianza triangolare 8, è stata ampiamente utilizzata, con buoni risultati, in molte applicazioni. Ciò supporta l idea che la difformità non debba necessariamente essere una metrica. In generale, il teorema del brutto anatroccolo di Watanabe enuncia: nella misura in cui usiamo un insieme finito di predicati che sono in grado di distinguere due oggetti qualsiasi presi in considerazione, il numero di predicati condivisi da essi è costante, indipendentemente dalla scelta degli oggetti. Questo teorema afferma quindi che è possibile rendere due pattern qualsiasi ugualmente simili, purché essi vengano codificati con un numero sufficientemente alto di feature; di conseguenza, qualsiasi due pattern saranno altrettanto simili purché non venga usata informazione di dominio addizionale nel calcolo della loro similarità. In conclusione, la nozione appena data risulta utile e molto evidente nei clustering di tipo concettuale, tipologie nelle quali vengono appunto utilizzate le misure di similarità concettuali che sono, indubbiamente, le più generali in assoluto APPROCCIO FUZZY Gli approcci tradizionali di clustering generano partizioni e si basano, inoltre, su una corrispondenza 1 fra pattern e partizioni. L approccio fuzzy [Bezdek, 1981] estende questa nozione: esso ha lo scopo di creare una corrispondenza associando ogni pattern ad ogni cluster tramite l utilizzo di una funzione d appartenenza [Zadeh, 1965]. Perciò, il risultato di un algoritmo di clustering fuzzy non sarà una partizione crisp dei pattern bensì una partizione soft (fuzzy). Di seguito si descrivono sommariamente i passi di un algoritmo di clustering fuzzy: 1. creare una matrice d appartenenza 1 di dimensione 2 3, dove N è il numero di pattern e K il numero di cluster. L elemento 4! di questa matrice rappresenta il grado 8 Proprietà che caratterizza una distanza in uno spazio metrico (Wikipedia). Pagina 58

63 Capitolo III Clustering di forme semi-supervisionato d appartenenza dell oggetto al cluster!! ed è, tipicamente, un valore compreso in [0, 1]; 2. utilizzare la matrice 1 al fine di calcolare il valore della funzione costo associata alla corrispondente partizione. Una possibile funzione costo di tipo fuzzy è: 5, 1 $ $ ' 7 %' 4! % 2 dove % ' 4! è il centroide del k-esimo cluster fuzzy; 3. riassegnare i pattern ai cluster al fine di ridurre il valore della funzione 2 e ricalcolare la matrice 1; 4. ripetere il passo 2 finchè i cambiamenti nella matrice 1 sono significativi. Nel fuzzy clustering, ogni cluster è un insieme fuzzy. È tale in quanto ciascun pattern appartiene all insieme con un certo grado di appartenenza. La figura 3.2 mostra tale idea. Figura 3.2: Confronto tra cluster fuzzy (: ; e : < ) e cluster hard (= ; e = < ) Una descrizione compatta ma altrettanto chiara dei fuzzy cluster > e > mostrati dalla figura 3.2 è la seguente: >?1, 0.9, 2, 0.8,, 9, 0.0E, Pagina 59

64 Capitolo III Clustering di forme semi-supervisionato >?1, 0.0,, 8, 1.0, 9, 0.9E, dove le coppie ordinate, 4 indicano l i-esimo pattern e il suo grado d appartenenza al cluster. Chiaramente valori maggiori del grado di appartenenza indicano una maggiore possibilità che un pattern appartenga al cluster in questione. Un aspetto molto interessante degli algoritmi di fuzzy clustering risiede nella possibilità di tramutare facilmente i risultati in cluster di tipo crisp semplicemente filtrando i pattern il cui grado d appartenenza al cluster risulti inferiore ad una specifica e prestabilita soglia. La definizione della funzione costo è il problema principale e di maggior rilevanza negli algoritmi clustering di questo tipo: essa può essere basata sui centroidi o, in alternativa, sull errore quadratico. L algoritmo basato su approccio fuzzy più popolare è il Fuzzy C-Means (FCM), descritto nel paragrafo successivo. Sebbene sia esso in grado di evitare la convergenza ad un minimo locale molto meglio rispetto al k-means, tale pericolo non è del tutto scongiurato durante il suo utilizzo. 3.2 ALGORITMO FUZZY C-MEANS NON SUPERVISIONATO L algoritmo Fuzzy C-Means (FCM) rappresenta una generalizzazione di un altro ben noto algoritmo di clustering, l hard C-Means. Nel paragrafo successivo è riportata la descrizione dell algoritmo FUZZY CLUSTERING L algoritmo Fuzzy C-Means è descritto dalle condizioni presentate nell equazione (3), le quali sono convertite in forma matriciale: F G H I 1 J J 3 Pagina 60

65 Capitolo III Clustering di forme semi-supervisionato F F! H I G M 3N P O F ' F 3 A tal fine, si considera U come una matrice Q di numeri reali: 1 R4 % S ed essa rappresenta la matrice delle partizioni?f E descritta nella equazione (3) con le seguenti condizioni: 4 T % 4 % U 1; T % F 0; WXW 4 $ 4 % Z 0 [ W4WW 4N ' $ 4 % 1 [ W4WW \ 4 ' Nella equazione (4), 4 è una funzione definita come segue: 4 F?0, 1E. Nel modello convenzionale, 4 rappresenta la funzione caratteristica di F, infatti 4 F sono determinati e quindi 4 viene etichettato come l i-esimo sottoinsieme delle partizioni. Le condizioni dell equazioni (3) e (4) sono equivalenti, così U è definita come una partizione c di Y. Generalizzando questa idea, ci si riferisce ad U come una partizione fuzzy c di Y, dove gli elementi di U sono numeri compresi nell intervallo [0, 1] e che soddisfano le condizioni (2b) e (2c). La base di questa definizione è la funzione c: 4 F?0, 1E, dove i valori 4 T % R0, 1S e sono interpretati come i gradi di appartenenza delle T % al sottoinsieme fuzzy 4 di Y. Questa definizione è stata fornita da Zadeh nel 1965, il quale concepì l idea dell insieme fuzzy come uno strumento per modellare sistemi fisici che presentano incertezza non statistica. Pagina 61

66 Capitolo III Clustering di forme semi-supervisionato Di conseguenza, l insieme e la partizione fuzzy, rappresentano uno strumento per alterare gli assiomi basilari sottostanti al clustering e ai modelli di classificazione. Con questo metodo, un punto T % può appartenere interamente ad un singolo cluster, ma in generale è in grado di appartenere parzialmente a più cluster. Si denotano gli insiemi di tutte le partizioni c di Y con: ^P?1 P_ 4 % R0, 1SE 5 ^bp?1 P_ 4 % R0, 1SE 5N È importante evidenziare che ^P è incorporato in ^bp. Questo indica che gli algoritmi di fuzzy clustering permettono di ottenere c partizioni compatte. Per individuare le c partizioni ottimali di Y, sono stato proposti molti criteri, e quello migliore è dato dall associazione di una funzione che calcola il valore degli errori al quadrato: P c d 1, e $ $4 % d %' ' T % e 2 f 6 dove: o F?T, T,, T i E i rappresenta i dati; o identifica il numero dei cluster presenti in Y ed è compreso nel seguente intervallo 2 J k ; o m rappresenta l esponente ed ha un valore compreso tra: 1 J X k ; o U è la matrice delle c partizioni di Y, 1 ^bp ; o e e, e,, e P indica il vettore dei centri; o e e, e,., e i rappresentano i centri del cluster i; o m è la norma indotta di A calcolata su i ; Pagina 62

67 Capitolo III Clustering di forme semi-supervisionato o la matrice A (N x N) è la matrice (i suoi valori sono tutti positivi) dei pesi. La distanza al quadrato tra T % e e è calcolata in norma A nel seguente modo: % T % e 2 f T % e n f T % e 7 Il peso collegato all errore quadratico è 4 % d, dove l m-esima potenza delle T % appartiene al cluster i. I vettori?e E sono definiti come i centri dei cluster oppure come i centri di massa dei sottoinsiemi di partizionamento. Se m ha un valore pari ad 1, si può dimostrare che minimizzando la componente c d soltanto 1 I ^P e i corrispondenti e rappresentano il baricentro geometrico delle F. Dopo queste affermazioni, è possibile decomporre c d nei suoi elementi di base, in modo da vedere quali proprietà dei punti?t % E esso soddisfa: % è la distanza in norma A al quadrato calcolata a partire dal punto T % fino al centro di massa e ; 4 % d % rappresenta l errore in norma A al quadrato sostenuta da T % con e pesando l appartenenza di T % al cluster i; P 4 % d ' % è la somma dei quadrati dell errore in norma A dovuta alla sostituzione parziale di T % con tutte le c dei centri?e E; %' P ' 4 % d % è la somma pesata degli errori in norma A dovuta alla sostituzione di Y con v. L esponente m controlla i pesi relativi collocati su ciascun errore al quadrato %. Se m ha un valore prossimo ad 1, le partizioni diventano sempre più compatte. Mentre con un valore pari ad 1, le partizioni saranno necessariamente compatte. L altro parametro di c d che merita una menzione speciale è il peso della matrice A. Questa matrice determina la forma ottimale che i cluster assumono in i. Affinché ogni norma su i sia un prodotto interno, si utilizza la seguente formula: Pagina 63

68 Capitolo III Clustering di forme semi-supervisionato, T m n f r 8 ed inoltre ci sono infiniti modi per calcolare la norma A nella equazione (6). L algoritmo FCM consente di scegliere tra tre norme, ognuna indotta da una specifica matrice dei pesi. Le norme da utilizzare nell equazione (6) corrispondono a: o norma euclidea: A I; o norma diagonale: A D r v ; o norma di Mahalonobis: A C r v. Un clustering ottimale di Y è definito come coppie: 1, x ey" che minimizzano localmente c d. Nel caso in cui il valore di m è maggiore di 1, se T % G e z { per tutte le j e k, dovrà essere ottimale localmente per tutte le c d soltanto se: e { %' 4 } % d T % ~ 4 % } d 1 J J 9 %' 4 } % $ % z% P!' /dv v 1 J \ J, 1 J J 9N dove % T % e { m. Le condizioni espresse nell equazione (9) sono necessarie ma non sufficienti DESCRIZIONE DELL ALGORITMO Sia dato il coefficiente X R1, detto costante di fuzzificazione o fuzziness; l algoritmo ha la seguente struttura: 1. generare una partizione P casuale, con?f,, f E; Pagina 64

69 Capitolo III Clustering di forme semi-supervisionato 2. calcolare le coordinate dei centroidi tramite la formula seguente:! %' 4 % d 5 %! d 4! in cui! è la coordinata j-esima del vettore rappresentante il centroide del cluster i- esimo. Questa formula equivale a minimizzare c d 1, con U fissato; 3. aggiornare la partizione tramite la formula seguente: 4 %!' 1 5 % *5 %! * con 1,, Q e \ 1,,. Questa formula equivale a minimizzare c d :, con V fissato; 4. iterare i passi 2 e 3 finché due partizioni successive non risultano abbastanza vicine. Per misurare la distanza tra due partizioni fuzzy si opera come segue: o si indica con 1 v la matrice associata alla partizione generata all i-esima iterazione. La distanza tra e! è definita come segue:,! " *1 1! * o il processo termina all iterazione m se d, dv k ˆ con ˆ errore massimo ammissibile. L algoritmo FCM consiste, quindi, nello scegliere una partizione fuzzy inizialmente arbitraria P, applicare la formula al passo 2 per calcolare i centroidi e quindi applicare la formula al passo 3 per aggiornare P. Si applicano iterativamente i passi 2 e 3 finché la differenza tra due partizioni successive diventa minore di un numero reale positivo fissato a Pagina 65

70 Capitolo III Clustering di forme semi-supervisionato priori. Equivalentemente, si può partire da un insieme di centroidi arbitrari ed applicare alternativamente le formule precedenti per calcolare partizioni e prototipi. Per quanto riguarda l esponente m utilizzato nella funzione obiettivo, ci sarebbero alcune precisazioni da fare. Se m ha un valore pari ad 1, gli unici gradi di appartenenza degli oggetti ai cluster prodotti dall algoritmo sono 0 e 1, ed ogni oggetto appartiene quindi ad un solo cluster. Viceversa, se X, il valore della funzione c d. In generale, maggiore è il valore di m, più fuzzy sono i valori delle appartenenze ai cluster, mentre per m uguale ad 1, tali valori tendono a 0 oppure 1. Poiché non esistono formule per calcolare il valore ottimale di m, occorre effettuare diverse prove per diversi valori di questo parametro. Di solito, nella pratica, non si conosce nemmeno il numero di cluster per cui vengono effettuate varie prove anche per la ricerca di tale parametro. In Matlab viene fornita la seguente funzione, la quale implementa l algoritmo Fuzzy C-Means: [V, U, OBJ_FCN] = FCM(DATA, C) dove: C rappresenta il numero dei cluster; DATA è una matrice S x R, dove S è il numero delle sessioni ed R è il numero di coordinate di ciascun punto; V è una matrice C x R, contenente le coordinate di ciascun centroide nelle righe della matrice; U è una matrice CxS, contenente i gradi di appartenenza di ciascun punto a ciascun cluster; OBJ_FCN rappresenta una matrice contenente i valori della funzione obiettivo. Pagina 66

71 Capitolo III Clustering di forme semi-supervisionato I DATI I dati di input dell algoritmo FCM sono rappresentati da matrici i cui vettori sono costituiti da valori numerici tutti compresi tra 0 ed 1. In output avremo le seguenti matrici: o la matrice dei prototipi o centri, i cui vettori sono costituiti di valori numerici compresi tra 0 e 1, contiene le coordinate di ciascun prototipo; o la matrice dei gradi di membership, formata da valori numerici compresi tra 0 e 1, la cui somma, per ogni cluster, è uguale a 1; o la matrice obj_fcn, costituita da valori numerici, e contiene i valori della funzione obiettivo ed il numero dei suoi elementi, ed avremo tanti valori quante sono le iterazioni eseguite dell algoritmo. 3.3 ALGORITMO FUZZY C-MEANS SEMI-SUPERVISIONATO Nell approccio proposto per l annotazione di forme, si possono identificare principalmente due fasi: i. clustering di forme semi-supervisionato per la scoperta automatica dei prototipi delle forme, i quali rappresentano un certo numero di categorie semantiche; ii. annotazione fuzzy di forme. Come si può osservare dalla figura riportata qui di seguito, l input per il processo di annotazione è rappresentato da una collezione di forme espresse tramite l utilizzo delle coordinate del contorno. Tutte le coordinate delle forme sono descritte attraverso i descrittori di Fourier. Tra i differenti approcci proposti per la descrizione delle informazioni relative alla forma, i descrittori di Fourier sono ben noti al giorno d oggi per fornire robustezza e invarianza, ottenendo una buona efficienza nell indicizzazione e nel recupero di forme [87]. Pagina 67

72 Capitolo III Clustering di forme semi-supervisionato Shape Shape Description Database Shape Descriptors Domain Knowledge Semi-Supervised Shape Clustering Shape Prototypes Unlabeled Shapes Fuzzy Shape Labeling Labeled Shapes Figura 3.3: Panoramica dell approccio proposto Le caratteristiche dei descrittori di Fourier (Fourier Descriptor) sono le seguenti: a. dominio delle feature: un FD è ottenuto da un dominio spettrale; b. dimensioni: la dimensione del FD è costante una volta scelto il numero dei coefficienti; c. matching: il matching di due insiemi di FD è bassato sul calcolo della semplice distanza city block tra due vettori caratteristici di dimensione 10; d. tipo di caratteristiche calcolate: FD cattura sia caratteristiche globali che locali; e. influenza di parametri o limiti: per i FD, il solo parametro è il numero delle feature FD; f. rappresentazione gerarchica: FD supportano una rappresentazione gerarchica grezza; g. indicizzazione efficiente: FD è adatto per essere organizzato in una struttura dati efficiente. Pagina 68

73 Capitolo III Clustering di forme semi-supervisionato I descrittori di Fourier rappresentano il contorno esterno di una forma attraverso la media di un limitato numero di coefficienti nel dominio delle frequenze. Poiché tali coefficienti contengono informazioni circa la dimensione, l orientazione e la posizione delle forma, essi devono essere adeguatamente normalizzati per ottenere proprietà invarianti rispetto alle trasformazioni. In aggiunta, per ottenere una descrizione compatta della forma, un approccio comune è mantenere soltanto un sottoinsieme dei coefficienti di Fourier, che corrispondono a quelli aventi una frequenza più vicina allo zero [88], [89]. La scelta di un appropriato numero M di coefficienti da utilizzare deve sacrificare la precisione nel rappresentare il contorno originale con compattezza e semplicità della rappresentazione. Indichiamo con,, Œ la rappresentazione della forma di un oggetto attraverso la media dei suoi M descrittori di Fourier. Una volta rappresentate tutte le possibili forme attraverso i descrittori di Fourier, il processo di annotazione delle forme può essere avviato. Nei paragrafi che seguono, verranno illustrati in modo dettagliato le due fasi di cui il processo si compone CLUSTERING DI FORME SEMI-SUPERVISIONATO Nel primo passo, un insieme di prototipi di forme è definito automaticamente applicando un processo di clustering ad un gruppo di forme simili, definendo così un certo numero di cluster e rappresentando ognuno di essi attraverso la media delle forme prototipali. Per questo scopo, si è utilizzato l algoritmo di clustering FCM (Fuzzy C-Means), a cui è stato aggiunto un meccanismo di supervisione parziale, che verrà descritto qui di seguito. Prendiamo Ž! come un insieme di N forme rappresentate dai descrittori di! ' Fourier e K uguale ad un certo numero di cluster, che si potrà definire prima dell inizio del processo. Con denotiamo un piccolo insieme di forme etichettate e con N ŽN!! ' un vettore booleano definito nel seguente modo: N! U 1 X! è W WWW 0 WXW 10 Analogamente, i valori di appartenenza delle forme etichettate al cluster sono stati inseriti all interno di una matrice, definita nel seguente modo: Pagina 69

74 Capitolo III Clustering di forme semi-supervisionato >!% \ 1,., 3 M 1,.., 11 Il clustering semi-supervisionato lavora esattamente come l algoritmo FCM (descritto nel paragrafo 2.2). Esso è un processo che estrae iterativamente K cluster attraverso la minimizzazione della funzione obiettivo obj, la quale è stata modificata rispetto a quella originale presente nel Fuzzy C-Means, in quanto è stata aggiunta la componente di supervisione espressa nella forma di b e F e definita come segue: 7 $ $ 4!% d %'!' 7!% $ $4!% N!!% d!% %'!' 12 dove djk rappresenta la distanza Euclidea tra la forma sj e il centro del k-esimo cluster, m (coefficiente di fuzzificazione) è un qualsiasi numero reale più grande di 1 ed α è un parametro utilizzato per bilanciare la componente supervisionata e quella non supervisionata del processo di clustering. Il valore della componente alfa è proporzionale al seguente rapporto: 4X X W WW 4X WW X ed esso assicura che l impatto delle forme etichettate non sia ignorato durante il processo di clustering. Inoltre più alto sarà il valore di alfa e più alto sarà l impatto derivante dalla componente supervisionata. Il secondo termine della funzione obiettivo cattura le differenze fra l autentica appartenenza delle forme (incapsulate in F) e l appartenenza calcolata dall algoritmo. L obiettivo da raggiungere è che per le forme etichettate, questi valori coincidano. Per minimizzare la funzione obiettivo, si fissano i valori dei prototipi dei cluster e rilevando che le colonne di U sono indipendenti, il clustering ha il compito di leggere il seguente problema di ottimizzazione vincolata: min % soggetto a P $ 4 % 1 ' 13 Pagina 70

75 Capitolo III Clustering di forme semi-supervisionato con K = 1,2,.,N dove: 7 % $ 4!% d!' 7!% $4!% N!!% d!%!' 14 e 4 % indica la K-esima colonna di U. Usando la tecnica dei moltiplicatori di Lagrange, il problema di ottimizzazione deve essere convertito nella forma di minimizzazione libera: 7 %, 4 % $ 4!% d!' 7!% $4!% N!!% " d!%!' 7 $ 4!% 1 15!' dove con λ si denota il moltiplicatore di Lagrange. La coppia, 4 % forma un punto stazionario della funzione ottimizzata se e soltanto se 7 œc % œ $ 4 %! 1!' 16 Ci sono quindi due strade da poter seguire: 1. settare il coefficiente di fuzzificazione ad un valore pari a 2; 2. per qualsiasi valore di p diverso da 2, le condizioni di ottimizzazione da utilizzare per alcuni sforzi computazionali sono 4 ž e, i quali sono collegati insieme nella forma di una certa equazione polinomiale le cui radici devono essere determinati numericamente. La funzione obiettivo O è minimizzata aggiornando la matrice di partizione U 1 4!% \ 1. 3 M nel seguente modo: Pagina 71

76 Capitolo III Clustering di forme semi-supervisionato 4!% N% 7 ' % 1 7!% ' ~ Ÿ % N %!% 18 Il termine 1 gioca un ruolo fondamentale nel fattore scalare, il quale può essere facilmente ignorato non avendo alcun impatto sul risultato del clustering. Analogamente assegnando a b un valore pari a 0, la matrice delle partizioni si aggiorna nel seguente modo: 4!% 1 % 7!% ~ ' 19 Il processo iterativo termina quando la differenza tra i valori della funzione obiettivo ottenuta in due iterazioni consecutive non supera un valore di soglia fissato a priori oppure se è raggiunto il massimo numero di iterazioni stabilito. Per quanto riguarda la scelta delle forme etichettate da etichettare, essa può essere realizzata in diversi modi. Nel primo modo, la conoscenza del dominio deve essere esplicitamente fornita da un esperto, il quale conosce le categorie di appartenenza di un certo numero di forme. Così l esperto può imporre il suo punto di vista circa la semantica di un numero di forme, fornendo anche la lista delle forme selezionate insieme alle etichette testuali che corrispondono alle relative categorie di appartenenza. Generalmente, l esperto decide di fornire le forme non chiare, ad esempio forme che risultano essere visivamente simili ad altre forme appartenenti a diverse categorie semantiche. Questo approccio è stato implementato in [90]. Un altro modo per acquisire la conoscenza del dominio, consiste nella selezione casuale di un insieme di forme da etichettare fra quelle presenti nella collezione. Questo approccio è stato proposto in [91]. In questo lavoro di tesi, è stato proposto anche un nuovo metodo per acquisire la conoscenza del dominio che consiste in una selezione automatica delle forme ottenuta analizzando i valori della matrice delle partizioni prodotta dall algoritmo Fuzzy C-Means. Infatti, si possono sfruttare i valori parziali di appartenenza per identificare le forme non chiare come forme aventi i gradi di appartenenza più vicino al valore ottenuto dal rapporto 1) 3. In accordo con ciò, per ogni forma! si calcola l indice di separabilità nel seguente modo: Pagina 72

77 Capitolo III Clustering di forme semi-supervisionato 7 Ψ !% %' 20 Si può notare che nel caso in cui tutti i valori di 4!% sono uguali a 1 ) 3, il valore di Ψ è pari a 0. Dall altro lato, se un valore di membership è uguale a 1, Ψ risulterà pari ad 1. Facendo riferimento a queste considerazioni, si è scelti come forme non chiare da etichettare quelle che hanno un valore dell indice di separabilità più vicino allo zero. Una volta terminato il processo di clustering, come risultato, l algoritmo fornirà una matrice di partizione fuzzy denotata con U contenente i gradi di appartenenza di ogni forma ad ogni cluster scoperto. Questi valori sono stati esplicitati per poter derivare una forma prototipale per ogni cluster. In pratica, per ogni cluster, la forma con il massimo valore di appartenenza è selezionata come prototipo. Con [ % è stata denotata la forma prototipale del cluster k. Conclusa la fase di derivazione dei prototipi, viene avviata la fase di annotazione manuale grazie all aiuto dell esperto di dominio, in accordo con un insieme C di categorie semantiche. Precisamente, ogni forma prototipale derivata è associata ad una etichetta testuale unica, la quale corrisponde alla categoria semantica rappresentata dal prototipo. Naturalmente, differenti forme prototipali possono convergere nello stesso contenuto semantico (cioè, molte forme differenti possono convergere nella stessa classe di oggetti), cioè K C. Alcuni prototipi però possono appartenere alla stessa categoria semantica: allora, tali prototipi avranno etichette identiche. Di conseguenza, molte forme prototipali avranno la stessa descrizione testuale ANNOTAZIONE FUZZY DI FORME L annotazione fuzzy di forme rappresenta la fase in cui avviene l effettiva annotazione delle forme. Ogni volta che una nuova forma è aggiunta al database delle forme, i suoi descrittori di Fourier! sono confrontati con i descrittori di Fourier dei tutti i prototipi [ % e successivamente sono calcolati i gradi di appartenenza della forma ai cluster. Essi sono calcolati utilizzando la seguente formula: Pagina 73

78 Capitolo III Clustering di forme semi-supervisionato! % 1 7 *! [ % * P' *! [ P * 21 dove *! [ % * rappresenta la distanza Euclidea calcolata tra i descrittori della forma e i K- esimi descrittori del prototipo. In questo modo, ogni oggetto della forma! è associato con un insieme fuzzy di etichette ª! definita come segue: ª! Ž!,!,.,! 22 dove! rappresenta il valore del grado di appartenenza della j-esima forma alla i-esima categoria semantica che sono ottenuti dal calcolo del valore massimo dei gradi di appartenenza della forma rispetto a tutti i prototipi [ % rappresentativi della i-esima categoria semantica, ossia:! max - «Ž! % 23 Si può quindi affermare che un oggetto di forma di solito appartiene a categorie semantiche multiple con differenti gradi di appartenenza. Ogni qualvolta una nuova forma è etichettata, i prototipi delle forme devono essere aggiornati al fine di tener conto delle informazioni derivanti dall associazione della nuova forma ad una data categoria semantica. Per realizzare ciò, si sceglie inizialmente la categoria semantica Q avente massimo grado di appartenenza della nuova forma etichettata e verrà effettuato l aggiornamento del prototipo visuale corrispondente a tale categoria. Se questo grado di appartenenza è maggiore di una soglia (nel nostro caso è pari a 0,5), tra cluster associati a tale categoria, si seleziona quello il cui prototipo ha distanza minima dalla nuova forma: [ min - «!, [ % " 24 Pagina 74

79 Capitolo III Clustering di forme semi-supervisionato Infine, viene calcolata la distanza media tra il prototipo determinato [ e tutte le forme del relativo cluster e quest ultimo con la forma etichettata. Il nuovo prototipo sarà rappresentato dalla forma avente valore minimo della distanza media. Quando il matching tra una nuova forma e i prototipi visuali di tutte le classi semantiche fornisce valori di appartenenza inferiori rispetto ad una data soglia, una nuova categoria viene aggiunta. Precisamente, i descrittori di Fourier di una nuova forma sono considerati come il prototipo visuale della nuova categoria semantica (cioè [ %! ). Allora, il prototipo creato recentemente è etichettato manualmente dall esperto di dominio con una keyword che descrive la nuova categoria semantica aggiunta. L utilizzo di forme prototipali, le quali rappresentano un livello intermedio di segni visuali, facilita il processo di annotazione, poiché solo un ridotto numero di forme deve essere etichettato manualmente. In secondo luogo, l uso dei prototipi semplifica il processo di ricerca in un sistema di ricerca. Inoltre, poiché qualsiasi query effettuata dall utente è probabile che corrisponda con elevato grado soltanto ad un piccolo numero di oggetti, un grande numero di confronti inutili è evitato durante la ricerca e si eseguono così solo i confronti con le forme prototipali anziché con la forma specifica. In altre parole, i prototipi svolgono la funzione di filtro che riduce velocemente lo spazio di ricerca mentre gli oggetti vengono differenziati. Algoritmo: Siano date n forme non etichettate. Il numero di forme da etichettare è stato calcolato nel seguente modo: X W WW 4X X WW W W 100 [. X W WW dove la percentuale di forme da etichettare varia tra il 5 e il 30%. CONFIGURAZIONE: scelta delle forme da etichettare: l utente può scegliere tra 3 metodi: i. manuale: si avvale del supporto di un esperto del dominio; Pagina 75

80 Capitolo III Clustering di forme semi-supervisionato ii. random: la scelta avviene in modo totalmente causale, in quanto è l algoritmo a scegliere le forme; iii. automatica: utilizza le forme classificate in modo errato dall algoritmo FCM, e vengono scelte le prime n forme da etichettare; creazione della matrice F, la quale come abbiamo già detto in precedenza contiene solo 0 e 1. CLUSTERING SEMI-SUPERVISIONATO: avvio del processo di clustering semi-supervisionato, il quale utilizza come dati di input: o la matrice dei dati di training; o il numero dei cluster; o la matrice F (indica le forme etichettate con una delle tre tipologie di etichettatura). ed ottenendo come output: o la matrice dei centri; o la matrice di membership (contiene i gradi di appartenenza di ogni singola forma ai cluster creati); o i valori della funzione obiettivo. creazione dei cluster: in input riceve o la matrice di membership; o la matrice dei dati; o la matrice delle etichette relativa alle forme; o la matrice degli indici relativa alle forme. Come output avremo i cluster contenenti le forme raggruppate per categoria. Il numero dei cluster ottenuto sarà pari al numero dei cluster fornito in input al processo di clustering; Pagina 76

81 Capitolo III Clustering di forme semi-supervisionato creazione del prototipo per tutti i cluster creati: identifica come prototipo quello avente massimo grado di appartenenza al cluster; etichettatura del cluster in base al prototipo identificato: al cluster viene associata l etichetta della forma prototipale; ANNOTAZIONE FUZZY: creazione della matrice di appartenenza delle forme di test ai cluster derivati dal processo di clustering. Questa passo restituirà come output: o la matrice di appartenenza, contenente i gradi di appartenenza delle forme di test ai cluster; o la matrice dei prototipi, contenente i descrittori di Fourier dei prototipi; o la matrice delle etichette, contenente le etichette delle forme di test. avvio della fase di test: si confronta la matrice delle etichette ottenuta come output dal passo precedente con la matrice delle etichette di test, in modo da verificare il numero di forme classificate correttamente; calcolo dei valori di precision e recall per ciascuna categoria semantica: 4X X W WWW WWXW 4X WW X W WWW 4WXWXW 4X X W WWW WWXW 4X WW X W WWW X4 XW Pagina 77

82 CAPITOLO IV SPERIMENTAZIONE Pagina 78

83 In questo capitolo verranno presentate le due sperimentazioni effettuate, la prima volta a valutare le capacità dell algoritmo implementato e la seconda utilizzata per valutare le performance del processo di retieval. In particolare, si descriverà la modalità con cui è stata condotta la sperimentazione ed in seguito verranno riportati i risultati (grafici, tabelle, ecc.) relativi ad ogni sperimentazione. Il capitolo si conclude con le valutazioni dei risultati ottenuti per entrambe le sperimentazioni. 4.1 INTRODUZIONE Per valutare l efficacia dell algoritmo proposto in questo lavoro di tesi, sono stati eseguiti una serie di esperimenti utilizzando come data-set di riferimento Surrey Fish (reperibile al seguente indirizzo Esso è un data-set di immagini di forme di specie marine dell università del Surrey composto da 1100 forme, ed ogni file contiene le coordinate dei punti che a loro volta formano il contorno della forma di ciascun animale marino. Shark Ueel Tonguefish Crustacean Eel Sole Ray Seamoth Seahorse Pipefish Figura 4.1: Immagini di esempio del data-set di riferimento Nella sperimentazione condotta è stata selezionata solamente una parte del data-set preso in considerazione, ovvero si sono scelte 265 forme cercando di includere tutte le 10 categorie semantiche presenti al suo interno. Una volta selezionate le 265 forme, si è proceduti ad una classificazione manuale, come si può vedere dalla tabella riportata qui di seguito: Pagina 79

84 CATEGORIA TRAINING TESTING Shark 53 5 Ueel 18 2 Ray 37 4 Eel 23 3 Pipefish 15 1 Tonguefish 17 2 Sole 47 5 Seamoth 10 1 Seahorse 10 1 Crustacean 10 1 TOTALE Tabella 4.1: Suddivisione delle categorie presenti nel data-set Questa classificazione manuale è stata utilizzata come base per valutare le performance del modello di annotazione proposto. Per ogni forma del data-set, sono stati calcolati i descrittori di Fourier e successivamente sono stati scelti i primi 32 coefficienti più rappresentativi della forma. Tali numeri sono stati stabiliti in maniera empirica sulla base di esperimenti preliminari in cui si è notato che il numero dei coefficienti fornisce un buon compromesso tra compattezza e accuratezza della rappresentazione della forma. L insieme dei 265 descrittori di forma è stato suddivisi in due parti (come si può osservare dalla tabella 4.1): il 90% rappresenta il training set utilizzato per la scoperta dei prototipi di forma, mentre il rimanente 10% rappresenta il test set utilizzato nel processo effettivo di annotazione. Per poter ottenere risultati più attendibili è stata utilizzata la procedura della fold cross validation, infatti ogni esperimento è stato eseguito 10 volte per ognuna delle 3 tipologie di etichettatura utilizzata (manuale, automatica e random). Nella serie di esperimenti eseguiti, ci si è principalmente interessati ai prototipi di forma derivati, i quali rappresentano un certo numero di categorie semantiche ed inoltre si è valutata l'accuratezza dell annotazione di forma. La fase di sperimentazione si suddivide principalmente in due fasi: Pagina 80

85 i. nella prima fase si esegue 10 volte l algoritmo sul data-set di training in modo da ottenere i prototipi di forma; ii. nella seconda fase viene scelta la prova migliore per ogni tipologia di etichettatura e si esegue la fase di annotazione fuzzy delle forme. Per la sperimentazione relativa al retrieval, si utilizzeranno i cluster e i prototipi di forma ottenuti dall algoritmo semi-supervisionato. Nei paragrafi seguenti vengono riportati i risultati ottenuti dalle due sperimentazioni eseguite. 4.2 SPERIMENTAZIONE ALGORITMO FUZZY C-MEANS NON SUPERVISIONATO Per poter valutare l idoneità dell algoritmo implementato, sono state effettuate delle prove utilizzando l algoritmo FCM non supervisionato. Esso è stato eseguito sul training set variando sia il numero dei cluster da 9 a 15 (quando il numero dei cluster è pari a 10 esso coincide con il numero delle categorie) e sia il coefficiente di fuzzificazione m da 1.5 a 3. L esperimento è stato eseguito 10 volte come già accennato nel paragrafo precedente. Riportiamo qui di seguito i risultati delle prove migliori ottenuti per ogni caso: 1. Primo caso: numero di cluster pari a 9 Cluster m = 1.5 m = 2 m = 2.5 m = 3 1 Ueel 12 Ueel 12 Shark 22 Sole 29 2 Eel 19 Seamoth 10 Shark 22 Ueel 14 3 Shark 28 Sole 21 Sole 4 Shark 20 4 Sole 40 Seahorse 8 Ray 25 Shark 24 5 Seahorse 9 Ray 32 Ray 10 Shark 2 6 Ray 33 Sole 19 Sole 29 Sole 3 7 Seamoth 10 Eel 19 Ueel 12 Ray 19 8 Crustacean 10 Shark 19 Sole 2 Ray 2 9 Shark 22 Shark 24 Eel 19 Eel 19 Tabella 4.2: Risultati algoritmo FCM con numero di cluster pari a 9 Pagina 81

86 2. Secondo caso: numero di cluster pari a 10 Cluster m = 1.5 m = 2 m = 2.5 m = 3 1 Sole 15 Shark 23 Seahorse 8 Sole 6 2 Shark 10 Eel 18 Eel 18 Ueel 14 3 Ray 33 Ray 18 Ueel 12 Shark 21 4 Sole 29 Shark 4 Sole 31 Ray 31 5 Seahorse 9 Ray 15 Ray 12 Shark 12 6 Ueel 12 Ueel 12 Shark 25 Ray 25 7 Shark 19 Sole 12 Shark 19 Sole 19 8 Shark 22 Sole 29 Sole 7 Sole 7 9 Eel 18 Seamoth 10 Ray 17 Sole Seamoth 10 Shark 19 Sole 2 Eel 2 Tabella 4.3: Risultati algoritmo FCM con numero di cluster pari a Terzo caso: numero di cluster pari a 11 Cluster m = 1.5 m = 2 m = 2.5 m = 3 1 Eel 19 Ueel 12 Ueel 12 Sole 16 2 Crustacean 9 Shark 10 Tonguefish 1 Sole 4 3 Shark 20 Seahorse 8 Ray 9 Ueel 14 4 Ueel 8 Sole 5 Shark 13 Ray 18 5 Shark 30 Shark 17 Shark 10 Shark 2 6 Seamoth 10 Ray 13 Shark 1 Eel 19 7 Seahorse 9 Shark 21 Sole 29 Shark 14 8 Ueel 8 Seamoth 10 Seamoth 10 Seahorse 9 9 Sole 29 Ray 20 Ray 20 Shark Ray 31 Eel 18 Shark 24 Sole 5 11 Sole 15 Sole 28 Eel 18 Shark 13 Tabella 4.4: Risultati algoritmo FCM con numero di cluster pari a 11 Pagina 82

87 4. Quarto caso: numero di cluster pari a 12 Cluster m = 1.5 m = 2 m = 2.5 m = 3 1 Shark 25 Eel 16 Eel 17 Ray 5 2 Sole 15 Shark 17 Shark 26 Ray 7 3 Tonguefish 10 Shark 22 Sole 11 Sole 13 4 Seahorse 9 Shark 6 Ray 24 Sole 14 5 Ueel 8 Sole 18 Sole 11 Crustacean 8 6 Shark 19 Seamoth 10 Shark 1 Ray 12 7 Seamoth 10 Seahorse 7 Shark 10 Ueel 14 8 Crustacean 9 Ray 13 Ray 10 Shark 14 9 Sole 28 Ueel 12 Sole 2 Eel Ray 31 Sole 15 Sole 10 Sole 9 11 Ueel 8 Sole 9 Sole 6 Shark Eel 18 Ray 20 Ueel 12 Shark 16 Tabella 4.5: Risultati algoritmo FCM con numero di cluster pari a Quinto caso: numero di cluster pari a 13 Cluster m = 1.5 m = 2 m = 2.5 m = 3 1 Ueel 8 Shark 2 Sole 4 Sole 8 2 Sole 14 Pipefish 6 Sole 4 Sole 4 3 Shark 14 Sole 12 Sole 20 Shark 10 4 Crustacean 9 Eel 15 Shark 20 Sole 7 5 Shark 19 Shark 21 Ueel 12 Shark 19 6 Seahorse 9 Ueel 12 Ray 8 Sole 10 7 Sole 29 Ray 13 Eel 17 Ray 15 8 Ueel 8 Shark 18 Sole 7 Shark 15 9 Eel 16 Sole 4 Ray 19 Ueel Seamoth 10 Sole 18 Shark 6 Sole 8 11 Ray 32 Seamoth 10 Shark 19 Seahorse 8 12 Shark 12 Ray 20 Sole 4 Eel Shark 6 Sole 7 Seamoth 10 Ray 4 Tabella 4.6: Risultati algoritmo FCM con numero di cluster pari a 13 Pagina 83

88 6. Sesto caso: numero di cluster pari a 14 Cluster m = 1.5 m = 2 m = 2.5 m = 3 1 Seahorse 9 Shark 16 Shark 6 Shark 3 2 Ray 10 Sole 6 Sole 3 Ray 13 3 Crustacean 9 Sole 10 Shark 22 Shark 11 4 Eel 15 Ray 2 Sole 2 Seahorse 8 5 Ray 24 Seahorse 8 Sole 2 Ray 7 6 Ueel 7 Sole 19 Seamoth 10 Shark 1 7 Shark 6 Ueel 12 Shark 17 Sole 4 8 Sole 14 Ray 11 Ray 18 Eel 15 9 Seamoth 10 Eel 15 Sole 14 Ueel Shark 14 Pipefish 6 Ray 9 Shark Shark 8 Shark 10 Ueel 12 Sole Ueel 8 Shark 14 Sole 11 Sole 6 13 Shark 23 Ray 20 Sole 4 Ray 3 14 Shark 29 Seamoth 10 Eel 17 Sole 12 Tabella 4.7: Risultati algoritmo FCM con numero di cluster pari a Settimo caso: numero di cluster pari a 15 Cluster m = 1.5 m = 2 m = 2.5 m = 3 1 Sole 22 Seamoth 10 Eel 15 Sole 4 2 Seahorse 9 Ray 17 Sole 2 Shark 2 3 Shark 11 Seamoth 3 Ray 18 Ueel 14 4 Shark 15 Shark 3 Sole 2 Ray 5 5 Ray 28 Ueel 8 Shark 1 Seahorse 8 6 Tonguefish 10 Pipefish 7 Ray 4 Shark 11 7 Eel 17 Seahorse 7 Ray 6 Sole 9 8 Ueel 7 Shark 15 Ueel 12 Shark 12 9 Sole 6 Sole 20 Sole 8 Eel Sole 7 Sole 12 Seamoth 10 Sole 9 11 Ueel 6 Eel 15 Shark 14 Sole 9 12 Sole 10 Ray 16 Pipefish 7 Shark Seamoth 10 Shark 15 Sole 21 Shark 7 14 Shark 18 Shark 12 Sole 7 Ray Ueel 3 Ueel 8 Shark 21 Ray 3 Tabella 4.8: Risultati algoritmo FCM con numero di cluster pari a 15 Pagina 84

89 La figura 4.2 riporta i risultati medi delle 10 prove eseguite variando il numero dei cluster e i valori del coefficiente di fuzzificazione. 82 DCC ,5 2 2,5 3 Valori del coefficiente di fuzzificazione K=9 K=10 K=11 K=12 K=13 K=14 K=15 Figura 4.2: Valori DCC ottenuti con l algoritmo FCM non supervisionato Si può osservare che i valori delle cardinalità di categoria dominanti (DCC) sono influenzati dai parametri di clustering. Infatti, i valori DCC migliorano all aumentare del numero dei cluster. Inoltre, indipendentemente dal numero di cluster, i valori DCC più elevati sono ottenuti quando il valore del coefficiente di fuzzificazione è pari a 1.5. Nei paragrafi successivi verranno analizzati in dettaglio i casi con numero di cluster rispettivamente pari a 10 e 15. Pagina 85

90 4.3 SPERIMENTAZIONE ALGORITMO FUZZY C-MEANS SEMI- SUPERVISIONATO SPERIMENTAZIONE CON NUMERO DI CLUSTER PARI A 10 La sperimentazione sull algoritmo FCM dotato del meccanismo di supervisione è stata eseguita utilizzando le tre tipologie di etichettatura descritte nel capitolo 3 e variando la percentuale di forme da etichettare dal 5% al 30%. È stato osservato che le migliori partizioni di forme si ottengono fissando in tutte le prove il valore del coefficiente di fuzzificazione pari a 2. Mentre il parametro α è stato modificato di volta in volta in modo da renderlo proporzionale alla percentuale di forme da etichettare (vedi paragrafo 3.3.1): 4X X W WW 4X WW X dove il numero totale di forme è pari a 240 e il numero di forme cambia di volta in volta. Riportiamo qui di seguito il valore di α per ognuno dei sei casi: 1. Primo caso: 5% di forme da etichettare - α = (12/240) = Secondo caso: 10% di forme da etichettare - α = (24/240) = Terzo caso: 15% di forme da etichettare - α = (36/240) = Quarto caso: 20% di forme da etichettare - α = (48/240) = Quinto caso: 25% di forme da etichettare - α = (60/240) = Sesto caso: 30% di forme da etichettare - α = (72/240) = 0.3 Nei paragrafi successivi verranno riportati i risultati della prova migliore per ogni tipologia di etichettatura e relativi alla scoperta dei prototipi di forma. Pagina 86

91 ETICHETTATURA MANUALE Con l utilizzo di questa tipologia di etichettatura, viene effettuata insieme all esperto di dominio una scelta manuale delle forme da etichettare. Questa scelta è ricaduta su quelle presenti in un cluster di appartenenza diverso da quello ad esso associato. Qui di seguito vengono riportate le composizioni ottenute per ciascun caso: i. Caso 5%: numero di forme da etichettare pari a Tonguefish 2 - Pipefish 3 - Crustacean 4 - Sole 5 -Shark 6 - Eel 7 - Ueel 8 - Tonguefish 9 - Seahorse 10 - Shark 11 - Ray 12 - Seamoth Tabella 4.9: Composizione della matrice cat_clust con numero di forme da etichettare pari a 12 ii. Caso 10%: numero di forme da etichettare pari a Tonguefish 2 - Tonguefish 3 - Pipefish 4 - Pipefish 5 - Crustacean 6 - Sole 7 - Shark 8 - Shark 9 - Pipefish 10 - Eeel Pagina 87

92 11 - Eel 12 - Ueel 13 - Ueel 14 - Tonguefish 15 - Pipefish 16 - Sole 17 - Tonguefish 18 - Seahorse 19 - Sole 20 - Ueel 21 - Shark 22 - Ray 23 - Ray 24 - Seamoth Tabella 4.10: Composizione della matrice cat_clust con numero di forme da etichettare pari a 24 iii. Caso 15%: numero di forme da etichettare pari a Tonguefish 2 - Tonguefish 3 - Pipefish 4 - Pipefish 5 - Crustacean 6 - Sole 7 - Shark 8 - Shark 9 - Pipefish 10 - Eeel 11 - Eel 12 - Ueel 13 - Ueel 14 - Tonguefish 15 - Pipefish 16 - Sole 17 - Tonguefish 18 - Seahorse 19 - Sole 20 - Ueel 21 - Shark 22 - Ray 23 - Ray 24 - Seamoth 25 - Ueel Pagina 88

93 26 - Sole 27 - Tonguefish 28 - Seahorse 29 - Pipefish 30 - Tonguefish 31 - Eel 32 - Tonguefish 33 - Crustecan 34 - Ray 35 - Shark 36 - Pipefish Tabella 4.11: Composizione della matrice cat_clust con numero di forme da etichettare pari a 36 iv. Caso 20%: numero di forme da etichettare pari a Tonguefish 2 - Tonguefish 3 - Pipefish 4 - Pipefish 5 - Crustacean 6 - Sole 7 - Shark 8 - Shark 9 - Pipefish 10 - Eeel 11 - Eel 12 - Ueel 13 - Ueel 14 - Tonguefish 15 - Pipefish 16 - Sole 17 - Tonguefish 18 - Seahorse 19 - Sole 20 - Ueel 21 - Shark 22 - Ray 23 - Ray 24 - Seamoth 25 - Ueel Pagina 89

94 26 - Sole 27 - Tonguefish 28 - Seahorse 29 - Pipefish 30 - Tonguefish 31 - Eel 32 - Tonguefish 33 - Crustecan 34 - Ray 35 - Shark 36 - Pipefish 37 - Pipefish 38 - Ueel 39 - Pipefish 40 - Tonguefish 41 - Tonguefish 42 - Eel 43 - Eel 44 - Eel 45 - Sole 46 - Tonguefish 47 - Ray 48 - Sole Tabella 4.12: Composizione della matrice cat_clust con numero di forme da etichettare pari a 48 v. Caso 25%: numero di forme da etichettare pari a Tonguefish 2 - Tonguefish 3 - Pipefish 4 - Pipefish 5 - Crustacean 6 - Sole 7 - Shark 8 - Shark 9 - Pipefish 10 - Eeel 11 - Eel 12 - Ueel 13 - Ueel 14 - Tonguefish 15 - Pipefish Pagina 90

95 16 - Sole 17 - Tonguefish 18 - Seahorse 19 - Sole 20 - Ueel 21 - Shark 22 - Ray 23 - Ray 24 - Seamoth 25 - Ueel 26 - Sole 27 - Tonguefish 28 - Seahorse 29 - Pipefish 30 - Tonguefish 31 - Eel 32 - Tonguefish 33 - Crustecan 34 - Ray 35 - Shark 36 - Pipefish 37 - Pipefish 38 - Ueel 39 - Pipefish 40 - Tonguefish 41 - Tonguefish 42 - Eel 43 - Eel 44 - Eel 45 - Sole 46 - Tonguefish 47 - Ray 48 - Sole 49 - Tonguefish 50 - Ray 51 - Ueel 52 - Ray 53 - Sole 54 - Pipefish 55 - Pipefish 56 - Sole 57 - Sole 58 - Ray 59 - Shark 60 - Shark Tabella 4.13: Composizione della matrice cat_clust con numero di forme da etichettare pari a 60 Pagina 91

96 vi. Caso 30%: numero di forme da etichettare pari a Tonguefish 2 - Tonguefish 3 - Pipefish 4 - Pipefish 5 - Crustacean 6 - Sole 7 - Shark 8 - Shark 9 - Pipefish 10 - Eeel 11 - Eel 12 - Ueel 13 - Ueel 14 - Tonguefish 15 - Pipefish 16 - Sole 17 - Tonguefish 18 - Seahorse 19 - Sole 20 - Ueel 21 - Shark 22 - Ray 23 - Ray 24 - Seamoth 25 - Ueel 26 - Sole 27 - Tonguefish 28 - Seahorse 29 - Pipefish 30 - Tonguefish 31 - Eel 32 - Tonguefish 33 - Crustecan 34 - Ray 35 - Shark 36 - Pipefish 37 - Pipefish 38 - Ueel 39 - Pipefish 40 - Tonguefish 41 - Tonguefish 42 - Eel 43 - Eel 44 - Eel 45 - Sole Pagina 92

97 46 - Tonguefish 47 - Ray 48 - Sole 49 - Tonguefish 50 - Ray 51 - Ueel 52 - Ray 53 - Sole 54 - Pipefish 55 - Pipefish 56 - Sole 57 - Sole 58 - Ray 59 - Shark 60 - Shark 61 - Shark 62 - Tonguefish 63 - Shark 64 - Shark 65 - Tonguefish 66 - Shark 67 - Shark 68 - Shark 69 - Tonguefish 70 - Ray 71 - Sole 72 - Sole Tabella 4.14: Composizione della matrice cat_clust con numero di forme da etichettare pari a 72 Terminata la fase di scelta delle forme da etichettare, si è proceduti all esecuzione dell algoritmo per ognuno dei sei casi. Come risultato, avremo le seguenti matrici: a) matrice dei centri; b) matrice di memebership: contenente il valore del grado di appartenenza di ogni forma al singolo cluster; c) matrice dei cluster: contenente per ogni cluster le etichette delle forme presenti e il relativo indice; d) matrice dei prototipi: contiene l indice del prototipo estratto per ciascun cluster; Pagina 93

98 e) matrice delle etichette: contiene l etichetta di ogni singolo cluster, creata sulla base del prototipo del cluster. Le matrici di output verranno successivamente utilizzate nella fase di annotazione fuzzy delle forme. Qui di seguito riportiamo una tabella riepilogativa contenente il numero delle forme presenti in ogni cluster relativo alla prova migliore scelta per ognuno dei sei casi. 5% 10% 15% 20% 25% 30% Shark Ueel N.C Ray Eel N.C N.C N.C Pipefish N.C N.C N.C N.C N.C 10 Tonguefish N.C N.C 10 N.C Sole Seamoth N.C Seahorse N.C Crustacean N.C 9 N.C. N.C TOTALE Tabella 4.15: Tabella riepilogativa relativa alla etichettatura manuale Nella tabella si può osservare la presenza del termine N.C. (Non Classificato), il quale indica che non è stato possibile classificare il cluster ovvero al suo interno non è presente un numero di forme predominanti corrispondente alla forma ad esso associata. Ad esempio nel caso del 5% di forme da etichettare, il cluster è stato classificato come N.C. in quanto non è presente un numero prevalente di forme etichettate come Ueel, ma sono presenti altre tipologie di forme. La tabella riportata qui di seguito, mostra in dettaglio l associazione tra i cluster e le categorie nel caso del 30% di forme. Infatti per l annotazione si è decisi di scegliere solamente il caso del 30% per ogni tipologia di etichettatura, in quanto come si può ben notare dalla tabella vengono etichettate tutte le 10 categorie. Pagina 94

99 CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.16: Tabella relativa alla prova migliore dell etichettatura manuale Riportiamo gli istogrammi a barre relativi ai 10 cluster della prova identificata come migliore utilizzando una percentuale di forme da etichettare pari al 30%. 100 Cluster Cluster Pagina 95

100 100 Cluster Cluster Cluster Cluster Cluster Cluster Pagina 96

101 100 Cluster Cluster Figura 4.3: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Infine riportiamo la tabella relativa ai prototipi di forma estratti per i 10 cluster. Pagina 97

102 DCC ETICHETTA PROTOTIPO Cluster 1 94,4% Shark Cluster 2 100% Ueel Cluster 3 100% Ray Cluster % Eel Cluster % Pipefish Cluster % Tonguefish Cluster 7 100% Sole Cluster % Seamoth Cluster % Seahorse Cluster % Crustacean Tabella 4.17: Prototipi relativi alla prova migliore con etichettatura manuale Pagina 98

103 ETICHETTATURA RANDOM Con l utilizzo di questa tipologia di etichettatura, viene effettuata una scelta random da parte dell algoritmo delle forme da etichettare. Per poter effettuare questa scelta, è stata implementata una funzione, la quale genera un certo numero di forme casuali (definite dall utente). Qui di seguito vengono riportate le composizioni ottenute per ciascun caso: i. Caso 5%: numero di forme da etichettare pari a Shark 2 - Ray 3 - Shark 4 - Sole 5 - Shark 6 - Shark 7 - Shark 8 - Sole 9 - Shark 10 - Shark 11 - Ray 12 - Sole Tabella 4.18: Composizione della matrice cat_clust con numero di forme da etichettare pari a 12 ii. Caso 10%: numero di forme da etichettare pari a Sole 2 - Eel 3 - Shark 4 - Shark 5 - Shark 6 - Ray 7 - Sole 8 - Seahorse 9 - Shark 10 - Eel Pagina 99

104 11 - Sole 12 - Ray 13 - Seahorse 14 - Shark 15 - Ueel 16 - Tonguefish 17 - Shark 18 - Tonguefish 19 - Seamoth 20 - Sole 21 - Ray 22 - Ueel 23 - Tonguefish 24 - Tonguefish Tabella 4.19: Composizione della matrice cat_clust con numero di forme da etichettare pari a 24 iii. Caso 15%: numero di forme da etichettare pari a Shark 2 - Ray 3 - Shark 4 - Shark 5 - Ray 6 - Sole 7 - Seamoth 8 - Eel 9 - Ray 10 Crustacean 11 - Seamoth 12 - Ray 13 - Shark 14 - Ueel 15 - Tonguefish 16 - Sole 17 - Seamoth 18 - Seahorse 19 - Ray 20 Sole 21 - Eel 22 - Shark 23 - Ray 24 - Eel 25 - Seamoth Pagina 100

105 26 - Tonguefish 27 - Eel 28 - Shark 29 - Ray 30 - Tonguefish 31 - Ueel 32 - Seamoth 33 - Eel 34 - Seamoth 35 Pipefish 36 - Crustacean Tabella 4.20: Composizione della matrice cat_clust con numero di forme da etichettare pari a 36 iv. Caso 20%: numero di forme da etichettare pari a Tonguefish 2 - Sole 3 - Shark 4 - Shark 5 - Shark 6 - Sole 7 - Sole 8 - Eel 9 - Sole 10 Ray 11 - Pipefish 12 - Pipefish 13 - Ray 14 - Ray 15 - Shark 16 - Shark 17 - Shark 18 - Crustacean 19 - Ray 20 Sole 21 - Shark 22 - Sole 23 - Sole 24 - Ray 25 - Ray Pagina 101

106 26 - Eel 27 - Ray 28 - Crustacean 29 - Sole 30 - Tonguefish 31 - Seamoth 32 - Shark 33 - Ueel 34 - Pipefish 35 Sole 36 - Tonguefish 37 - Sole 38 - Sole 39 - Shark 40 - Ueel 41 - Seahorse 42 - Ray 43 - Shark 44 - Ray 45 -Sole 46 - Eel 47 - Sole 48 - Pipefish Tabella 4.21: Composizione della matrice cat_clust con numero di forme da etichettare pari a 48 v. Caso 25%: numero di forme da etichettare pari a Tonguefish 2 - Sole 3 - Pipefish 4 - Sole 5 - Shark 6 - Ueel 7 - Sole 8 - Crustacean 9 - Crustacean 10 Crustacean 11 - Pipefish 12 - Crustacean 13 - Crustacean 14 - Ueel 15 - Eel Pagina 102

107 16 - Ueel 17 - Shark 18 - Sole 19 - Pipefish 20 - Crustacean 21 - Ray 22 - Shark 23 - Sole 24 - Seamoth 25 Ray 26 - Eel 27 - Eel 28 - Shark 29 - Ray 30 - Seamoth 31 - Ray 32 - Shark 33 - Sole 34 - Ray 35 Ueel 36 - Tonguefish 37 - Ray 38 - Seamoth 39 - Crustacean 40 Shark 41 Shark 42 Shark 43 Seahorse 44 Pipefish 45 Pipefish 46 - Eel 47 - Shark 48 - Ray 49 - Ray 50 - Eel 51 - Sole 52 - Ray 53 - Ray 54 - Pipefish 55 - Pipefish 56 - Ueel 57 - Crustacean 58 - Ray 59 - Eel 60 - Ueel Tabella 4.22: Composizione della matrice cat_clust con numero di forme da etichettare pari a 60 Pagina 103

108 vi. Caso 30%: numero di forme da etichettare pari a Eel 2 - Shark 3 - Sole 4 - Ray 5 - Shark 6 - Ray 7 - Ueel 8 - Sole 9 - Tonguefish 10 Eel 11 - Sole 12 - Ray 13 - Sole 14 - Eel 15 - Seahorse 16 - Sole 17 - Sole 18 - Ray 19 - Tonguefish 20 - Sole 21 - Shark 22 - Shark 23 - Ueel 24 - Ray 25 Seahorse 26 - Sole 27 - Sole 28 - Shark 29 - Ueel 30 - Eel 31 - Sole 32 - Sole 33 - Eel 34 - Eel 35 Crustacean 36 - Sole 37 - Ueel 38 - Shark 39 - Ueel 40 Ray Pagina 104

109 41 Sole 42 - Sole 43 - Ray 44 - Shark 45 - Sole 46 - Ray 47 - Ray 48 - Sole 49 - Seahorse 50 - Ueel 51 - Eel 52 - Shark 53 - Ray 54 - Sole 55 Shark 56 - Shark 57 - Ray 58 - Pipefish 59 - Shark 60 - Ray 61 - Eel 62 - Shark 63 - Ray 64 - Ueel 65 Sole 66 - Sole 67 - Sole 68 - Tonguefish 69 - Eel 70 Sole 71 Sole 72 - Sole Tabella 4.23: Composizione della matrice cat_clust con numero di forme da etichettare pari a 72 Terminata la fase di scelta delle forme da etichettare, si è proceduti all esecuzione dell algoritmo per ognuno dei sei casi. In output avremo le stesse matrici ottenute nel caso dell etichettatura manuale. Qui di seguito riportiamo una tabella riepilogativa contenente il numero delle forme presenti in ogni cluster relativo alla prova migliore scelta per ognuno dei sei casi. Pagina 105

110 5% 10% 15% 20% 25% 30% Shark N.C Ueel Ray N.C Eel N.C N.C 21 Pipefish N.C N.C N.C N.C N.C N.C Tonguefish N.C N.C N.C N.C N.C N.C Sole Seamoth N.C Seahorse N.C Crustacean N.C N.C TOTALE Tabella 4.24: Tabella riepilogativa relativa alla etichettatura random Come nel caso dell etichettatura manuale, anche questa volta si può osservare nella tabella la presenza del termine N.C. (Non Classificato), il quale indica che non è stato possibile classificare il cluster ovvero al suo interno non è presente un numero di forme predominanti e corrispondente alla forma ad esso associata. La tabella riportata qui di seguito, mostra in dettaglio l associazione tra i cluster e le categorie nel caso del 30% di forme. Infatti anche per questa tipologia di etichettatura, si è decisi di scegliere per l annotazione solamente il caso del 30% per ogni tipologia di etichettatura, in quanto come si può ben notare dalla tabella vengono etichettate tutte le 10 categorie. Pagina 106

111 CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.25: Tabella relativa alla prova migliore dell etichettatura random Riportiamo gli istogrammi a barre relativi ai 10 cluster della prova identificata come migliore utilizzando una percentuale di forme da etichettare pari al 30%. 100 Cluster Cluster Pagina 107

113 100 Cluster Cluster Figura 4.4: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Infine riportiamo la tabella relativa ai prototipi estratti per i 10 cluster. Pagina 109

114 DCC ETICHETTA PROTOTIPO Cluster % Shark Cluster 2 100% Ueel Cluster % Ray Cluster % Eel Cluster % Pipefish Cluster % Tonguefish Cluster % Sole Cluster % Seamoth Cluster % Seahorse Cluster % Crustacean Tabella 4.26: Prototipi relativi alla prova migliore con etichettatura random Confrontando gli istogrammi a barre e i prototipi estratti dall algoritmo si può notare che nel cluster 5 anche se abbiamo un numero maggiore di forme etichettate come Shark, il prototipo estratto è un Pipefish. Questo è possibile in quanto il prototipo che viene estratto è Pagina 110

115 quello avente il grado maggiore di appartenenza al cluster ETICHETTATURA AUTOMATICA Con l utilizzo di questa tipologia di etichettatura, viene effettuata una scelta automatica da parte dell algoritmo delle forme da etichettare. Per poter effettuare questa scelta, è stata implementata una nuova funzione che utilizza la formula (19) descritta nel paragrafo Qui di seguito vengono riportate le composizioni ottenute per ciascun caso: i. Caso 5%: numero di forme da etichettare pari a Ueel 2 - Ueel 3 - Ueel 4 - Seamoth 5 - Ueel 6 - Ray 7 - Crustacean 8 - Ueel 9 - Ray 10 - Ray 11 - Sole 12 - Seahorse Tabella 4.27: Composizione della matrice cat_clust con numero di forme da etichettare pari a 12 Pagina 111

116 ii. Caso 10%: numero di forme da etichettare pari a Ueel 2 - Ueel 3 - Ueel 4 - Seamoth 5 - Ueel 6 - Ray 7 - Crustacean 8 - Ueel 9 - Ray 10 - Ray 11 - Sole 12 - Seahorse 13 - Ray 14 - Shark 15 - Ray 16 - Ueel 17 - Sole 18 - Seahorse 19 - Seahorse 20 - Seahorse 21 - Seahorse 22 - Seahorse 23 - Seahorse 24 - Seahorse Tabella 4.28: Composizione della matrice cat_clust con numero di forme da etichettare pari a 24 iii. Caso 15%: numero di forme da etichettare pari a 36 Pagina 112

117 1 - Ueel 2 - Ueel 3 - Ueel 4 - Seamoth 5 - Ueel 6 - Ray 7 - Crustacean 8 - Ueel 9 - Ray 10 - Ray 11 - Sole 12 - Seahorse 13 - Ray 14 - Shark 15 - Ray 16 - Ueel 17 - Sole 18 - Seahorse 19 - Seahorse 20 - Seahorse 21 - Seahorse 22 - Seahorse 23 - Seahorse 24 - Seahorse 25 - Ueel 26 - Sole 27 - Ray 28 - Crustacean 29 - Crustacean 30 - Crustacean 31 - Crustacean 32 - Crustacean 33 - Crustacean 34 - Crustacean 35 - Crustacean 36 - Seahorse Tabella 4.29: Composizione della matrice cat_clust con numero di forme da etichettare pari a 36 Pagina 113

118 iv. Caso 20%: numero di forme da etichettare pari a Ueel 2 - Ueel 3 - Ueel 4 - Seamoth 5 - Ueel 6 - Ray 7 - Crustacean 8 - Ueel 9 - Ray 10 - Ray 11 - Sole 12 - Seahorse 13 - Ray 14 - Shark 15 - Ray 16 - Ueel 17 - Sole 18 - Seahorse 19 - Seahorse 20 - Seahorse 21 - Seahorse 22 - Seahorse 23 - Seahorse 24 - Seahorse 25 - Ueel 26 - Sole 27 - Ray 28 - Crustacean 29 - Crustacean 30 - Crustacean 31 - Crustacean 32 - Crustacean 33 - Crustacean 34 - Crustacean 35 - Crustacean 36 - Seahorse 37 - Ray 38 - Seamoth 39 - Ray 40 - Sole Pagina 114

119 41 - Ueel 42 - Seamoth 43 - Crustacean 44 - Ueel 45 - Seahorse 46 - Sole 47 - Ray 48 - Sole Tabella 4.30: Composizione della matrice cat_clust con numero di forme da etichettare pari a 48 v. Caso 25%: numero di forme da etichettare pari a Ueel 2 - Ueel 3 - Ueel 4 - Seamoth 5 - Ueel 6 - Ray 7 - Crustacean 8 - Ueel 9 - Ray 10 - Ray 11 - Sole 12 - Seahorse 13 - Ray 14 - Shark 15 - Ray 16 - Ueel 17 - Sole 18 - Seahorse 19 - Seahorse 20 - Seahorse 21 - Seahorse 22 - Seahorse 23 - Seahorse 24 - Seahorse 25 - Ueel Pagina 115

120 26 - Sole 27 - Ray 28 - Crustacean 29 - Crustacean 30 - Crustacean 31 - Crustacean 32 - Crustacean 33 - Crustacean 34 - Crustacean 35 - Crustacean 36 - Seahorse 37 - Ray 38 - Seamoth 39 - Ray 40 - Sole 41 - Ueel 42 - Seamoth 43 - Crustacean 44 - Ueel 45 - Seahorse 46 - Sole 47 - Ray 48 - Sole 49 - Seamoth 50 - Ray 51 - Sole 52 - Ray 53 - Sole 54 - Ray 55 - Ray 56 - Ray 57 - Sole 58 - Shark 59 - Sole 60 - Ray Tabella 4.31: Composizione della matrice cat_clust con numero di forme da etichettare pari a 60 Pagina 116

121 vi. Caso 30%: numero di forme da etichettare pari a Ueel 2 - Ueel 3 - Ueel 4 - Seamoth 5 - Ueel 6 - Ray 7 - Crustacean 8 - Ueel 9 - Ray 10 - Ray 11 - Sole 12 - Seahorse 13 - Ray 14 - Shark 15 - Ray 16 - Ueel 17 - Sole 18 - Seahorse 19 - Seahorse 20 - Seahorse 21 - Seahorse 22 - Seahorse 23 - Seahorse 24 - Seahorse 25 - Ueel 26 - Sole 27 - Ray 28 - Crustacean 29 - Crustacean 30 - Crustacean 31 - Crustacean 32 - Crustacean 33 - Crustacean 34 - Crustacean 35 - Crustacean 36 - Seahorse 37 - Ray 38 - Seamoth 39 - Ray 40 - Sole Pagina 117

122 41 - Ueel 42 - Seamoth 43 - Crustacean 44 - Ueel 45 - Seahorse 46 - Sole 47 - Ray 48 - Sole 49 - Seamoth 50 - Ray 51 - Sole 52 - Ray 53 - Sole 54 - Ray 55 - Ray 56 - Ray 57 - Sole 58 - Shark 59 - Sole 60 - Ray 61 - Eel 62 - Shark 63 - Ray 64 - Shark 65 - Pipefish 66 - Shark 67 - Eel 68 - Pipefish 69 - Eel 70 - Eel 71 - Shark 72 - Shark Tabella 4.32: Composizione della matrice cat_clust con numero di forme da etichettare pari a 72 Terminata la fase di scelta delle forme da etichettare, si è proceduti all esecuzione dell algoritmo per ognuno dei sei casi. In output avremo le stesse matrici ottenute nel caso dell etichettatura manuale. Qui di seguito riportiamo una tabella riepilogativa contenente il numero delle forme presenti in ogni cluster relativo alla prova migliore scelta per ognuno dei sei casi. Pagina 118

123 5% 10% 15% 20% 25% 30% Shark Ueel Ray N.C Eel N.C N.C Pipefish N.C N.C N.C N.C N.C N.C Tonguefish N.C N.C N.C N.C N.C N.C Sole N.C Seamoth N.C Seahorse N.C Crustacean N.C N.C TOTALE Tabella 4.33: Tabella riepilogativa relativa alla etichettatura automatica Come nel caso dell etichettatura manuale, anche questa volta si può osservare nella tabella la presenza del termine N.C. (Non Classificato), il quale indica che non è stato possibile classificare il cluster ovvero al suo interno non è presente un numero di forme predominanti e corrispondente alla forma ad esso associata. La tabella riportata qui di seguito, mostra in dettaglio l associazione tra i cluster e le categorie nel caso del 30% di forme. Infatti anche per questa tipologia di etichettatura, si è decisi di scegliere per l annotazione solamente il caso del 30% per ogni tipologia di etichettatura, in quanto come si può ben notare dalla tabella vengono etichettate tutte le 10 categorie. Pagina 119

124 CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.34: Tabella relativa alla prova migliore dell etichettatura automatica Riportiamo gli istogrammi a barre relativi ai 10 cluster della prova identificata come migliore utilizzando una percentuale di forme da etichettare pari al 30%. 100 Cluster Cluster Pagina 120

126 100 Cluster Cluster Figura 4.5: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Infine riportiamo la tabella relativa ai prototipi estratti per i 10 cluster della prova. Pagina 122

127 DCC ETICHETTA PROTOTIPO Cluster % Shark Cluster 2 100% Ueel Cluster 3 100% Ray Cluster % Eel Cluster % Shark Cluster % Sole Cluster % Sole Cluster 8 100% Seamoth Cluster 9 100% Seahorse Cluster % Crustacean Tabella 4.35: Prototipi relativi alla prova migliore con etichettatura automatica Pagina 123

128 FUZZY C-MEANS NON SUPERVISIONATO Come già accennato nel paragrafo 4.2, riportiamo i risultati relativi all esecuzione dell algoritmo FCM non supervisionato con numero di cluster pari a 10 e coefficiente di fuzzificazione (m) pari a 1.5. Nel caso dell algoritmo FCM, non si è reso necessario effettuare la scelta delle forme da etichettare come nel caso dell algoritmo semi-supervisionato, in quanto esse sono scelte automaticamente dall algoritmo. CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.36: Tabella relativa alla prova migliore dell algoritmo FCM non supervisionato Riportiamo gli istogrammi a barre relativi ai 10 cluster della prova identificata come migliore per l algoritmo FCM non supervisionato. Pagina 124

130 100 Cluster Cluster Cluster Cluster Figura 4.6: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM non supervisionato Infine riportiamo la tabella relativa ai prototipi estratti per i 10 cluster della prova. Pagina 126

131 DCC ETICHETTA PROTOTIPO Cluster % Sole Cluster 2 37% Shark Cluster % Ray Cluster % Sole Cluster 5 75% Seahorse Cluster 6 100% Ueel Cluster % Shark Cluster % Shark Cluster % Eel Cluster % Seamoth Tabella 4.37: Prototipi relativi alla prova migliore dell algoritmo FCM non supervisionato Osservando la tabella relativa ai prototipi, si può notare che più cluster vengono etichettati con la stessa label, ed inoltre non sono presenti tute le 10 categorie di forme, infatti l algoritmo non etichetta le categorie Pipefish, Tonguefish e Crustacean. Pagina 127

132 VALUTAZIONE DEI RISULTATI La tabella riportata qui di seguito, mette a confronto le percentuali di forme etichettate per ognuno dei sei casi e per ciascuna tipologia di etichettatura utilizzata. 5% 10% 15% 20% 25% 30% Random 17.1% 55.4% 57.1% 63.3% 60.4% 65.0% Automatica 11.3% 51.3% 63.3% 58.3% 62.9% 66.7% Manuale 11.3% 48.3% 49.2% 58.3% 73.3% 85.8% Tabella 4.38: Tabella relativa alla sperimentazione con numero di cluster pari a Cardinalità delle categorie dominanti Random Automatica Manuale 0 5% 10% 15% 20% 25% 30% Percentuale di forme etichettate Figura 4.7: Confronto delle cardinalità delle categorie dominanti con numero di cluster pari a 10 Osservando l istogramma a barre, si può osservare come all aumentare della percentuale di forme etichettate la bontà delle partizioni ottenute migliora in termini di compattezza dei cluster che hanno valori DCC elevati. Pagina 128

133 100 Percentuale di classificazione FCM non supervisionato FCM con selezione random FCM con selezione automatica FCM con selezione manuale Figura 4.8: Confronto delle cardinalità delle categorie dominanti con numero di forme da etichettare pari a 72 La figura 4.8 mette a confronto le percentuali di forme etichettate nelle tre tipologie di etichettatura (il numero di forme da etichettare è pari a 72) con l algoritmo FCM non supervisionato. Osservando il grafico si può notare che con l utilizzo della etichettatura manuale abbiamo una elevata percentuale di forme etichettate rispetto alle altre due tipologie e all algoritmo FCM non supervisionato. Manuale Random Automatica FCM Media 86.0% 75.8% 84.6% 73.4% Deviazione standard 5.2% 2.24% 0.1% 2.17% Minimo 71.7% 71.7% 84.6% 68.8% Massimo 92.7% 77.9% 85.0% 77.1% Tabella 4.39: Valori di media, deviazione standard, minimo e massimo La tabella 4.39 riassume i risultati comparativi dei valori delle categorie dominanti ottenuti nei differenti scenari sperimentali. In particolare, per ogni scenario, si sono calcolati la media, la deviazione standard ed i valori di minimo e massimo ottenuti dalle 10 prove eseguite. I risultati ottenuti mostrano che tutte le versioni dell algoritmo FCM semisupervisionato superano l algoritmo FCM in termini di valori DCC. Questo conferma i benefici offerti dal meccanismo di supervisione nel classificare le forme nelle categorie Pagina 129

134 corrispondenti. Inoltre, anche se l etichettatura automatica ha fornito valori medi leggermente inferiore all etichettatura manuale, esso risulta essere il metodo più stabile in quanto è caratterizzato dal più basso valore di deviazione standard. Figura 4.9: Box-plot rappresentante la distribuzione delle forme etichettate ANNOTAZIONE FUZZY Per valutare l efficacia della fase di annotazione delle forme, sono stati eseguiti una serie di esperimenti sul test set. Precisamente, ogni forma inclusa nel test set è stata confrontata con i prototipi di forma ottenuti dalla prima fase dell algoritmo. Quindi, essa è stata annotata assegnando un insieme fuzzy derivato dall esecuzione dei gradi di appartenenza in accordo con l equazione (20). L intero processo di annotazione è stato valutato usando le misure di Precision e Recall sul test set basato sulle annotazioni corrette (annotazione manuale effettuata dall esperto di dominio) e sulle annotazioni automatiche. Inoltre, consideriamo! come una forma di test, W! la sua annotazione corretta e! l annotazione automatica. Per ogni etichetta di ogni singola categoria, la precision e la recall sono state calcolate nel seguente modo: Pagina 130

135 .Ž!. W!!..Ž!.!..Ž!. W!!..Ž!. W!. Infine, per valutare l efficacia del modello proposto, è stata effettuata una comparazione dell accuratezza dell annotazione sfruttando i prototipi derivati da tutti gli scenari considerati (etichettatura manuale, random, automatica e FCM non supervisionato). 1 Crustacean 2 - Eel 3 - Eel 4 - Eel 5 - Ueel 6 - Ueel 7 - Pipefish 8 - Ray 9 - Ray 10 - Ray 11 - Ray 12 - Seahorse 13 - Seamoth 14 - Shark 15 - Shark 16 - Shark 17 - Shark 18 - Shark 19 - Sole 20 - Sole 21 - Sole 22 - Sole 23 - Sole 24 - Tonguefish 25 - Tonguefish Tabella 4.40: Composizione del data-set di test Pagina 131

136 Qui di seguito riportiamo la tabella contenente le etichette delle forme presenti nel test set e quelle relative ad ogni scenario considerato. Inoltre per ogni etichettatura viene indicato il numero di forme classificate correttamente. Manuale Random Automatica FCM Crustacean Crustacean Crustacean Shark Crustacean Eel Tonguefish Shark Shark Shark Eel Eel Eel Eel Eel Eel Eel Shark Shark Eel Ueel Seahorse Seahorse Seahorse Seahorse Ueel Ueel Ueel Ueel Ueel Pipefish Pipefish Shark Shark Shark Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Seahorse Seahorse Sole Sole Sole Seamoth Seamoth Seamoth Seamoth Seamoth Shark Pipefish Shark Shark Shark Shark Shark Shark Shark Shark Shark Shark Sole Shark Sole Shark Shark Sole Shark Shark Shark Tonguefish Sole Shark Sole Sole Sole Sole Shark Sole Sole Sole Sole Sole Sole Sole Tonguefish Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Tonguefish Tonguefish Sole Sole Sole Tonguefish Tonguefish Shark Shark Shark Forme classificate correttamente Tabella 4.41: Tabella riassuntiva relativa all annotazione con numero di cluster pari a 10 Pagina 132

137 Manuale Random Automatica FCM Categorie P R P R P R P R Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Media Tabella 4.42: Valori di precision e recall per il processo di annotazione La tabella riportata in precedenza, mostra i valori di precision e recall calcolati per i quattro scenari considerati. I valori migliori sono quelli ottenuti utilizzando l etichettatura manuale, infatti più alti sono i valori e maggiore sarà l affidabilità dei risultati ottenuti. Dall osservazione dei risultati, si possono osservare valori di accuratezza buoni in corrispondenza di tutte le categorie semantiche. Mentre in tutti gli altri scenari, si possono osservare valori nulli di Precision e Recall in corrispondenza di alcune categorie semantiche, tra cui Seahorse, Pipefish e Tonguefish. Questo è dovuto principalmente al fatto che l algoritmo non è capace di riconoscere tali categorie. Di conseguenza, i prototipi non sono stati derivati per tali categorie e quindi questo influenza l accuratezza della annotazione SPERIMENTAZIONE CON NUMERO DI CLUSTER PARI A 15 In questa nuova sperimentazione, il metodo utilizzato è identico a quello precedente ma con un unica differenza ovvero il numero dei cluster, che in questo caso è stato posto uguale a 15. Anche in questo caso, sono state utilizzate diverse tipologie di etichettatura (manuale, random, automatica) e per ognuna di esse sono state effettuate 10 prove. Pagina 133

138 Le forme da etichettare utilizzate sono le stesse utilizzate nelle tre tipologie di etichettatura della sperimentazione precedente ETICHETTATURA MANUALE Con l utilizzo di questa tipologia di etichettatura, viene effettuata insieme all esperto di dominio una scelta manuale delle forme da etichettare. La scelta delle forme da etichettare è ricaduta su quelle presenti in un cluster di appartenenza diverso da quello ad esso associato. Riportiamo qui di seguito le due tabelle, di cui la prima è quella riassuntiva relativa alla prova migliore scelta per ognuno dei sei casi mentre la seconda riporta il numero delle forme presenti in ogni cluster sempre in riferimento alla prova migliore con 72 forme da etichettare. 5% 10% 15% 20% 25% 30% Shark Ueel Ray Eel Pipefish 7 N.C N.C Tonguefish N.C Sole Seamoth Seahorse Crustacean N.C TOTALE Tabella 4.43: Tabella riepilogativa relativa alla etichettatura manuale Come abbiamo già visto per la sperimentazione precedente, anche questa volta si può osservare nella tabella riepilogativa la presenza del termine N.C. (Non Classificato), il quale indica che non è stato possibile classificare il cluster ovvero al suo interno non è presente un numero di forme predominanti e corrispondente alla forma ad esso associata. Pagina 134

139 CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.44: Tabella relativa alla prova migliore dell etichettatura manuale Riportiamo gli istogrammi a barre relativi ai 15 cluster della prova identificata come migliore utilizzando una percentuale di forme da etichettare pari al 30%. Pagina 135

142 100 Cluster Cluster Cluster Figura 4.10: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Infine riportiamo la tabella relativa ai prototipi estratti per i 15 cluster della prova. Pagina 138

143 DCC ETICHETTA PROTOTIPO Cluster % Shark Cluster 2 80% Ueel Cluster 3 100% Ray Cluster 4 87% Eel Cluster % Pipefish Cluster % Tonguefish Cluster 7 96% Sole Cluster % Seamoth Cluster % Seahorse Cluster % Crustacean Cluster % Ueel Cluster % Sole Pagina 139

144 Cluster % Sole Cluster % Ray Cluster % Shark Tabella 4.45: Prototipi relativi alla prova migliore con etichettatura manuale ETICHETTATURA RANDOM Con l utilizzo di questa tipologia di etichettatura, viene effettuata una scelta random da parte dell algoritmo delle forme da etichettare. Per poter effettuare questa scelta, è stata implementata una nuova funzione, la quale genera un certo numero di forme casuali (definite dall utente). Qui di seguito riportiamo una tabella riepilogativa relativa alla prova migliore scelta per ognuno dei sei casi. In questa tabella viene riportato il numero delle forme presenti in ogni cluster. 5% 10% 15% 20% 25% 30% Shark Ueel Ray Eel Pipefish Tonguefish 1 1 N.C Sole Seamoth Seahorse Crustacean 10 N.C TOTALE Tabella 4.46: Tabella riepilogativa relativa alla etichettatura random Pagina 140

145 Come abbiamo già visto per la sperimentazione precedente, anche questa volta si può osservare nella tabella riepilogativa la presenza del termine N.C. (Non Classificato), il quale indica che non è stato possibile classificare il cluster ovvero al suo interno non è presente un numero di forme predominanti e corrispondente alla forma ad esso associata. La tabella riportata qui di seguito, mostra in dettaglio l associazione tra i cluster e le categorie nel caso del 30% di forme. Infatti per l annotazione si è decisi di scegliere solamente il caso del 30% per ogni etichettatura, in quanto vengono etichettate tutte le forme. CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.47: Tabella relativa alla prova migliore dell etichettatura random Riportiamo gli istogrammi a barre relativi ai 15 cluster della prova identificata come migliore utilizzando una percentuale di forme da etichettare pari al 30%. Pagina 141

148 100 Cluster Cluster Cluster Figura 4.11: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Infine riportiamo la tabella relativa ai prototipi estratti per i 15 cluster della prova. Pagina 144

149 DCC ETICHETTA PROTOTIPO Cluster % Shark Cluster 2 100% Ueel Cluster 3 85% Ray Cluster 4 85% Eel Cluster 5 40% Pipefish Cluster 6 50% Tonguefish Cluster % Sole Cluster % Seamoth Cluster 9 90% Seahorse Cluster % Crustacean Cluster % Shark Cluster 12 80% Sole Pagina 145

150 Cluster 13 90% Ray Cluster 14 90% Ray Cluster % Sole Tabella 4.48: Prototipi relativi alla prova migliore con etichettatura random Confrontando gli istogrammi a barre e i prototipi estratti dall algoritmo si può notare che nel cluster 15 anche se abbiamo un numero uguale di forme etichettate come Shark e Sole il prototipo estratto è un Sole. Questo è possibile in quanto i prototipi estratti sono quelli aventi grado maggiore di appartenenza al cluster ETICHETTATURA AUTOMATICA Con l utilizzo di questa tipologia di etichettatura, viene effettuata una scelta automatica da parte dell algoritmo delle forme da etichettare. Riportiamo qui di seguito le due tabelle, di cui la prima è quella riassuntiva relativa alla prova migliore scelta per ognuno dei sei casi mentre la seconda riporta il numero delle forme presenti in ogni cluster sempre in riferimento alla prova migliore con 72 forme da etichettare. Pagina 146

151 5% 10% 15% 20% 25% 30% Shark Ueel Ray Eel Pipefish Tonguefish N.C Sole Seamoth 9 9 N.C Seahorse Crustacean 8 N.C TOTALE Tabella 4.49: Tabella riepilogativa relativa alla etichettatura automatica Come abbiamo già visto per la sperimentazione precedente, anche questa volta si può osservare nella tabella riepilogativa la presenza del termine N.C. (Non Classificato), il quale indica che non è stato possibile classificare il cluster ovvero al suo interno non è presente un numero di forme predominanti e corrispondente alla forma ad esso associata. CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.50: Tabella relativa alla prova migliore dell etichettatura automatica Pagina 147

152 Riportiamo gli istogrammi a barre relativi ai 15 cluster della prova identificata come migliore utilizzando una percentuale di forme da etichettare pari al 30%. 100 Cluster Cluster Cluster Cluster Pagina 148

154 100 Cluster Cluster Cluster Cluster Cluster Figura 4.12: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM semi-supervisionato Pagina 150

155 Infine riportiamo la tabella relativa ai prototipi estratti per i 15 cluster della prova. DCC ETICHETTA PROTOTIPO Cluster % Shark Cluster 2 100% Ueel Cluster 3 100% Ray Cluster % Eel Cluster % Pipefish Cluster 6 30% Tonguefish Cluster % Sole Cluster 8 100% Seamoth Cluster 9 100% Seahorse Cluster % Crustacean Cluster 11 50% Tonguefish Pagina 151

156 Cluster % Sole Cluster % Sole Cluster % Sole Cluster % Sole Tabella 4.51: Prototipi relativi alla prova migliore con etichettatura automatica Confrontando gli istogrammi a barre e i prototipi estratti dall algoritmo si può notare che nel cluster 5 anche se abbiamo un numero maggiore di forme etichettate come Shark, il prototipo estratto è un Pipefish. Anche il cluster 6 in cui abbiamo un numero uguale sia di forme Pipefish e sia Tonguefish, il prototipo estratto è Shark. Infine nel cluster 15 in cui prevalgono le forme etichettate come Shark, il prototipo estratto è Sole. Questo è possibile in quanto i prototipi estratti sono quelli aventi grado maggiore di appartenenza al cluster FUZZY C-MEANS NON SUPERVISIONATO Come già accennato nel paragrafo 4.2, riportiamo i risultati relativi all esecuzione dell algoritmo FCM non supervisionato con numero di cluster pari a 15 e coefficiente di fuzzificazione (m) pari a 1.5. Nel caso dell algoritmo FCM non supervisionato, non si è reso necessario effettuare la scelta delle forme da etichettare come nel caso dell algoritmo semi-supervisionato, infatti esse sono scelte automaticamente dall algoritmo. Pagina 152

157 CLUSTER CATEGORIE Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Tabella 4.52: Tabella relativa alla prova migliore dell algoritmo FCM non supervisionato Riportiamo gli istogrammi a barre relativi ai 10 cluster della prova identificata come migliore per l algoritmo FCM non supervisionato. Pagina 153

160 100 Cluster Cluster Cluster Figura 4.13: Distribuzione delle forme tra i vari cluster derivati dall algoritmo FCM non supervisionato Infine riportiamo la tabella relativa ai prototipi estratti per i 15 cluster della prova. Pagina 156

161 DCC ETICHETTA PROTOTIPO Cluster % Seamoth Cluster 2 75% Shark Cluster 3 61% Sole Cluster 4 80% Eel Cluster 5 92% Ray Cluster 6 45% Tonguefish Cluster 7 20% Eel Cluster 8 100% Ray Cluster 9 100% Ueel Cluster 10 90% Seahorse Cluster % Sole Cluster % Shark Pagina 157

162 Cluster % Ueel Cluster % Sole Cluster % Crustacean Tabella 4.53: Prototipi relativi alla prova migliore dell algoritmo FCM non supervisionato Confrontando gli istogrammi a barre e i prototipi estratti dall algoritmo si può notare che nel cluster 7 anche se abbiamo un numero maggiore di forme etichettate come Pipefish, il prototipo estratto è Eel. Questo è possibile in quanto il prototipo che viene estratto è quello che ha il grado maggiore di appartenenza al cluster VALUTAZIONE DEI RISULTATI La tabella riportata qui di seguito, mette a confronto le percentuali di forme etichettate per ognuno dei sei casi e per ciascuna tipologia di etichettatura utilizzata. 5% 10% 15% 20% 25% 30% Random 66.7% 74.6% 76.7% 80.8% 81.7% 81.3% Automatica 71.7% 72.5% 75.8% 82.1% 82.9% 84.6% Manuale 67.9% 74.2% 80.4% 85.0% 85.8% 90.4% Tabella 4.54: Tabella relativa alla sperimentazione con numero di cluster pari a 15 Pagina 158

163 100 Cardinalità delle categorie dominanti Random Automatica Manuale 0 5% 10% 15% 20% 25% 30% Percentuale di forme etichettate Figura 4.14: Confronto delle cardinalità delle categorie dominanti con numero di cluster pari a 15 Osservando l istogramma a barre, si può osservare come all aumentare della percentuale di forme etichettate la bontà delle partizioni ottenute migliora in termini di compattezza dei cluster che hanno valori DCC elevati. Inoltre rispetto alla sperimentazione precedente, aumenta anche la percentuale di forme etichettate soprattutto nei primi tre casi, ovvero 5%, 10% e 15%. 100 Percentuale di classificazione FCM non supervisionato FCM con selezione random FCM con selezione automatica FCM con selezione manuale Figura 4.15: Confronto delle cardinalità delle categorie dominanti con numero di forme da etichettare pari a 72 Pagina 159

164 La figura 4.15 mette a confronto le percentuali di forme etichettate nelle tre tipologie etichettatura (il numero di forme da etichettare è pari a 72) con l algoritmo FCM non supervisionato. Osservando il grafico si può notare che con l utilizzo della etichettatura manuale abbiamo una elevata percentuale di forme etichettate. Manuale Random Automatica FCM Media 89.0% 77.8% 83.2% 76.1% Deviazione standard 2.6% 5.2% 3.1% 3.7% Minimo 82.5% 65.8% 75.0% 70.0% Massimo 90.4% 81.3% 86.7% 79.6% Tabella 4.55: Valori di media, deviazione standard, minimo e massimo La tabella 4.55 riassume i risultati comparativi dei valori delle categorie dominanti ottenuti nei differenti scenari sperimentali. In particolare, per ogni scenario, si sono calcolati la media, la deviazione standard ed i valori di minimo e massimo ottenuti dalle 10 prove eseguite. I risultati ottenuti mostrano che tutte le versioni dell algoritmo FCM semisupervisionato superano l algoritmo FCM non supervisionato in termini di valori DCC. Questo conferma i benefici offerti dal meccanismo di supervisione nel classificare le forme nelle categorie corrispondenti. Infine l etichettatura manuale risulta essere il metodo più stabile in questa sperimentazione, in quanto è caratterizzata dal più basso valore di deviazione standard e dal più alto valore di media. Pagina 160

165 Figura 4.16: Box-plot rappresentante la distribuzione delle forme etichettate ANNOTAZIONE FUZZY La procedura utilizzata per l annotazione fuzzy con 10 cluster è stata ripetuta utilizzando un numero di cluster pari a 15, ovvero verificando il numero di forme correttamente classificate e calcolando i valori di Precision e Recall. Il data-set di test utilizzato è lo stesso utilizzato nella sperimentazione precdente. Qui di seguito riportiamo la tabella contenente le etichette delle forme presenti nel test set, e quelle relative ad ogni scenario considerato. Inoltre per ogni scenario viene indicato il numero di forme classificate correttamente. Pagina 161

166 Manuale Random Automatica FCM Crustacean Crustacean Crustacean Crustacean Crustacean Eel Tonguefish Tonguefish Tonguefish Tonguefish Eel Eel Eel Eel Eel Eel Pipefish Pipefish Shark Eel Ueel Ueel Seahorse Seahorse Eel Ueel Ueel Ueel Ueel Ueel Pipefish Pipefish Shark Shark Tonguefish Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Ray Seahorse Sole Shark Sole Shark Seamoth Seamoth Seamoth Seamoth Seamoth Shark Pipefish Pipefish Shark Eel Shark Shark Tonguefish Shark Tonguefish Shark Shark Sole Sole Sole Shark Shark Sole Sole Shark Shark Shark Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Sole Tonguefish Sole Sole Sole Sole Tonguefish Tonguefish Tonguefish Shark Tonguefish Forme classificate correttamente Tabella 4.56: Tabella riassuntiva relativa all annotazione con numero di cluster pari a 15 Pagina 162

167 Manuale Random Automatica FCM Categorie P R P R P R P R Shark Ueel Ray Eel Pipefish Tonguefish Sole Seamoth Seahorse Crustacean Media Tabella 4.57: Valori di precision e recall per il processo di annotazione La tabella riportata in precedenza, mostra i valori di precision e recall calcolati per i quattro scenari considerati. I valori migliori sono quelli ottenuti utilizzando l etichettatura manuale, infatti più alti sono i valori e maggiore sarà l affidabilità dei risultati ottenuti. Dall osservazione dei risultati, si possono osservare valori di accuratezza buoni in corrispondenza di tutte le categorie semantiche. Mentre in tutti gli altri scenari, si possono osservare valori nulla di Precision e Recall in corrispondenza di alcune categorie semantiche, tra cui Seahorse, Pipefish. Questo è dovuto principalmente al fatto che l algoritmo non è capace di riconoscere tali categorie. Di conseguenza, i prototipi non sono stati derivati per tali categorie e quindi questo influenza l accuratezza della annotazione VALUTAZIONE DELLE SPERIMENTAZIONI In generale, i risultati ottenuti confermano che il meccanismo di supervisione porta dei benefici nella estrazione dei prototipi utili per l annotazione delle forme. Infatti, l algoritmo con etichettatura manuale (ovvero avvalendosi della conoscenza dell esperto di dominio) consente di ottenere una annotazione con accuratezza migliore, a differenza dell etichettatura Pagina 163

168 automatica e random che consentono di ottenere dei valori medi che superano l'accuratezza dell annotazione ottenuta utilizzando l algoritmo FCM non supervisionato. 100 Percentuale di classificazione FCM non supervisionato FCM semi-supervisionato Figura 4.17: Confronto tra le due tipologie di algoritmi Questi valori possono essere considerati come un buon compromesso fra accuratezza della annotazione e semplicità del processo di etichettatura delle forme. Infatti, sulla base di questi metodi, la conoscenza del dominio da fornire in ingresso all'algoritmo di clustering viene acquisito in modo completamente automatico senza richiedere l'intervento dell esperto. In questo modo, il processo di etichettatura della forma sarà più veloce e meno incline alla soggettività dell esperto. Infine confrontando i valori di precision e recall relativi all etichettatura manuale ottenuti nelle due sperimentazioni effettuate, si può notare che i valori di recall sono molto simili mentre quelli di precision differiscono tra loro. Da ciò si può dedure che utilizzando un numero di cluster pari a 15, si avrà una maggiore precisione nell annotazione, ma tuttavia i risultati ottenuti con un numero di cluster pari a 10 (uguale al numero delle categorie semantiche) evidenziano l efficacia dell algoritmo proposto. Pagina 164

169 4.4 SPERIMENTAZIONE RETRIEVAL INTRODUZIONE Per eseguire il processo di retrieval, è stato utilizzato il data-set di test (basato sulla classificazione manuale effettuata dall esperto di dominio) usato nella fase di annotazione della sperimentazione precedente, il quale è formato da 25 forme ed ognuna di essa è considerata come query. Le fasi che compongo il processo di retrieval sono le seguenti: i. ordinamento dei cluster in base alla distanza euclidea tra la singola forma e il prototipo associato al cluster. Si calcola la distanza euclidea tra i descrittori di Fourier associati alla forma e quelli associati al prototipo identificativo del cluster e successivamente si ordinano le forme in ordine crescente in base ai valori ottenuti; ii. calcolo della distanza euclidea tra la query considerata e i prototipi ottenuti dal processo di clustering. Una volta terminato il calcolo, i valori ottenuti vengono ordinati in ordine crescente. Questi valori consentiranno di determinare l ordine dei cluster in cui recuperare le forme; iii. recupero delle prime 50 forme con similarità più alta e che sono considerate come risultato della query. Per la valutazione dell approccio proposto, sono state calcolate Precision e Recall su ciascun insieme di forme restituite come risultato della query (da 1 a 50): 4X X WW 4[W 4X WW X 4[W 4X X WW 4[W 4X WW X [W ± dove il numero di forme presenti nella collezione varia a seconda della query considerata, ovvero in base alla categoria di appartenenza della forma. Pagina 165

170 Offline Process Shape Descriptors Shapes Clustering Prototypes Shape Representation Shape Descriptors Shape Query Matching & Retrieval Online Process Ranked Shapes Figura 4.18: Panoramica dell approccio proposto Infine è stata calcolata la media dei valori di Precision e Recall sul numero totale di query presenti nel data-set di test. Nei paragrafi successivi vengono riportati i risultati relativi al processo di retrieval eseguito sulla prova migliore per ciascuna tipologia di etichettatura, ovvero manuale, random ed automatica. La prova utilizzata per ciascuna tipologia di etichettatura è quella relativa al 30% di forme etichettate (72 forme). Inoltre è stato fatto un confronto anche con l algoritmo FCM non supervisionato con coefficiente di fuzzificazione (m) pari ad 1.5 e numero di cluster pari a 10. Tutto ciò è stato ripetuto anche per le prove ottenute con numero di cluster pari a 15. Pagina 166

171 4.4.2 RISULTATI SPERIMENTALI CON NUMERO DI CLUSTER PARI A 10 Per dare un idea dell approccio utilizzato riportiamo due esempi di query e per ognuna sono mostrati i primi 9 risultati (a partire dalla seconda forma). Come si può notare, l approccio permette di recuperare un numero elevato di forme in corrispondenza delle due query effettuate. ssfcm (Manuale) ssfcm (Random) ssfcm (Automatica) Unsupervised FCM Figura 4.19: Esempio di supervisionato query ottenute applicando l algoritmo FCM semi-supervisionato e non Riportiamo i valori medi di precision e recall ottenuti per le tre tipologie di etichettatura utilizzando i cluster ed i prototipi ottenuti come risultato dell algoritmo semisupervisionato, ed inoltre si effettuerà il confronto con l algoritmo FCM non supervisionato. In tutti i casi si è utilizzato un numero di cluster pari a 10. Pagina 167

172 1) Etichettatura manuale: Precision Recall Precision Recall Tabella 4.58: Valori di precision e recall con etichettatura manuale Pagina 168

173 2) Etichettatura random: Precision Recall Precision Recall Tabella 4.59: Valori di precision e recall con etichettatura random Pagina 169

174 3) Etichettatura automatica: Precision Recall Precision Recall Tabella 4.60: Valori di precision e recall con etichettatura automatica Qui di seguito invece riportiamo i risultati relativi al processo di retrieval effettuato sulla prova migliore ottenuta eseguendo 10 volte l algoritmo FCM non supervisionato con m (coefficiente di fuzzificazione) pari ad 1.5. Pagina 170

175 Precision Recall Precision Recall Tabella 4.61: Valori di precision e recall eseguendo l algoritmo FCM non supervisionato I due grafici riportati qui di seguito, mettono a confronto i valori di precision e di recall riportati nelle tabelle precedenti. Pagina 171

176 0,80 0,70 Precision 0,60 0,50 0,40 0,30 0,20 FCM con selezione manuale FCM con selezione random FCM con selezione automatica FCM non supervisionato 0,10 0,00 Retrieved shapes Figura 4.20: Valori di precision con numero di cluster pari a 10 0,80 0,70 Recall 0,60 0,50 0,40 0,30 0,20 FCM con selezione manuale FCM con selezione random FCM con selezione automatica FCM non supervisionato 0,10 0,00 Retrieved shapes Figura 4.21: Valori di recall con numero di cluster pari a 10 Per poter calcolare valore medio, deviazione standard, minimo e massimo, sia i valori di precision che quelli di recall sono stati moltiplicati per 100. Pagina 172

177 Manuale Random Automatica FCM Media 67.7% 60.6% 61.1% 55.1% Deviazione standard 6.2% 8.7% 11.8% 8.0% Minimo 54.3% 44.7% 39.0% 42.6% Massimo 76.0% 72.0% 76.0% 68.0% Tabella 4.62: Valori di media, deviazione standard, minimo e massimo relativi alla precision La tabella 4.62 riassume i risultati comparativi dei valori di precision ottenuti nei differenti scenari sperimentali. In particolare, per ogni scenario, si sono calcolati la media, la deviazione standard ed i valori di minimo e massimo. I risultati ottenuti mostrano che tutte le versioni dell algoritmo FCM semi-supervisionato (manuale, random e automatica) superano l algoritmo FCM non supervisionato in termini di valori di precision. Inoltre l etichettatura manuale risulta essere il metodo più stabile in quanto ha il più basso valore di deviazione standard e il più alto valore di media. Figura 4.22: Box-plot rappresentante la distribuzione dei valori di precision Pagina 173

178 Manuale Random Automatica FCM Media 47.6% 39.3% 36.7% 35.2% Deviazione standard 21.3% 17.0% 14.6% 16.0% Minimo 2.7% 2.2% 2.6% 2.0% Massimo 74.3% 59.4% 56.2% 59.5% Tabella 4.63: Valori di media, deviazione standard, minimo e massimo relativi alla recall La tabella 4.63 riassume i risultati comparativi dei valori di recall ottenuti nei differenti scenari sperimentali. I risultati ottenuti mostrano che tutte le versioni dell algoritmo FCM semi-supervisionato superano l algoritmo FCM non supervisionato in termini di valori di recall. In questo caso l etichettatura automatica risulta essere il metodo più stabile in quanto ha il più basso valore di deviazione standard, ma anche questa volta l etichettatura manuale fornisce un valore medio più elevato rispetto agli altri. Figura 4.23: Box-plot rappresentante la distribuzione dei valori di recall Una tipologia di etichettatura è considerata migliore di un'altra se consente di ottenere dei valori di precision e recall maggiori per grandi insiemi di forme recuperati. Pagina 174

179 Infine dall osservazione dei grafici relativi alla precision e alla recall riportati in figura 4.20 e 4.21, si può notare che con l utilizzo della etichettatura manuale abbiamo un valore medio di precision e recall più elevato rispetto alle altre due tipologie e all algoritmo FCM non supervisionato RISULTATI SPERIMENTALI CON NUMERO DI CLUSTER PARI A 15 Riportiamo i valori medi di precision e recall ottenuti per le tre tipologie di etichettatura e per l algoritmo FCM non supervisionato, utilizzando un numero di cluster pari a 15: 1) Etichettatura manuale: Precision Recall Precision Recall p Tabella 4.64: Valori di precision e recall con etichettatura manuale Pagina 175

180 2) Etichettatura random: Precision Recall Precision Recall Tabella 4.65: Valori di precision e recall con etichettatura random Pagina 176

181 3) Etichettatura automatica: Precision Recall Precision Recall Tabella 4.66: Valori di precision e recall con etichettatura automatica Qui di seguito invece riportiamo i risultati relativi al processo di retrieval effettuato sulla prova migliore ottenuta eseguendo 10 volte l algoritmo FCM non supervisionato con m (coefficiente di fuzzificazione) pari ad 1.5. Pagina 177

182 Precision Recall Precision Recall Tabella 4.67: Valori di precision e recall eseguendo l algoritmo FCM non supervisionato I due grafici riportati qui di seguito, mettono a confronto i valori di precision e di recall riportati nelle tabelle precedenti. Pagina 178

183 Precision 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 Retrieved shapes FCM con selezione manuale FCM con selezione random FCM con selezione automatica FCM non supervisionato Figura 4.24: Valori di precision con numero di cluster pari a 15 0,80 0,70 Recall 0,60 0,50 0,40 0,30 0,20 FCM con selezione manuale FCM con selezione random FCM con selezione automatica FCM non supervisionato 0,10 0,00 Retrieved shapes Figura 4.25: Valori di recall con numero di cluster pari a 15 Pagina 179

184 Manuale Random Automatica FCM Media 73.8% 43.3% 57.2% 56.9% Deviazione standard 11.0% 9.8% 9.2% 7.7% Minimo 54.4% 30.0% 39.3% 44.8% Massimo 92.0% 59.6% 72.0% 72.0% Tabella 4.68: Valori di media, deviazione standard, minimo e massimo relativi alla precision La tabella 4.68 riassume i risultati comparativi dei valori di precision ottenuti nei differenti scenari sperimentali. In particolare, per ogni scenario, si sono calcolati la media, la deviazione standard ed i valori di minimo e massimo. I risultati ottenuti mostrano che tutte le versioni dell algoritmo FCM semi-supervisionato superano l algoritmo FCM non supervisionato in termini di valori di precision. In questa sperimentazione, possiamo notare che l algoritmo FCM non supervisionato presenta il valore più basso di deviazione standard, il quale è leggermente inferiore al valore ottenuto con l etichettatura automatica. Il valore medio più alto è assunto sempre dall etichettatura manuale. Figura 4.26: Box-plot rappresentante la distribuzione dei valori di precision Pagina 180

185 Manuale Random Automatica FCM Media 50.8% 23.2% 36.9% 39.9% Deviazione standard 19.9% 8.4% 15.6% 17.9% Minimo 3.7% 1.8% 2.6% 2.6% Massimo 72.9% 34.7% 57.4% 64.8% Tabella 4.69: Valori di media, deviazione standard, minimo e massimo relativi alla recall La tabella 4.69 riassume i risultati comparativi dei valori di recall ottenuti nei differenti scenari sperimentali. I risultati ottenuti mostrano che tutte le versioni dell algoritmo FCM semi-supervisionato superano l algoritmo FCM in termini di valori di recall. Come si può notare dai risultati ottenuti per la recall, l etichettatura random ha il più basso valore di deviazione standard, mentre è sempre l etichettatura manuale ad avere il valore di media più alto. Figura 4.27: Box-plot rappresentante la distribuzione dei valori di recall Osservando i grafici relativi alla precision e alla recall riportati in figura 4.24 e 4.25, si può notare che con l utilizzo della etichettatura manuale abbiamo un valore medio di precision e recall più elevato rispetto alle altre due tipologie e all algoritmo FCM non supervisionato. Pagina 181

186 Infine, si può affermare che con l utilizzo di un numero di cluster maggiore ed esattamente in questo caso pari a 15 l etichettatura manuale ha un valore medio di precision più elevato rispetto a quello ottenuto utilizzando un numero di cluster pari a VALUTAZIONE DEI RISULTATI In generale, i risultati ottenuti con il meccanismo di supervisione offrono benefici nel determinare prototipi significativi utili come meccanismo di indicizzazione per recuperare forme. Infatti, l algoritmo FCM semi-supervisionato supera l algoritmo FCM non supervisionato in termini di precisione di recupero. Questi valori possono essere considerati come un buon compromesso tra un accuratezza di recupero soddisfacente e la semplicità del processo di recupero. 4.5 SPERIMENTAZIONE IMMAGINI REALI INTRODUZIONE Una ulteriore serie di esperimenti è stata eseguita applicando l approccio proposto su una collezione di immagini del mondo reale contenente forme di animali marini. Precisamente, sono state scelte 50 forme, per esattezza 5 forme appartenenti ad ognuna delle 10 categorie semantiche identificate nel data-set Surrey Fish. Alcune immagini di esempio sono riportate qui di seguito. Pagina 182

187 Shark Ueel Tonguefish Crustacean Eel Sole Ray Seamoth Seahorse Pipefish Figura 4.28: Immagini di esempio del data-set reale Come primo passo, ogni immagine reale è stata segmentata in modo da poter estrarre la forma dell animale marino in esso contenuta. Per fare questo, l immagine a colori è stata convertita in livelli di grigio ed è stata inoltre applicata una soglia di thresholding per convertire la forma in livelli di grigio in una immagine binaria. Dal momento che nel mondo reale le immagini sono spesso danneggiate a causa del rumore, la forma ottenuta applicando una soglia di thresholding, di solito ha un rumore lungo il contorno della forma, e quindi si è reso necessario applicare un processo di eliminazione del rumore. Il processo di rimozione del rumore elimina i pixel isolati e le regioni isolate di piccole dimensioni o segmenti. Inoltre il contorno della forma non è sempre connesso, e quindi, è stata utilizzata una tecnica di connessione per chiudere questi punti non connessi tra loro. Infine la forma è stata tracciata utilizzando una tecnica di tracciamento del contorno 8- connected per ottenere le coordinate del contorno relative alla forma considerata. 1 -Crustacean 2 - Crustacean 3 - Crustacean 4 - Crustacean 5 - Crustacean 6 - Eel 7 - Eel 8 - Eel 9 - Eel 10 - Eeel Pagina 183

188 11 - Pipefish 12 - Pipefish 13 - Pipefish 14 - Pipefish 15 - Pipefish 16 - Ray 17 - Ray 18 - Ray 19 - Ray 20 - Ray 21 - Seahorse 22 - Seahorse 23 - Seahorse 24 - Seahorse 25 - Seahorse 26 - Seamoth 27 - Seamoth 28 - Seamoth 29 - Seamoth 30 - Seamoth 31 - Shark 32 - Shark 33 - Shark 34 - Shark 35 - Shark 36 - Sole 37 - Sole 38 - Sole 39 - Sole 40 - Sole 41 - Tonguefish 42 - Tonguefish 43 - Tonguefish 44 - Tonguefish 45 - Tonguefish 46 - Ueel 47 - Ueel 48 - Ueel 49 - Ueel 50 - Ueel Tabella 4.70: Composizione del data-set di test costituito da immagini reali Successivamente, per ciascuna forma estratta sono stati calcolati i descrittori di Fourier e sono stati selezionati i primi 32 coefficienti per rappresentare la forma. Pagina 184

Vedere altro