Localizzazione e Tracciamento di persone e robot attraverso la Stereo Visione. di Luigi Scozzafava



Documenti analoghi
Automazione Industriale (scheduling+mms) scheduling+mms.

Generazione Automatica di Asserzioni da Modelli di Specifica

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Analisi e diagramma di Pareto

Sistemi video per il monitoraggio


03. Il Modello Gestionale per Processi

Contabilità generale e contabilità analitica

3DE Modeling Color. E il modulo che si occupa della costruzione di modelli 3D con tessitura a colori.

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

Project Cycle Management

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

Capitolo 13: L offerta dell impresa e il surplus del produttore

IL CICLO DI VITA DEL PROGETTO. Elementi essenziali di progetto. Fasi e tappe Gli Approcci

LE STRATEGIE DI COPING

REGOLAMENTO DI VALUTAZIONE DEL PERSONALE DIPENDENTE

Software per Helpdesk

MANUALE DELLA QUALITÀ Pag. 1 di 6

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

PROGETTO ESCAVATORE VIRTUALE

SymCAD/C.A.T.S. modulo Canali Schema

Le strumentazioni laser scanning oriented per i processi di censimento anagrafico dei patrimoni

della manutenzione, includa i requisiti relativi ai sottosistemi strutturali all interno del loro contesto operativo.

Concetti di base di ingegneria del software

La distribuzione Normale. La distribuzione Normale

Psicologia dell orientamento scolastico e professionale. Indice

Sistema di diagnosi CAR TEST

LA PROGETTAZIONE DI UN NUOVO STRUMENTO PER IL WEB

ESTRATTO ATTUATORE CON VITE SENZA FINE PER TRAIETTORIE NON LINEARI E ALZACRISTALLI REALIZZATO CON IL MEDESIMO

La Videosorveglianza Criteri per il dimensionamento dello storage

Le fattispecie di riuso

2.0 Gli archivi. 2.1 Inserire gli archivi. 2.2 Archivio Clienti, Fornitori, Materiali, Noleggi ed Altri Costi. Impresa Edile Guida all uso

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

Soluzione dell esercizio del 2 Febbraio 2004

Strutturazione logica dei dati: i file

GESTIONE DELLE TECNOLOGIE AMBIENTALI PER SCARICHI INDUSTRIALI ED EMISSIONI NOCIVE LEZIONE 10. Angelo Bonomi

Lampade per illuminazione esterna: Lampade a Induzione Lampade al Sodio Alta Pressione Lampade a Led

Corso di. Dott.ssa Donatella Cocca

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

ISTITUTO COMPRENSIVO MONTEGROTTO TERME SCUOLA PRIMARIA DISCIPLINA: MATEMATICA - CLASSE PRIMA OBIETTIVI DI APPRENDIMENTO

Con il termine programma Teacch si intende l organizzazione dei servizi per persone autistiche realizzato nella Carolina del Nord, che prevede una

LE FUNZIONI A DUE VARIABILI

Appendice III. Competenza e definizione della competenza

GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE

ANNO SCOLASTICO

RILIEVO LASER SCANNER PARETE MARMOREA XXXXXXXXXXXXX

Introduzione all analisi dei segnali digitali.

Calcolo del Valore Attuale Netto (VAN)

Light CRM. Documento Tecnico. Descrizione delle funzionalità del servizio

(liberamente interpretato da SCHEDA ALUNNI. Descrizione dell attività:

Il modello veneto di Bilancio Sociale Avis

ISO 9001:2015 e ISO 14001:2015

QUALITÀ, ASSISTENZA, MANUTENZIONE... UNA RICETTA PER SODDISFARE AL MEGLIO LE ESIGENZE DEI CLIENTI.

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

SOFTWARE A SUPPORTO DELLA GESTIONE AMMINISTRATIVA DELLO SPORTELLO UNICO SPECIFICA DEI REQUISITI UTENTE

Database. Si ringrazia Marco Bertini per le slides

la restituzione prospettica da singolo fotogramma

Test percettivi per la valutazione del contrasto di immagini digitali

DIFFERENZIARE LE CAMPAGNE DI MARKETING La scelta del canale adeguato

IL SISTEMA DI CONTROLLO INTERNO

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

«VALUTAZIONE DELL EFFICACIA DI UN PANNELLO A MESSAGGIO VARIABILE LOCALIZZATO NELLA PIANA DI LUCCA»

L uso della Balanced Scorecard nel processo di Business Planning

CitySoftware. IMU ed ICI. Info-Mark srl

Progetto PI , passo A.1 versione del 14 febbraio 2007

TNT IV. Il Diavolo è meno brutto di come ce lo dipingono!!! (Guarda il video)

Come valutare le caratteristiche aerobiche di ogni singolo atleta sul campo

VALORE DELLE MERCI SEQUESTRATE

Lunghezza ocale. Donato Di Bello

Progetto Casa Mielli

Classe IV Matematica Scuola primaria

Che volontari cerchiamo? Daniela Caretto Lecce, aprile

ALLEGATO H VALUTAZIONE DELLA PERFORMANCE INDIVIDUALE DEI DIPENDENTI COMUNE DI CINISI Prov. Palermo

UNIVERSITA DEGLI STUDI DI PALERMO MASTER: MISSB. UDA di Fisica

Descrizione dettagliata delle attività

CHE COSA CAMBIA CON LA NUOVA NORMA EUROPEA PER PROFILI IN PVC UNI EN 12608

Dimostrare alla Scuola media: dal perché al rigore spontaneamente

Tecnologie dell informazione e della comunicazione per le aziende

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Elementi di Psicometria con Laboratorio di SPSS 1

11. Evoluzione del Software

Università degli Studi "Roma Tre" Dipartimento di Informatica ed automazione. Facoltà di Ingegneria

Software Gestionale per alberghi e strutture ricettive

ENERGY EFFICIENCY ENERGY SERVICE COMPANY ENERGY EFFICIENCY ENERGY SERVICE COMPANY ENERGY + EFFICIENCY

GUIDA PER IL DOCENTE ALL UTILIZZO DELL APPLICATIVO ONLINE E PORTFOLIO

TNT IV. Il Diavolo è meno brutto di come ce lo dipingono!!! (Guarda il video)

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

Guida alla registrazione on-line di un DataLogger

Banca dati Professioniste in rete per le P.A. Guida all uso per le Professioniste

Il sistema C.R.M. / E.R.M.

Il Problem-Based Learning dalla pratica alla teoria

Gli oggetti di plastica. Abilità interessate Conoscenze Nuclei coinvolti Collegamenti esterni Decodificare informazioni di tipo grafico.

Università degli Studi di Salerno

Manuale Utente Albo Pretorio GA

come nasce una ricerca

Modulo: Scarsità e scelta

Progetto Diogene Sicurezza delle persone malate di Alzheimer mediante geolocalizzazione

Software a supporto della Gestione amministrativa dello Sportello Unico Versione 2.1

Transcript:

Localizzazione e Tracciamento di persone e robot attraverso la Stereo Visione. di Luigi Scozzafava Luigi Scozzafava 2003

Tesi presentata alla UNIVERSITÀ DEGLI STUDI DI ROMA La Sapienza FACOLTÀ DI INGEGNERIA Per il CORSO DI LAUREA IN INGEGNERIA INFORMATICA Relatore: Controrelatore: Ing. Iocchi Luca Prof.ssa Pirri Fiora ANNO ACCADEMICO 2003/2004 Roma, Lazio, Italia, 2003

Estratto In questa tesi viene presentato un robusto sistema di stereo visione per la localizzazione ed il tracciamento di persone e robot. Il sistema in questione ha come contesto l ambiente domestico e si colloca all interno di un ampio progetto denominato RoboCare. Il sistema di visione proposto è costituito da una coppia di telecamere fisse in grado di monitorare una stanza di circa tre metri per due. Le coppie di immagini, provenienti da entrambe le telecamere, sono utilizzate per il calcolo della terza dimensione. L uso della stereo visione consente di risolvere possibili situazioni di ambiguità, dovute ad esempio, alla parziale occlusione degli elementi d interesse che si muovono all interno dell ambiente. Occorre ricordare che tali situazioni di ambiguità non sono di facile soluzione ed il loro numero aumenta con l aumentare degli oggetti presenti nella scena. E quindi necessario eliminare dalla scena tutti gli elementi a cui non siamo interessati. Pertanto bisogna costruire un modello che descriva gli elementi che costituiscono il background della scena. Tale modello, viene calcolato in base alla sequenza temporale di immagini (proveniente dalla telecamera sinistra) e viene aggiornato dinamicamente. All interno di questo documento sarà presentato un nuovo metodo per l aggiornamento dinamico del modello probabilistico che descrive il background della scena. Tale metodo consente di integrare rapidamente, all interno del modello stesso, possibili modifiche dell ambiente dovute, ad esempio, allo spostamento di oggetti e/o cambiamenti di luce. Il metodo proposto è in grado di creare un modello probabilistico dell ambiente anche in assenza di una precedente fase d apprendimento, e in presenza di i

fenomeni di disturbo come, ad esempio, il movimento di robot e persone all interno dell ambiente monitorato. Sono quindi presentati i risultati ottenuti che dimostrano la validità del sistema e del metodo proposto per la creazione e l aggiornamento dinamico del background. Infine, sono esposte le conclusioni ed una serie di ampliamenti che potranno essere apportati da parte di futuri lavori al sistema di visione proposto. ii

Sommario CAPITOLO 1... 7 INTRODUZIONE... 7 1.1 Il progetto RoboCare... 8 1.2 Obbiettivi della tesi... 9 1.3 Il problema della localizzazione e del tracciamento... 11 1.4 Sviluppo della tesi e risultati conseguiti.... 13 1.5 Organizzazione della tesi... 16 CAPITOLO 2...17 ANALISI DEI SISTEMI E DEI PROBLEMI DI LOCALIZZAZIONE E TRACCIAMENTO... 17 2.1 Tecniche di localizzazione e tracciamento... 17 2.2 Sistemi di visione per il tracciamento di persone... 22 2.2.1 Problemi comuni ad un sistema di visione... 22 2.2.2 Sistemi di visione monoculare... 29 2.2.3 Sistemi di visione stereo... 34 2.2.4 Sistemi di visione multi-camera... 38 CAPITOLO 3...42 LA STEREO VISIONE... 42 3.1 Il modello pinhole... 43 3.2 Distorsione radiale... 46 3.3 La calibrazione... 48 3.3.1 Metodo di Tsai... 50 3.4 Geometria della stereo visione... 54 3.4.1 Il problema della corrispondenza... 55 3.4.1.1 Metodi Area-Based... 58 3.4.2 Il problema della ricostruzione... 59 3.4.3 Precisione... 62 3.4.4 Calibrazione Stereo... 65 3.4.5 Ricostruzione di oggetti 3D... 66 3.5 Small Vision System (SVS)... 68 CAPITOLO 4...71 IL SISTEMA DI LOCALIZZAZIONE E TRACCIAMENTO DEGLI AGENTI... 71 4.1 Schema Logico... 72 iii

4.2 La calibrazione... 78 4.2.1 Calibrazione Stereo... 79 4.2.2 Calibrazione Esterna... 81 4.3 Modellazione e sottrazione del background.... 83 4.3.1 Creazione del modello... 84 4.3.2 Aggiornamento del modello... 86 4.3.3 Sottrazione del background... 92 4.3.3.1 Confronto con l intensity-model... 92 4.3.3.2 Confronto con l edge-model... 93 4.3.4 Elementi connessi e riduzione del rumore nel foreground della scena... 95 4.3.5 Calcolo degli elementi connessi (Blobs)... 96 4.4 Proiezione del foreground e ricostruzione della terza dimensione... 97 4.4.1 Calcolo della Disparity-Map... 99 4.4.2 Dal camera-view al plan-view... 100 4.4.3 Occupancy map & Height map... 101 4.4.4 Perfezionamento della occupancy-map e della height-map... 104 4.5 Localizzazione e tracciamento... 105 4.5.1 I Templates... 106 4.5.2 Localizzazione... 107 4.5.3 Tracciamento... 109 4.5.3.1 Reti Bayesiane... 114 4.5.3.2 Tracciamento tramite Filtro di Kalman... 117 4.5.3.3 Tecniche per il tracciamento a lungo termine... 121 CAPITOLO 5... 123 RISULTATI SPERIMENTALI... 123 5.1 Configurazione Hardware e Software... 124 5.1.1 Interfaccia Utente... 126 5.2 Risultati della sperimentazione in ambiente simulato... 128 5.2.1 Precisione nella ricostruzione 3D... 130 5.2.2 Precisione nella fase di localizzazione e tracciamento... 132 5.3 Risultati della sperimentazione in ambiente reale... 134 5.3.1 Creazione del modello in assenza di una precedente fase di apprendimento... 135 5.3.2 Velocità di aggiornamento del modello... 140 5.3.3 Localizzazione e Tracciamento... 144 5.3.4 Precisione del sistema... 150 CAPITOLO 6... 152 CONCLUSIONI... 152 iv

6.1 Risultati raggiunti e limitazioni del sistema... 152 6.2 Suggerimenti per ampliamenti futuri... 154 APPENDICE... 156 A.1 Illusioni ambiguità ed inconsistenze... 156 A.2 Il metodo di Sobel... 158 A.3 I sistemi di rappresentazione del colore... 160 BIBLIOGRAFIA... 163 v

Ringraziamenti Vorrei ringraziare tutte le persone che hanno reso possibile la realizzazione di questo lavoro. Desidero soprattutto rivolgere un sentito ringraziamento al Ing.Luca Iocchi, in veste di relatore e alla Prof.ssa Fiora Pirri, in veste di correlatore, per la gentile disponibilità e per l accurata opera di revisione. Ringrazio il CNR per aver messo a disposizione le strutture e le apparecchiature necessarie allo sviluppo e alla sperimentazione del sistema realizzato in questa tesi e Shahram Bahadori per la cortesia e la gentilezza che ha sempre dimostrato. Un ringraziamento va al mio migliore amico Paolo per la sua simpatia e sincerità. Vorrei ringraziare i miei genitori e mio fratello Fabio, che mi hanno sopportato e aiutato con pazienza in questi lunghi anni di studio. Infine ringrazio Gloria per il suo aiuto e per il suo indispensabile affetto. vi

Capitolo 1 Introduzione In questi ultimi anni l interesse rivolto ai sistemi di visione è aumentato notevolmente. Questo perché gli apparati di visione si presentano come il miglior compromesso tra costo, flessibilità e ricchezza informativa. Lo sviluppo di applicazioni robotiche in ambienti poco strutturati, dinamici e rapidamente variabili, come ad esempio l ambiente domestico, richiede l impiego di sistemi di visione robusti ed affidabili che siano in grado di percepire gli eventi che si verificano nell ambiente e di monitorarne la loro evoluzione. La presente tesi si colloca all interno del progetto RoboCare (descritto nella prossima sezione) e ha come obbiettivo la realizzazione di un robusto sistema basato sulla stereo visione per la localizzazione ed il tracciamento di persone e robot all interno di un ambiente domestico. Il lavoro descritto in questa tesi è relativo alla progettazione allo sviluppo e alla fase di sperimentazione del sistema realizzato. In questo capitolo, dopo aver descritto il progetto RoboCare e aver presentato gli obbiettivi della nostra tesi, cercheremo di capire quali sono le difficoltà che presenta la realizzazione di un sistema di visione rivolto alla localizzazione e al tracciamento di uomini e robot all interno di ambienti non strutturati. In conclusione, daremo un breve sguardo ai risultati ottenuti ed ai maggiori contributi apportati da questa tesi all interno del progetto RoboCare.

Capitolo 1. Introduzione 8 1.1 Il progetto RoboCare RoboCare è un progetto finanziato dal CNR, della durata di tre anni, che ha come obbiettivo la creazione di tutta una serie di infrastrutture tecnologiche (software, robot, sensori intelligenti ecc.) in grado di fornire assistenza a persone che, per motivi di età o a causa di un handicap fisico, non sono autosufficienti. Questo viene fatto impiegando una serie di sistemi tecnologici che cooperano tra di loro per offrire diversi servizi. Per esempio, i pazienti affetti dal morbo di Alzheimer potrebbero beneficiare di un sistema in grado di ricordare loro di prendere un determinato farmaco, di chiudere il gas della stufa, il rubinetto dell acqua e così via dicendo. Da questo semplice esempio, si comprende la necessità di realizzare un sistema in cui vi sia la partecipazione di più attori ognuno in grado di svolgere in totale autonomia il proprio ruolo, ma che potrebbero dover cooperare fra di loro al fine di raggiungere un obbiettivo comune. Così, tornando al precedente esempio, un sensore potrebbe segnalare ad un robot mobile una possibile fuga di gas il quale a sua volta, localizzata la persona anziana all interno dell ambiente domestico, potrebbe avvisarlo dell imminente pericolo tramite un messaggio vocale. Realizzare un tale tipo di sistema rappresenta un importante applicazione delle tecniche di Robotica e Intelligenza Artificiale, richiedendo lo sviluppo di agenti software e robotici intelligenti in grado di compiere attività complesse e di presentare un elevato livello di interazione uomo-macchina. Al sistema è quindi richiesto di coordinare i vari componenti mediante una supervisione dell intera struttura e fornire delle funzioni di controllo per consentire un intervento diretto da parte di operatori umani.

Capitolo 1. Introduzione 9 All interno del progetto RoboCare è stata inoltre condotta un inchiesta per capire quanto, una tale tecnologia, sarebbe stata accettata dal pubblico anziano a cui si rivolge. Da questa inchiesta sono emersi dei dati interessanti che hanno fornito delle informazioni, ad esempio, sulla forma del robot e sulle funzionalità che questo dovrebbe avere per ridurre al minimo l impatto psicologico determinato dalla sua presenza. Teniamo comunque a sottolineare che questa tecnologia non nasce con l intento di soppiantare le cure amorevoli che solo un essere umano è in grado di dare, anzi, il suo intento è quello di prestarsi come un valido supporto sia per le persone non autosufficienti sia per coloro che giornalmente si occupano di queste persone. Per la sperimentazione del sistema realizzato in questa tesi, è stata allestita una stanza in cui sono stati riproposti vari ambienti che caratterizzano una casa (cucina, camera da letto e soggiorno). La coppia di telecamere stereo sono state installate, su di un apposito supporto, ad una distanza una dall altra di 18cm. Tale supporto è stato infine fissato al muro ad un altezza di circa 2,5 metri da terra da cui è stato possibile monitorare gli spostamenti dei soggetti all interno di un area di circa 3 metri quadrati. 1.2 Obbiettivi della tesi Il vantaggio di usare la visione per la realizzazione di un sistema di localizzazione e tracciamento risiede sostanzialmente nella quantità di informazioni che è possibile ottenere anche senza l impiego di hardware speciali e costosi, come ad esempio sensori di posizione, fra l altro scomodi da indossare. Sfortunatamente, estrarre informazioni affidabili e precise dalle immagini non è un impresa facile e lo diventa ancor meno se dalla sequenza di immagini bisogna estrarre anche la terza dimensione necessaria al calcolo della posizione 3D dei soggetti tracciati.

Capitolo 1. Introduzione 10 L obbiettivo di questa tesi è quello di realizzare un sistema in grado di localizzare e tracciare la posizione di ogni agente presente nella scena, anche se non completamente visibile a causa della presenza di sedie, tavoli e mobili di vario tipo che compongono l arredamento di un ambiente domestico. Il sistema proposto risulta particolarmente utile per: 1) L interfacciamento con dei moduli di supervisione ai quali il sistema sarà in grado di fornire la posizione ed il numero dei soggetti presenti nell ambiente. 2) La valutazione delle strategie e del comportamento del sistema robotica (es. tracciando le traiettorie seguite dai robot per raggiungere i loro obbiettivi). 3) L interazione diretta con i robot per migliorarne le prestazioni fornendo loro un feedback sulla loro posizione o anche sulla traiettoria seguita, ad esempio, dal soggetto umano con cui il robot deve interaggire. La realizzazione di un sistema di localizzazione e tracciamento preciso ed affidabile non è l unico obbiettivo che questa tesi si propone di raggiungere. Cercheremo infatti di realizzare un sistema non invasivo, ovvero in cui non sia necessario utilizzare dei sensori e/o particolari dispositivi da indossare per effettuare la localizzazione ed il tracciamento del soggetto d interesse. Questo perché, come abbiamo visto, il progetto RoboCare si rivolge ad una categoria di persone che non sono completamente autosufficienti, quindi l impiego di tali sensori risulterebbe totalmente inadeguato in questo contesto. Per tale motivo, il sistema presentato in questa tesi è completamente passivo ed è basato sull elaborazione delle immagini provenienti da un sistema di telecamere. Infine, fra i vari obbiettivi, questa tesi si propone di realizzare un sistema di localizzazione e tracciamento che possa essere riutilizzato in ogni altro tipo

Capitolo 1. Introduzione 11 di contesto, anche al di fuori di quello domestico, e che possa essere ampliato da lavori futuri in modo tale da arricchirne le sue funzionalità. Si potrebbe ad esempio pensare di aggiungere un modulo che, una volta localizzato il soggetto, sia in grado di scandire i tratti somatici del volto che consentano di identificare il soggetto tracciato. Questo ed altri suggerimenti per dei futuri lavori saranno trattati nell ultimo capitolo di questa tesi. 1.3 Il problema della localizzazione e del tracciamento. Il problema legato alla localizzazione e al tracciamento di un soggetto è un problema di difficile soluzione specialmente se, come in questo caso, l unica fonte di informazione è costituita da una sequenza di immagini bidimensionali. Bisogna quindi trovare una soluzione per: estrarre gli elementi di interesse dall insieme di pixel che costituiscono una immagine digitale (classificazione). calcolare la loro posizione nell ambiente (localizzazione). associare gli elementi individuati precedentemente con quelli attuali al fine di identificare la traiettoria seguita da ognuno di questi elementi (tracciamento). Le soluzioni proposte in letteratura non risolvono completamente il problema della localizzazione e del tracciamento, specialmente quando si ha la necessità di risalire a partire dall immagine bidimensionale alle coordinate tridimensionali che caratterizzano la posizione del soggetto tracciato. Come vedremo in maggior dettaglio, nel Capitolo 2, le tecniche adottate per localizzazione ed il tracciamento possono essere suddivise in due categorie. La prima categoria è caratterizzata dall impiego di speciali marcatori e/o dispositivi che congiuntamente alla sequenza d immagini provenienti dalle telecamere possono fornire delle informazioni abbastanza

Capitolo 1. Introduzione 12 precise sulla posizione occupata nello spazio dai vari soggetti. La seconda categoria, di cui fa parte anche il sistema realizzato in questa tesi, cerca di risolvere il problema legato alla localizzazione e al tracciamento utilizzando la sola sequenza di immagini proveniente dal sistema di acquisizione video. I sistemi in cui non vengono utilizzati particolari marcatori e/o dispositivi (detti anche sistemi marker free) possono essere suddivisi a loro volta in sistemi monoculari, sistemi binoculari o di stereovisione e sistemi multi-camera. Tutti questi tipi di sistemi cercano di rispondere all esigenza legata al calcolo della terza dimensione nel processo di localizzazione e tracciamento con approcci diversi. Anche se questi argomenti verranno ripresi ed approfonditi nel prossimo capitolo è utile sapere che l inferenza sulla terza dimensione nel caso di sistemi monoculari viene ottenuta dall analisi temporale dei fotogrammi, mentre nel caso dei sistemi binoculari o anche di quelli multi-camera la distanza tra soggetto e telecamere viene ottenuta per mezzo di un processo di triangolazione. Il problema della localizzazione e del tracciamento è un problema molto più complesso da risolvere quando gli elementi che devono essere seguiti dal sistema di visione non sono dei corpi rigidi. Questo è il caso in cui gli elementi da tracciare sono delle persone. Infatti una persona è in grado di modificare la sua postura rapidamente ed in ogni istante. Così, ad esempio, una persona che in un fotogramma era in piedi in quello successivo può aver cambiato forma perché si è piegata a raccogliere un oggetto da terra. Questa variabilità nelle forme, come avremo modo di approfondire in seguito, rappresenta un problema importante e di difficile soluzione. Un altra fonte di problemi è costituita dalle ambiguità che si vengono a creare a causa delle situazioni di occlusione. In pratica, queste situazioni si presentano ogni volta in cui un ostacolo si interpone tra il soggetto

Capitolo 1. Introduzione 13 tracciato e la telecamera determinando quindi l impossibilità, da parte del sistema, di determinare la posizione esatta del soggetto (vedi Figura 1-1). Figura 1-1: Esempio di una situazione di occlusione dovuta alla presenza dell'albero. Questi ostacoli possono essere costituiti anche dalle stesse persone che, passando davanti la telecamera, impediscono la localizzazione del soggetto più lontano (inter-occlusione). Infine è necessario considerare fattori di disturbo dovuti alle variazioni di luminosità della scena, alle ombre, alle immagini riflesse da uno specchio ecc. Questa serie di problemi rende estremamente difficile la realizzazione di un sistema di localizzazione e tracciamento che sia efficace in tutte le situazioni, e quindi i sistemi sviluppati attualmente (incluso quello descritto in questa tesi) devono trovare un giusto compromesso tra efficacia ed efficienza del metodo. 1.4 Sviluppo della tesi e risultati conseguiti. Lo sviluppo del sistema presentato in questa tesi ha richiesto un lungo periodo di studio durante il quale si è cercato di individuare le tecniche di visione più adeguate a risolvere i problemi presi in considerazione. L analisi (riportata nel capitolo 2) dei sistemi di visione monoculari, binoculari e multicamera proposti in letteratura ha consentito di individuare quello che, visto anche il tipo di applicazione del sistema realizzato in questa tesi, si presenta come il miglior compromesso tra costo, flessibilità e

Capitolo 1. Introduzione 14 prestazioni. Da questa analisi è emerso che il sistema di visione in grado di soddisfare tali requisiti è quello binoculare o anche detto di stereo-visione. Il sistema sviluppato si articola in più fasi, la prima di queste fasi è rivolta alla segmentazione dell immagine in cui vengono individuate le zone di foreground e di background della scena. Una volta identificati nelle immagini i pixel appartenenti ai soggetti da tracciare il sistema passa a proiettare tali punti, tramite un processo di stereo visione, nella terza dimensione nel sistema di riferimento costituito dalle telecamere. Questi punti vengono quindi riportati in coordinate del mondo al fine di costituire una nube di punti 3D (appartenenti ai soli soggetti da tracciare) che può essere inquadrata da qualsiasi posizione. In particolare, verrà generata una inquadratura virtuale della scena che riprende questi punti dall alto. Questa nuova inquadratura consentirà al sistema di ridurre al minimo il numero delle occlusioni e consentirà quindi di localizzare la posizione di ogni individuo all interno della scena. Inoltre il sistema è in grado di calcolare alcune caratteristiche per ciascun oggetto e le utilizzerà per identificare lo stesso individuo nei fotogrammi successivi a quello attuale. La posizione di ogni individuo viene quindi stimata utilizzando il baricentro calcolato per ogni nube di punti tridimensionali appartenenti all individuo stesso. Inoltre, per avere una migliore approssimazione della posizione del soggetto, anche in presenza di possibili situazioni di occlusione, il sistema proposto è stato dotato di un filtro di Kalman che è in grado di limitare il rumore introdotto nella fase di misura della posizione. In questo modo è possibile avere una stima della posizione del soggetto tracciato anche se questo non è visibile alle telecamere. Infine, per ragionare in presenza di situazioni ambigue che possono scaturire, ad esempio, dalla mancata localizzazione di un soggetto, il sistema in questione è stato dotato di una piccola base di conoscenza dalla quale, per mezzo di una rete Bayesiana, tramite la quale è possibile stabilire da un punto di vista probabilistico se il soggetto in questione non è stato localizzato perché è uscito definitivamente dalla scena oppure perché

Capitolo 1. Introduzione 15 la sua presenza è stata nascosta alle telecamere a causa di una situazione di occlusione. I risultati ottenuti durante la sperimentazione del sistema proposto sono stati più che soddisfacenti. Durante la sperimentazione il sistema è stato in grado di localizzare e tracciare più soggetti presenti contemporaneamente nell ambiente monitorato anche in presenza di interocclusioni e di parziali occlusioni dovute all arredamento dell ambiente domestico. Oltre alla realizzazione del sistema di localizzazione e tracciamento, in questa tesi è stato presentato un nuovo metodo che consente di creare un modello del background della scena anche in assenza di una precedente fase di addestramento. Tale metodo consente inoltre di aggiornare dinamicamente il modello del background creato modificando in maniera selettiva le sole zone della scena che si presentano inanimate. Un metodo che mantenga il modello del background della scena aggiornato nel modo corretto, ovvero in cui le modifiche apportate riguardano solo ed esclusivamente quelle zone della stanza in cui sono visibili i soli elementi che appartengono al background, è una prerogativa a cui non è possibile rinunciare specialmente se il processo di localizzazione e tracciamento si protrae per un lungo periodo di tempo. Questo perché le modifiche dell ambiente monitorato causate anche da delle semplici azioni, come può essere ad esempio quella legata allo spostamento di una sedia, tendono a sommarsi nel tempo e ad aumentare la differenza tra il background della scena reale e quello rappresentato dal modello. Tale differenza si traduce, in fase di estrazione del foreground, in un aumento dei falsi positivi/negativi che ben presto tendono a riempire l intera maschera relativa al foreground della scena. Il sistema qui realizzato è stato presentato e dimostrato nell ambito dell incontro di fine primo anno di progetto, che si è tenuto a Roma in data

Capitolo 1. Introduzione 16 29 ottobre 2003 e a cui hanno partecipato diversi ricercatori provenienti da altre Università italiane. Un filmato video della dimostrazione è stato prodotto ed è disponibile sul sito web del progetto Robocare. I risultati del lavoro di questa tesi sono stati riassunti in un articolo presentato al primo Workshop RoboCare [27]. 1.5 Organizzazione della tesi La tesi è stata organizzata sostanzialmente in cinque parti. Nella prima parte (Capitolo 2) è stata fatta un analisi sui sistemi di visione (monoculare, binoculare e multicamera), proposti in letteratura, al fine di mettere in evidenza le problematiche e i vantaggi di ognuno di questi sistemi. Da tale analisi è stato possibile individuare, nel sistema binoculare (o anche detto di stereo-visione), il giusto compromesso tra costo, robustezza. Quindi nella seconda parte (Capitolo 3) ci siamo occupati di fornire le basi matematiche che consentono il calcolo della terza dimensione a partire da una coppia di immagini stereo, e di descrivere il processo di calibrazione e di modellazione della distorsione radiale introdotta dalla non idealità dell ottica delle telecamere. Nella terza parte (Capitolo 4) è stato descritto in dettaglio il sistema di localizzazione e tracciamento tramite stereo-visione realizzato in questa tesi. Nella quarta parte (Capitolo 5) sono mostrati i risultati sperimentali ottenuti con il sistema realizzato. Infine, nella quinta parte (Capitolo 6), sono presentate le conclusioni e dei suggerimenti per futuri lavori rivolti ad ampliare le funzionalità del sistema proposto.

Capitolo 2 Analisi dei sistemi e dei problemi di localizzazione e tracciamento Quello che rende la localizzazione e il tracciamento un problema di non facile soluzione è il fatto che esso racchiude al suo interno un vasto numero di sottoproblemi, come ad esempio l estrazione degli elementi d interesse dalle immagini, il calcolo della loro posizione nello spazio, la risoluzione delle ambiguità dovute alle svariate situazioni di occlusione, la localizzazione dello stesso soggetto in due fotogrammi diversi e così via dicendo. Tutti questi problemi non presentano un'unica soluzione e sfortunatamente le soluzioni proposte finora non sono in grado di risolverli completamente. Di seguito, dopo un breve paragrafo che ci aiuterà a capire quali tecniche si prestano meglio al nostro scopo, sono riportati alcuni lavori presenti in letteratura. L analisi di questi lavori ci aiuterà ad inquadrare meglio le problematiche legate allo sviluppo di un sistema di visione ed, in particolare, a quelle legate alla localizzazione ed al tracciamento degli agenti. 2.1 Tecniche di localizzazione e tracciamento Uno dei problemi che si incontrano nella realizzazione di un sistema di visione, che consenta di localizzare e tracciare i movimenti di persone e robot, è incentrato sul come calcolare la loro posizione e il loro movimento all interno dell ambiente. Il processo di localizzazione ha come obbiettivo

Capitolo 2. Analisi dei problemi e dei sistemi 18 principale la determinazione della posizione e dell eventuale orientamento degli elementi d interesse. Nel processo di tracciamento, invece, si cerca di individuare le corrispondenze tra il fotogramma precedente e quello attuale, che consentano di seguire nel tempo gli agenti. In altre parole, si tratta di estrarre degli elementi di interesse che caratterizzano il fotogramma all istante t-1, come punti, linee, forme ecc., determinarne la loro posizione nello spazio (localizzazione) e individuarne nuovamente la loro presenza all interno del fotogramma catturato all istante t determinandone una traiettoria di spostamento (tracciamento). Le tecniche adottate per individuare ed estrarre tali elementi d interesse sono sostanzialmente due e si distinguono per l impiego o meno di particolari dispositivi detti marcatori. (a) Localizzazione e Tracciamento mediante l impiego di marcatori In questa tecnica, dei marcatori e/o dispositivi di vario tipo sono fissati sul corpo della persona (vedi Figura 2-1). I segnali emessi da questi dispositivi possono essere di tipo diverso (luminoso, elettro-meccanico ecc.) e vengono catturati dall apposito dispositivo di ricezione che ha il compito di convertire questi segnali in informazioni tridimensionali. Figura 2-1: Marcatori e dispositivi per il tracciamento. Questa tecnica è largamente impiegata in applicazioni di Realtà Virtuale e presenta come vantaggio principale la possibilità di ottenere

Capitolo 2. Analisi dei problemi e dei sistemi 19 in tempo reale la posizione e l orientamento della persona. Per contro, presenta i seguenti svantaggi: - Lo spostamento dei sensori dalla loro posizione originale provoca situazioni di incertezza nei risultati. - Particolare difficoltà nel posizionare tali dispositivi su alcune zone del corpo, come ad esempio, spalle e ginocchia. - Rigidità nei movimenti della persona derivanti dal condizionamento fisico e psicologico legato alla presenza di tali sensori. (b) Localizzazione e Tracciamento senza l impiego di marcatori I metodi che non impiegano marcatori nella fase di localizzazione e tracciamento, riescono ad ottenere una stima sulla posizione della persona tracciata, elaborando le sole sequenze di immagini provenienti dai sistemi di acquisizione video. La sequenza di immagini può provenire da una sola telecamera (sistema di visione monoculare), o da due o più telecamere (sistemi di visione multi-camera). Nei sistemi di visione monoculare, si cerca di risalire alla posizione della persona estraendone inizialmente il profilo e cercando di trovare le corrispondenze con un modello 3D (vedi Figura 2-2). Figura 2-2: Sovrapposizione modello 3D.

Capitolo 2. Analisi dei problemi e dei sistemi 20 Un'altra strada possibile per ricostruire la terza dimensione, è basata sul calcolo del flusso ottico prodotto dal movimento di alcuni punti di interesse, detti features, scelti a priori (vedi Figura 2-3). Figura 2-3: Esempio di tracciamento di un punto d interesse. Queste tecniche, associate ad un modello geometrico della telecamera, consentono il passaggio dalle coordinate bidimensionali dell immagine a quelle tridimensionali. Occorre notare che il solo modello geometrico della telecamera non è sufficiente a determinare la posizione di un punto nello spazio. Infatti, oltre a conoscere le coordinate (u,v) nel dominio dell immagine, per avere un unica soluzione occorre conoscere la distanza d che separa il punto d interesse dalla telecamera. Una stima di tale distanza d viene fornita applicando una delle due tecniche prima menzionate. Nei sistemi di visione che impiegano più di una telecamera, una stessa scena viene invece ripresa da diverse angolazioni contemporaneamente. L analisi di queste immagini permette di

Capitolo 2. Analisi dei problemi e dei sistemi 21 ricavare la posizione dell elemento che si sta tracciando, per mezzo di un processo di triangolazione. In particolare, in un sistema di stereo visione, la distanza tra il punto (P) osservato e le telecamere è calcolata in base al triangolo formato da P e dai centri ottici del sistema di osservazione C1, C2 (vedi Figura 2-4). Figura 2-4: Triangolazione nei sistemi di stereo visione. Queste tecniche, in cui non è richiesto l uso di marcatori o di dispositivi di vario tipo, consentono al soggetto una completa libertà nei movimenti. Questo vantaggio si paga però con una maggiore difficoltà nella ricostruzione della terza dimensione. Nei sistemi di visione monoculare, prima accennati, la stima della terza dimensione risulta essere ancora più difficile da ricavare rispetto ai sistemi di visione che impiegano due o più telecamere. Questo perché, come ben sappiamo, la formazione di una immagine bidimensionale è costituita dalla sovrapposizione di più informazioni tridimensionali che governano la scena. Come risultato, il problema inverso, data una immagine bidimensionale determinare la scena tridimensionale dalla quale deriva, non ha un'unica soluzione.

Capitolo 2. Analisi dei problemi e dei sistemi 22 Da questa breve introduzione si capisce che, per i nostri scopi, l uso di un sistema che impieghi dei marcatori per localizzare e tracciare la posizione delle persone non è praticabile. Infatti un tale tipo di sistema, oltre a richiedere un hardware particolare, obbliga le persone che devono essere monitorate ad indossare, non senza difficoltà, particolari dispositivi. Considerando inoltre la classe di persone a cui il progetto RoboCare si rivolge, è naturale scegliere dei sistemi basati su metodi marker free. L intero sistema proposto in questa tesi è quindi basato sulla sola elaborazione delle immagini che provengono dalle telecamere. E pertanto possibile un suo riutilizzo anche in altri contesti (oltre a quello domestico) come, ad esempio, all interno di un generico sistema di sorveglianza. 2.2 Sistemi di visione per il tracciamento di persone I sistemi di visione trattati in letteratura possono essere raccolti sotto tre categorie distinte, in base al numero di telecamere impiegate dal sistema di visione. Possiamo quindi suddividere i sistemi in: - monoculari (uso di una sola telecamera) - stereo (uso di due telecamere) - multi-camera (costituiti da più di due telecamere) Prima di passare ad analizzare alcuni dei sistemi presenti in letteratura, sarà utile focalizzare i problemi che sono comuni alla maggior parte, se non a tutti, i sistemi di visione. 2.2.1 Problemi comuni ad un sistema di visione La localizzazione ed il tracciamento di agenti per mezzo del solo sistema di visione, quindi non impiegando marcatori o dispositivi di altro tipo, non è un problema di semplice soluzione. Un robusto sistema di visione, per

Capitolo 2. Analisi dei problemi e dei sistemi 23 essere definito tale, deve essere in grado di risolvere molteplici problemi legati alla individuazione degli elementi di interesse, alla localizzazione e al tracciamento in situazioni di occlusione. Inoltre deve essere in grado di determinare gli elementi che entrano ed escono dalla scena. Cerchiamo di analizzare più da vicino questi aspetti. Individuazione degli elementi di interesse. L estrazione degli oggetti di interesse dalle immagini che provengono dal sistema d acquisizione video, è uno dei primi problemi che il sistema di visione deve essere in grado di risolvere. In generale, gli oggetti d interesse possono essere persone, automobili, animali e altro ancora. Tali elementi vengono identificati con il termine generico di foreground. Il termine background della scena o più semplicemente background, viene invece utilizzato per riferirsi agli oggetti inanimati che compongono la struttura dell ambiente considerato. La maggior parte dei sistemi di visione impiega, per estrarre il foreground, un modello del background della scena che viene sottratto alle immagini provenienti dal sistema di acquisizione video (vedi Figura 2-5). Figura 2-5: Estrazione del foreground Comunque l uso della semplice sottrazione del background, al fine di individuare gli elementi di interesse, presenta diversi problemi quando si è in presenza di:

Capitolo 2. Analisi dei problemi e dei sistemi 24 - Cambiamenti repentini delle condizioni d illuminazione, questi cambiamenti determinano una variazione dei colori e delle intensità che caratterizzano la scena. I punti dell immagine (pixels) interessati da tali variazioni verranno erroneamente classificati, in seguito alla sottrazione del background, come appartenenti al foreground della scena. Questo problema si riscontra maggiormente negli ambienti esterni, dove l illuminazione può essere influenzata dal passaggio di nuvole a bassa quota. - Oggetti in movimento di vario tipo, come ad esempio la rotazione delle pale di un ventilatore o il muoversi delle fronde degli alberi. Inoltre, occorre considerare le superfici riflettenti. Queste possono proiettare l immagine di un soggetto in movimento, quindi le superfici bagnate, gli specchi, i pavimenti particolarmente lucidi possono far interpretare alcune zone della scena come delle zone di foreground. - Ombre. La sottrazione del background non è in grado di fare una distinzione tra il soggetto e la sua ombra (vedi Figura 2-6). Pertanto il foreground, oltre a presentare la sagoma del soggetto, presenterà anche la sua ombra proiettata. Tali ombre sono un grosso problema per tutti quei sistemi di visione che basano la loro analisi sui profili delle sagome estratte nella fase di sottrazione del background.

Capitolo 2. Analisi dei problemi e dei sistemi 25 Figura 2-6: Problemi legati alle ombre.(a) Persona ed ombra erroneamente identificati come un unico oggetto.(b) Foreground in cui è evidente la presenza di un ombra. Localizzazione e Tracciamento in situazioni di occlusione. Come abbiamo visto nel paragrafo precedente, la localizzazione e il tracciamento di persone e robot in un ambiente non è un problema di semplice soluzione. Tale difficoltà è resa maggiore dal fatto che le uniche informazioni a nostra disposizione, per localizzare e tracciare gli elementi di interesse, derivano esclusivamente dalle immagini provenienti dalle telecamere. Ma cosa accade se un soggetto viene nascosto dalla presenza di altri soggetti o strutture, che si interpongono tra il soggetto stesso e le telecamere? In questo caso siamo in presenza di una situazione di occlusione. Cercare di localizzare e di tracciare oggetti in situazione di occlusione risulta essere una operazione alquanto difficile. Questo perché non si può stabilire con certezza la posizione e la velocità di un oggetto, la cui visione da parte del sistema di acquisizione, viene impedita dalla presenza di altri elementi (vedi Figura 2-7). Come vedremo in seguito, si cercherà comunque di ottenere una stima sulla posizione del soggetto tracciato, utilizzando la direzione e la velocità rilevate prima che si verificasse l occlusione.

Capitolo 2. Analisi dei problemi e dei sistemi 26 Figura 2-7: La sequenza mostra, nel fotogramma 156, una situazione di occlusione. Le possibili situazioni di occlusione possono essere distinte in: - Occlusione tra oggetti, questo tipo di occlusione si ha quando un oggetto si interpone tra l oggetto tracciato e il campo visivo della telecamera (vedi Figura 2-7). La semplice sottrazione del background fornisce una sola zona di foreground nella quale non è dato sapere chi fra i due soggetti si trova più vicino alla telecamera. Rilevare una situazione di occlusione come quella presentata in Figura 2-7 è abbastanza facile. Questo perché i due soggetti, prima di interferire un con l altro, sono partiti da una situazione di non occlusione (fotogramma 120). La situazione sarebbe stata ben diversa se i due soggetti fossero entrati contemporaneamente dallo stesso lato del campo visivo. Infatti, in tal caso, uno dei due soggetti si sarebbe sovrapposto all altro già dall inizio, impedendo al sistema di visione di rivelarne la presenza e quindi di determinare una possibile situazione di occlusione. Il problema risiede quindi nel segmentare l unica zona del foreground, che contiene soggetti diversi, in zone separate che consentano di distinguere un elemento dall altro. L identificazione e la risoluzione di possibili situazioni di occlusione dovute alla presenza di più di due oggetti è un compito estremamente difficile. Questo spiega perché in letteratura la quasi totalità dei sistemi di

Capitolo 2. Analisi dei problemi e dei sistemi 27 visione riesce a risolvere, non senza difficoltà, situazioni di occlusione provocate dalla presenza di non più di due o tre soggetti. - Occlusioni a breve termine, in questo caso ci si riferisce alle occlusioni dovute alla presenza di elementi strutturali della scena che possono impedire la visione di un oggetto per un breve periodo di tempo. Tali elementi strutturali possono essere costituiti, ad esempio, da un cartello stradale, dal tronco di un albero ecc. Questi elementi, oltre a determinare l occlusione temporanea di un oggetto, possono determinare, in fase di estrazione del foreground, la presenza di due zone diverse che in realtà appartengono però allo stesso soggetto (vedi Figura 2-8). Figura 2-8: La presenza del lampione (a) ha provocato la separazione del soggetto in due zone, interpretate dal sistema di visione come due soggetti distinti (b). - Occlusioni a lungo termine, questo tipo di occlusioni si verifica quando un soggetto entra ad esempio all interno di un edificio, di una macchina oppure varca la soglia di una porta che comunica con un altro ufficio. In queste situazioni, occorre stabilire se aspettare che il soggetto tracciato esca nuovamente dall edificio o dalla porta in cui era entrato, oppure dichiarare il soggetto come definitivamente uscito dalla scena. Esempi di strutture che possono

Capitolo 2. Analisi dei problemi e dei sistemi 28 determinare occlusioni cosiddette a breve termine (BT) e a lungo termine (LT) sono schematicamente evidenziate in Figura 2-9. Figura 2-9: Esempi di occlusione a lungo termine (LT) e a breve termine (BT). Determinare gli elementi che entrano ed escono dalla scena. Un oggetto viene definito come entrante/uscente nella scena nel momento in cui entra/esce dal campo visivo della telecamera. L entrata e l uscita degli oggetti da punti diversi è facilmente determinabile. Le cose si complicano se l entrata (o l uscita) di due o più oggetti avviene nello stesso istante e nello stesso punto della scena. Se, ad esempio, una persona entra nella scena da una certa posizione mentre un altra esce dalla stessa posizione (e allo stesso tempo) allora, in questa situazione, il sistema di visione interpreterebbe questa situazione in modo errato. Infatti, l entrata in scena della nuova persona verrebbe interpretata (dal sistema di visione) come una inversione di marcia della persona che stava uscendo e non come l entrata di un nuovo soggetto. La soluzione a questo tipo di problemi richiede l analisi delle traiettorie ed il riconoscimento degli elementi correntemente tracciati. Dopo aver introdotto questa serie di problematiche cerchiamo di capire in che modo, i sistemi di visione proposti in letteratura, tentano di porvi rimedio.

Capitolo 2. Analisi dei problemi e dei sistemi 29 2.2.2 Sistemi di visione monoculare Negli ultimi anni un gran numero di sistemi di visione monoculare, per la maggior parte orientati verso applicazioni di video sorveglianza, sono stati proposti in letteratura. Questo spiega perché, molti degli sforzi compiuti da queste applicazioni, siano principalmente rivolti a risolvere problemi legati ai repentini cambiamenti d illuminazione e alle innumerevoli situazioni di occlusione che possono verificarsi in un ambiente esterno. Come abbiamo visto nel paragrafo precedente, il primo obbiettivo di un qualsiasi sistema di visione è quello d individuare gli elementi d interesse. Una tecnica largamente utilizzata nell estrazione del foreground, è basata sul confronto di ogni fotogramma con una immagine del background. Tale operazione consente di classificare i pixel, che presentano una significativa variazione rispetto al modello del background, come appartenenti al foreground. Il background può essere modellato per mezzo di una singola Gaussiana come in PFinder [1]. Per consentire a tale modello di adattarsi alla scena è necessario un breve periodo di apprendimento durante il quale l ambiente monitorato deve rimanere vuoto. Tale metodo risulta essere efficiente solo quando il background è poco variabile, mentre presenta delle grosse difficoltà nelle situazioni in cui si hanno cambiamenti di illuminazione e/o piccole variazioni del background, dovute per esempio, al movimento delle fronde degli alberi. Una variante più robusta di questo metodo, prevede l uso di K Gaussiane [2,3,4,5,6,7]. Comunque, anche questo metodo fallisce in presenza di rapidi cambiamenti d illuminazione e/o in presenza d ombre. Questo fallimento si traduce in un foreground costellato da molti pixel errati, che portano lo stadio demandato alla localizzazione e al tracciamento, alla perdita degli oggetti tracciati o all identificazione di oggetti fantasma dovuti, ad esempio, alla proiezione di un ombra su di una parete (vedi Figura 2-10).

Capitolo 2. Analisi dei problemi e dei sistemi 30 Figura 2-10: Errata classificazione del foreground. L errata classificazione è da imputarsi all uso di una rappresentazione dell immagine che dipende direttamente dalla luminosità dell ambiente. Le rappresentazioni che dipendono direttamente dall intensità luminosa sono ad esempio la rappresentazione R, G, B e quella a scale di grigi I. In tali rappresentazioni il risultato finale è ottenuto dall interazione tra la luce fornita dalla sorgente luminosa e il colore della superficie dell oggetto investito da essa. Per risolvere quindi il problema legato alla variazione della luminosità ambientale e, in particolar modo a quello dovuto alla presenza delle ombre, molte delle applicazioni propongono una sottrazione del background basata su una rappresentazione dell immagine che non dipenda dall intensità della sorgente luminosa. Troviamo pertanto, in applicazioni come PFinder, l uso della rappresentazione yuv, in cui vengono separate le componenti di crominanza u e v dalla componente di intensità y al fine di svincolarsi dai problemi legati alle variazioni dell intensità luminosa. Un altro tipo di soluzione viene proposta da Horprasert [12] che propone di separare la luminosità dalla componente del colore nello spazio rgb. Tali soluzioni si rivelano utili solo quando le ombre non sono troppo accentuate ed in generale quando la variazione dell intensità luminosa non è molto marcata. In tutti gli altri casi devono essere impiegate delle tecniche non basate sulla sola rappresentazione

Capitolo 2. Analisi dei problemi e dei sistemi 31 dell immagine [13]. Per concludere vale la pena osservare, come proposto in [3], che la direzione del gradiente può fornire una rappresentazione invariante rispetto alla luminosità. L idea alla base di questa osservazione risiede nel fatto che, se f x ed f y sono rispettivamente le derivate orizzontali e verticali di un punto dell immagine, allora una variazione di luminosità (in quel punto) si traduce in una variazione del modulo delle singole derivate, ma il rapporto fra di esse resta pressoché invariato. Sottratto il background e dopo aver ripulito da eventuali ombre il foreground, ha inizio il processo di localizzazione e tracciamento. Prima però, le regioni dell immagine i cui pixels risultano essere tra loro connessi, vengono a costituire delle singole entità che in letteratura sono indicate con il nome di blob (vedi Figura 2-11). Figura 2-11: (a) Immagine originale. (b) Foreground. (c) Blobs. (d) Foreground ripulito dai blobs troppo piccoli. Dopo aver ottenuto questi blob il metodo proposto da T. Zhao [4] cerca di individuare le persone da tracciare utilizzando un approccio che lui stesso definisce come ipotizza e verifica. In pratica quello che viene fatto è uno studio del profilo (al fine di individuare delle teste) e delle dimensioni (per

Capitolo 2. Analisi dei problemi e dei sistemi 32 scartare zone troppo piccole o troppo grandi) dei blob estratti. Questa fase è richiesta, specialmente nel monitoraggio di ambienti esterni, perché non è detto che tutti i blob ottenuti dalla sottrazione del background appartengano ad un essere umano. Potrebbero, per esempio, appartenere a delle automobili in transito. In altri metodi, come ad esempio quelli proposti da T. Ellis [5] e da O. Javed [3], non viene fatta alcuna ipotesi preventiva sui blob. Il processo di tracciamento, una volta definiti i boundig box che delimitano i vari blob identificati, cerca di mettere in corrispondenza le regioni che erano state evidenziate nel fotogramma precedente con quelle individuate nell immagine attuale. Per permettere tale ricerca, ogni regione viene caratterizzata con dei parametri come la dimensione (in termini di pixel) e le coordinate del centro di massa del blob considerato. Grazie a questi parametri è possibile costruire una funzione, come quella proposta da O. Javed [3], che permette di misurare la diversità fra due regioni. Pertanto, scelta una regione appartenente al fotogramma elaborato all istante t-1, è possibile individuare nel fotogramma attuale la regione che rende minima tale funzione. Le possibili situazioni che possono verificarsi in questa ricerca sono riassunte in [3] come: - Tutte le corrispondenze tra il fotogramma t-1 e t sono state trovate. In questo ogni soggetto è stato correttamente individuato e quindi non ci sono situazioni di ambiguità. - Delle regioni (blob), presenti nel fotogramma t-1, non hanno trovato alcuna corrispondenza nel fotogramma t. Questo si potrebbe verificare in presenza di situazioni di occlusione (a breve termine o a lungo termine) o anche perché il soggetto è uscito dal campo d azione della telecamera. - La situazione opposta alla precedente si ha quando, alcune regioni nel fotogramma t non hanno trovato una corrispondenza nel fotogramma t-1. Questo può significare o che un nuovo soggetto è

Capitolo 2. Analisi dei problemi e dei sistemi 33 entrato in scena, oppure che una precedente situazione di occlusione è cessata e quindi, il soggetto interessato, è nuovamente visibile alla telecamera. Un modo interessante per interpretare le possibili situazioni prima elencate ci viene fornito da T. Ellis e Ming Xu [5]. Il metodo da loro proposto cerca di prevedere, in base allo stato attuale dei blob tracciati e ad una rete di credenze (o rete bayesiana), quale sarà lo stato futuro del blob preso in considerazione. Tramite questa rete bayesiana è possibile ragionare da un punto di vista probabilistico e dedurre ad esempio che, se la dimensione di un blob è aumentata e due regioni nel fotogramma t-1 non hanno trovato corrispondenza nel fotogramma t, allora, con molta probabilità, siamo in presenza di una situazione di inter-occlusione fra due soggetti. Inoltre per continuare ad avere una buona stima sulla posizione dei soggetti tracciati, anche in presenza di una situazione di occlusione, i metodi [4, 8, 11] suggeriscono l impiego del filtro di Kalman. Un altra soluzione, meno robusta ma anche meno onerosa da un punto di vista del tempo di calcolo, richiede l impiego di un semplice modello in cui la posizione prevista viene calcolata in base alla posizione e alla velocità attuale [3]. Come anticipato nei precedenti paragrafi, il calcolo della terza dimensione in un sistema di visione monoculare non è affatto banale. Tale difficoltà traspare anche dal fatto che, fra i vari metodi trattati, solo in quello proposto da T. Zhao e R. Nevatia [4] viene considerato il problema legato al calcolo della terza dimensione. Il metodo impiega un modello della scena che, per mezzo di una fase di calibrazione, viene fatto collimare con l inquadratura della telecamera. Questo consente quindi di passare dalle coordinate 2D dell immagine a quelle 3D della scena. Per rendere unica la soluzione, nel passaggio da 2D a 3D, viene ipotizzato che le persone da localizzare e tracciare si spostano su di un piano noto a priori. Questo consente, una volta localizzata la posizione 2D dei piedi delle persone, di