Automatic Head and Face Analysis for Human-Computer Interaction



Documenti analoghi
Modeling and Tracking Social Walkers

SCENE UNDERSTANDING FOR MOBILE ROBOTS

Indice. Introduzione...6. Capitolo 1: Realtà virtuale e computer vision..10. Capitolo 2: Riconoscimento facciale..34

A dissertation submitted to ETH ZURICH. for the degree of Doctor of Sciences. presented by DAVIDE MERCURIO

VLSI Circuits for Cryptographic Authentication

Solutions in motion.

Gli studi dell HCI si concentrano spesso sull interfaccia

ISAC. Company Profile

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

ISLL Papers The Online Collection of the Italian Society for Law and Literature

Introduzione al Semantic Web Linguaggi per la rappresentazione di ontologie. L idea del Semantic Web.

Decode NGS data: search for genetic features

M/S AMARU' GIOVANNI VIA S. ERASMO snc VASCHE DI CASTEL S. ANGELO (RI) ITALY

Transfer of activity recognition capabilities to untrained sensor systems

Tecnologie del parlato

Dr Mila Milani. Comparatives and Superlatives

EIII. Energy cost analysis in filament melt spinning. Swiss Federal Institute of Technology Zurich. Doctor of Technical Seiences

Stimare il WCET Metodo classico e applicazione di un algoritmo genetico

THINKING DIGITAL SYNCHRONIZING WITH THE FUTURE PENSIERO DIGITALE: SINCRONIZZARSI COL FUTURO

Comunicazione non verbale: computazione affettiva

Tecniche di riconoscimento statistico

Studio e implementazione di un OCR per auto-tele-lettura dei contatori di gas e acqua

officine CAOS (turin IT) CALL FOR ENTRIES from March to July 2015

Attuatore a relè Manuale di istruzioni

Estendere Lean e Operational Excellence a tutta la Supply Chain

La qualità vista dal monitor

Compatibilità del Portale Piaggio con Internet Explorer 10 e 11. Internet Explorer 10

L università degli Studi del Sannio

HDRI (High Digital Range Images)

I CAMBIAMENTI PROTOTESTO-METATESTO, UN MODELLO CON ESEMPI BASATI SULLA TRADUZIONE DELLA BIBBIA (ITALIAN EDITION) BY BRUNO OSIMO

Syllabus. Corso On-Line. POSitivitiES. Learning. Applied Positive Psychology for European Schools

PERFORMING IN ENGLISH. il coaching linguistico dedicato ai manager

Da THRIVE a HOME SWEET HOME: la videoconferenza da strumento di riabilitazione a strumento di monitoraggio e di inclusione sociale

Easter 2008 Gallery Benucci Rome. October 2008 Taormina Chiesa del Carmine, group picture and Gallery Benucci. December 2008 Benucci Gallery, Rome.

Service Design Programme

NOTIZIE DALLA SCOZIA

C. & G. Agency Srl Via Novara, snc Tuscania VT Tel. 0761/ Fax. 0761/ Website: info@cegagency.

Bristle test of different filaments based on the Brush "Record" - Toothbrush with whitening filaments, white filaments

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

Facoltà di Scienze e Tecnologie

L analisi dell attività

Ceramiche toscane. Bouquet

Approccio stratificato

M/S CERAMICA SCARABEO Località Pian del Trullo Fabrica di Roma (VT), ITALY Fabrica di Roma (VT), ITALY. C. A. Sig.

In-Diversity Newsletter 3

Animazioni 3D. Informatica Grafica I. Le basi dell'animazione 3D. Le basi dell'animazione 3D. Le basi dell'animazione 3D. Le basi dell'animazione 3D

LA SOLUZIONE PER I VOSTRI PROBLEMI

CONFIGURATION MANUAL

Calcolo efficienza energetica secondo Regolamento UE n. 327/2011 Energy efficiency calculation according to EU Regulation no.

CDVS La visione artificiale per nuovi servizi e applicazioni industriali

Quality Certificates

Piazza dei Decemviri, Roma. Via Ferrini, Roma SCHEDA DI PROGRAMMAZIONE DIDATTICA PER SINGOLA DISCIPLINA. Anno scolastico

Copyright 2012 Binary System srl Piacenza ITALIA Via Coppalati, 6 P.IVA info@binarysystem.eu

COMPOSTING FACILITIES AND BIOAEROSOLS AS SOURCES OF LEGIONELLA AND AMOEBAE

Eugenio Santoro. I social media come strumento di promozione della salute

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

SmartGPS Satellite Information System Guida all utilizzo del programma Sviluppato da Fabio e Marco Adriani Versione 1.0.0

TACTÒ TASTIERA EFFETTO HALL KEY PAD HALL EFFECT

Data Alignment and (Geo)Referencing (sometimes Registration process)

A Seamless Framework for Object-Oriented Persistence in Presence of Class Schema Evolution

Emissions-Controlled Diesel Engine

PATENTS. December 12, 2011

Mechanisms of neuronal apoptosis and axon growth. presented by. Dipl. accepted on the recommendation of. Valeria Gagliardini. Bioc.hemi.

English-Medium Instruction: un indagine

INTERNET & MARKETING INNOVATIVE COMMUNICATION.

Sintesi della Lingua Italiana dei Segni mediante l utilizzo del Motion Capture e dei metodi procedurali

Aggiornamento dispositivo di firma digitale

Sponsorship opportunities

WELCOME UNIPA REGISTRATION:

pod coffee machines macchine per caffé IN CIALDE pod coffee machines macchine per caffé in cialde

Research Collection. Statistical decisions based directly on the likelihood function. Doctoral Thesis. ETH Library. Author(s): Cattaneo, Marco E.G.V.

MAIL LE NUOVE APPLIQUE S, L, XL. MAIL is the new wall lamp collection, with indirect light, designed by Alberto Saggia and Valerio Sommella.

A Neuromorphic VLSI System for Modeling Spike Based Cooperative Competitive Neural Networks

SANTE PELLEGRINO

ISTI ISTI Pisa. Trasportare algoritmi di partizionamento di oggetti in ambito teoria dei concetti. Elvira Locuratolo & Jari Palomaki.

UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA

FIRESHOP.NET. Gestione della distinta base & della produzione.

Lezione 1: Introduzione

We take care of your buildings

LA SACRA BIBBIA: OSSIA L'ANTICO E IL NUOVO TESTAMENTO VERSIONE RIVEDUTA BY GIOVANNI LUZZI

SCHEDA DI PROGRAMMAZIONE DIDATTICA PER SINGOLA DISCIPLINA

Optimal Modelingand Drug

F ondazione Diritti Genetici. Biotecnologie tra scienza e società

ENPCOM European network for the promotion of the Covenant of Mayors

Learning session: costruiamo insieme un modello per una campagna di marketing

true Design minimale per un impatto massimale. [eos] Minimal design for maximum impact. design made in italy

Il Rettore, prof. Giuseppe R,Brera il 7 Dicembre 2014 ha inaugurato il 20 anno d ivita dell Università Ambrosiana PROLUSIONE

/. ^y^cr-^a. Bandwidth and Energy Efficiency. Continuous-Phase Modulation. and Coding for. 2?.g. g& presented by Bixio E. Rimoldi. dipl. El. Ing.

INSTALLARE PALLADIO USB DATA CABLE IN WINDOWS XP/ME/2000/98

Equivalence Properties and Probabilistic Reasoning in Symbolic Security Protocol Analysis

La Sua banca dovrá registrare il mandato di addebito nei propri sistemi prima di poter iniziare o attivare qualsiasi transazione

WELCOME. Go to the link of the official University of Palermo web site Click on the box on the right side Login unico

GUIDA ALLA RILEVANZA

AVVISO DI SICUREZZA. Nome prodotto Codice Versione software

rappresentazione alchemica

daphne programm Università degli Studi di Padova Centro Interdipartimentale di ricerca e servizi sui diritti della persona e dei popoli

UNIVERSITÀ DI PISA. Facoltà di Ingegneria Corso di laurea in Ingegneria Meccanica Tesi di laurea. TITOLO della TESI. Candidato Massimiliano Mannozzi

Manuale Intesa. Guida all apertura di un ticket di assistenza online

INFORMATICA, IT e ICT

A Publishing Infrastructure for Interactive Paper Documents

Transcript:

DISS. ETH NO. 20375 Automatic Head and Face Analysis for Human-Computer Interaction A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by Gabriele Fanelli M.Eng. Sapienza University of Rome born July 12, 1980 citizen of Italy accepted on the recommendation of Prof. Dr. Luc Van Gool, ETH Zurich and KU Leuven, examiner Prof. Dr. Nicu Sebe, University of Trento, co-examiner 2012

Abstract Humans rely on head and facial movements for numerous tasks, especially in relation to communication. From speech to facial expressions, from nods to the subtlest non-verbal cues, our heads produce a great amount of information which we effortlessly read and transmit every day. Accurate and robust algorithms for the analysis and synthesis of both head and facial motions have therefore been actively advocated in the computer vision, machine learning, and computer graphics research communities. The driving force to these efforts is represented by the countless possible applications of such automatic methods: From security to health care, from human-computer interaction to intelligent tutoring, just to name some. This work presents new tools for the analysis of head and facial motion targeted at improving our experience in the interaction with machines, nowadays still performed mainly through unnatural devices like keyboards and mice. A first contribution is a method for robust mouth localization in videos of talking people. The algorithm does not rely on specific features like lip contours to be visible and we experimentally prove it accurate enough for the speech recognition task, achieving results comparable to the ones obtained from semi-automatically cropped mouth images. We further describe a method for the automatic classification of facial videos into a discrete set of expression labels which also localizes the expression s apex in time. Our voting approach achieves results comparable to the state of the art when applied to standard databases and proves capable of handling a certain degree of occlusion. A multimodal corpus of affective speech is presented next, together with procedures for its acquisition and automatic labeling. The recordings

iv Abstract include high quality facial scans of native English speakers engaged in emotional speech. Though we used video clips to elicit the affective states, thus trading naturalness for quality, an online evaluation showed that the recorded data retained the expressivity of the inductive films. The corpus is targeted to the research fields of realistic visual speech modeling for animation and recognition, 3D facial features localization, and view-independent expression recognition. Finally, we present a framework for head pose estimation from depth images and extend it to localize a set of facial features in 3D. Our algorithm handles large rotations, partial occlusions, and noisy depth data. Moreover, it works on each frame independently and in real time, thus lending itself as a complement to tracking algorithms for their initialization and recovery. We thoroughly evaluate the system on challenging and realistic datasets, among which stands out a new annotated head pose database collected using a Microsoft Kinect, which we made available to the community.

Sommario I movimenti della testa e del volto sono parte fondamentale della comunicazione tra esseri umani. Parlato, espressioni facciali, cenni del capo: la testa ed il viso producono un gran numero di informazioni che ogni giorno trasmettiamo e decifriamo naturalmente. Innumerevoli applicazioni pratiche beneficerebbero di algoritmi affidabili per l analisi e la sintesi dei movimenti del capo, ragione che ha spinto i recenti sforzi fatti nei campi della visione artificiale, apprendimento automatico e computer grafica. Questa tesi presenta nuovi metodi per l analisi automatica dei movimenti della testa e del volto umani. Lo scopo principale è di migliorare l interazione uomo-macchina, oggi per la maggior parte ancora condotta tramite dispositivi poco naturali come tastiera e mouse. Un primo contributo è un metodo per localizzare la bocca in video raffiguranti persone che parlano. L algoritmo non dipende da specifici tratti facciali come il contorno delle labbra e quindi non è suscettibile della loro parziale copertura. Gli esperimenti mostrano come il metodo suggerito sia utilizzabile per il riconoscimento automatico del parlato, ottenendo risultati simili a quelli ricavati da immagini della bocca estratte tramite intervento manuale. Descriviamo poi un metodo per il riconoscimento automatico delle espressioni facciali da video e la localizzazione delle stesse nella dimensione temporale. Il nostro approccio ottiene risultati simili allo stato dell arte quando applicato a delle basi di dati standard e si dimostra inoltre capace di funzionare anche quando parti del volto non sono visibili. Segue una raccolta di scansioni facciali 3D di alta qualità, con corrispettivo audio, di 14 madrelingua Inglesi impegnati nella produzione di parlato emozionale. I dati sono presentati insieme alle procedure necessarie per la loro acquisizione e annotazione automatica. L uso di video

vi Sommario per indurre gli stati affettivi è necessario per ottenere dati di alta qualità, a scapito della loro naturalezza. Un sondaggio online dimostra che i dati raccolti trasmettono emozioni simili a quelle provate guardando i video originali. Il database può essere utile per la ricerca sulla modellazione delle deformazioni facciali associate al parlato per l animazione e il riconoscimento, oltre che sulla localizzazione di tratti facciali in 3D. Infine, viene presentato un algoritmo per la stima della postura della testa da immagini di profondità, esteso alla localizzazione di alcuni importanti tratti facciali in 3D. Il metodo proposto riesce anche in presenza di rotazioni notevoli, immagini parzialmente corrotte o di bassa qualità. Il funzionamento in tempo reale e su ogni immagine indipendentemente ne fanno un complemento ideale ad algoritmi di tracciamento esistenti per la loro inizializzazione e recupero. Un accurata valutazione dell approccio proposto è eseguita su basi di dati impegnative e realistiche, tra cui un nuovo database registrato con un Microsoft Kinect, annotato con la postura delle teste e reso disponibile alla comunità scientifica.