COMPUTER VISION: VERSO UN RICONOSCIMENTO AUTOMATICO DEI GESTI COMUNICATIVI

Documenti analoghi
Riconoscimento e proiezione di oggetti su un ambiente virtuale

U n i v e r s i t à d e l P i e m o n t e O r i e n t a l e A m e d e o A v o g a d r o. Guido Vicino

la dimensione massima dell arena è di 30x30 m la dimensione massima dei marker è di 50x50 cm la dimensione minima dei marker è di 20x20 cm

CODIFICA IMMAGINI IN BIANCO E NERO

L6 Visual Tracking. Corso di Visione Artificiale Ing. Matteo Panciroli ANNO ACCADEMICO DIPARTIMENTO DI INGEGNERIA DELL INFORMAZIONE

Programma del corso. Introduzione Rappresentazione delle Informazioni Calcolo proposizionale Architettura del calcolatore Reti di calcolatori

Corso di Laurea Specialistica in Ingegneria Informatica. Correlatore: Ing. Andrea Claudi

Sistemi di Elaborazione delle Informazioni 6 CFU

2. Finalità generali previste dalle indicazioni nazionali

TIPI DI DATO NELLA CARTELLA CLINICA ELETTRONICA: BIOSEGNALI, BIOIMMAGINI E BIOFILMATI. Corso di Informatica Medica

Sistemi di Elaborazione delle Informazioni 6 CFU

La codifica del testo

Università degli Studi di Lecce Facoltà di Ingegneria Informatica

1 - STATO DELL ARTE DEI SISTEMI DI VIDEOSORVEGLIANZA...7

1 PERCHÉ LA AG-HPX301E È UNA CAMERA RIVOLUZIONARIA?

Automatic and Accurate Extraction of Road Intersections from Raster Maps

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA

EUROPEAN COMPUTER DRIVING LICENCE. Multimedia Video Editing. Syllabus

Sistemi di numerazione

In memoria di mio padre. A mia madre, a tutti gli amici. A tutti voi grazie.

Progettazione di impianti di terra

Video Analysis (cenni) Annalisa Franco

Scuola Politecnica e delle Scienze di Base Dipartimento di Ingegneria Civile, Edile e Ambientale

Le immagini digitali

I.4 Rappresentazione dell informazione - Altre codifiche

Un modello con le reti di Petri ibride per il controllo del traffico urbano

Te.Ne.Co. Tele Neurochirurgia Cooperativa. Lorenzo Angeloni Raffaele Ferrante The MathWorks, Inc. 1

Programmazione modulare

ORTOFOTO ED AGGIORNAMENTO DELLA CARTOGRAFIA NUMERICA DELLA REGIONE CAMPANIA - LEVATA 2004/05

Esercizi di introduzione alla programmazione

JPG PSD EPS TIFF PNG PDF

Corso: Fondamenti di Informatica 1 (gruppo 8-9) Corsi di laurea: Area dell'informazione Simulazione del Questionario a Risposte Multiple.

Segmentazione di impronte digitali. Annalisa Franco

Università degli studi di Genova

Hardware, software e periferiche. Facoltà di Lettere e Filosofia anno accademico 2008/2009 secondo semestre

Il sistema binario: bit e Byte Codifica del testo Il Byte come U.d.M. dell'informazione Multipli del Byte

Codifica binaria: - numeri interi relativi -

Rappresentazione dell informazione

Rappresentazione dei numeri: il sistema di numerazione decimale

Informatica per la Comunicazione/ Verdicchio/ 19/07/2016/ Domande / VERSIONE 1

STUDIO E IMPLEMENTAZIONE DI UN SISTEMA DI PARCHEGGIO ASSISTITO

Elenco dei simboli 9. Prefazione 10

Unità di apprendimento 6. Il software: dal linguaggio alla applicazione

SCHEDA DI SVILUPPO DELLA COMPETENZA. Rappresentare segnali e determinarne i

Tesi di Laurea TELECAMERA OMNIDIREZIONALE CON SENSORE RETINICO CMOS

2. Modellazione dei casi d uso

164LE - INFORMATICA PER LE DISCIPLINE UMANISTICHE. Anno Accademico 2016/2017 Tommaso Mazzoli

Progetto di un sistema di videosorveglianza basato su tecnologie multi-agente Corso di Laurea Magistrale in Ingegneria Informatica

Modellazione di sistemi ingegneristici (parte 2 di 2)

Fotometria delle stelle di campo

Come si passa dalle immagini reali alle informazioni digitali. Il funzionamento di una fotocamera digitale

Studio di tecniche per la rivelazione di traiettorie di veicoli in movimento in sequenze video

Corso di Informatica modulo Informatica di Base 6 CFU. Immagini digitali: concetti di base

Secondo Anno: Informatica Economico-Turistico

Cenni di fotogrammetria LE IMMAGINI DIGITALI

Informatica per la comunicazione" - lezione 5 -

Anno Accademico 2007/2008

Tramite il software ImageJ è possibile effettuare la conta di cellule principalmente in due modi: a) Conta automatica b) Conta manuale

Tecnologie Multimediali a.a. 2016/2017. Docente: DOTT.SSA VALERIA FIONDA

Data: Prodotto: Cinema 4D R14. Come si crea un filmato relativo ad una sequenza di montaggio degli elementi in cantiere?

Docenti Marco Cirrito, Pier Luigi Girelli. Disciplina. OBIETTIVI MINIMI (necessari al passaggio alla classe successiva)

ISTITUTO COMPRENSIVO DI BUDRIO, SCUOLA SECONDARIA DI PRIMO GRADO PROGRAMMAZIONE CURRICOLARE DI TECNOLOGIA A.S / 2018 CLASSE PRIMA

Le aree dell informatica

Programmazione Dipartimento Area Scientifica T. Rossi A.S. 2015/2016

2. Finalità generali previste dalle indicazioni nazionali

Istituto Tecnico Tecnologico Leonardo da Vinci Foligno

Introduzione. Corso di Tecniche di Simulazione, a.a. 2005/2006. Francesca Mazzia. Dipartimento di Matematica Università di Bari.

Informazione binaria: - rappresentazione dei numeri naturali e interi relativi -

Introduzione. Elementi di Informatica. Sistemi di Numerazione Addizionali. Sistemi di Numerazione. Sistemi di Numerazione Romano

CURRICULUM SCUOLA PRIMARIA / SECONDARIA di PRIMO GRADO. TECNOLOGIA I.C G. PERLASCA FERRARA. Orientarsi nello spazio. Conoscere l uso del righello

UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II

PIANO DI STUDIO DELLA DISCIPLINA

PROGETTAZIONE ANNUALE PER COMPETENZE Classe II Informatica

Immagini digitali. Georges Seurat ( ),"Un dimanche ' été à l' Ile de la Grande Jatte"

Corso di Laurea Specialistica in Ingegneria Informatica

164LE - INFORMATICA PER LE DISCIPLINE UMANISTICHE. Anno Accademico 2015/2016 Tommaso Mazzoli

OBIETTIVO GENERALE DEL MODULO

Programmazione di fisica Classe 3B a.s Contenuti

I clip filmato (in Flash)

PROGETTO ORTOFOTO DIGITALE a COLORI scala 1:5000 -

Lena Cota Guido Corso di Informatica - II livello. File System. File e Cartelle

Image Elaboration. Image Processing

PECUP: ELETTRONICA-ELETTROTECNICA ART. ELETTROTECNICA agg.:01/09/2012 (prof. Daniele RISI)

Impiego della concept analisys nella classificazione di pagine web ai fini del reverse engineering

Orario del corso. Contenuti del corso. Modalità d esame. Analisi Numerica 1 a.a. 2014/2015

FACOLTA : INGEGNERIA. CORSO DI LAUREA: Ingegneria Energetica. INSEGNAMENTO: Analisi dei sistemi. NOME DOCENTE: Prof. Ing. Alessandro De Carli

A.A Università di Messina Facoltà di Scienze della Formazione. Disciplina. Docente. CDL e CFU. Sede di. Descrizione

Relatore: Chiar.mo Prof. Stefano Maria Magrini Correlatore: Dott. Luigi Spiazzi Laureando: Stefano Spreafico Matricola: 90531

Analogico vs. Digitale. LEZIONE II La codifica binaria. Analogico vs digitale. Analogico. Digitale

Acquisizione di immagini

ECONOMICO AD INDIRIZZO SIA - INFORMATICA

SCHEDA INSEGNAMENTO A CALCOLO NUMERICO DE GIORGI"

SCUOLA POLITECNICA. DISEGNO INDUSTRIALE DISEGNO E RAPPRESENTAZIONE INFORMATICA A Formazione di base nella rappresentazione

4.3: La Codifica dei Suoni e dei Video

Audacity - Introduzione

Disciplina: INFORMATICA

Programmazione educativo-didattica anno scolastico TECNOLOGIA CLASSE PRIMA PRIMARIA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE.

Lez. 7 Immagini Digitali. Prof. Pasquale De Michele (Gruppo 2) e Raffaele Farina (Gruppo 1) 1

Tesi di Laurea Triennale in Ingegneria Informatica REALIZZAZIONE DI UN APPLICATIVO PER LA GESTIONE DI FOGLI DI LAVORO INTEGRATO IN OUTLOOK 2010

Transcript:

POLITECNICO DI BARI CORSO DI LAUREA IN INGEGNERIA INFORMATICA TESI DI LAUREA IN SISTEMI PER LA PROGETTAZIONE AUTOMATICA COMPUTER VISION: VERSO UN RICONOSCIMENTO AUTOMATICO DEI GESTI COMUNICATIVI Relatore: Chiar.mo Prof. MARIO REFICE Laureando: DONATO DI PIERRO ANNO ACCADEMICO 2010-2011

Nota: Il presente documento è un breve estratto dello studio di tesi. Gli obiettivi del presente studio di tesi sono: - L identificazione automatica dei movimenti; - L etichettatura automatica dei gesti; - L identificazione di particolari tipologie di gesti. Definizione Un gesto, secondo Adam Kendon, è una escursione di un arto da una posizione di riposo, e comprende il ritorno dell arto nella posizione iniziale di riposo. Esso consta di tre fasi: 1) Preparation: è la fase in cui l arto si accinge a compiere il gesto; 2) Stroke: è la parte saliente del gesto; 3) Retraction: è la fase in cui l arto, dopo lo stroke, ritorna verso la posizione iniziale di riposo. Per poter condurre uno studio sul riconoscimento automatico dei gesti, è necessario in una prima fase, considerare una sola tipologia di gesti. La tipologia di gesti presa in esame è quella dei gesti di tipo battito (detti anche beats). E stata scelta questa tipologia per la possibilità che essa offre di identificare le fasi descritte da Kendon, e con lo scopo di studiare la correlazione tra i gesti ed il parlato: - Confini delle unità prosodiche - Prominenze accentuali. Computer Vision: che cos è E un insieme di tecniche di visione artificiale o computazionale volte a riprodurre le abilità della visione umana in dispositivi elettronici per l acquisizione e la comprensione delle immagini. Possibili campi applicativi della Computer Vision sono: a) Controllo dei Processi b) Rilevazione di eventi c) Organizzazione delle informazioni d) Modellazione di oggetti e) Interazione Uomo-Macchina

Il Trattamento delle immagini digitali Considerando la forma matriciale delle immagini digitali: si ha che, che ognuna delle funzioni rappresentanti i valori di colore dei pixel è tale che: allora l immagine si dice binarizzata. { 0} { 1} f ( x, y) La binarizzazione di una immagine digitale, consente di facilitare la segmentazione dell immagine in modo automatico. Considerando una immagine RGB, essa è formata da pixel, ognuno dei quali è rappresentato con una intensità di colore data dalla presenza delle tre componenti di colore (rosso, verde e blu). Come schematizzato nell immagine sopra, è possibile distinguere i pixel in primo piano (indicati con Foreground), i pixel di sfondo (Background) e le lacune (Holes). In questo esempio, il colore della pelle non è detto che appartenga al primo piano, ma sorge per il sistema automatico un dubbio: si tratta di pixel di sfondo o lacune?

Gli spazi di colore Per poter effettuare l analisi automatica delle immagini, è necessario comprendere il dominio dei colori nella loro rappresentazione in formato analogico oltre che la loro conversione in formato digitale. Lo spazio di colore più utilizzato è lo spazio RGB, secondo il quale, attraverso la miscelazione additiva dei colori primari Rosso, Verde e Blu, si ottengono tutti gli altri colori. In particolare, la somma delle tre componenti, porta al colore bianco. Purtroppo, però, lo spazio di colore RGB presenta delle caratteristiche che poco si prestano all identificazione automatica delle immagini, e cioè: - Non è uno spazio assoluto; - Il fattore della luminanza dipende dalle componenti R, G, B. Uno spazio di colore molto utilizzato nella Computer Vision è lo spazio HSV, in cui il fattore della luminanza è indipendente dalla crominanza, ed in più è uno spazio assoluto (quindi ogni colore ha la medesima rappresentazione su diversi dispositivi se questi utilizzano lo spazio di colore HSV). Dunque per poter applicare alle immagini gli algoritmi tipici della Computer Vision, si rende necessaria una conversione tra gli spazi di colore, in particolare si è proceduto convertendo le immagini da RGB ad HSV.

La Segmentazione delle immagini Si tratta di una tecnica che consente di suddividere un immagine nelle regioni o negli oggetti che la compongono (definizione di Gonzalez Woods). Le proprietà che contribuiscono all operazione di segmentazione sono: 1) Discontinuità (bruschi cambiamenti di intensità da un pixel all altro; 2) Similarità (confronto con pattern, ovvero immagini predefinite). Visione d insieme del sistema Il sistema software sviluppato, è stato organizzato secondo tre moduli: Il primo modulo, realizzato in C++ con l ausilio delle librerie OpenCV, permette di effettuare una taratura manuale dei parametri HSV aprendo il file video da analizzare, dopodichè scorre in

automatico il filmato, identificando il centro di massa della mano destra e quello della mano sinistra del soggetto presente nel video. Durante l identificazione, vengono registrate le coordinate della mano destra e quelle della mano sinistra, in un file di testo: coordinate.txt. Il secondo modulo, sviluppato secondo lo standard ANSI C++, discrimina le coordinate dal file di testo iniziale, generando due nuovi file di testo, uno contenente le coordinate della mano destra e l altro contenente le coordinate della mano sinistra. Il terzo ed ultimo modulo, realizzato in Matlab, scorre i due file relativi alle coordinate della mano destra e della mano sinistra, effettuando il riconoscimento automatico dei gesti. Ogni gesto identificato viene registrato in un nuovo file, avente estensione TextGrid, con i rispettivi frame di inizio e di fine gesto. In questo modo l utente può utilizzare il file delle etichette generato, in un altro tool, Praat, in modo da poterne studiare la correlazione con il parlato. Il primo modulo Il primo modulo effettua, tra le operazioni più importanti, quella di Hysteresis Thresholding, il cui algoritmo è riportato di seguito: tale operazione permette di studiare qualunque tipo di filmato poiché si tratta di una operazione di taratura che viene eseguita dall utente, fin quando non vengono eliminate dalle immagini

componenti il video da analizzare, tutte le parti non salienti (è dunque possibile effettuare una sottrazione dello sfondo, seppur con alcuni limiti). Nell immagine raffigurata sopra, è possibile osservare come, attraverso una opportuna taratura dei parametri HSV, sia possibile ottenere una sottrazione dello sfondo e binarizzando l immagine, vengono evidenziate le sole aree di interesse. Tuttavia, come si è accennato, questo è possibile solo se lo sfondo non presenta tonalità di colore simili alla pelle. Il secondo modulo Il secondo modulo, partendo dall immagine a colori, effettua fotogramma per fotogramma, le seguenti operazioni: binarizza l immagine identifica le aree aventi la forma tipica di una mano calcola il minimo rettangolo contenente tali aree

deriva il centro di gravità delle mani come il centro del rettangolo minimo contenente le aree identificate.

Il terzo modulo Il terzo modulo è organizzato in quattro script Matlab, uno dei quali funge da main script, come raffigurato nell immagine seguente: Tra i file di output, sono presenti anche due file Mano1 e Mano2, che possono essere letti con il software Videoetic, sviluppato nel laboratorio SIUM del Politecnico di Bari, e permettono all operatore di verificare manualmente l etichettatura automatica generata, con diretto riferimento alle porzioni di video.

Il riconoscimento La procedura porta al riconoscimento automatico degli strokes, è basata sullo studio delle velocità e delle accelerazioni delle mani. Diagrammando le velocità in funzione delle accelerazioni, è facile osservare come lo stroke possa essere identificato con il momento in cui la mano ha accelerazione nulla. Quindi sono stati identificati dei valori di soglia per le accelerazioni, ed è stato definito il seguente algoritmo:

Per il Teorema di Shannon sul campionamento, purtroppo la precisione di tale operazione è limitata proprio dal livello di campionamento del video digitale. Maggiore è il valore di fps del video, più accurata è la derivazione del momento in cui si verifica uno stroke.

Risultati ottenuti Per poter avere una misura qualitativa dell efficacia del riconoscimento automatico dei gesti, sono state valutati i gesti identificati dal sistema automatico rapportandoli ai gesti identificati correttamente. Il grado di attendibilità è dunque stato definito come: Attendibilità (%) = Gesti identificati correttamente x 100 Totale dei gesti identificati Lo studio è stato effettuato valutando filmati aventi diverse caratteristiche (sfondo diverso, personaggi diversi). Ne è derivata la seguente tabella: Totale gesti identificati Gesti identificati correttamente Attendibilità del Sistema Automatico Mano destra (video1) 93 69 74,2% Mano sinistra (video1) 151 136 90,1% Mano destra (video2) 41 35 85,4% Mano sinistra (video2) 16 10 62,5% Mano destra (video3) 74 57 77,0% Mano sinistra (video3) 29 13 Mano destra (video4) 91 86 94,5% Mano sinistra (video4) 0 -- --

Possibili sviluppi futuri - Riconoscimento di altre tipologie di gesti oltre i beats; - Riconoscimento degli aspetti morfologici tipici delle mani in presenza di sfondi complessi; - Riconoscimento dei gesti nelle tre dimensioni.