TELEMATICS LAB
Il fenomeno della tridimensionalità Stereoscopia: dal greco "στερεός" (stereòs), spazio e "σκοπέω" (skopéo), vedere vedere nello spazio Dov è collocato l oggetto nello spazio? In quale direzione e a quale distanza si trova rispetto a noi? Come funziona la vista? La luce riflessa colpisce la retina (superficie bidimensionale) e proietta su di essa le immagini del mondo circostante Come è possibile che il nostro cervello da un immagine piatta riesca a produrre una rappresentazione tridimensionale del mondo reale? Attraverso gli indizi di profondità che possono distinguersi in: indizi pittorici (o monoculari) indizi fisiologici (o binoculari)
Storia della stereoscopia 1838: Wheatstone introduce lo stereoscopio a specchi 1849: Sir Brewster sostituisce allo stereoscopio a specchi, quello a prisma 1853: Wilhelm Rollmann sviluppa il primo sistema per produrre immagini anaglifiche 1891: vengono scoperti i metodi di polarizzazione per la vista stereoscopica 1903: a Parigi, i fratelli Lumière proiettarono il primo 3D in anaglifo: L arrivée du train en gare de La Ciotat. Il pubblico rimase esterrefatto davanti al treno che effettivamente sembrava uscire dallo schermo 1903: Ives inventa le barriere di parallasse 1920: diversi scenziati, Ives compreso, pongono le basi del sistema lenticolare 1922: Carl Pulfrich illustra l effetto Pulfrich 1948: Gabor scopre come realizzare i primi ologrammi
Percepire la profondità: indizi di profondità Interposizione Grandezza relativa e familiare Ombreggiatura Indizi prospettici Indizi monoculari Movimento relativo Convergenza Disparità binoculare Indizi binoculari
Percepire la profondità: indizi monoculari Interposizione: un oggetto più vicino copre parte di un oggetto più distante Magritte, Le blanc-seing, 1965
Percepire la profondità: indizi monoculari Grandezza relativa e familiare Grandezza relativa: permette di stabilire la distanza di oggetti fisicamente identici se ci appaiono di diverse grandezze Grandezza familiare: la conoscenza delle dimensioni normali di un oggetto influenza la distanza cui ci appare Magritte, Golconde, 1953
Percepire la profondità: indizi monoculari Ombreggiatura: il rapporto tra luci ed ombre dipende dalla struttura tridimensionale dell oggetto e crea una forte impressione di profondità in rappresentazioni bidimensionali
Percepire la profondità: indizi monoculari Indizi prospettici: le dimensioni relative degli oggetti vengono confrontate in funzione della collocazione degli stessi sulle linee di convergenza Raffaello, Sposalizio della vergine, 1504
Percepire la profondità: indizi monoculari Movimento relativo: i soggetti vicini tendono a spostarsi nel nostro campo visivo più velocemente di quelli lontani
Percepire la profondità: indizi binoculari Convergenza gli occhi convergono secondo un certo angolo (parallasse angolare) in base alla distanza dell oggetto fissato: più vicino è, maggiore è la rotazione degli occhi Il sistema visivo calcola tale distanza basandosi sulla tensione dei muscoli oculomotori Il raggio d azione della convergenza è limitato a 6 mt, al di là non vi è angolazione Strumento potente per la produzione di contenuti 3D Stimolando artificialmente l avvicinamento degli occhi, lo spettatore percepirà una sensazione di vicinanza e viceversa
Percepire la profondità: indizi binoculari Disparità binoculare Gli occhi sono situati a 6-7 cm di distanza per cui vedono il mondo da due punti di vista lievemente diversi Alcuni particolari sono visibili solo a uno dei due occhi La disparità binoculare è un indizio di profondità, perché più lontano si trova l'oggetto più piccola sarà la disparità binoculare
Percepire la profondità Stereopsi Da stereo che significa spazio e opsis che significa comparsa Processo attraverso la quale il cervello fonde le due immagini generando la visione tridimensionale Il cervello sfrutta gli indizi di profondità per trarre informazioni sulla profondità e sulla posizione spaziale dell oggetto
Produzione di contenuti stereoscopici Obiettivo Stimolare il cervello a riprodurre artificialmente il fenomeno della stereopsi: le due immagini L/R vengono fuse in un unica immagine tridimensionale Mezzo Disporre di due flussi di immagini che simulino rispettivamente il punto di vista dell occhio destro e dell occhio sinistro (v. acquisizione flussi video) Utilizzare le immagini acquisite per sfruttare gli indizi di profondità binoculare (v. posizionamento delle immagini) Veicolare a ciascun occhio ESCLUSIVAMENTE il corrispettivo flusso (v. tecniche di visualizzazione)
Produzione di contenuti stereoscopici: acquisizione Acquisizione flussi video Sono necessare due telecamere (distinte o a corpo unico) con i seguenti requisiti: Interaxial Distance di circa 65 mm Allineamento Sincronia di: acquisizione, messa a fuoco, zoom Errori in fase di ripresa
Produzione di contenuti stereoscopici: posizionamento Posizionamento degli oggetti nello spazio Per produrre l illusione di profondità è necessario stimolare la convergenza degli occhi affinché un oggetto venga messo a fuoco avanti o dietro il piano di proiezione tecnica della parallasse Parallasse positiva l oggetto presente nell immagine destinata all occhio sinistro è posizionato a sinistra dell oggetto presente nell immagine destinata all occhio destro (oggetto più lontano rispetto al piano dello schermo) Parallasse negativa l oggetto presente nell immagine destinata all occhio sinistro è posizionato a destra dell oggetto presente nell immagine destinata all occhio destro (oggetto più vicino rispetto al piano dello schermo) Parallasse neutra l oggetto presente nell immagine destinata all occhio sinistro si sovrappone esattamente con l oggetto presente nell immagine destinata all occhio destro (oggetto posizionato proprio sul piano dello schermo) Parallasse positiva Parallasse negativa Parallasse neutra
Tecniche di visualizzazione 3D: introduzione Obiettivo Date le due immagini (L/R) l obiettivo comune a tutte le tecniche di visualizzazione è quello di tenere separate le due immagini (canali) permettendo a ciascun occhio di ricevere SOLO quella ad esso indirizzata I dispositivi devono disporre di specifiche tecniche per tenere separati i due flussi video Principali tecniche di visualizzazione 3D 1. Separazione dei colori (anaglifia) Stereoscopia passiva 2. Polarizzazione 3. Tecnologia shutter Stereoscopia attiva 4. Autostereoscopia
Tecniche di visualizzazione 3D: anaglifia Principi di funzionamento Il principio di fondo per veicolare le singole immagini ai rispettivi occhi si basa sulla separazione cromatica sfruttando la complementarietà dei colori La somma di un colore primario e del suo complementare danno luogo ad una luce priva di crominanza, (bianca o grigia) Separazione dei canali Le due immagini acquisite vengono filtrate con due colori tra di loro complementari (es. rosso per la sinistra e ciano per la destra) e successivamente sovrapposte a comporre l anaglifo L anaglifo è un immagine bidimensionale che, osservata ad occhio nudo, appare sfocata e cromaticamente alterata Indossando degli occhialini con lenti di colori analoghi (es. rosso per la sinistra e ciano per la destra), ogni occhio vede solo l immagine con lo stesso colore del filtro che gli è posto di fronte mentre il colore complementare (visto come nero) viene annullato perché assorbito dal filtro
Tecniche di visualizzazione 3D: polarizzazione Implementazione Sfruttando esclusivamente la differenza cromatica tra i due canali, è sufficiente un tradizionale schermo 2D
Tecniche di visualizzazione 3D: anaglifia Vantaggi Rappresentare le immagini su un unico anaglifo (immagine 2D) Rappresentazioni di due immagini su una sola riduzione della dimensione Non richiede particolari dispositivi di visualizzazione Bassi costi degli occhialini Svantaggi Forte degradazione della qualità cromatica
Tecniche di visualizzazione 3D: polarizzazione Principi di funzionamento Sfrutta la direzionalità delle onde elettromagnetiche Le onde luminose si propagano nello spazio in linea retta mediante onde trasversali I fotoni oscillano su piani trasversali orientati casualmente dando luogo alla cosiddetta luce non polarizzata
Tecniche di visualizzazione 3D: polarizzazione Polarizzazione lineare Un polarizzatore lineare si comporta come un filtro che lascia passare solo le componenti luminose che oscillano su un determinato piano, bloccando le altre secondo la Legge di Malus: I = I 0 cos 2 θ i dove I è l'intensità in uscita dal filtro I 0 è l'intensità in entrata θ i l'angolo compreso tra la direzione di polarizzazione dell'onda incidente e quella del filtro polarizzatore
Tecniche di visualizzazione 3D: polarizzazione Polarizzazione lineare: separazione dei canali Le due immagini acquisite vengono polarizzate l una verticalmente e l altra orizzontalmente Vengono mostrate o proiettate sullo schermo in perfetta sovrapposizione Lo spettatore viene dotato di occhialetti con lenti polarizzate nelle direzioni corrispondenti: La lente polarizzata orizzontalmente farà passare solo la luce polarizzata orizzontalmente riflettendo completamente quella polarizzata verticalmente La lente polarizzata verticalmente farà passare solo la luce polarizzata verticalmente riflettendo completamente quella polarizzata orizzontalmente Lo spettatore deve mantenere la testa perfettamente dritta, a costo di una progressiva perdita dell effetto 3D
Tecniche di visualizzazione 3D: polarizzazione Polarizzazione circolare Utilizzando adeguati filtri, un onda è polarizzata circolarmente se ruota in un piano perpendicolare alla direzione di propagazione della luce, con velocità angolare costante Il verso di rotazione può essere orario o antiorario, quindi si possono polarizzare le due immagini, una in un verso e l altra nel verso opposto, in modo tale che l occhio con una determinata polarizzazione riesca a ricevere solo quella con polarizzazione analoga E necessario prima polarizzare linearmente il fascio di luce e successivamente filtrarlo attraverso uno strumento ottico
Tecniche di visualizzazione 3D: polarizzazione Polarizzazione circolare: separazione dei canali Le due immagini acquisite vengono polarizzate l una in senso orario e l altra in senso antiorario Vengono mostrate o proiettate sullo schermo in perfetta sovrapposizione Lo spettatore viene dotato di occhialetti con lenti polarizzate nelle direzioni corrispondenti: La lente polarizzata in senso orario farà passare solo la luce polarizzata in senso orario riflettendo completamente quella polarizzata in senso antiorario La lente polarizzata antiorario farà passare solo la luce polarizzata in senso antiorario riflettendo completamente quella polarizzata in senso orario Lo spettatore può liberamente inclinare la testa senza perdere l effetto 3D
Tecniche di visualizzazione 3D: polarizzazione Implementazione Due proiettori con filtri polarizzatori passivi e schermo silver screen Monitor 3D a due pannelli sovrapposti Un proiettore a fps doppio con filtri polarizzatori attivi (z-screen) e schermo silver screen Utilizzo di un solo proiettore Qualità sensibilmente migliore per la non sovrapposizione delle due immagini Pol. Circolare RealD
Tecniche di visualizzazione 3D: polarizzazione Vantaggi Consente una riproduzione abbastanza fedele dei colori rispetto all anaglifo Basso costo degli occhialini e dei filtri Svantaggi Riduzione della luminosità proveniente dallo schermo di circa il 50% per ciascun occhio
Tecniche di visualizzazione 3D: active shutter Principi di funzionamento La separazione avviene sfruttando l alternanza temporale dei frame (alternate frame sequences) Il principio alla base di questa tecnica sfrutta la capacità del nostro cervello di fondere i frame ricevuti in una successione sufficientemente rapida (persistenza retinica) Separazione dei canali I frame destinati rispettivamente all occhio sinistro e all occhio destro si alternano velocemente Bloccando opportunamente, per ciascun occhio, la visione delle immagini destinate all altro occhio, viene ricostruita la scena tridimensionale A svolgere il compito di otturatore sono particolari occhialini le cui lenti sono costituite da schermi LCD i quali, sottoposti ad opportune tensioni elettriche, si oscurano o si schiariscono sopprimendo alternativamente l una o l altra immagine Il sistema di controllo degli occhialini deve essere sincronizzato con il dispositivo di visualizzazione
Tecniche di visualizzazione 3D: polarizzazione Implementazione Monitor 2D ad elevata frequenza di aggiornamento (> 100 Hz) con occhialini attivi sincronizzati Un proiettore ad elevata frequenza di aggiornamento (> 100 Hz) con occhialini attivi sincronizzati Vantaggi Facilità di implementazione: non necessita di schermi silver screen, doppio proiettore e filtri Qualità della visione: la luminosità e la percezione delle immagini non subiscono alcun degrado Svantaggi Costo elevato degli occhiali attivi Sfarfallio utilizzando dispositivi di proiezione/visualizzazione con bassa frequenza di aggiornamento
Tecniche di visualizzazione 3D: autostereoscopia Principi di funzionamento E possibile ottenere visioni stereoscopiche prescindendo dall uso di occhialini o di altro hardware Questo tipo di schermi dispone di una tecnologia che li rende in grado di veicolare essi stessi le immagini della stereo-coppia direttamente ai corrispettivi occhi dell utente
Tecniche di visualizzazione 3D: autostereoscopia L immagine destra e sinistra vengono interlacciate a colonne alternate Separazione dei canali Le tecnologie utilizzate sono: Barriera di parallasse Rete lenticolare
Tecniche di visualizzazione 3D: autostereoscopia Barriera di parallasse Un particolare filtro elettro-ottico viene sovrapposto alla superficie del display Il filtro è composto da righe verticali che permettono a ciascun occhio di vedere solo le colonne di pixel ad esso corrispondenti
Barriera di parallasse: implementazioni La barriera può essere realizzata attraverso: Componenti fisiche La barriera è realizzata fisicamente all interno del display Vantaggi: basti costi per grandi distribuzioni Svantaggi: richiede il doppio della luminosità dei normali display Tecniche di visualizzazione 3D: autostereoscopia Componenti elettriche: Allo schermo è sovrapposto un display LCD che realizza la barriera di parallasse attivando delle strisce opache verticali Vantaggi: se disattivata consente la retrocompatibilità con filmati 2D consente l utilizzo di sistemi head-tracking Svantaggi: elevati costi di produzione
Tecniche di visualizzazione 3D: autostereoscopia Rete lenticolare Il filtro è ottenuto disponendo una schiera di microlenti sulla superficie del display Ogni lente veicola a ciascun occhio solo l immagine ad esso corrispondente Vantaggi: incremento della luminosità compatibile con sistemi di head-tracking Inserimento di più viste più punti di visualizzazione, più spettatori Svantaggi: non è retrocompatibile con filmati 2D
Tecniche di visualizzazione 3D: autostereoscopia Problematiche dell autostereoscopia a due views l'osservatore deve porsi ad una opportuna distanza dallo schermo ed entro un certo angolo visuale dimezzamento della risoluzione orizzontale
Schermi autostereoscopici multiviews Più telecamere riprendono la stessa scena Migliora l interazione con lo spettatore Angolo di visione superiore Transizione graduale tra un settore e l altro Tecniche di visualizzazione 3D: autostereoscopia
Schermi autostereoscopici multiviews Ogni pixel è costituito da tre celle colorate (rosso, verde e blu) Una matrice di microlenti cilindriche è posizionata sul pannello Ogni lente cilindrica copre N (<= 8) viste Tecniche di visualizzazione 3D: autostereoscopia
Formati per il video 3D I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm CSV
Formati per il video 3D I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità V+D
Formati per il video 3D I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità Multi-view: costituiti da frames catturati da più telecamere (opportunamente disposte) inquadranti la stessa scena MVV
Formati per il video 3D I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità Multi-view: costituiti da frames catturati da più telecamere (opportunamente disposte) inquadranti la stessa scena Multi-view plus depth: ad ogni vista del multiview è associata una mappa di profondità MV+D
Formati per il video 3D I formati video per il 3D si suddividono a loro volta in due sottocategorie che si riferiscono al modo con cui i due frame sono multiplexati tra di loro Frame compatible: i due frame vengono sottocampionati e poi immagazzinati in un unico frame che avrà le dimensioni di un frame 2D utilizza una compressione spaziale (o sub-sampling) subisce un dimezzamento delle risoluzione riduzione delle dimensioni è compatibile con l HDMI 1.3 e con la DVI Single-Link Frame incompatible: i due frame, conservando la loro risoluzione originale, vengono immagazzinati in un unico frame che avrà risoluzione maggiore del singolo frame 2D oppure verranno visualizzati in sequenza non prevedono sottocampionamento spaziale visualizzazione full-resolution aumento delle dimensioni richiedono il protocollo HDMI 1.4
Formati per il video 3D: Conventional Stereo Video Il formato video stereo convenzionale si riferisce al modo con cui i due frame di un segnale 3D sono multiplexati tra di loro Side-by-Side : le immagini destra e sinistra vengono impacchettate una accanto all altra sulle metà destra e sinistra di un unico frame. Frame-compatible (half): le immagini vengono compresse orizzontalmente di un fattore 2 (utilizzato per trasmissioni satellitari) Frame-packing (full): il frame risultante ha altezza uguale al corrispondente frame 2D e larghezza doppia Half side-by-side Full side-by-side
Formati per il video 3D: Conventional Stereo Video Over-under: le immagini destra e sinistra vengono impacchettate una sopra l altra sulla metà superiore e inferiore di un unico frame. Frame-compatible (half): le immagini vengono compresse verticalmente di un fattore 2 (utilizzato per trasmissioni satellitari) Frame-packing (full): il frame risultante ha larghezza uguale al corrispondente frame 2D e altezza doppia con risoluzione 1920x1080p, (più 45 pixel di separazione tra le due immagini) è utilizzato per il Blu- Ray 3D Half over-under Full over-under
Formati per il video 3D: Conventional Stereo Video Interleaved: le linee di entrambe le immagini vengono interlacciate tra di loro. E un formato di tipo framecompatible Row-interleaved: le righe dispari dell immagine sinistra e quelle pari dell immagine destra (o viceversa) sono interlacciate in un frame di dimensioni 2D. Ciascun frame contiene metà delle righe dell immagine Column-Interleaved: le colonne dispari dell immagine sinistra e quelle pari dell immagine destra (o viceversa) sono interlacciate in un frame di dimensioni 2D. Ciascun frame contiene metà delle righe dell immagine Row interleaved Column interleaved
Formati per il video 3D: Conventional Stereo Video Checkerboard: le due viste sono sottocampionate e multiplexate in un unico frame con layout a scacchiera
Formati per il video 3D: Frame sequential Frame sequential: nella sequenza video si alternano un frame dell immagine destra con un frame dell immagine sinistra il video 3D viene direttamente visualizzato sugli schermi con tecnologia active shutter non c è perdita di risoluzione
Formati per il video 3D: Video plus depth Video plus depth: ad ogni frame (immagine destra o sinistra) viene associata una mappa di profondità Mappa di profondità: immagine in scala di grigi codificabile con 8 bit La mappa può essere ricavata da singola immagine 2D (segmentazione dell immagine e rilevazione degli oggetti) analisi delle due viste (geometria epipolare) speciali telecamere ad impulsi ad infrarosso (Time Of Flight) Vantaggi: forte riduzione (5-20 %) della dimensione dei frame rispetto alla stereo-coppia convenzionale Svantaggi: elevato costo computazionale; bassa definizione delle immagini
Formati per il video 3D: Multiview video Multiview: vengono utilizzate più telecamere per acquisire contemporaneamente diverse prospettive della scena Utile per dispositivi autostereoscopici I frame possono essere organizzati in modalità sequenziale o combinata Multiview plus depth: ad ogni view è associata una mappa di profondità Utile per la trasmissione di più viste ottenendo un grande risparmio di banda
Codifica per formati 3D Stesse codifiche usate per video 2D: i metodi di codifica utilizzati per i video 2D sono applicabili anche ai formati video 3D Simulcast view coding: Ogni vista viene codificata in maniera indipendente dall altra usando un codec video scalabile o non scalabile (es. H.264/AVC o SVC) Vantaggio: ogni vista può essere trasmessa indipendentemente dall altra consentendo al client di ricevere solo le viste desiderate Svantaggio: non vengono sfruttate le dipendenze inter-view
Codifica per formati 3D Multiview Video Coding (MVC): è l estensione di H.264/AVC che sfruttando la ridondanza inter-vista, garantisce un alta efficienza di compressione per formati MVV I frame possono essere predetti dalla stessa vista oppure dai frame di altre viste La vista S0 è codificata in maniera indipendente e sfrutta esclusivamente le predizioni temporali (baseview) In tutte le altre viste il frame di tipo I è sostituito da frame P o B. Per i rimanenti frame del GOP lo schema di predizione rimane lo stesso del base-view Consente la retrocompatibilità con i dispositivi 2D
Codifica per formati 3D Asymmetric Stereoscopic Video Coding il sistema visivo umano è in grado di tollerare l assenza delle componenti in alta frequenza in una della due viste. una delle due può quindi essere presentata ad una qualità più bassa senza degradare la percezione del video 3D. una visione asimmetrica prolungata può provocare fastidio agli occhi. Per risolvere l inconveniente riscontrato, si è pensato di alternare la qualità di codifica asimmetrica tra i due occhi quando si ha un cambio di scena Videp plus depth: usa le specifiche di MPEG C - Part 3 Multiview plus depth Coding: standard ancora in fase di definizione. Combina l approccio V+D dello MPEG C - Part 3 e l estensione MVC di H.264/AVC.