sistemas imersivos que utilizam avatares baseados em vídeointerlab/sanches_avatar.pdf93 sistemas...

93

Sistemas Imersivos que Utilizam Avatares Baseados em Vídeo:

visão geral e implementação de um sistema simplificado

Silvio Ricardo Rodrigues Sanches, Daniel Makoto Tokunaga, Cléber Gimenez Corrêa, João Luiz Bernardes Junior e Romero Tori

Abstract

The use of avatars built using real images allows improvements in the feelings of immer- sion and presence in applications that utilize this sort of user representation. Immersive teleconferences and classes taught in distance learning, with a user representation shown within a virtual environment, are examples of these applications. The development of video-avatar based systems traditionally demands sophisticate equipment and setup as well as computers with high processing power. The selection of an adequate set among different techniques used in tasks ranging from video capture to avatar synthesis may, however, allow the creation of one of these systems using only tools and equipment that are conventional or will become common in the next few years. Thus this course’s main goals are: to offer a theoretical basis per-tinent to avatars based on video, to present the tools necessary for the development of these systems and to demonstrate in practice the steps for the creation of a simplified video-avatar system with two forms of image capture: using a conventional camera and with depth cameras.

Resumo

A utilização de avatares construídos a partir de imagens reais permite o aprimoramento da imersão e da sensação de presença nas aplicações que fazem uso desse tipo de repre- sentação do usuário. Exemplos dessas aplicações são as teleconferências imersivas e as aulas expositivas ministradas nos cursos a distân-cia em que uma representação do usuá- rio é exibida dentro de ambientes virtuais. O desenvolvimento de um sistema baseado em vídeo-avatar tradicionalmente requer equipamentos sofisticados e computadores de alto poder de processamento. No entanto, a seleção de um conjunto adequado das diferentes técnicas que são utilizadas em tarefas que vão desde a captura do vídeo até a sintetização do avatar possibilitam a obtenção de um sistema desse tipo a partir de ferramentas e equipamentos convencionais ou que se tornarão comuns nos próximos anos. Assim, os objetivos principais deste curso são: oferecer a base teó-rica; apresentar as ferramentas necessárias para o desenvolvimento de sistemas que utilizam avatares

94

Sistemas Imersivos que Utilizam Avatares Baseados em Vídeo: visão geral e implementação de um sistema simplifi cado, Niterói, v. 1, n. 2, p. 127-158, jan./dez. 2012.

SANCHES, Silvio Ricardo Rodrigues; TOKUNAGA, Daniel Makoto; CORRÊA, Cléber Gimenez; João JUNIOR, Luiz Bernardes; TORI, Romero

baseados em vídeo e; demostrar, na prática, os passos para criação de um sistema de vídeo-avatar simplificado com dois tipos de captura: realizada por meio de câmera convencional e com dispositivo baseado em sensor para obtenção de profundidade.

1.1. Introdução

O termo avatar tem origem na mitologia hindu, a qual fazia referência à forma de manifes- tação corporal de um ser sobre-humano [Sheth 2002]. O termo sânscrito avata ra significa “encarnação” [Mes-singer et al. 2009]. No contexto dos ambientes virtuais, o termo foi empregado pela primeira no sistema Habitat [Morningstar e Farmer 1991], em que figuras animadas em tempo real, controladas por usuários, podiam praticar várias ações dentro de um ambiente.

A medida que a tecnologia foi tornando possível, os modelos bidimensionais, como os do Habitat, foram sendo substituídos por representações mais realistas, muitas delas tridimensionais [Takashima et al. 2008]. Apesar da grande evolução que esses modelos representaram, algumas características humanas ainda são difíceis de serem reproduzidas com exatidão [Ogi et al. 2001]. A naturalidade de gestos, determinados movimentos, expressões faciais e emoções são exemplos dessas características. Os vídeo- avatares – que são avatares construídos a partir de vídeos – tornaram-se uma alternativa na busca de soluções para o problema, pois as características citadas são obtidas das imagens reais.

Segundo Ogi [Ogi et al. 2001], um vídeo-avatar consiste em uma imagem tridimensional sinte-tizada por computador, gerada a partir de vídeo capturado em tempo real. Ainda que bidimensionais, utilizar imagem de vídeo pode, segundo Hauber [Hauber et al. 2005], proporcionar maior realismo ao ambiente 3D, desde que o avatar pareça integrado ao ambiente. Existem aplicações em que o vídeo--avatar é representado por um modelo bidimensional inserido em ambiente 3D, aplicações em que um vídeo-avatar 2,5D é inserido em ambiente 3D e aplicações em que ambos são representações tridimen-sionais. As técnicas utilizadas no processo de geração desses vários tipos de avatares são discutidas neste texto.

Inserido nesse contexto, este minicurso tem como objetivos principais: oferecer a base teórica; apresentar as ferramentas necessárias para o desenvolvimento de sistemas que utilizam avatares base-ados em vídeo e; demostrar, na prática, os passos para cria-

ção de um sistema de vídeo-avatar simplificado. Na figura 1.1 pode ser visualizada uma proposta de arquitetura de um sistema que utiliza vídeo-avatar.

Para que favoreça seu entendimento, este minicurso está organizado da seguinte forma: a seção 1.2 mostra o processo de aquisição do vídeo, desde o mais simplificado até os que se baseiam em equi-pamento não convencional. Na seção 1.3 abordam-se as técnicas de segmentação de vídeo em tempo real aplicadas em sistemas de vídeo-avatar. As várias técnicas relacionadas ao processo de síntese do avatar são discutidas na seção 1.4 e as formas de interação mais utilizadas são descritas na seção 1.5.

95



Figura 1.1. Proposta de arquitetura de um sistema que utiliza vídeo-avatar.

No que se refere a parte prática do minicurso, os passos para a implementação de um sistema simplificado são detalhados na seção 1.6. São exibidos, inclusive, as partes principais do código fonte. Finalmente, na seção 1.7, são apresentadas as conclusões.

1.2. Aquisição do vídeo

Algumas características importantes dos sistemas de vídeo-avatar se relacionam com o tipo de equipamento utilizado e com a forma de configuração desses equipamentos no subsistema de aqui-sição de vídeo. O subsistema de aquisição pode impactar diretamente na qualidade da representação humana exibida aos usuários.

Segundo Magnor et al. [Magnor et al. 2005], em processos de síntese de imagens baseadas em ví-deo, um bom sistema de aquisição é tão importante quanto um bom algoritmo. Essa afirmação pode ser considerada verdadeira independentemente da técnica utilizada na geração do avatar, uma vez que imagens de vídeo de alta qualidade normalmente eliminam a necessidade de algoritmos de proces-samento de imagens complexos para corrigir problemas relacionados a captura [Magnor et al. 2005].

Alguns sistemas, no entanto, têm como característica uma infraestrutura de baixo custo ou ofe-recem a captura por meio de câmera monocular como uma alternativa. Nesses casos, dispositivos con-vencionais podem ser utilizados para aquisição dos vídeos [Kauff e Schreer 2002, Shin et al. 2010, Hämäläinen et al. 2005, Corrêa et al. 2011]. Como será discutido na seção 1.4, existem métodos capazes de gerar avatares a partir de captura convencional.

Muitos deles, no entanto, exigem um subsistema de captura mais elaborado, baseado em múl-tiplas câmeras ou em equipamentos específicos, que permitem obter infor- mações, além da imagem, que podem facilitar os processos de segmentação do quadro de vídeo e de síntese do avatar, além de fornecer informações úteis ao tratamento das interações com o usuário.

Uma maneira de obter informações adicionais – normalmente a profundidade de cada pixel – a partir da forma de captura é utilizando duas câmeras calibradas (vídeo binocular) [Kanade e Narayanan 2007, Ogi et al. 2001]. Apesar dessa calibração se mostrar trabalhosa [Criminisi et al. 2006], o mapa de profundi-dade gerado, que é preenchido por valores obtidos de um processo de triangulação [Ohta e Kanade 1985], se faz necessário a muitos métodos de síntese do avatar, que serão discutidos na seção 1.4. A utilização de

96



equipamentos pré-calibrados, encontrados no mercado, eliminam o problema da calibração. Na figura 1.2(a) pode ser visualizada uma montagem com duas câmeras para captura binocular.

Métodos mais sofisticados normalmente necessitam de várias imagens para cons- truir um avatar. Essa exigência faz com que o subsistema de aquisição de vídeo seja projetado de modo que se obte-nha essas imagens em um mesmo instante, captadas de diferentes ângulos [Goldlucke e Magnor 2003, Koyama et al. 2003, Kim et al. 2007, Lee et al. 2004b, Prince et al. 2002, Gross et al. 2003, Kanade e Narayanan 2007, Shin et al. 2010, Tamagawa et al. 2001, Ogi et al. 2001]. Nesses sistemas, cuja infra-estrutura se assemelha com a mostrada na figura 1.2(b), as várias imagens devem ser sincronizadas.

Figura 1.2. Tipos de Captura. (a) exemplo de montagem com duas câmeras para captura binocular. (b) infraestrutura para aquisição de vídeo baseada em múltiplas câmeras.

Um recurso bastante utilizado em sistemas de vídeo-avatar consiste na sincroni- zação de sen-sores ativos e imagem de vídeo, o que auxilia na captura. A maioria dos sistemas que adotam essa estratégia tem como objetivo obter a profundidade dos pixels da cena [Lee et al. 2005, Tokunaga et al. 2009a, Tokunaga et al. 2009b, Rhee et al. 2007, Jones et al. 2009]. Normalmente, sensores que emitem sinais do tipo TOF (Time of Flight) (figura 1.3) [Rhee et al. 2007] ou que permitem preencher mapas de profundidade por meio de técnicas como a luz estruturada [Jones et al. 2009] são utilizados em subsistemas de aquisição baseados em sensores ativos, como o do equipamento Kinect1.

Figura 1.3. Exemplo de captura com dispositivo do tipo TOF. Quando os raios emitidos atingem a pessoa, uma parede de luz é refl etida de volta para a câmera, carregando uma impressão dessa pessoa [Iddan e Yahav 2001].

1 http://www.xbox.com/en-US/kinect

97



Apesar das várias abordagens utilizadas em subsistemas de captura terem sido discutidas separa-damente muitos sistemas as combinam ou as oferecem como um conjunto de opções, permitindo que se utilize a abordagem que mais se adapte a infraestrutura disponível.

1.3. Segmentação

Combinar de forma convincente imagens de pessoas ou objetos reais com cenas imaginá- rias ou com filmagens realizadas em locais diferentes sempre foi um grande desafio dentro da computação gráfica. A tarefa básica a ser realizada nesse processo é a segmentação da imagem para que o elemento de interesse, normalmente uma pessoa, possa ser isolado do seu contexto original.

A evolução das técnicas de segmentação de imagens deve-se principalmente a necessidade da indústria cinematográfica de combinar, de forma convincente, imagens filmadas em momentos ou lo-cais diferentes, em uma única faixa de filme [Chuang 2004]. Criar um “mundo de fantasias”, aplicando--se efeitos visuais sempre foi o grande objetivo de cineastas [Foster 2010], o que fez das composições desenvolvidas para o cinema uma das primeiras aplicações que utilizavam imagens segmentadas.

A partir da década de 1980, com o avanço da tecnologia digital, os equipamentos ópticos, utili-zados até então, foram gradualmente sendo substituídos por computadores e software especializados. Apesar de a maioria das técnicas e conceitos da composição óp- tica serem diretamente aplicáveis à esfe-ra digital, o uso de computadores possibilitou um avanço significativo na evolução do processo [Chuang 2004]. Ainda que existam muitas pesquisas voltadas à aplicações que realizam a segmentação em fase de pós-produção, a possibilidade de extrair o elemento de interesse em tempo real fez aumentar o domí-nio de aplicações em que imagens segmentadas podem ser utilizadas.

Exemplos dessas aplicações são programas de televisão exibidos ao vivo em que o fundo original é substituído [Gibbs et al. 1998], jogos imersivos [Hämäläinen et al. 2005], e sistemas de Realidade Aumentada ou Teleconferência Imersiva, em que, a repre- sentação humana no ambiente virtual (ava-tar) é gerado com base na imagem do usuário. Uma característica comum a maioria dos sistemas que constroem avatares é que são exe- cutados em ambientes controlados, onde a cena pode ser manipulada para que uma cor constante seja exibida como fundo [Tamagawa et al. 2001, Tokunaga et al. 2009a, Lee et al. 2004b], reproduzindo a técnica do chroma-key [Gibbs et al. 1998]. Desse modo, o elemento de interesse pode ser isolado, de forma precisa, inclusive por meio de técnicas de subtração de fundo [Qian e Sezan 1999, Piccardi 2004]. Existem, ainda, sistemas que utilizam equipamentos especializa-dos, que geram mapas de profundidades que auxiliam a segmentação [Tamagawa et al. 2001, Kanade e Narayanan 2007].

Segundo Porter e Duff [Porter e Duff 1984], uma imagem Iz deve ser entendida como uma com-binação de um primeiro plano Fz com um fundo Bz , utilizando um canal α (alfa) que permite contro-lar a transparência do pixel. Desse modo, uma imagem pode ser representada pela equação

I = αzFz + (1 − αz)Bz (1)

98



onde αz assume valores entre [0,1]. Em um processo de segmentação é atribuído a αz o valor 0 quando o pixel pertence ao primeiro plano e 1 quando pertence ao fundo. A determinação de valores fracionários de α com o objetivo de suavizar a combinação do elemento de interesse com o novo fundo é conhecido como o problema do matting [Wang e Cohen 2007]. Algumas abordagens comumente utilizadas para segmentar sequências de vídeo em sistemas de vídeo-avatar são o chroma-key e a sub-tração de fundo. Alguns sistemas, ainda, utilizam mapas de profundidade obtidos de dispositivos de captura não convencionais para auxiliar a segmentação.

A técnica do chroma-key, uma das mais populares, se baseia na identificação de pontos da ima-gem em que se encontra uma determinada cor definida como fundo, denominada “cor chave”. Desse modo, pode-se selecionar quais pixels devem permanecer e quais devem ser substituídos na cena final [van den Bergh e Lalioti 1999] (Fig. 1.4).

Figura 1.4. Chroma-key. O elemento de interesse é isolado eliminando os pixels que possuem a cor chave, confi gurada como pertencente ao fundo.

Normalmente, a cor azul é adotada para esse plano de fundo. Essa escolha não é aleatória: sua utilização proporciona um melhor contraste, uma vez que grande parte das aplicações envolve atores em primeiro plano. O tom azul, independentemente de etnias, não é encontrado na pele humana, o que facilita a identificação do elemento de primeiro plano [van den Bergh e Lalioti 1999]. Além do azul, o verde tem sido muito utilizado pelo fato de câmeras modernas identificarem com mais facilidade tons de verde. Muitos são os problemas a serem contornados quando se aplica técnicas baseadas em planos de fundo de cor única. Entre eles, podem ser destacados: i) a presença da cor definida como fundo no elemento de interesse; ii) a sensibilidade em relação a variação de iluminação; iv) o direcionamento adequado das luzes do ambiente; v) a projeção das sombras do elemento de interesse sobre o fundo; vi) os reflexos do fundo sobre o elemento de interesse; e vii) ruídos no plano de fundo, ocasionados nor-malmente por imperfeições no cenário.

Muitos desses problemas são tratados separadamente em uma série de patentes, que são comple-mentos do algoritmo mais geral, desenvolvido por Vlahos [Vlahos 1978]. O fato de o ator possuir, em seu vestuário, alguma peça da mesma cor do plano de fundo, ou o objeto a ser extraído possuir partes dessa mesma cor constitui uma limitação implícita dessa abordagem. Nesse caso, a parte coincidente é extraída juntamente com o plano de fundo no decorrer do processo. Existem métodos que procuram

99



contornar essa limitação definindo mais de uma cor como chave [Yamashita et al. 2008] e permitindo que qualquer cor possa estar presente no elemento de interesse.

A captura do vídeo realizada em ambientes cobertos por tecidos pretos, ao invés do azul ou verde, tornou-se uma alternativa para controlar os reflexos do fundo sobre o elemento de interesse e as som-bras projetadas sobre o fundo – problemas que ocorrem com maior frequência em ambientes em que o espaço físico é reduzido [Theobalt et al. 2003].

Entre as inúmeras variações e as diferentes implementações da técnica do chroma- key, pode-se destar o método apresentado em Bergh e Lalioti [van den Bergh e Lalioti 1999]. De acordo com os autores, os pixels azuis no espaço de cores RGB devem ter o componente azul como dominante (B > R and B < G), além de um segundo critério, especificado como uma distância.

d = (B −R)2 + (B −G)2 > d max (2)

O método pode ser representado por um cubo RGB intersectado por um plano S, que isola o canto azul do cubo. Uma pirâmide representada pelos cantos BKCW M (Blue, Black, Cyan, White, Magenta) define o volume do cubo em que B > R e B < G. O plano S é paralelo a diagonal principal BW e repre-senta uma superfície da constante d. Então o valor d de uma cor dentro da pirâmide pode ser utilizado para classificar um pixel como sendo azul ou não por meio da seleção de um limiar em d. Para cada pixel um valor para d é calculado e uma máscara é gerada comparando-se d com dmax.

Outra abordagem bastante utilizada em sistemas que segmentam vídeos para gerar avatares é a téc-nica conhecida como subtração de fundo [Piccardi 2004]. Muitos métodos baseados em subtração de fundo podem ser encontrados na literatura e vão desde métodos mais simples, que são mais sensíveis às condições de iluminação do ambiente, até os mais sofisticados, que são capazes de lidar com planos de fundo que apresentem certa variação.

Os métodos mais simples normalmente apoiam-se na história recente dos pixels e realizam a seg-mentação como base na diferença do quadro atual com o anterior [Friedman e Russell 1997], calculan-do a média ou a mediana de quadros anteriores [Cucchiara et al. 2003] e, alguns casos, considerando também uma taxa de aprendizado [Piccardi 2004]. Algoritmos mais sofisticados, por sua vez, estabe-lecem correlações espaciais entre pixels vizinhos – por exemplo, plano de fundo gaussianos [Tang et al. 2007] e decomposição da imagem em autoespaços (Eigenbackground) [Oliver et al. 2000] – produzindo resultados mais precisos.

Entre os métodos baseados nessa abordagem, pode-se destacar o proposto por Qian e Sezan [Qian e Sezan 1999], que consiste na comparação de uma imagem estática do fundo, capturada previa-mente, com o quadro de vídeo atual

|zt − zre f | > T h (3)

onde zt representa um quadro de vídeo no tempo t e zre f uma imagem de referência, capturada previamente, que contém apenas fundo da cena (sem a presença do elemento de interesse). T h repre-senta um limiar que permite que pequenas variações na cor do pixel sejam desconsideradas, quando comparada com a imagem de referência (Fig. 1.5).

100



Muitos problemas devem ser contornados quando se utilizam métodos baseados em subtração para extrair o elemento de interesse em sistemas que utilizam vídeo-avatar. Os mais frequentes tem re-lação com a variação da iluminação do local em que o vídeo é capturado. Deve-se considerar também que, o fato de existir no fundo algum objeto de cor semelhante ao elemento de interesse, esse objeto pode ser considerado primeiro plano, produzindo erros de segmentação grosseiros.

Por esse motivo, em alguns sistemas, as limitações tanto do chroma-key quanto da subtração de fun-do podem minimizadas quando se utilizam equipamentos específicos que

Figura 1.5. Subtração de Fundo. O quadro de vídeo no tempo atual é compa- rado com uma imagem do

fundo, sem a presença do elemento de interesse. O elemento de interesse é extraído preservando os pixels não coincidentes [Naka- mura 2008].

produzem mapas de profundidade da cena [Iddan e Yahav 2001, Lee et al. 2004a, Geiss 2010]. Desse modo, a informação de profundidade também é considerada e o elemento de interesse pode ser extra-ído com maior precisão.

Materiais retrorreflexivos utilizados em conjunto com anéis2 de luzes (azul ou verde) montados nas lentes da câmera de vídeo também têm sido utilizados na tentativa de alcançar segmentação ro-busta. As luzes que partem desses anéis, que são fixados nas câmeras, refletem no material do fundo e voltam às próprias câmeras, devido a caracte- rística do material. Nas imagens capturadas, o fundo se destaca em uma única cor e o elemento de interesse permanece iluminado de forma convencional, com fontes de luz brilhantes. Devido ao fundo retrorreflexivo exigir apenas intensidades de luz baixa do anel, a reflexão sobre o elemento de interesse não ocorre, enquanto as sombras projetadas no fundo são perdidas [Magnor 2005].

1.4. Síntese

Utilizando a imagem do usuário, separada do fundo através da segmentação, o vídeo- avatar é sintetizado para ser integrado ao ambiente virtual. Para a síntese, técnicas de image-based [Shum e Kang 1999] e video-based rendering[Magnor 2005] podem ser utilizadas. Essas técnicas têm como objetivo, através de imagens ou sequências de imagens capturadas, gerar outras visões de objetos ou

2 http://www.datavideo.info/en/Chromakeyers/CKL-200

101



cenas, em diferentes pontos de vistas ou condições. No processo de síntese de avatares é possível utilizar sequências temporais de imagens do usuário para renderizar o vídeo-avatar, em qualquer ponto de vista e diferentes condições dentro do ambiente virtual.

Dentro de image/video-based rendering, uma modalidade mostra-se interessante para a síntese de vídeo-avatares, a de image/video-based modeling and rendering [Shum et al. 2006], que tem como carac-terística a geração do modelo geométrico do objeto/cena capturada como parte do processo. Esse mo-delo geométrico torna-se viável para ambientes imersivos, pois pode ser utilizado para outras tarefas, como a detecção de colisão com objetos virtuais [Nakamura e Tori 2008], ou tornar o sombreamento do avatar coerente com a iluminação do ambiente virtual [Tokunaga et al. 2009b].

Além das técnicas utilizadas em image/video-based rendering, técnicas de diferentes áreas, como por exemplo as de reconstrução geométrica, aquisição geométrica ou registro global de nuvens de pon-tos, também podem ser utilizadas para a síntese do avatar. A área de reconstrução geométrica tem como foco obter geometrias de objetos [Seitz et al. 2006], porém não se focando na sua representação, da mesma forma que a aquisição geométrica. Por outro lado, a área de registro global de nuvens de pontos tem como objetivo alinhar pontos obtidos do objeto de forma tridimensional em diferentes condições [Li et al. 2008], como os capturados através de sensores de distâncias, de forma a reconstruir o objeto original.

Neste texto, a tarefa de síntese do avatar será separada em dois grandes grupos de processos: a modelagem e a renderização, como em image/video-based modeling and rendering. Essa separação apre-senta vantagens, como a visualização do fluxo de dados em diferentes técnicas, permitindo visuali-zar as possíveis soluções para diferentes condições, como a renderização de determinados dados, ou a conversão de dados possíveis, como a conversão de uma nuvem de pontos para malhas de triângulos. A captura do modelo geométrico, mesmo que simples como um plano, como parte do processo, também oferece vantagens, principalmente no registro do objeto e em interações do avatar com objetos virtuais.

As subseções seguintes apresentam técnicas de modelagem e renderização, respectivamente. Em modelagem, serão apresentadas técnicas utilizadas por diferentes sistemas imersivos, entre os mo-delos planares, 2,5D e tridimensionais obtidos por silhuetas do objeto. Na subseção de renderização, técnicas para apresentar visualmente esses modelos são apresentadas, como a renderização de malhas de triângulos, nuvens de pontos, splating e microfacet billboarding.

1.4.1. Modelagem

Uma das formas mais simples de modelo para representar o usuário dentro do ambiente virtual é através da representação planar. Para se gerar tal representação, as imagens do usuário capturadas ao longo do tempo são aplicadas a um plano posicionado no ambiente virtual, aparentando que o usuário pertença ao ambiente virtual. Esses planos podem acompanhar a câmera virtual, de forma que o plano sempre seja apresentado de forma ortogonal ao visualizador da cena. Nesse caso, a técnica de billboard [Akenine-Möller et al. 2008] pode ser utilizada.

Uma forma de tornar a visualização mais realista, seria através da representação do usuário de forma coerente com o ponto de vista do visualizador da cena, alterando a imagem do usuário, a ser

102



apresentada, com a imagem mais coerente com o ponto de vista. Essa técnica é denominada de swi-tching planes [Insley et al. 1997]. Para tal técnica, sequências de imagens temporais do usuários são capturadas de diversos ângulos e, ao se aplicar a imagem para o plano, a imagem mais coerente com a posição da câmera virtual é selecionada. Na figura 1.6 é ilustrada a técnica.

Uma outra forma para se aumentar a sensação de integração do avatar com o ambiente virtual, pode ser obtido através do uso de imagens estereoscópicas aplicadas no plano. Para atingir tal efeito, são utilizadas imagens esterescópicas capturadas em tempo real do usuário, e para cada renderização da cena, referente à visão relativa ao olho direito ou esquerdo, seleciona-se a imagem apropriada à ser aplicada no plano, de forma a se obter o efeito esterescópico. Siscoutto e Tori [Siscoutto e Tori 2004] apresentam a

Figura 1.6. Técnica de Switching Planes.

utilização de avatares planos e estereoscópicos integrados em sistemas imersivos.Outra técnica de modelagem, considerada uma das técnicas mais utilizadas em sistemas imer-

sivos, é a técnica de Visual Hull [Prince et al. 2002, Kanade e Naraya- nan 2007, Lee et al. 2005]. Essa técnica baseia-se na reconstrução por shapes from silhoutte, inicialmente proposta por Laurentini [Laurentini 1994], permitindo a reconstrução e representação tridimensional do usuário através de silhuetas do usuário capturada em diversos ângulos.

Uma vez que essa técnica baseia-se em múltiplas visões do usuário, possui a des- vantagem de de-pender de múltiplos equipamentos e de complexas calibrações, que envol- vem correções de distorções, cores, posicionamento e sincronização das câmeras. Além disso, por sua natureza, essa técnica não permite reconstruir áreas côncavas, devido a oclusão em relação às silhuetas. Porém, seu resultado permite uma visualização tridimensional completa, permitindo a visualização do usuário em qual-quer ângulo. Essa técnica também apresenta como resultado um modelo geométrico tridimensional, permitindo seu uso em detecções de colisões.

A representação através da técnica de Visual Hull pode ser executada de duas diferentes maneiras: por meio da reconstrução baseada em voxels, apresentada por Laurentini [Laurentini 1994], e por meio da reconstrução baseada em poliedros, apresentada por Ma- tusik [Matusik et al. 2001]. Na reconstrução baseada em voxels, também conhecida como volumetric visual hull [Magnor 2005], inicialmente o espa-

103



ço real em que o usuário se encontra é representado com um conjunto de voxels, estruturas discretas de representação do espaço semelhante ao pixel em imagens. Para cada voxel, verifica-se a visibilidade em relação às diferentes visões capturadas. Caso o voxel seja visível em todas as imagens, considera-se que ele esteja sendo ocupado pelo usuário real. Por fim, considera-se que o usuário final é representado pelo conjunto de voxels visíveis. Na figura 1.7(a) é mostrado esse processo e na figura 1.7(b) é apresenta-do um resultado obtido com sua aplicação.

Por outro lado, a técnica de reconstrução baseada em poliedros, apresentada por Matusik [Ma-tusik et al. 2001], tem como fundamento a intersecção de cones formados pelos poliedros obtidos da segmentação em relação a posição da câmera de captura para a geração da geometria resultante. Para cada imagem capturada, a silhueta do usuário é representada por um poliedro, a conexão tridimensio-nal deste poliedro com a posição da

(a) proposta da técnica

(b) resultado da reconstrução

Figura 1.7. Captura do modelo por volumetric visual hull.

câmera formam cones de projeções, e através da interseção de múltiplos cones, é possível a obtenção da forma do usuário. Na figura 1.8 é apresentada essa proposta.

104



Figura 1.8. Proposta de visual hull baseada em poliedros.

Por fim, uma outra técnica de modelagem amplamente utilizada é a de represen- tação 2,5D [Ta-magawa et al. 2001]. Essa representação tem como base o uso de mapas de profundidades capturados da cena, criando-se uma superfície tridimensional através dos dados coletados que representam parte ou toda a superfície do objeto. Ogi [Ogi et al. 2003] apresenta a reconstrução de avatares a partir de vídeos e por meio da deformação de uma malha de triângulos interconectados. Nessa proposta, os vértices da malha são deformados de acordo com o mapa de profundidade capturado. Assim, conside-rando que a profundidade de determinado vértice zi, j , correspondente à um pixel na posição (i, j) do mapa de profundidade, é possível a obtenção da posição xi, j e yi, j do vértice através das equações 4 e 5.

Onde α e β são respectivamente os ângulos de abertura da câmera, relativa ao mapa de profun-didade, horizontal e vertical e W e H são a largura e altura da imagem de mapa de profundidade, respectivamente. Na figura 1.9 é ilustrado esse processo de deformação de malha. Por fim, a textura do usuário é aplicada à malha de triângulos, de forma a criar a representação do usuário.

105



Figura 1.9. Deformação de malhas triangulares por mapa de alturas[Nakamura 2008].

Devido a sua natureza, a reconstrução 2,5D não permite uma visualização tridimensional completa do avatar, possibilitando somente uma visão parcial do usuário. Tamagawa [Tamagawa et al. 2001], aponta que o avatar possui grande distorção quando visualizado de um ângulo muito grande, porém, esta distorção é pequena em um ângulo de no máximo 15 graus.

Para permitir uma visualização completa do usuário, uma ideia semelhante ao switching planes, apresentada previamente, pode ser utilizada. Denominada switching depths [Ogi et al. 2001], essa téc-nica baseia-se na captura de múltiplos mapas de profundidades, de forma a cobrir todos os ângulos de visão do usuário a ser representado e se altera o modelo de malhas de triângulos a ser renderizado de acordo com a posição do visualizador. A figura 1.10 ilustra esta ideia.

1.4.2. Renderização

Uma das técnicas de renderização mais simples é a renderização de malhas de triângulos, devido ao fato de que grande parte das bibliotecas gráficas em tempo real se baseiam neste modelo. Técnicas de modelagem como as de 2,5D e modelos planares têm como dado de retorno essa malha de triângulos, permitindo a renderização direta.

Porém, em algumas técnicas de modelagem, os dados resultantes não são malhas triangulares, não permitindo a renderização direta por triângulos, como na técnica de volumetric visual hull que retorna um conjunto de voxels. Dados como os de voxels ou

106



Figura 1.10. Switching Depth Model [Nakamura e Tori 2008].

mapas de profundidade podem ser considerados como sendo um grupo denso de pontos espaciais amostrados do objeto de interesse e estes dados são muitas vezes denominados como nuvens de pontos. Sistemas de range scanning também são exemplos de sistemas de modelagem que retornam dados no formato de pontos espaciais. Esses pontos, muitas vezes, devem ser processados para a obtenção da superfície original do objeto, de forma a gerar uma malha de triângulos/polígonos para permitir a renderização o objeto de interesse.

Uma forma de se processar esses dados é através da triangularização desses pontos, procurando obter uma superfície de malhas triangulares por meio desses dados. Tra- balhos como os de Lorensen e Cline [Loren-sen e Cline 1987], apresentam formas para geração de uma malha triangular através de conjuntos de voxels, por meio do uso das informações dos valores dos voxels e de padrões que geram triângulos. Zhang e Wei [Shu-jun e Wei 2010] utilizam estes algoritmos em conjunto com técnicas de volumetric visual hull para obter a recons-trução do objeto em malhas de triângulos em tempo real. Outra técnica utilizada na obtenção de uma malha de triângulos por meio de nuvens de pontos é proposta em Kazhdan et al. [Kazhdan et al. 2006], que utiliza uma formalização de Poisson para a criação de uma superfície de malhas de triângulos. Beeler et al [Beeler et al. 2010] utilizam esta técnica para a reconstrução de modelos faciais de pessoas.

Além dessa triangularização, uma forma de apresentar os dados retornados pela modelagem é através da utilização de outras formas de renderizações, podendo ser mais adequadas para a massa de dados retornados pela modelagem, ou até mesmo ter maior capacidade de representação que a malha de triângulos convencional.

Visando à especificação da técnica de renderização mais adequada para a massa de dados retorna-dos, a separação entre modelagem e renderização mostra-se eficaz. Uma vez que muitas técnicas retor-nam dados semelhantes, é possível é a utilização de somente uma técnica de renderização, permitindo a modularização do código e da representatividade do avatar. Além disso, em algumas ocasiões, a conversão dos dados, retornados pela modelagem, para outras formas, como a malha triangular, pode ser computacionalmente custoso. Nesses casos, o uso de uma outra técnica de renderização pode amenizar esse custo. A seguir, serão apresentadas algumas formas de renderização, que são utilizadas na literatura para a representação do usuário dentro do ambiente virtual.

Uma forma direta de representação de avatares é através da renderização de nuvens de pontos. Nessa técnica os pontos são renderizados através de microelementos com cores alocados diretamente no espaço

107



tridimensional, de forma que seu agrupamento represente o objeto de interesse, como em uma imagem no caso bidimensional. Um exemplo é a renderização de voxels, representando-os por pequenos cubos colori-dos. A repre- sentação de voxels é conhecida como volume rendering, e diversos trabalhos tem como foco a renderização de tais estruturas com baixo custo computacional [Crassin et al. 2009] [Binotto et al. 2003]. Outra forma de representar a nuvem de pontos é por meio de pontos ou círculos coloridos bidimensionais. Na figura 1.7(b) é apresentada essa renderização. Sistemas como os de [Vedula 2001] utilizam tal representação.

Uma técnica semelhante a de renderização por nuvens de pontos é a de surface splatting [Zwicker et al. 2001] [Ren et al. 2002]. Essa técnica permite a renderização direta de pontos não conexos base-ando-se na formalização espacial de Ellipcal Weighted Average Filter [Greene e Heckbert 1986]. Nessa técnica, considera-se que, através de amostras pontuais de cores da superfície do objeto, a coloração de um determinado ponto arbitrário da superfície pode ser obtida calculando-se a média ponderada das cores dos pontos amostrados mais próximos. Na figura 1.11 é apresentada essa proposta.

Figura 1.11. Cálculo de coloração na técnica de splats.

Dessa forma, a cor de um determinado ponto Q pertencente à superfície do objeto é obtida através da função F (Q), apresentada pela equação 6, que é calculada pela soma das cores Ci dos N pontos amostrados Ps mais próximos à Q, multiplicados por uma função de decaimento D, proporcional à distância entre Q e P.

Uma simplificação dessa técnica é apresentada por Naef et al [Naef et al. 2004]. No trabalho, os pontos amostrados são representados por discos coloridos com decaimento gaussiano da transparên-cia em relação a distância ao centro. Essa técnica é semelhante a renderização de nuvens de pontos, po-rém, devido ao decaimento da transparência dos discos, um determinado ponto na superfície do objeto, localizado entre os pontos renderizados pode ser apresentado como a média dos pontos próximos, de forma a seguir a proposta de Zwicker et al [Zwicker et al. 2001].

108



Finalmente, a última técnica de renderização a ser apresentada é a microfacet billboarding. Propos-ta por Yamazaki [Yamazaki et al. 2002], a técnica utiliza micro billboards espalhados sobre a superfície e texturizados com uma imagem, referente ao ângulo atual de observação, para representar o objeto de forma tridimensional.

Sua principal característica é a capacidade de representar detalhes do objeto de- sejado, princi-palmente os que se encontram nas laterais do objeto. Diferentemente das outras técnicas, as laterais do objeto são apresentadas na forma de pequenas imagens pa- ralelas ao plano de visualização, tornando os detalhes mais perceptíveis. Na figura 1.12 é apresentada essa proposta.

Figura 1.12. Microfacet Billboarding [Yamazaki et al. 2002].

Originalmente, Yamazaki et al [Yamazaki et al. 2002] capturam o formato do objeto utilizando aparelhos de range scanner e múltiplas imagens do mesmo objeto, em diferentes ângulos. Magnor [Magnor 2005] utiliza essa técnica de renderização para modelos construídos por meio da técnica de visual hull, uma vez que essa técnica também depende de múltipla captura.

Por outro lado, Tokunaga et al [Tokunaga et al. 2009b] aplicam essa técnica de forma análoga à modelagem 2,5D. Os micro billboards são posicionados no espaço de acordo com a posição z retornada pelo mapa de profundidade. Um fato interessante apon- tado pelos autores é que apesar dessa represen-tação 2,5D não possuir a informação da imagens de outros ângulos do objeto – baseando-se somente em uma imagem frontal – há uma preservação maior dos detalhes do objeto, quando comparada à representação por malha de triângulos. Essa técnica de renderização pode proporcionar qualidade ao avatar, ainda que apenas uma única imagem seja necessária. Na figura 1.13 é mostrado o resultado obtidos pelos autores.

1.5. Interação

Todo esse esforço para segmentação e renderização do vídeo-avatar é utilizado, em geral, para po-der inseri-lo em um ambiente diferente daquele em que o usuário se encontra originalmente. É comum que esse ambiente diferente seja um ambiente virtual, agora aumentado com a imagem real do usuário. Existem casos em que a mera inserção do vídeo-avatar no ambiente virtual, sem permitir a

109



interação com o mesmo, já cumpre uma função estética, por exemplo apresentando todos os presentes em uma teleconferência em uma sala e mesa de reunião virtuais, ou pode aumentar a sensação de presença dos usuários no ambiente [Schlemmer et al. 2009], além de permitir a comunicação natural entre os usuários, usando canais como expressões faciais e gestos, além da voz.

(a) renderização de um vaso de fl ores utilizando malhas triangulares convencional

(b) renderização de um vaso de fl ores utilizando renderização de microfacet billboarding

(c) renderização de um avatar dentro de um ambiente virtual utilizando renderização de microfacet bill-boarding

Figura 1.13. Resultados de renderização obtidos por [Tokunaga et al. 2009b].

110



Em geral, porém, é interessante que possa haver também interação com o ambiente em que o vídeo-avatar está inserido e com seus objetos virtuais. Por isso, esta seção discute algumas das formas de interação entre o avatar e objetos virtuais. O desenvolvimento de interfaces e técnicas de interação deve sempre levar em consideração as características específicas da aplicação e do usuário [Shneider-man et al. 2009, Bowman et al. 2004] e, portanto, esta discussão exige cuidados e deve ser adaptada para cada contexto. É possível, no entanto, examinar algumas classes de aplicações em que o uso de vídeo-avatares é mais comum e apresentar alternativas para interação nesses casos.

Uma das principais classes de interface geralmente associada ao uso de vídeo- avatares, dada a natureza desses avatares e dos ambientes virtuais onde estão inseridos, é a interação 3D, ou seja, aquela em que as tarefas devem ser executadas pelo usuário diretamente em um contexto espacial tridimensional [Bowman et al. 2004]. Esse é o tipo de interação mais comum em ambientes virtuais, seja para navegar em um jogo 3D ou para manipular um objeto virtual, com o objetivo de utilizá-lo em uma montagem, ou para melhor compreender ou demonstrar sua estrutura e função.

Nesse tipo de interface as 5 principais tarefas realizadas pelos usuários podem ser classificadas como [Bowman et al. 2004]: seleção de objetos virtuais, manipulação da posição desses objetos como corpos rígidos em 3D, navegação no ambiente virtual (incluindo também técnicas para que o usuário possa determinar sua posição e rota no ambiente), comandos para controle de sistema e entrada de in-formações simbólicas. Den- tre essas tarefas, o vídeo-avatar já apresenta uma interface bastante natural para a seleção e manipulação de objetos: a mesma que é utilizada no dia-a-dia com objetos reais, ou seja, a colisão de partes do corpo do usuário com os objetos e a simulação física de seu comportamento quando submetido às forças decorrentes dessas colisões e contatos.

A manipulação de objetos virtuais, dentro de certos limites, através de detecção de colisão e si-mulação física já foi discutida, por exemplo, no contexto de ambientes utilizando CAVEs ou outros dispositivos de visualização com múltiplas telas de grandes dimensões para permitir a comunicação natural entre usuários representados por vídeo- avatares [Lee et al. 2005]. Os autores do AVMIX [Nakamura e Tori 2008] também discutem essa forma de interação baseada em colisões e como esse sistema fornece a re- construção de um modelo 3D para sua detecção além da determinação de ma-pas densos de profundidade usando duas câmeras convencionais. Mesmo em certas interfaces 2D, como para interação em displays de grandes dimensões usando um vídeo-avatar [Ahn et al. 2004], a colisão entre o avatar e objetos virtuais já foi explorada. Nesse ambiente, o vídeo-avatar navega no display (primariamente em 2D mas também com alguma liberdade de se movimentar em profun-didade) e pode tocar em elementos da interface para selecioná-los e ativá-los de forma mais simples que usando um mouse, por exemplo, devido às grandes distâncias que podem existir entre esses elementos.

O sistema Gestures2Go [Bernardes et al. 2011] apresenta outra forma para um vídeo-avatar ma-nipular objetos virtuais: utilizando gestos paramétricos das mãos dos usuários e mapeando parâ-metros das mãos, como posição e orientação, para a posição de objetos virtuais selecionados, sem a necessidade de colisão com os mesmos. Os autores discutem brevemente o uso dessa técnica em um atlas virtual de anatomia, mas se estendem mais ao discutir o uso de gestos como símbolos discretos, para comandar a exe- cução de eventos no ambiente virtual (nesse artigo em particular os autores usam como exemplo um jogo comercial 3D). Há uma década e meia, o sistema Pfinder [Wren et al. 1997] já discutia o rastreamento da posição do corpo do usuário para diversas aplicações em ambientes virtuais

111



usando vídeo-avatares. Em dois exemplos discutidos pelos autores, o avatar interage com um perso-nagem virtual no sistema ALIVE ou com um jogo 3D chamado SURVIVE utilizando gestos de comando com o corpo. Gestos com as mãos, em particular o gesto de apontar, também são frequentemente explorados para a seleção de objetos em ambientes virtuais. Em um exemplo de um desses ambientes aumentados por um vídeo-avatar [Rhee e Kim 2007], esse gesto é usado para emitir um raio na direção de apontamento, que colide com o objeto a ser selecionado.

Também há exemplos do uso de gestos para navegação [Bernardes et al. 2011, Lee et al. 2005]. O Ges-tures2Go, no entanto, permite a combinação de gestos com outros canais para interação e os autores discutem como o uso de um dispositivo e um modo de interação distintos para navegação mostrou--se mais adequado [Bernardes et al. 2011]. Especificamente, foi utilizado um “tapete de dança” com nove botões direcionais que permitiu a navegação utilizando os pés, algo natural, enquanto as mãos ficavam livres para emitir gestos de comando. Diversas outras técnicas e dispositivos especiais, como esteiras, degraus móveis, bicicletas etc., já são utilizados há décadas para navegação em ambientes vir-tuais, inclusive usando os pés [Pinho 2000, Bowman et al. 2004]. Esses dispositivos e técnicas também podem ser utilizados com vídeo-avatares, desde que tomados os cuidados para que o dispositivo não interfira na captura da imagem do usuário ou para que seja propositalmente capturada como parte dele, como no caso de uma bicicleta, por exemplo.

Pode-se perceber a partir dessa discussão que o uso de colisão e gestos para inte- ração em con-junto com vídeo-avatares é bastante popular, seja com significado simbólico para emitir comandos, paramétricos para manipulação, apontando para seleção ou uma combinação deles. Essa populari-dade deve-se principalmente há dois fatores. Em primeiro lugar, o sistema com vídeo-avatar já deve ter, forçosamente, uma imagem e uma representação 3D do corpo do usuário, sem a necessidade de lançar mão de outros dispositivos além daqueles usados para a síntese dessa representação. Além disso, esses dispositivos em geral não ficam presos ao usuário, deixando-o livre para se movimentar e gesticular (e trazendo outras vantagens). Assim, é de se esperar que esses dispositivos e informações sejam aproveitados não somente para a síntese do vídeo-avatar mas tam- bém para sua interação com o ambiente virtual, principalmente visto que essas interações através de colisões e gestos são suficien-temente similares à formas como se interage com objetos e pessoas reais para que se apresentem como naturais aos usuários.

A segunda razão pela qual a colisão e os gestos são populares é que podem ser claramente perce-bidas não só pelo usuário que está utilizando essas técnicas, mas tam- bém por outros participantes do sistema, tornando o mecanismo de interação claro para todos. Gestos são inclusive regularmente utilizados e percebidos na comunicação entre pessoas de forma semelhante. Isso leva inclusive a outro cuidado que deve ser tomado ao implementar interfaces que os utilizem: separar os gestos usados para interação daqueles usados para comunicação com outros usuários. Uma técnica muito usada para essa sepa- ração é estabelecer uma região do espaço, um volume de interação, em que os gestos serão inter-pretados como comandos, enquanto que fora desse volume podem ser utilizados normalmente para comunicação. Esse volume pode inclusive deslocar-se não só em relação ao usuário mas também a ou-tros objetos, por exemplo localizando-se ao redor de um objeto virtual selecionado para manipulação. Outra alternativa bastante comum para separar gestos para interação e para comunicação é definir os

112



primeiros com posturas de mão ou corpo que exijam um grau maior de tensão muscular (sem que se tornem desconfortáveis) para serem atingidas do que aquelas usadas naturalmente para comunicação.

Apesar da popularidade do uso de gestos e colisão, outro canal também é utilizado com frequên-cia juntamente com vídeo-avatares, em geral em interfaces multimodais: o reconhecimento de fala ou, mais simplesmente, de comandos de voz. Nos dois sistemas discutidos anteriormente e usados em CAVES e displays de grandes dimensões [Lee et al. 2005, Ahn et al. 2004], por exemplo, comandos de voz podem ser utilizados juntamente com gestos do corpo ou das mãos, e são usados inclusive para navegação.

Além dessa interação em 3D, vídeo-avatares também são usados para manipular interfaces mais convencionais mesmo dentro de ambientes virtuais. O controle de apre- sentações de slides, vídeos ou da animação de objetos, por exemplo, é uma tarefa comum nesses ambientes que em geral não envolve a manipulação de variáveis tridimensionais. É comum na literatura o uso de comandos de voz ou gestuais para executar essa tarefa [Ahn et al. 2004]. Já o uso de interfaces convencionais como as baseadas em mouse e teclado é menos comum, visto que esses dispositivos podem interferir na captura da imagem do usuário e limitam uma das maiores vantagens do uso dos vídeo-avatares: a liberdade do usuário mover-se e gesticular livremente e ter essas ações representadas com fidelidade e automaticamente por seu avatar. Em sistemas em que somente parte do usuário, como a face, está representada no vídeo--avatar e onde as expressões faciais são seu elemento mais importante, ou naquelas em que a interação com mouse e teclado será esparsa, é mais viável utilizar esse tipo de interface.

Sistemas de rastreamento do corpo e reconhecimento de gestos ou fala em geral se de implemen-tação complexa. Discutir detalhes dessa implementação ocuparia pelo menos outro capítulo como esse, senão um espaço maior. Felizmente, no entanto, existe uma série de ferramentas já disponíveis que podem ser utilizadas para esse fim sem a dificuldade de implementá-las. Além dos trabalhos citados na discussão acima, algumas alternativas são bem conhecidas. O FAAST [Suma et al. 2011] fornece rastreamento da posição do corpo em 3D (inclusive permitindo a detecção de colisão) e reco-nhecimento de alguns gestos simples, também com o corpo, usando o dispositivo Kinect. O kit de de-senvolvimento desse dispositivo3 também inclui esses recursos, assim como alguma funcionalidade para reconhecimento de fala. O GART [Lyons et al. 2007] também oferece reconhecimento de gestos através de Hidden Markov Models e o HandVu [Kolsch e Turk 2005] faz o rastreamento robusto de uma das mãos que pode ser usada para mani- pulação, além do reconhecimento de 6 posturas da mesma que podem ser usados como gestos. O Sphinx da Carnegie Melon [Walker et al. 2004] é uma solução de código aberto popular para reconhecimento de fala, inclusive com suporte a múltiplas línguas.

1.6. Implementação

Nesta seção trechos principais da implementação de um avatar simples baseado em vídeo são apre-sentados. Nessa implementação foi utilizada a técnica de segmentação apresentada por Bergh e La-lioti [van den Bergh e Lalioti 1999], que se baseia no isolamento de uma cor constante (chroma-key).

3 http://www.microsoft.com/en-us/kinectforwindows/develop/overview.asp

113



Para síntese do avatar são apresentadas duas propostas: a primeira baseada na técnica de modelagem planar e a segunda na técnica de modelagem 2,5D. No processo de renderização, na implementação aqui demostrada, adotou-se a técnica de malhas de triângulos, utilizando-se funções da biblioteca grá-fica OpenGL4 .

Inicialmente, o sistema deve capturar vídeos do usuário que se deseja representar dentro do am-biente virtual. Essa captura, nesse sistema simplificado, foi realizada atra- vés de câmera convencio-nal, utilizando funções das bibliotecas de captura de imagens OpenCV5 . Na figura 1.14, é apresentado o código utilizado para segmentação da imagem do usuário.

Após a segmentação, o avatar deve ser sintetizado e integrado ao ambiente virtual. O código mos-trado na figura 1.15 é utilizado para a síntese de um avatar planar. Nessa fase, a imagem segmentada previamente é alocada como textura da OpenGL e o plano é transformado utilizando a técnica de billboard – representada no código pela função billboardBegin(). A textura do usuário é previamente alocada em avatarTexture.

Outra forma de sintetizar o avatar é através do uso das técnicas de modelagem 2,5D. Para tal tarefa, além da captura da imagem do usuário, é necessária a obtenção dos mapas de profundidade. Esses mapas podem ser gerados por meio de técnicas de

Figura 1.14. Código Segmentação

4 http://www.opengl.org/5 http://opencv.willowgarage.com/wiki/

114



Figura 1.15. Código de Síntese do avatar planar

depth from stereo, o que exige vídeo binocular, como apresentado por Nakamura e Tori [Nakamura e Tori 2008], ou utilizando-se equipamentos dedicados para a captura, como as câmeras Point Grey Bumblebee6 6 e Kinect. Uma vez capturados esses dados, a síntese do avatar pode ser realizada de acor-do com o código apresentado na figura 1.16, onde avatarTexture é a textura do usuário alocada, como no código 1.15, e getDepth() é a função que retorna os valores de profundidade para preencher o mapa.

Essa função recebe como parâmetros a posição do vértice em relação à imagem. Essa implemen-tação é uma simplificação da modelagem apresentada por Tamagawa [Ta- magawa et al. 2001], con-siderando que a projeção das imagens são ortogonais e, por sua vez, desconsiderando a distorção dos vértices nos planos x e y, devido a abertura da câ- mera. Assim, distorções causadas pelas projeções não são representadas neste modelo, o que torna a implementação mais simples.

6 http://www.ptgrey.com/products/bumblebee2/bumblebee2_stereo_camera.asp

115



Figura 1.16. Código de Síntese do avatar 2,5D

1.7. Conclusões

A utilização de avatares gerados a partir de vídeo capturado em tempo real tem se mostrado uma alternativa na busca de representações realistas de pessoas inseridas em ambientes tridimensio-nais sintéticos. Apesar de o processo de geração de vídeos-avatares tradicionalmente estar associado a utilização de equipamentos de alto custo, o presente minicurso conduziu a implementação de um sistema simplificado, que pode ser execu- tado utilizando equipamento convencional. Apresentou-se, também, o estado-da-arte em relação as técnicas utilizadas em todas as fases do processo de desen-volvimento de um sistema de vídeo-avatar. Deve-se ressaltar que parte dos trabalhos apresentados

116



teve seu desenvolvimento possível devido ao auxilio da CAPES (bolsa de estudos de Silvio San- ches e Daniel Tokunaga).

Referências

[Ahn et al. 2004] Ahn, S., Lee, T.-S., Kim, I.-J., Kwon, Y.-M., e Kim, H.-G. (2004). Large display in-teraction using video avatar and hand gesture recognition. In Campilho, A. e Kamel, M., editors, Image Analysis and Recognition, volume 3211, pages 261–268. Springer Berlin / Heidelberg.

[Akenine-Möller et al. 2008] Akenine-Möller, T., Haines, E., e Hoffman, N. (2008). Real-Time Ren-dering 3rd Edition. A. K. Peters, Ltd., Natick, MA, USA.

[Beeler et al. 2010] Beeler, T., Bickel, B., Beardsley, P., Sumner, B., e Gross, M. (2010). High-quality single--shot capture of facial geometry. 29:1.

[Bernardes et al. 2011] Bernardes, J., Nakamura, R., e Tori, R. (2011). Comprehensive model and ima-ge-based recognition of hand gestures for interaction in 3d environments. The International Journal of Virtual Reality.

[Binotto et al. 2003] Binotto, B., Comba, J. L. D., e Freitas, C. M. D. (2003). Real- time volume rendering of time-varying data using a fragment-shader compression approach. In Proceedings of the 2003 IEEE Symposium on Parallel and Large-Data Visualization and Graphics, PVG ’03, pages 10–, Washington, DC, USA. IEEE Computer Society.

[Bowman et al. 2004] Bowman, D. A., Kruijff, E., LaViola, J. J., e Poupyrev, I. (2004). 3D User Interfaces: Theory and Practice. Addison Wesley Longman Publishing Co., Inc., Redwood City, CA, USA.

[Chuang 2004] Chuang, Y.-Y. (2004). New Models and Methods for Matting and Com- positing. PhD thesis, University of Washington.

[Corrêa et al. 2011] Corrêa, C. G., Tokunaga, D. M., Sanches, S. R. R., Nakamura, R., e Tori, R. (2011). Immersive teleconferencing system based on video-avatar for distance learning. In Virtual Reality (SVR), 2011 XIII Symposium on, pages 197–206.

[Crassin et al. 2009] Crassin, C., Neyret, F., Lefebvre, S., e Eisemann, E. (2009). Giga- voxels: ray--guided streaming for efficient and detailed voxel rendering. In Procee- dings of the 2009 symposium on Interactive 3D graphics and games, I3D ’09, pages 15–22, New York, NY, USA. ACM.

117



[Criminisi et al. 2006] Criminisi, A., Cross, G., Blake, A., e Kolmogorov, V. (2006). Bi- layer segmenta-tion of live video. In CVPR ’06: Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 1, pages 53–60, Washington, DC, USA. IEEE Computer Society.

[Cucchiara et al. 2003] Cucchiara, R., Grana, C., Piccardi, M., e Prati, A. (2003). De- tecting moving objects, ghosts, and shadows in video streams. Pattern Analysis and Machine Intelligence, IEEE Transac-tions on, 25(10):1337 – 1342.

[Foster 2010] Foster, J. (2010). The Green Screen Handbook: Real-World Production Techniques, chapter Mattes and Compositing Defined, pages 3–15. John Wiley and Sons Ltd, Chichester, GB.

[Friedman e Russell 1997] Friedman, N. e Russell, S. (1997). Image segmentation in video sequences: A probabilistic approach. In Proc. 13th Conf. Uncertainty in Arti- ficial Intelligence (UAI), pages 175–181.

[Geiss 2010] Geiss, R. M. (2010). Visual targed tracking. U. S. Patent 2010/0197399 A1.

[Gibbs et al. 1998] Gibbs, S., Arapis, C., Breiteneder, C., Lalioti, V., Mostafawy, S., e Speier, J. (1998). Virtual studios: an overview. Multimedia, IEEE, 5(1):18–35.

[Goldlucke e Magnor 2003] Goldlucke, B. e Magnor, M. (2003). Real-time microfacet billboarding for free-viewpoint video rendering. Image Processing, 2003. ICIP 2003. Proceedings. 2003 International Conference on, 3:III–713–16 vol.2.

[Greene e Heckbert 1986] Greene, N. e Heckbert, P. (1986). Creating raster omnimax images from multiple perspective views using the elliptical weighted average filter. In Computer Graphics and Appli-cations, IEEE, volume 6, pages 21–27.

[Gross et al. 2003] Gross, M., Würmlin, S., Naef, M., Lamboray, E., Spagno, C., Kunz, A., Koller--Meier, E., Svoboda, T., Van Gool, L., Lang, S., Strehlke, K., Moere, A. V., e Staadt, O. (2003). blue-c: a spatially immersive display and 3d video portal for telepresence. In ACM SIGGRAPH 2003 Papers, SIGGRAPH ’03, pages 819–827, New York, NY, USA. ACM.

[Hämäläinen et al. 2005] Hämäläinen, P., Ilmonen, T., Höysniemi, J., Lindholm, M., e Nykänen, A. (2005). Martial arts in artificial reality. In Proceedings of the SIGCHI conference on Human factors in computing systems, CHI ’05, pages 781–790, New York, NY, USA. ACM.

[Hauber et al. 2005] Hauber, J., Regenbrecht, H., Hills, A., Cockburn, A., e Billinghurst, M. (2005). Social presence in two – and three-dimensional videoconferencing. In Proceedings of 8th Annual In-ternational Workshop on Presence, pages 189–198, London - UK. University of Canterbury – Computer Science and Software Engine- ering.

118



[Iddan e Yahav 2001] Iddan, G. J. e Yahav, G. (2001). Three-dimensional imaging in the studio and elsewhere. In Corner, B. D., Nurre, J. H., e Pargas, R. P., editors, Proceedings of SPIE, volume 4298, pa-ges 48–55, Bellingham, Washington USA. Society of Photo-Optical Instrumentation Engineers (SPIE).

[Insley et al. 1997] Insley, J. A., Sandin, D. J., e DeFanti, T. A. (1997). Using video to create avatars in virtual reality. In ACM SIGGRAPH 97 Visual Proceedings: The art and interdisciplinary programs of SIGGRAPH ’97, SIGGRAPH ’97, pages 128–, New York, NY, USA. ACM.

[Jones et al. 2009] Jones, A., Lang, M., Fyffe, G., Yu, X., Busch, J., McDowall, I., Bo- las, M., e Debe-vec, P. (2009). Achieving eye contact in a one-to-many 3d video teleconferencing system. ACM Trans. Graph., 28(3):64:1–64:8.

[Kanade e Narayanan 2007] Kanade, T. e Narayanan, P. J. (2007). Virtualized reality: Perspectives on 4d digitization of dynamic events. IEEE Comput. Graph. Appl., 27(3):32–40.

[Kauff e Schreer 2002] Kauff, P. e Schreer, O. (2002). An immersive 3d videoconferencing system using shared virtual team user environments. In Proceedings of the 4th international conference on Collaborative virtual environments, CVE ’02, pages 105–112, New York, NY, USA. ACM.

[Kazhdan et al. 2006] Kazhdan, M., Bolitho, M., e Hoppe, H. (2006). Poisson surface reconstruction. In Proceedings of the fourth Eurographics symposium on Geometry processing, SGP ’06, pages 61–70, Aire-la-Ville, Switzerland, Switzerland. Euro- graphics Association.

[Kim et al. 2007] Kim, H., Sakamoto, R., Kitahara, I., Toriyama, T., e Kogure, K. (2007). Reliability--based 3d reconstruction in real environment. In MULTIMEDIA ’07: Pro- ceedings of the 15th inter-national conference on Multimedia, pages 257–260, New York, NY, USA. ACM.

[Kolsch e Turk 2005] Kolsch, M. e Turk, M. (2005). Hand tracking with flocks of featu- res. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Compu- ter Society Conference on, page 1187 vol. 2.

[Koyama et al. 2003] Koyama, T., Kitahara, I., e Ohta, Y. (2003). Live mixed-reality 3d video in soc-cer stadium. In Proceedings of the 2nd IEEE/ACM International Symposium on Mixed and Augmented Reality, ISMAR ’03, pages 178–, Washington, DC, USA. IEEE Computer Society.

[Laurentini 1994] Laurentini, A. (1994). The visual hull concept for silhouette-based image unders-tanding. Pattern Analysis and Machine Intelligence, IEEE Transacti- ons on, 16(2):150–162.

[Lee et al. 2004a] Lee, S.-Y., Kim, I.-J., Ahn, S., e Kim, H.-G. (2004a). Active segmentation for immer-sive live avatar. Electronics Letters, 40(20):1257–1258.

119



[Lee et al. 2004b] Lee, S.-Y., Kim, I.-J., Ahn, S. C., Ko, H., Lim, M.-T., e Kim, H.-G. (2004b). Real time 3d avatar for interactive mixed reality. In VRCAI ’04: Procee- dings of the 2004 ACM SIGGRAPH international conference on Virtual Reality continuum and its applications in industry, pages 75–80, New York, NY, USA. ACM.

[Lee et al. 2005] Lee, S.-Y., Kim, I.-J., Ahn, S. C., Lim, M.-T., e Kim, H.-G. (2005). Toward immersive telecommunication: 3d video avatar with physical interaction. In ICAT ’05: Proceedings of the 2005 international conference on Augmented tele- existence, pages 56–61, New York, NY, USA. ACM.

[Li et al. 2008] Li, H., Sumner, R. W., e Pauly, M. (2008). Global correspondence opti- mization for non-rigid registration of depth scans. In Proceedings of the Symposium on Geometry Processing, SGP ’08, pages 1421–1430, Aire-la-Ville, Switzerland, Switzerland. Eurographics Association.

[Lorensen e Cline 1987] Lorensen, W. E. e Cline, H. E. (1987). Marching cubes: A high resolution 3d surface construction algorithm. SIGGRAPH Comput. Graph., 21(4):163–169.

[Lyons et al. 2007] Lyons, K., Brashear, H., Westeyn, T., Kim, J. S., e Starner, T. (2007). Gart: the gesture and activity recognition toolkit. In Proceedings of the 12th international conference on Human-com-puter interaction: intelligent multimodal interaction environments, pages 718–727. Springer-Verlag.

[Magnor et al. 2005] Magnor, M., Pollefeys, M., Cheung, G., Matusik, W., e Theobalt, C. (2005). Video-based rendering. In SIGGRAPH ’05: ACM SIGGRAPH 2005 Courses, page 1, New York, NY, USA. ACM.

[Magnor 2005] Magnor, M. A. (2005). Video-Based Rendering. AK Peters Ltd, Welles- ley, MA, USA.

[Matusik et al. 2001] Matusik, W., Buehler, C., e McMillan, L. (2001). Polyhedral visual hulls for real--time rendering. In Proceedings of the 12th Eurographics Workshop on Rendering Techniques, pages 115–126, London, UK, UK. Springer-Verlag.

[Messinger et al. 2009] Messinger, P. R., Stroulia, E., Lyons, K., Bone, M., Niu, R. H., Smirnov, K., e Perelgut, S. (2009). Virtual worlds - past, present, and future: New directions in social computing. Decis. Support Syst., 47:204–228.

[Morningstar e Farmer 1991] Morningstar, C. e Farmer, F. R. (1991). The lessons of lucasfilm’s habitat. pages 273–302.

[Naef et al. 2004] Naef, M., Staadt, O., e Gross, M. (2004). blue-c api: a multimedia and 3d video enhanced toolkit for collaborative vr and telepresence. In VRCAI ’04: Proceedings of the 2004 ACM SI-GGRAPH international conference on Virtual Re- ality continuum and its applications in industry, pages 11–18, New York, NY, USA. ACM.

120



[Nakamura 2008] Nakamura, R. (2008). Vídeo-Avatar com detecção de colisão para realidade aumen-tada e jogos. PhD thesis, Escola Politécnica da Universidade de São Paulo.

[Nakamura e Tori 2008] Nakamura, R. e Tori, R. (2008). Improving collision detection for real-time video avatar interaction. In SVR ’08: Proceedings of X Symposium on Virtual Reality, pages 105–114.

[Ogi et al. 2003] Ogi, T., Yamada, T., Kurita, Y., Y. Hattori, Y., e Hirose, M. (2003). Usage of video ava-tar technology for immersive communication. In ACL 2003 Co- located Workshop: First International Workshop on Language Understanding and Agents for Real World Interaction.

[Ogi et al. 2001] Ogi, T., Yamada, T., Tamagawa, K., Kano, M., e Hirose, M. (2001). Im- mersive telecom-munication using stereo video avatar. In VR ’01: Proceedings of the Virtual Reality 2001 Conference, page 45, Washington, DC, USA. IEEE Computer Society.

[Ohta e Kanade 1985] Ohta, Y. e Kanade, T. (1985). Stereo by intra- and inter-scanline search using dynamic programming. IEEE Trans. Pattern Analysis and Machine Intelligence, PAMI-7(1):139–154.

[Oliver et al. 2000] Oliver, N., Rosario, B., e Pentland, A. (2000). A bayesian computer vision system for modeling human interactions. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 22(8):831 –843.

[Piccardi 2004] Piccardi, M. (2004). Background subtraction techniques: a review. In Systems, Man and Cybernetics, 2004 IEEE International Conference on, volume 4, pages 3099 – 3104 vol.4.

[Pinho 2000] Pinho, M. (2000). Técnicas de interação em ambientes tridimensionais. In Workshop de Realidade Virtual (minicurso).

[Porter e Duff 1984] Porter, T. e Duff, T. (1984). Compositing digital images. In SIG- GRAPH ’84: Pro-ceedings of the 11th annual conference on Computer graphics and interactive techniques, pages 253–259, New York, NY, USA. ACM Press.

[Prince et al. 2002] Prince, S., Cheok, A., Farbiz, F., Williamson, T., Johnson, N., Bil- linghurst, M., e Kato, H. (2002). 3d live: real time captured content for mixed reality. Mixed and Augmented Reality, 2002. ISMAR 2002. Proceedings. International Symposium on, pages 7–13.

[Qian e Sezan 1999] Qian, R. e Sezan, M. (1999). Video background replacement without a blue scre-en. Image Processing, 1999. ICIP 99. Proceedings. 1999 In- ternational Conference on, 4:143–146 vol.4.

[Ren et al. 2002] Ren, L., Pfister, H., e Zwicker, M. (2002). Object space ewa surface splatting: A hardware accelerated approach to high quality point rendering. In Com- puter Graphics Forum, pages 461–470.

121



[Rhee e Kim 2007] Rhee, S.-M. e Kim, M.-H. (2007). Combining pointing gestures with video avatars for remote collaboration. In Stephanidis, C., editor, Universal Access in Human-Computer Interaction. Ambient Interaction, volume 4555, pages 980–986. Springer Berlin / Heidelberg.

[Rhee et al. 2007] Rhee, S.-M., Ziegler, R., Park, J., Naef, M., Gross, M., e Kim, M.-H. (2007). Low-cost telepresence for collaborative virtual environments. Visualization and Computer Graphics, IEEE Tran-sactions on, 13(1):156 –166.

[Schlemmer et al. 2009] Schlemmer, E., Trein, D., e Oliveira, C. (2009). The metaverse: Telepresence in 3d avatar-driven digital-virtual worlds. Revista d’innovacio educa- tiva.

[Seitz et al. 2006] Seitz, S., Curless, B., Diebel, J., Scharstein, D., e Szeliski, R. (2006). A comparison and evaluation of multi-view stereo reconstruction algorithms. In Computer Vision and Pattern Recog-nition, 2006 IEEE Computer Society Conference on, volume 1, pages 519 – 528.

[Sheth 2002] Sheth, N. (2002). Hindu avatara and christian incarnation: A comparison. Philosophy East and West, 52(1):98–125.

[Shin et al. 2010] Shin, T., Kasuya, N., Kitahara, I., Kameda, Y., e Ohta, Y. (2010). A comparison be-tween two 3d free-viewpoint generation methods: Player-billboard and 3d reconstruction. In 3DTV--Conference: The True Vision - Capture, Transmis- sion and Display of 3D Video (3DTV-CON), 2010, pages 1 –4.

[Shneiderman et al. 2009] Shneiderman, B., Plaisant, C., Cohen, M., e Jacobs, S. (2009). Designing the User Interface: Strategies for Effective Human-Computer Interaction. Addison Wesley, 5 edition.

[Shu-jun e Wei 2010] Shu-jun, Z. e Wei, W. (2010). Optimized volumetric visual hull reconstruction method based on cuda. In Audio Language and Image Processing (ICALIP), 2010 International Confe-rence on, pages 1423 –1429.

[Shum et al. 2006] Shum, H.-Y., Chan, S.-C., e Kang, S. B. (2006). Image-Based Rende-ring. Springer--Verlag New York, Inc., Secaucus, NJ, USA.

[Shum e Kang 1999] Shum, H.-Y. e Kang, S. B. (1999). A survey of image-based rendering techniques. In In Videometrics, SPIE, number 4, pages 2–16.

[Siscoutto e Tori 2004] Siscoutto, R. e Tori, R. (2004). Augmented virtuality tele-conferencing. In SVR ’04: Proceedings of VII Symposium on Virtual Reality, pages 124–136.

[Suma et al. 2011] Suma, E., Lange, B., Rizzo, A., Krum, D., e Bolas, M. (2011). Fa- ast: The flexible action and articulated skeleton toolkit. In IEEE Virtual Reality Conference, pages 247–248.

122



[Takashima et al. 2008] Takashima, K., Omori, Y., Yoshimoto, Y., Itoh, Y., Kitamura, Y., e Kishino, F. (2008). Effects of avatar’s blinking animation on person impressions. In Proceedings of graphics inter-face 2008, GI ’08, pages 169–176, Toronto, Ont., Canada, Canada. Canadian Information Processing Society.

[Tamagawa et al. 2001] Tamagawa, K., Yamada, T., Ogi, T., e Hirose, M. (2001). Deve- loping a 2.5-d video avatar. Signal Processing Magazine, IEEE, 18(3):35–42.

[Tang et al. 2007] Tang, Z., Miao, Z., e Wan, Y. (2007). Background subtraction using running gaus-sian average and frame difference. In Ma, L., Rauterberg, M., e Na- katsu, R., editors, Entertainment Computing - ICEC 2007, volume 4740 of Lecture Notes in Computer Science, pages 411–414. Springer Berlin / Heidelberg.

[Theobalt et al. 2003] Theobalt, C., Li, M., Magnor, M., e Seidel, H.-P. (2003). A flexible and versatile stu-dio for synchronized multi-view video recording. Proc. IMA Vision, Video, and Graphics 2003 (VVG’03), Bath, UK, pages 9–16.

[Tokunaga et al. 2009a] Tokunaga, D. M., Nakamura, R., e Tori, R. (2009a). Non- photorealistic 3d video-avatar. In SIGGRAPH ’09: Posters, SIGGRAPH ’09, pages 101:1–101:1, New York, NY, USA. ACM.

[Tokunaga et al. 2009b] Tokunaga, D. M., Sanches, S. R. R., Trias, L. P., Nakamura, R., Bernardes, J. L., e Tori, R. (2009b). Video-based microfacet-billboard avatar for educational immersive telecon-ference systems. In SVR ’09: Proceedings of XI Symposium on Virtual and Augmented Reality, pages 199–209, Porto Alegre, RS, Brasil. Sociedade Brasileira da Computação.

[van den Bergh e Lalioti 1999] van den Bergh, F. e Lalioti, V. (1999). Software chroma keying in an immersive virtual environment. South African Computer Journal, 24:155–162.

[Vedula 2001] Vedula, S. (2001). Image Based Spatio-Temporal Modeling and View In- terpolation of Dynamic Events. PhD thesis, Carnegie Mellon University.

[Vlahos 1978] Vlahos, P. (1978). Comprehensive electronic compositing system. U.S. Patent 4,100,569.

[Walker et al. 2004] Walker, W., Lamere, P., Kwok, P., Raj, B., Singh, R., Gouvea, E., Wolf, P., e Wo-elfel, J. (2004). Sphinx-4: a f lexible open source framework for speech recognition. Technical report, Mountain View, CA, USA.

[Wang e Cohen 2007] Wang, J. e Cohen, M. F. (2007). Image and video matting: a survey. Found. Trends. Comput. Graph. Vis., 3(2):97–175.

123



[Wren et al. 1997] Wren, C., Azarbayejani, A., Darrell, T., e Pentland, A. (1997). Pfin- der: real--time tracking of the human body. Pattern Analysis and Machine Intelli- gence, IEEE Transactions on, 19(7):780 –785.

[Yamashita et al. 2008] Yamashita, A., Agata, H., e Kaneko, T. (2008). Every color ch- romakey. In Pattern Recognition, 2008. ICPR 2008. 19th International Conference on, pages 1 –4.

[Yamazaki et al. 2002] Yamazaki, S., Sagawa, R., Kawasaki, H., Ikeuchi, K., e Sakau- chi, M. (2002). Microfacet billboarding. In EGRW ’02: Proceedings of the 13th Eurographics workshop on Rendering, pages 169–180, Aire-la-Ville, Switzerland, Switzerland. Eurographics Association.

[Zwicker et al. 2001] Zwicker, M., Pfister, H., van Baar, J., e Gross, M. (2001). Surface splatting. In SIGGRAPH ’01: Proceedings of the 28th annual conference on Com- puter graphics and interactive tech-niques, pages 371–378, New York, NY, USA. ACM.

sistemas imersivos que utilizam avatares baseados em vídeointerlab/sanches_avatar.pdf93 sistemas...

Documents