Ferramenta utiliza visão computacional e aprendizagem de máquina para identificar cenas relevantes
Por Pedro Matos/SIMI

Um ciclista com uma câmera acoplada ao capacete desce radicalmente uma trilha em uma montanha, desviando de pedras e obstáculos, com um lindo cenário ao fundo. Você assiste toda a aventura pelo seu smartphone, acompanhando cada curva como se você próprio estivesse pedalando e, em alguns momentos, chega a prender a respiração.
Vídeos em primeira pessoa, como o descrito acima, estão se popularizando e ganhando cada vez mais espaço em plataformas como Instagram e Youtube, produzidos especialmente por praticantes de esportes radicais. Em alguns casos são horas de imagens comprimidas em uma timelapse (vídeo acelerado) de poucos minutos. Mas garantir que o resultado final agrade o público ainda é um desafio, principalmente para quem não tem tanta intimidade com programas de edição.
E é exatamente esse problema que um trabalho do Laboratório de Visão e Robótica (Verlab) da Universidade Federal de Minas Gerais (UFMG) está resolvendo. Coordenado pelo professor Erickson de Nascimento, o estudo consiste em um software que utiliza visão computacional para garantir não apenas a estabilidade e a qualidade das imagens, mas o significado delas.
Leia também: Inteligência artificial no RH: softwares podem discriminar mulheres e negros?
Já existem alguns softwares que visam reduzir a oscilação causada pelo movimento de quem registra as imagens, como o Microsoft Hyperlapse, mas de acordo com o professor isso não atende todas as necessidades de quem produz o conteúdo. “Eu mesmo fui fazer uma timelapse no aniversário do meu sobrinho. No final, ele foi cortado várias vezes do vídeo”, comenta Nascimento.
A ideia consiste em garantir que o processo de aceleração das imagens, que também remove frames do vídeo, não acabe prejudicando o objetivo da filmagem. Imagine a seguinte situação: você pega uma câmera e começa a caminhar pelas ruas do seu bairro filmando tudo o que acontece. Em alguns momentos você para, conversa com um vizinho, brinca com um cachorro e então volta para casa. O software desenvolvido no Verlab identifica os momentos mais relevantes das imagens por meio de detecção facial e de objetos para garantir que eles tenham destaque no vídeo final.
No exemplo citado, a conversa com o vizinho e a brincadeira com o cachorro ganhariam mais destaque do que o tempo em que você ficou parado esperando para atravessar a rua, por exemplo. Além disso, os sons captados pela câmera também são analisados na hora de identificar momentos importantes.
Para desenvolver o software, os pesquisadores utilizaram uma base de dados do Youtube com vários vídeos gravados em primeira pessoa e analisaram, inclusive, os feedbacks dos usuários. O programa ainda não está no mercado, mas a equipe espera poder fazer parcerias com empresas em breve para viabilizar a comercialização.
A expectativa é que a solução possa ser utilizada em outras áreas, como em vídeos gravados por câmeras acopladas a policiais e agentes de segurança, por exemplo. A equipe do DCC produziu um vídeo explicando um pouco melhor a solução (em inglês):
Fonte: