EMO Alibaba
Créditos da imagem: Alibaba

EMO: IA do Alibaba dá vida a retratos, gerando vídeos realistas

Pesquisadores do Alibaba acabaram de revelar o EMO, um sistema de inteligência artificial (IA) capaz de gerar vídeos realistas de retratos falando, cantando e se movendo a partir de uma única imagem de referência e um clipe de áudio.

Como funciona o EMO

  • O EMO foi treinado em mais de 250 horas de vídeos diversos e multilíngues, incluindo discursos, filmes e apresentações musicais.
  • Ao invés de depender de modelos 3D tradicionais, o sistema gera diretamente os quadros do vídeo utilizando um modelo de difusão.
  • O EMO combina a imagem de referência com a geração para garantir a consistência em vídeos mais longos, capturando expressões e sincronizando lábios de forma realista.

A sincronização realista de áudio/expressão do EMO indica que estamos prestes a entrar em um novo mundo de capacidades de geração de vídeo por inteligência artificial. Isso traz tanto entusiasmo criativo quanto preocupações significativas com deepfakes (vídeos falsos e manipulados).

PUBLICIDADE

Leia também:

Rolar para cima