Inteligência Artificial

Generative Image Dynamics: Google está desenvolvendo ferramenta que transforma imagens estáticas em vídeos

O Google está desenvolvendo uma nova tecnologia chamada Generative Image Dynamics, que permite transformar uma imagem estática em um vídeo em loop ou em uma cena dinâmica interativa.

Publicado por
Uesley Durães

A tecnologia funciona modelando um espaço de imagem anterior à dinâmica da cena. Esse espaço é criado a partir de um vasto conjunto de dados de trajetórias de movimento extraídas de sequências de vídeo reais. O modelo aprende como objetos e elementos dentro de uma imagem podem se comportar quando submetidos a várias interações dinâmicas.

O principal recurso da tecnologia é a capacidade de gerar vídeos em loop sem costura. Ao extrapolar e estender o movimento dos elementos dentro de uma imagem, o sistema do Google pode transformar a imagem em um vídeo cativante e contínuo.

A Generative Image Dynamics também permite que os usuários interajam com objetos em imagens estáticas de forma realista. Simulando a resposta da dinâmica do objeto à excitação do usuário, o sistema do Google permite experiências imersivas e interativas dentro de imagens.

Como funciona

A tecnologia do Google funciona a partir de um modelo treinado em um vasto conjunto de dados de trajetórias de movimento extraídas de sequências de vídeo reais. Esse conjunto de dados inclui cenas com elementos como árvores balançando, flores se movendo, velas tremeluzindo e roupas ondulando ao vento.

Quando apresentado com uma imagem única, o modelo treinado emprega um processo de amostragem por difusão coordenado por frequência. Esse processo prevê uma representação de movimento de longo prazo por pixel no domínio Fourier, denominada textura de movimento estocástico neural. Essa representação é então transformada em trajetórias de movimento densas que abrangem um vídeo inteiro.

Exemplos de uso do Generative Image Dynamics

A tecnologia do Google ainda está em desenvolvimento, mas tem potencial para revolucionar o modo como interagimos com imagens.

Aqui estão alguns exemplos de como a tecnologia pode ser usada:

  • Criação de vídeos em loop sem costura para anúncios ou marketing.
  • Criação de cenas dinâmicas interativas para jogos ou experiências de realidade virtual.
  • Aprimoramento de imagens históricas ou científicas para torná-las mais envolventes.

Conclusão

A ferramenta ainda está em desenvolvimento, e não se sabe quando vai chegar ao público amplo geral.

Veja também:

Este post foi modificado pela última vez em %s = human-readable time difference 17:44

Uesley Durães

Posts recentes

Google se associa à Apptronik para desenvolver robôs humanoides

O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…

20 de dezembro de 2024

Genesis: Um novo patamar para simulações físicas em IA

Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…

20 de dezembro de 2024

Google lança seu próprio modelo de IA de “raciocínio”

O Google acabou de lançar o que está chamando de um novo modelo de inteligência…

19 de dezembro de 2024

GitHub Copilot agora é gratuito

A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…

19 de dezembro de 2024

ChatGPT ganha um novo número de telefone; veja

A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…

19 de dezembro de 2024

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…

18 de dezembro de 2024