Inteligência Artificial

Generative Image Dynamics: Google está desenvolvendo ferramenta que transforma imagens estáticas em vídeos

O Google está desenvolvendo uma nova tecnologia chamada Generative Image Dynamics, que permite transformar uma imagem estática em um vídeo em loop ou em uma cena dinâmica interativa.

Publicado por
Uesley Durães

A tecnologia funciona modelando um espaço de imagem anterior à dinâmica da cena. Esse espaço é criado a partir de um vasto conjunto de dados de trajetórias de movimento extraídas de sequências de vídeo reais. O modelo aprende como objetos e elementos dentro de uma imagem podem se comportar quando submetidos a várias interações dinâmicas.

O principal recurso da tecnologia é a capacidade de gerar vídeos em loop sem costura. Ao extrapolar e estender o movimento dos elementos dentro de uma imagem, o sistema do Google pode transformar a imagem em um vídeo cativante e contínuo.

A Generative Image Dynamics também permite que os usuários interajam com objetos em imagens estáticas de forma realista. Simulando a resposta da dinâmica do objeto à excitação do usuário, o sistema do Google permite experiências imersivas e interativas dentro de imagens.

Como funciona

A tecnologia do Google funciona a partir de um modelo treinado em um vasto conjunto de dados de trajetórias de movimento extraídas de sequências de vídeo reais. Esse conjunto de dados inclui cenas com elementos como árvores balançando, flores se movendo, velas tremeluzindo e roupas ondulando ao vento.

Quando apresentado com uma imagem única, o modelo treinado emprega um processo de amostragem por difusão coordenado por frequência. Esse processo prevê uma representação de movimento de longo prazo por pixel no domínio Fourier, denominada textura de movimento estocástico neural. Essa representação é então transformada em trajetórias de movimento densas que abrangem um vídeo inteiro.

Exemplos de uso do Generative Image Dynamics

A tecnologia do Google ainda está em desenvolvimento, mas tem potencial para revolucionar o modo como interagimos com imagens.

Aqui estão alguns exemplos de como a tecnologia pode ser usada:

  • Criação de vídeos em loop sem costura para anúncios ou marketing.
  • Criação de cenas dinâmicas interativas para jogos ou experiências de realidade virtual.
  • Aprimoramento de imagens históricas ou científicas para torná-las mais envolventes.

Conclusão

A ferramenta ainda está em desenvolvimento, e não se sabe quando vai chegar ao público amplo geral.

Veja também:

Este post foi modificado pela última vez em %s = human-readable time difference 17:44

Uesley Durães

Posts recentes

DeepMind dá um salto gigante na computação quântica com o AlphaQubit

O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…

21 de novembro de 2024

ChatGPT está mais perto de lançar sua IA visual

Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…

21 de novembro de 2024

DeepSeek revela poderosa IA de raciocínio; veja

A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…

21 de novembro de 2024

OpenAI lança curso gratuito de IA para professores

A OpenAI e a parceira sem fins lucrativos Common Sense Media lançaram um curso de…

20 de novembro de 2024

Robôs da Figure transformam produção da BMW; saiba como

Brett Adcock, CEO da Figure, postou uma atualização sobre os robôs humanoides da empresa trabalhando…

20 de novembro de 2024

Microsoft revela agentes de IA especializados e ferramentas de automação

A Microsoft acaba de apresentar uma suíte de novos agentes de inteligência artificial (IA) especializados…

20 de novembro de 2024