Inteligência Artificial

Sora da OpenAI também pode renderizar videogames; entenda

O novo modelo de geração de vídeo da OpenAI, Sora, consegue realizar algumas proezas cinematográficas genuinamente impressionantes. Mas o modelo é ainda mais capaz do que a OpenAI inicialmente divulgou, pelo menos julgando pelo artigo técnico publicado nesta quinta-feira (15).

Publicado por
Vinicius Siqueira

O artigo intitulado “Modelos de geração de vídeo como simuladores de mundo“, de coautoria de uma série de pesquisadores da OpenAI, revela aspectos-chave da arquitetura do Sora – por exemplo, demonstrando que o Sora pode gerar vídeos de resolução e proporção de aspecto arbitrárias (até 1080p). Segundo o artigo, o Sora é capaz de realizar uma variedade de tarefas de edição de imagem e vídeo, desde a criação de vídeos em loop até a extensão de vídeos para frente ou para trás no tempo e a alteração do fundo em um vídeo existente.

Em um experimento, a OpenAI alimentou o Sora com sugestões contendo a palavra “Minecraft” e o fez renderizar um HUD e jogo convincentemente semelhante ao Minecraft – e a dinâmica do jogo, incluindo física – enquanto controlava simultaneamente o personagem do jogador.

Então, como o Sora consegue fazer isso? Bem, como observado pelo pesquisador sênior da Nvidia, Jim Fan (via Quartz), o Sora é mais um “motor de física orientado por dados” do que uma ferramenta criativa. Não está apenas gerando uma única foto ou vídeo, mas determinando a física de cada objeto em um ambiente – e renderizando uma foto ou vídeo (ou um mundo 3D interativo, conforme o caso) com base nesses cálculos.

“Essas capacidades sugerem que a escalabilidade contínua dos modelos de vídeo é um caminho promissor para o desenvolvimento de simuladores altamente capazes do mundo físico e digital, e dos objetos, animais e pessoas que vivem dentro deles”, escrevem os coautores da OpenAI.

Agora, as limitações usuais do Sora se aplicam no domínio dos videogames. O modelo não pode aproximar com precisão a física de interações básicas como o vidro se quebrando. E mesmo com interações que pode modelar, o Sora muitas vezes é inconsistente – por exemplo, renderizando uma pessoa comendo um hambúrguer, mas falhando em renderizar as marcas de mordida.

Ainda assim, parece que o Sora poderia abrir caminho para jogos gerados proceduralmente mais realistas – talvez até fotorrealistas – a partir de descrições de texto sozinho.

Leia também:

Este post foi modificado pela última vez em %s = human-readable time difference 20:35

Vinicius Siqueira

Posts recentes

Google se associa à Apptronik para desenvolver robôs humanoides

O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…

20 de dezembro de 2024

Genesis: Um novo patamar para simulações físicas em IA

Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…

20 de dezembro de 2024

Google lança seu próprio modelo de IA de “raciocínio”

O Google acabou de lançar o que está chamando de um novo modelo de inteligência…

19 de dezembro de 2024

GitHub Copilot agora é gratuito

A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…

19 de dezembro de 2024

ChatGPT ganha um novo número de telefone; veja

A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…

19 de dezembro de 2024

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…

18 de dezembro de 2024