Créditos da imagem: Curto News/BingAI

Sora da OpenAI também pode renderizar videogames; entenda

O novo modelo de geração de vídeo da OpenAI, Sora, consegue realizar algumas proezas cinematográficas genuinamente impressionantes. Mas o modelo é ainda mais capaz do que a OpenAI inicialmente divulgou, pelo menos julgando pelo artigo técnico publicado nesta quinta-feira (15).

O artigo intitulado “Modelos de geração de vídeo como simuladores de mundo“, de coautoria de uma série de pesquisadores da OpenAI, revela aspectos-chave da arquitetura do Sora – por exemplo, demonstrando que o Sora pode gerar vídeos de resolução e proporção de aspecto arbitrárias (até 1080p). Segundo o artigo, o Sora é capaz de realizar uma variedade de tarefas de edição de imagem e vídeo, desde a criação de vídeos em loop até a extensão de vídeos para frente ou para trás no tempo e a alteração do fundo em um vídeo existente.

PUBLICIDADE

Em um experimento, a OpenAI alimentou o Sora com sugestões contendo a palavra “Minecraft” e o fez renderizar um HUD e jogo convincentemente semelhante ao Minecraft – e a dinâmica do jogo, incluindo física – enquanto controlava simultaneamente o personagem do jogador.

Então, como o Sora consegue fazer isso? Bem, como observado pelo pesquisador sênior da Nvidia, Jim Fan (via Quartz), o Sora é mais um “motor de física orientado por dados” do que uma ferramenta criativa. Não está apenas gerando uma única foto ou vídeo, mas determinando a física de cada objeto em um ambiente – e renderizando uma foto ou vídeo (ou um mundo 3D interativo, conforme o caso) com base nesses cálculos.

“Essas capacidades sugerem que a escalabilidade contínua dos modelos de vídeo é um caminho promissor para o desenvolvimento de simuladores altamente capazes do mundo físico e digital, e dos objetos, animais e pessoas que vivem dentro deles”, escrevem os coautores da OpenAI.

PUBLICIDADE

Agora, as limitações usuais do Sora se aplicam no domínio dos videogames. O modelo não pode aproximar com precisão a física de interações básicas como o vidro se quebrando. E mesmo com interações que pode modelar, o Sora muitas vezes é inconsistente – por exemplo, renderizando uma pessoa comendo um hambúrguer, mas falhando em renderizar as marcas de mordida.

Ainda assim, parece que o Sora poderia abrir caminho para jogos gerados proceduralmente mais realistas – talvez até fotorrealistas – a partir de descrições de texto sozinho.

Leia também:

Rolar para cima