O novo modelo de geração de vídeo da OpenAI, Sora, consegue realizar algumas proezas cinematográficas genuinamente impressionantes. Mas o modelo é ainda mais capaz do que a OpenAI inicialmente divulgou, pelo menos julgando pelo artigo técnico publicado nesta quinta-feira (15).
O artigo intitulado “Modelos de geração de vídeo como simuladores de mundo“, de coautoria de uma série de pesquisadores da OpenAI, revela aspectos-chave da arquitetura do Sora – por exemplo, demonstrando que o Sora pode gerar vídeos de resolução e proporção de aspecto arbitrárias (até 1080p). Segundo o artigo, o Sora é capaz de realizar uma variedade de tarefas de edição de imagem e vídeo, desde a criação de vídeos em loop até a extensão de vídeos para frente ou para trás no tempo e a alteração do fundo em um vídeo existente.
Em um experimento, a OpenAI alimentou o Sora com sugestões contendo a palavra “Minecraft” e o fez renderizar um HUD e jogo convincentemente semelhante ao Minecraft – e a dinâmica do jogo, incluindo física – enquanto controlava simultaneamente o personagem do jogador.
Então, como o Sora consegue fazer isso? Bem, como observado pelo pesquisador sênior da Nvidia, Jim Fan (via Quartz), o Sora é mais um “motor de física orientado por dados” do que uma ferramenta criativa. Não está apenas gerando uma única foto ou vídeo, mas determinando a física de cada objeto em um ambiente – e renderizando uma foto ou vídeo (ou um mundo 3D interativo, conforme o caso) com base nesses cálculos.
“Essas capacidades sugerem que a escalabilidade contínua dos modelos de vídeo é um caminho promissor para o desenvolvimento de simuladores altamente capazes do mundo físico e digital, e dos objetos, animais e pessoas que vivem dentro deles”, escrevem os coautores da OpenAI.
Agora, as limitações usuais do Sora se aplicam no domínio dos videogames. O modelo não pode aproximar com precisão a física de interações básicas como o vidro se quebrando. E mesmo com interações que pode modelar, o Sora muitas vezes é inconsistente – por exemplo, renderizando uma pessoa comendo um hambúrguer, mas falhando em renderizar as marcas de mordida.
Ainda assim, parece que o Sora poderia abrir caminho para jogos gerados proceduralmente mais realistas – talvez até fotorrealistas – a partir de descrições de texto sozinho.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 20:35
O Google DeepMind acaba de apresentar o AlphaQubit, um sistema de inteligência artificial (IA) que…
Um código recém-descoberto na última versão beta do ChatGPT sugere que a OpenAI pode estar…
A empresa chinesa de pesquisa em inteligência artificial (IA), DeepSeek, acaba de lançar o R1-Lite-Preview,…
A OpenAI e a parceira sem fins lucrativos Common Sense Media lançaram um curso de…
Brett Adcock, CEO da Figure, postou uma atualização sobre os robôs humanoides da empresa trabalhando…
A Microsoft acaba de apresentar uma suíte de novos agentes de inteligência artificial (IA) especializados…