O novo modelo de geração de vídeo da OpenAI, Sora, consegue realizar algumas proezas cinematográficas genuinamente impressionantes. Mas o modelo é ainda mais capaz do que a OpenAI inicialmente divulgou, pelo menos julgando pelo artigo técnico publicado nesta quinta-feira (15).
O artigo intitulado “Modelos de geração de vídeo como simuladores de mundo“, de coautoria de uma série de pesquisadores da OpenAI, revela aspectos-chave da arquitetura do Sora – por exemplo, demonstrando que o Sora pode gerar vídeos de resolução e proporção de aspecto arbitrárias (até 1080p). Segundo o artigo, o Sora é capaz de realizar uma variedade de tarefas de edição de imagem e vídeo, desde a criação de vídeos em loop até a extensão de vídeos para frente ou para trás no tempo e a alteração do fundo em um vídeo existente.
Em um experimento, a OpenAI alimentou o Sora com sugestões contendo a palavra “Minecraft” e o fez renderizar um HUD e jogo convincentemente semelhante ao Minecraft – e a dinâmica do jogo, incluindo física – enquanto controlava simultaneamente o personagem do jogador.
Então, como o Sora consegue fazer isso? Bem, como observado pelo pesquisador sênior da Nvidia, Jim Fan (via Quartz), o Sora é mais um “motor de física orientado por dados” do que uma ferramenta criativa. Não está apenas gerando uma única foto ou vídeo, mas determinando a física de cada objeto em um ambiente – e renderizando uma foto ou vídeo (ou um mundo 3D interativo, conforme o caso) com base nesses cálculos.
“Essas capacidades sugerem que a escalabilidade contínua dos modelos de vídeo é um caminho promissor para o desenvolvimento de simuladores altamente capazes do mundo físico e digital, e dos objetos, animais e pessoas que vivem dentro deles”, escrevem os coautores da OpenAI.
Agora, as limitações usuais do Sora se aplicam no domínio dos videogames. O modelo não pode aproximar com precisão a física de interações básicas como o vidro se quebrando. E mesmo com interações que pode modelar, o Sora muitas vezes é inconsistente – por exemplo, renderizando uma pessoa comendo um hambúrguer, mas falhando em renderizar as marcas de mordida.
Ainda assim, parece que o Sora poderia abrir caminho para jogos gerados proceduralmente mais realistas – talvez até fotorrealistas – a partir de descrições de texto sozinho.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 20:35
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…