DeepMind apresenta Genie 2: Imagens transformadas em mundos jogáveis

O Google DeepMind acaba de apresentar o Genie 2, um modelo de inteligência artificial (IA) de mundo fundacional multimodal em grande escala que converte imagens únicas em ambientes 3D interativos e jogáveis com física em tempo real, efeitos de iluminação e controles do jogador.

Detalhes do Genie 2

O modelo cria ambientes 3D jogáveis a partir de prompts de imagem simples, completos com física, iluminação e controles de personagem que duram até um minuto.
O Genie 2 mantém a memória espacial, lembrando áreas que os jogadores visitaram mesmo quando estão fora da tela.
O sistema funciona com entradas de teclado e mouse, suportando perspectivas em primeira e terceira pessoa com saída de resolução 720p.
Em testes, o agente de IA SIMA da DeepMind navegou com sucesso por esses ambientes gerados, seguindo comandos em linguagem natural como “vá para a porta vermelha”.
O modelo pode gerar mundos a partir de vários tipos de imagem, como arte conceitual e fotos do mundo real, potencialmente acelerando o prototipagem de design de jogos.

Por que isso importa

Apenas dias após o lançamento da World Labs, a DeepMind se junta à festa da geração de mundos. O Genie 2 oferece o potencial de ambientes de treinamento ilimitados e diversos, um passo crucial para o desenvolvimento de agentes de IA incorporados mais capazes – sem mencionar as enormes implicações para a prototipagem de jogos e melhorias criativas.

Leia também:

12 dias de OpenAI: Veja os insights de Altman no DealBook