O Genie 2 do Google DeepMind pode gerar mundos 3D interativos.

Os modelos de mundo, que são algoritmos de inteligência artificial capazes de gerar ambientes simulados em tempo real, têm se destacado como uma das aplicações mais impressionantes do aprendizado de máquina. Recentemente, a Google DeepMind anunciou o Genie 2, uma evolução significativa em relação ao seu antecessor, que era limitado à criação de mundos em 2D. Agora, com o Genie 2, é possível criar mundos em 3D e mantê-los de forma consistente por períodos consideravelmente mais longos.

Diferente de um motor de jogo convencional, o Genie 2 é um modelo de difusão que gera imagens à medida que o jogador — seja um ser humano ou outro agente de IA — se move pelo ambiente simulado. Enquanto gera quadros, o modelo consegue inferir informações sobre o ambiente, permitindo a simulação de elementos como água, fumaça e efeitos físicos. Embora algumas dessas interações possam parecer um pouco “jogáveis”, a versatilidade do modelo é notável, pois ele não se limita a uma perspectiva de terceira pessoa; pode também lidar com visões em primeira pessoa e isométricas. Para começar a gerar um novo mundo, tudo o que o modelo precisa é de uma única imagem, que pode ser fornecida pelo próprio modelo Imagen 3 da Google ou por uma foto real.

Uma das características mais impressionantes do Genie 2 é sua capacidade de lembrar partes de uma cena simulada mesmo depois que elas saem do campo de visão do jogador. Quando esses elementos se tornam visíveis novamente, o modelo consegue reconstruí-los com precisão. Isso é uma melhoria em relação a outros modelos de mundo, como o Oasis, que, na versão apresentada ao público, teve dificuldades em recordar o layout dos níveis do Minecraft que estava gerando em tempo real.

Entretanto, o Genie 2 também possui suas limitações. A DeepMind afirma que o modelo pode gerar mundos “consistentes” por até 60 segundos, mas a maioria dos exemplos apresentados na recente demonstração durou significativamente menos, variando entre 10 a 20 segundos. Além disso, com o passar do tempo, artefatos podem ser introduzidos e a qualidade da imagem tende a se deteriorar, o que compromete a ilusão de um mundo estável.

Embora a DeepMind não tenha revelado detalhes sobre como o Genie 2 foi treinado, mencionou que utilizou um vasto conjunto de dados de vídeo. Por enquanto, a empresa não planeja liberar o modelo para o público, considerando-o mais uma ferramenta para treinar e avaliar outros agentes de IA, incluindo seu próprio algoritmo SIMA. No entanto, a DeepMind sugere que modelos de mundo como o Genie 2 podem desempenhar um papel crucial no desenvolvimento da inteligência artificial geral no futuro.

A empresa destacou que o treinamento de agentes mais gerais tem sido tradicionalmente limitado pela disponibilidade de ambientes de treinamento ricos e diversos. Com o Genie 2, há a possibilidade de criar um currículo ilimitado de mundos novos, permitindo que futuros agentes sejam treinados e avaliados em uma variedade infinita de ambientes virtuais.

O avanço trazido pelo Genie 2 não apenas abre novas possibilidades para o desenvolvimento de jogos e simulações, mas também representa um passo importante na jornada rumo a uma inteligência artificial mais avançada e versátil.

Redação Confraria Tech.

Referências:
Google DeepMind’s Genie 2 can generate interactive 3D worlds

Post Views: 9