Diferente de um motor de jogo convencional, o Genie 2 é um modelo de difusão que gera imagens à medida que o jogador — seja um ser humano ou outro agente de IA — se move pelo ambiente simulado. Enquanto gera quadros, o modelo consegue inferir informações sobre o ambiente, permitindo a simulação de elementos como água, fumaça e efeitos físicos. Embora algumas dessas interações possam parecer um pouco “jogáveis”, a versatilidade do modelo é notável, pois ele não se limita a uma perspectiva de terceira pessoa; pode também lidar com visões em primeira pessoa e isométricas. Para começar a gerar um novo mundo, tudo o que o modelo precisa é de uma única imagem, que pode ser fornecida pelo próprio modelo Imagen 3 da Google ou por uma foto real.
Uma das características mais impressionantes do Genie 2 é sua capacidade de lembrar partes de uma cena simulada mesmo depois que elas saem do campo de visão do jogador. Quando esses elementos se tornam visíveis novamente, o modelo consegue reconstruí-los com precisão. Isso é uma melhoria em relação a outros modelos de mundo, como o Oasis, que, na versão apresentada ao público, teve dificuldades em recordar o layout dos níveis do Minecraft que estava gerando em tempo real.
Entretanto, o Genie 2 também possui suas limitações. A DeepMind afirma que o modelo pode gerar mundos “consistentes” por até 60 segundos, mas a maioria dos exemplos apresentados na recente demonstração durou significativamente menos, variando entre 10 a 20 segundos. Além disso, com o passar do tempo, artefatos podem ser introduzidos e a qualidade da imagem tende a se deteriorar, o que compromete a ilusão de um mundo estável.
Embora a DeepMind não tenha revelado detalhes sobre como o Genie 2 foi treinado, mencionou que utilizou um vasto conjunto de dados de vídeo. Por enquanto, a empresa não planeja liberar o modelo para o público, considerando-o mais uma ferramenta para treinar e avaliar outros agentes de IA, incluindo seu próprio algoritmo SIMA. No entanto, a DeepMind sugere que modelos de mundo como o Genie 2 podem desempenhar um papel crucial no desenvolvimento da inteligência artificial geral no futuro.
A empresa destacou que o treinamento de agentes mais gerais tem sido tradicionalmente limitado pela disponibilidade de ambientes de treinamento ricos e diversos. Com o Genie 2, há a possibilidade de criar um currículo ilimitado de mundos novos, permitindo que futuros agentes sejam treinados e avaliados em uma variedade infinita de ambientes virtuais.
O avanço trazido pelo Genie 2 não apenas abre novas possibilidades para o desenvolvimento de jogos e simulações, mas também representa um passo importante na jornada rumo a uma inteligência artificial mais avançada e versátil.
Redação Confraria Tech.
Referências:
Google DeepMind’s Genie 2 can generate interactive 3D worlds