Recentemente, uma equipe de pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) desenvolveu uma abordagem inovadora para o treinamento de robôs que pode acelerar significativamente a implementação de máquinas adaptáveis e inteligentes em ambientes do mundo real. O novo sistema, chamado “LucidSim”, utiliza avanços recentes em inteligência artificial generativa e simuladores físicos para criar ambientes de treinamento virtuais diversos e realistas, ajudando os robôs a alcançar um desempenho de nível especialista em tarefas difíceis, sem a necessidade de dados do mundo real.
LucidSim combina simulação física com modelos de IA generativa, abordando um dos desafios mais persistentes na robótica: a transferência de habilidades aprendidas na simulação para o mundo real. “Um desafio fundamental no aprendizado de robôs há muito tempo é a ‘lacuna sim-para-real’ — a disparidade entre ambientes de treinamento simulados e o complexo e imprevisível mundo real”, explica Ge Yang, pós-doutorando do MIT CSAIL e um dos principais pesquisadores do LucidSim. “Abordagens anteriores frequentemente dependiam de sensores de profundidade, que simplificavam o problema, mas perdiam complexidades cruciais do mundo real.”
O sistema multifacetado é uma mistura de diferentes tecnologias. No seu núcleo, LucidSim utiliza grandes modelos de linguagem para gerar várias descrições estruturadas de ambientes. Essas descrições são então transformadas em imagens usando modelos generativos. Para garantir que essas imagens reflitam a física do mundo real, um simulador físico subjacente é utilizado para guiar o processo de geração.
A ideia por trás do LucidSim surgiu de uma conversa inesperada fora do Beantown Taqueria, em Cambridge, Massachusetts. “Queríamos ensinar robôs equipados com visão a melhorar usando feedback humano. Mas então percebemos que não tínhamos uma política puramente baseada em visão para começar”, conta Alan Yu, estudante de graduação em engenharia elétrica e ciência da computação no MIT e coautor do LucidSim. “Continuamos conversando enquanto caminhávamos pela rua e paramos do lado da taqueria por cerca de meia hora. Foi lá que tivemos nosso momento.”
Para gerar seus dados, a equipe criou imagens realistas extraindo mapas de profundidade, que fornecem informações geométricas, e máscaras semânticas, que rotulam diferentes partes de uma imagem, da cena simulada. No entanto, logo perceberam que, com um controle rigoroso sobre a composição do conteúdo da imagem, o modelo produzia imagens semelhantes que não se diferenciavam umas das outras usando o mesmo prompt. Assim, eles desenvolveram uma maneira de obter prompts textuais diversos a partir do ChatGPT.
Essa abordagem, no entanto, resultou em apenas uma única imagem. Para criar vídeos curtos e coerentes que servem como pequenas “experiências” para o robô, os cientistas combinaram algumas técnicas de imagem em outra inovação que criaram, chamada “Dreams In Motion”. O sistema calcula os movimentos de cada pixel entre os quadros, deformando uma única imagem gerada em um vídeo curto e com múltiplos quadros. O Dreams In Motion faz isso considerando a geometria 3D da cena e as mudanças relativas na perspectiva do robô.
“Superamos a randomização de domínio, um método desenvolvido em 2017 que aplica cores e padrões aleatórios a objetos no ambiente e que ainda é considerado o método padrão atualmente”, diz Yu. “Embora essa técnica gere dados diversos, falta realismo. O LucidSim aborda tanto os problemas de diversidade quanto de realismo. É empolgante que, mesmo sem ver o mundo real durante o treinamento, o robô possa reconhecer e navegar por obstáculos em ambientes reais.”
A equipe está particularmente animada com o potencial de aplicar o LucidSim a domínios além da locomoção quadrúpede e parkour, que foram seus principais campos de teste. Um exemplo é a manipulação móvel, onde um robô móvel é encarregado de lidar com objetos em uma área aberta, onde a percepção de cores é crítica. “Hoje, esses robôs ainda aprendem com demonstrações do mundo real”, diz Yang. “Embora coletar demonstrações seja fácil, escalar uma configuração de teleoperação de robô do mundo real para milhares de habilidades é desafiador, pois um humano precisa configurar fisicamente cada cena. Esperamos facilitar isso, tornando a coleta de dados mais escalável ao movê-la para um ambiente virtual.”
A equipe testou o LucidSim em comparação com uma abordagem alternativa, onde um professor especialista demonstra a habilidade para o robô aprender. Os resultados foram surpreendentes: robôs treinados pelo especialista tiveram dificuldades, obtendo sucesso apenas 15% das vezes — e mesmo quadruplicar a quantidade de dados de treinamento do especialista mal fez diferença. Mas quando os robôs coletaram seus próprios dados de treinamento por meio do LucidSim, a história mudou drasticamente. Apenas dobrar o tamanho do conjunto de dados elevou as taxas de sucesso para 88%. “E dar mais dados ao nosso robô melhora monotonamente seu desempenho — eventualmente, o aluno se torna o especialista”, diz Yang.
“Um dos principais desafios na transferência sim-para-real para robótica é alcançar realismo visual em ambientes simulados”, afirma Shuran Song, professora assistente de engenharia elétrica da Universidade de Stanford, que não participou da pesquisa. “A estrutura do LucidSim fornece uma solução elegante ao usar modelos generativos para criar dados visuais diversos e altamente realistas para qualquer simulação. Este trabalho pode acelerar significativamente a implementação de robôs treinados em ambientes virtuais para tarefas do mundo real.”
Das ruas de Cambridge à vanguarda da pesquisa em robótica, o LucidSim está abrindo caminho para uma nova geração de máquinas inteligentes e adaptáveis — aquelas que aprendem a navegar em nosso mundo complexo sem nunca ter pisado nele.
Redação Confraria Tech.
Referências:
Can robots learn from machine dreams?