Pesquisadores do MIT estão trabalhando em uma técnica inovadora que promete mudar esse cenário. Eles desenvolveram um método que combina uma vasta quantidade de dados heterogêneos de diversas fontes em um único sistema, permitindo que qualquer robô aprenda uma ampla gama de tarefas. Essa abordagem envolve alinhar dados de diferentes domínios, como simulações e robôs reais, além de múltiplas modalidades, como sensores de visão e codificadores de posição de braços robóticos, criando uma “linguagem” comum que um modelo de inteligência artificial generativa pode processar.
Ao integrar essa enorme quantidade de dados, a técnica pode treinar um robô para executar várias tarefas sem a necessidade de começar o treinamento do zero a cada vez. Isso pode ser mais rápido e menos custoso do que as técnicas tradicionais, pois requer muito menos dados específicos para cada tarefa. Em testes, essa nova abordagem superou o treinamento convencional em mais de 20% em simulações e experimentos do mundo real.
Lirui Wang, um estudante de pós-graduação em engenharia elétrica e ciência da computação e autor principal do estudo, destaca que, embora muitos afirmem que a falta de dados é um problema, a verdadeira questão reside na diversidade dos dados coletados. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
Inspirados por modelos de linguagem de grande escala, como o GPT-4, os pesquisadores desenvolveram uma nova arquitetura chamada Heterogeneous Pretrained Transformers (HPT). Essa arquitetura unifica dados de diferentes modalidades e domínios, utilizando um modelo de aprendizado de máquina conhecido como transformer, que processa entradas de visão e propriocepção. O transformer, que é a base dos grandes modelos de linguagem, permite que os dados sejam alinhados em um espaço compartilhado, aumentando seu desempenho à medida que mais dados são processados.
Um dos principais desafios na criação do HPT foi a construção de um enorme conjunto de dados para o pré-treinamento do transformer, que incluiu 52 conjuntos de dados com mais de 200.000 trajetórias de robôs em quatro categorias, abrangendo vídeos de demonstração humana e simulações. Os pesquisadores também desenvolveram uma maneira eficiente de transformar sinais brutos de propriocepção em dados que o transformer pudesse processar.
A propriocepção é fundamental para permitir movimentos ágeis e precisos. Wang explica que, ao manter o mesmo número de tokens na arquitetura, a importância da propriocepção e da visão é equilibrada. Quando testaram o HPT, os resultados mostraram uma melhoria de mais de 20% no desempenho dos robôs em tarefas simuladas e no mundo real, mesmo quando as tarefas eram muito diferentes dos dados de pré-treinamento.
Esse trabalho representa uma abordagem inovadora para treinar uma única política em várias configurações de robôs, permitindo que métodos de aprendizado robótico escalem significativamente o tamanho dos conjuntos de dados que podem ser utilizados. Além disso, a arquitetura HPT possibilita uma rápida adaptação a novos designs de robôs, algo crucial em um campo em constante evolução.
Os pesquisadores planejam investigar como a diversidade dos dados pode aumentar ainda mais o desempenho do HPT e desejam aprimorar a arquitetura para que possa processar dados não rotulados, assim como os grandes modelos de linguagem. O sonho deles é criar um “cérebro robótico universal” que possa ser baixado e utilizado sem necessidade de treinamento prévio. Embora estejam apenas no início dessa jornada, a expectativa é que a escalabilidade leve a avanços significativos nas políticas robóticas, assim como ocorreu com os modelos de linguagem.
Redação Confraria Tech.
Referências:
A faster, better way to train general-purpose robots