
Essa fragilidade, destacada pelos pesquisadores, reforça pesquisas anteriores que sugerem que os LLMs, ao utilizarem o emparelhamento de padrões probabilísticos, não possuem uma compreensão formal dos conceitos subjacentes. Isso significa que, embora eles possam simular um raciocínio lógico, essa simulação não é genuína. Os pesquisadores afirmam que os modelos atuais não são capazes de raciocínio lógico verdadeiro, mas sim tentam replicar os passos de raciocínio observados em seus dados de treinamento.
O estudo intitulado “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” apresenta uma abordagem inovadora. Os pesquisadores começam com o conjunto de problemas matemáticos de nível escolar do GSM8K, que contém mais de 8.000 questões e é comumente utilizado como benchmark para avaliar as capacidades de raciocínio complexo dos LLMs. O que eles fazem de diferente é modificar uma parte desse conjunto de testes, substituindo dinamicamente certos nomes e números por novos valores. Por exemplo, uma pergunta sobre Sophie recebendo 31 blocos de montar para seu sobrinho pode ser transformada em uma questão sobre Bill ganhando 19 blocos para seu irmão na nova avaliação GSM-Symbolic.
Essas descobertas são intrigantes e levantam questões sobre até onde a inteligência artificial pode realmente entender e processar informações. Será que estamos apenas arranhando a superfície do que é possível com esses modelos, ou ainda há um longo caminho a percorrer até que consigamos desenvolver máquinas que realmente compreendam o raciocínio lógico como nós? À medida que continuamos a explorar os limites das capacidades das IAs, fica claro que precisamos ter cautela ao considerar suas habilidades de raciocínio.
A tecnologia avança rapidamente, mas é fundamental que continuemos a questionar e a investigar o que realmente está acontecendo por trás das cortinas da inteligência artificial. Isso não só nos ajudará a desenvolver sistemas mais robustos, mas também a entender melhor o que significa raciocinar de forma lógica, tanto para humanos quanto para máquinas.
Redação Confraria Tech.
Referências:
Apple study exposes deep cracks in LLMs’ “reasoning” capabilities