Novo marco secreto de matemática confunde modelos de IA e doutores igualmente.

Na última sexta-feira, a organização de pesquisa Epoch AI apresentou o FrontierMath, um novo benchmark matemático que está chamando a atenção no mundo da inteligência artificial. O que torna esse teste tão intrigante? Ele contém centenas de problemas de nível expert que os principais modelos de IA conseguem resolver em menos de 2% das tentativas, conforme relatado pela Epoch AI. Para se ter uma ideia, esses problemas são tão complexos que, mesmo especialistas em matemática, levam horas ou até dias para solucioná-los.

Os resultados de desempenho do FrontierMath, divulgados em um artigo de pesquisa pré-publicado, revelam uma realidade preocupante sobre as limitações atuais dos modelos de IA. Mesmo tendo acesso a ambientes de programação em Python para testes e verificações, modelos renomados, como Claude 3.5 Sonnet, GPT-4o, o1-preview e Gemini 1.5 Pro, obtiveram pontuações muito baixas. Isso contrasta com o desempenho elevado que esses modelos apresentam em benchmarks matemáticos mais simples, onde muitos deles alcançam mais de 90% de acertos em testes como GSM8K e MATH.

O design do FrontierMath se diferencia de muitos benchmarks de IA existentes, pois o conjunto de problemas permanece privado e não publicado. Essa estratégia visa evitar a contaminação dos dados, o que é um problema comum em outros benchmarks. Muitas vezes, os modelos de IA são treinados com conjuntos de dados de problemas de teste que já conhecem, permitindo que sejam mais eficientes em resolver esses desafios e, assim, pareçam mais capazes do que realmente são. Especialistas têm apontado isso como uma evidência de que os atuais modelos de linguagem de grande porte (LLMs) são fracos aprendizes generalistas.

Esses desenvolvimentos nos fazem refletir sobre o futuro da inteligência artificial e suas capacidades. O FrontierMath não apenas destaca as limitações atuais, mas também abre a porta para novas pesquisas e avanços no campo da matemática aplicada à IA. À medida que continuamos a explorar essas fronteiras, é essencial manter um olhar crítico e curioso sobre o que esses modelos realmente podem alcançar.

Redação Confraria Tech.

Referências:
New secret math benchmark stumps AI models and PhDs alike

Post Views: 4