“Estão respondendo quase tudo nos dias de hoje”, disse José Hernández-Orallo, professor da Universitat Politecnica de Valencia, na Espanha, à Nature. “E isso significa mais respostas corretas, mas também mais incorretas.” Hernández-Orallo, o líder do projeto, trabalhou no estudo com seus colegas no Instituto de Pesquisa em Inteligência Artificial de Valência, na Espanha.
A equipe estudou três famílias de LLM, incluindo a série GPT da OpenAI, a LLaMA da Meta e a BLOOM de código aberto. Eles testaram versões iniciais de cada modelo e avançaram para versões maiores e mais avançadas — mas não as mais avançadas de hoje. Por exemplo, a equipe começou com o modelo GPT-3 ada relativamente primitivo da OpenAI e testou iterações que levaram ao GPT-4, lançado em março de 2023. O GPT-4o de quatro meses não foi incluído no estudo, nem o mais recente o1-preview. Ficaria curioso para saber se a tendência ainda se mantém com os modelos mais recentes.
Os pesquisadores testaram cada modelo em milhares de perguntas sobre “aritmética, anagramas, geografia e ciências”. Eles também questionaram os modelos de IA sobre sua capacidade de transformar informações, como ordenar alfabeticamente uma lista. A equipe classificou suas perguntas por dificuldade percebida.
Os dados mostraram que a porcentagem de respostas erradas dos chatbots (em vez de evitar perguntas totalmente) aumentou à medida que os modelos cresciam. Assim, a IA é um pouco como um professor que, à medida que domina mais matérias, cada vez mais acredita ter as respostas certas para todas elas.
Complicando ainda mais as coisas estão as pessoas que provocam os chatbots e leem suas respostas. Os pesquisadores pediram a voluntários que avaliassem a precisão das respostas dos chatbots de IA e descobriram que “classificavam incorretamente as respostas imprecisas como sendo precisas surpreendentemente com frequência”. A faixa de respostas erradas falsamente percebidas como corretas pelos voluntários geralmente ficava entre 10 e 40 por cento.
“As pessoas não conseguem supervisionar esses modelos”, concluiu Hernández-Orallo.
A equipe de pesquisa recomenda que os desenvolvedores de IA comecem a melhorar o desempenho para perguntas fáceis e programem os chatbots para recusar a responder perguntas complexas. “Precisamos que as pessoas entendam: ‘Posso usar isso nessa área e não devo usá-lo naquela área'”, disse Hernández-Orallo à Nature.
É uma sugestão bem-intencionada que faria sentido em um mundo ideal. Mas há pouca chance de as empresas de IA obedecerem. Provavelmente, os chatbots que mais frequentemente dizem “Não sei” seriam percebidos como menos avançados ou valiosos, o que levaria a menos uso — e menos dinheiro para as empresas que os produzem e vendem. Assim, em vez disso, recebemos avisos em letras miúdas de que “o ChatGPT pode cometer erros” e “o Gemini pode exibir informações imprecisas”.
Isso nos deixa a nós evitar acreditar e espalhar desinformações alucinadas que poderiam prejudicar a nós mesmos ou aos outros. Para obter precisão, verifique danadamentes as respostas do seu chatbot, pelo amor de Deus.
Você pode ler o estudo completo da equipe na Nature.
Redação Confraria Tech.
Referências:
Advanced AI chatbots are less likely to admit they don’t have all the answers