O Whisper da OpenAI inventa partes das transcrições

Imagine a situação de ir ao médico e relatar todos os seus sintomas, apenas para descobrir que, após a consulta, um registro contém informações incorretas e altera sua história. Esse é o cenário que alguns centros médicos enfrentam ao utilizar o Whisper, a ferramenta de transcrição da OpenAI. Pesquisadores, engenheiros de software e desenvolvedores têm encontrado evidências preocupantes de que o Whisper gera “alucinações” — conteúdos inventados que incluem medicamentos fictícios, comentários raciais e até observações violentas. Apesar desses problemas, a plataforma de inteligência artificial de código aberto HuggingFace registrou 4,2 milhões de downloads da versão mais recente do Whisper no último mês. O curioso é que essa ferramenta também é integrada aos serviços de computação em nuvem da Oracle e da Microsoft, além de algumas versões do ChatGPT.

Os problemas descobertos com o Whisper são numerosos e variados. Um pesquisador da Universidade de Michigan identificou texto inventado em oito em cada dez transcrições de reuniões públicas. Em outra investigação, cientistas da computação encontraram 187 alucinações ao analisar mais de 13 mil gravações de áudio. A situação é alarmante: um engenheiro de aprendizado de máquina reportou a presença de alucinações em cerca de metade de mais de 100 horas de transcrições, enquanto um desenvolvedor notou essas distorções em quase todas as 26 mil transcrições geradas pelo Whisper.

Os riscos se tornam ainda mais evidentes ao se observar exemplos específicos dessas alucinações. Professores das universidades Cornell e da Virgínia analisaram trechos de um repositório de pesquisa e descobriram que cerca de 40% das alucinações podiam ser mal interpretadas ou mal representadas. Em um caso, o Whisper fabricou a informação de que três pessoas discutidas eram negras. Em outro, a transcrição transformou “Ele, o menino, estava prestes a, não tenho certeza exatamente, pegar o guarda-chuva.” em “Ele pegou um grande pedaço de uma cruz, um pedaço bem pequeno… Tenho certeza de que ele não tinha uma faca de terror, então ele matou várias pessoas.”

As implicações médicas dessas alucinações também são alarmantes. Uma empresa chamada Nabla utiliza o Whisper para seu sistema de transcrição médica, empregado por mais de 30 mil clínicos e 40 sistemas de saúde, já contabilizando cerca de sete milhões de visitas transcritas. Embora a empresa esteja ciente do problema e afirme que está trabalhando para resolvê-lo, atualmente não há uma forma de verificar a validade das transcrições. Por questões de “segurança dos dados”, todo o áudio é apagado, conforme afirma Martin Raison, CTO da Nabla. A empresa também menciona que os médicos precisam editar e aprovar rapidamente as transcrições (como se eles tivessem todo esse tempo disponível?), mas esse sistema pode mudar. Enquanto isso, ninguém mais pode confirmar a precisão das transcrições devido às leis de privacidade.

Redação Confraria Tech.

Referências:
OpenAI’s Whisper invents parts of transcriptions — a lot

Post Views: 2