Os problemas descobertos com o Whisper são numerosos e variados. Um pesquisador da Universidade de Michigan identificou texto inventado em oito em cada dez transcrições de reuniões públicas. Em outra investigação, cientistas da computação encontraram 187 alucinações ao analisar mais de 13 mil gravações de áudio. A situação é alarmante: um engenheiro de aprendizado de máquina reportou a presença de alucinações em cerca de metade de mais de 100 horas de transcrições, enquanto um desenvolvedor notou essas distorções em quase todas as 26 mil transcrições geradas pelo Whisper.
Os riscos se tornam ainda mais evidentes ao se observar exemplos específicos dessas alucinações. Professores das universidades Cornell e da Virgínia analisaram trechos de um repositório de pesquisa e descobriram que cerca de 40% das alucinações podiam ser mal interpretadas ou mal representadas. Em um caso, o Whisper fabricou a informação de que três pessoas discutidas eram negras. Em outro, a transcrição transformou “Ele, o menino, estava prestes a, não tenho certeza exatamente, pegar o guarda-chuva.” em “Ele pegou um grande pedaço de uma cruz, um pedaço bem pequeno… Tenho certeza de que ele não tinha uma faca de terror, então ele matou várias pessoas.”
As implicações médicas dessas alucinações também são alarmantes. Uma empresa chamada Nabla utiliza o Whisper para seu sistema de transcrição médica, empregado por mais de 30 mil clínicos e 40 sistemas de saúde, já contabilizando cerca de sete milhões de visitas transcritas. Embora a empresa esteja ciente do problema e afirme que está trabalhando para resolvê-lo, atualmente não há uma forma de verificar a validade das transcrições. Por questões de “segurança dos dados”, todo o áudio é apagado, conforme afirma Martin Raison, CTO da Nabla. A empresa também menciona que os médicos precisam editar e aprovar rapidamente as transcrições (como se eles tivessem todo esse tempo disponível?), mas esse sistema pode mudar. Enquanto isso, ninguém mais pode confirmar a precisão das transcrições devido às leis de privacidade.
Redação Confraria Tech.
Referências:
OpenAI’s Whisper invents parts of transcriptions — a lot