Uma das soluções propostas para esse problema é o balanceamento do conjunto de dados, que envolve a remoção de pontos de dados até que todos os subgrupos estejam igualmente representados. Embora essa abordagem tenha seu valor, muitas vezes resulta na exclusão de grandes quantidades de dados, o que pode prejudicar o desempenho geral do modelo.
Pesquisadores do MIT desenvolveram uma técnica inovadora que se destaca nesse contexto. Em vez de remover grandes quantidades de dados, essa nova abordagem identifica e exclui apenas os pontos de dados que mais contribuem para os erros do modelo em relação a subgrupos minoritários. Assim, ao remover muito menos dados do que as estratégias tradicionais, a técnica mantém a precisão geral do modelo, ao mesmo tempo que melhora seu desempenho em relação aos grupos sub-representados.
Outra vantagem dessa nova abordagem é sua capacidade de identificar fontes ocultas de viés em conjuntos de dados que não possuem rótulos. Dados não rotulados são muito mais comuns do que dados rotulados em muitas aplicações, tornando essa técnica ainda mais valiosa. Além disso, essa metodologia pode ser combinada com outras estratégias para aumentar a equidade em modelos de aprendizado de máquina utilizados em situações críticas, como diagnósticos médicos, onde a precisão é vital.
Kimia Hamidieh, uma estudante de graduação em engenharia elétrica e ciência da computação no MIT, expressa a importância dessa pesquisa: “Muitos outros algoritmos que tentam resolver esse problema assumem que cada ponto de dado tem a mesma importância. No nosso trabalho, mostramos que essa suposição não é verdadeira. Existem pontos específicos em nosso conjunto de dados que estão contribuindo para esse viés, e podemos encontrá-los, removê-los e obter um desempenho melhor.”
Os pesquisadores combinaram duas ideias principais para criar essa nova abordagem, que busca resolver o chamado erro do pior grupo, que ocorre quando um modelo tem um desempenho inferior em subgrupos minoritários. Através de uma técnica anterior chamada TRAK, eles foram capazes de identificar quais exemplos de treinamento contribuíram mais para previsões incorretas em subgrupos minoritários.
Ao agregar informações sobre essas previsões erradas, os pesquisadores conseguiram identificar partes específicas do treinamento que estavam diminuindo a precisão geral do modelo. Em seguida, removeram esses amostras problemáticas e re-treinaram o modelo com os dados restantes. O resultado foi uma melhoria no desempenho para os grupos minoritários, sem sacrificar a precisão geral do modelo.
A nova técnica demonstrou ser eficaz em três conjuntos de dados de aprendizado de máquina, superando múltiplas abordagens convencionais. Em um caso, conseguiu aumentar a precisão do pior grupo ao remover cerca de 20.000 amostras de treinamento a menos do que um método tradicional de balanceamento de dados. Isso demonstra que, ao focar na remoção de exemplos problemáticos, é possível manter um modelo mais robusto e preciso.
Essa metodologia também é mais acessível para os profissionais, já que envolve a alteração do conjunto de dados em vez de modificar o funcionamento interno do modelo. Isso significa que pode ser aplicada a diferentes tipos de modelos de aprendizado de máquina, além de funcionar mesmo quando o viés é desconhecido, ajudando a identificar quais dados estão impactando as previsões.
Os pesquisadores esperam validar essa técnica por meio de estudos futuros e buscar melhorias contínuas em seu desempenho e confiabilidade. A ideia é que essa ferramenta seja útil para quem treina modelos de aprendizado de máquina, permitindo que os profissionais analisem os dados e verifiquem se estão alinhados com o que desejam ensinar ao modelo.
Com ferramentas que possibilitam uma análise crítica dos dados, é possível dar o primeiro passo rumo à construção de modelos mais justos e confiáveis, minimizando viés e comportamentos indesejáveis. A pesquisa é um avanço significativo em direção a um aprendizado de máquina mais equitativo e eficaz, com potencial para impactar positivamente muitas áreas, especialmente na saúde.
Redação Confraria Tech.
Referências:
Researchers reduce bias in AI models while preserving or improving accuracy
0 Comments