Organização sem fins lucrativos remove conteúdo ilegal de polêmico conjunto de dados de treinamento de AI.

Após o pesquisador David Thiel, do Observatório de Internet de Stanford, encontrar links para materiais de abuso sexual infantil (CSAM) em um conjunto de dados de treinamento de inteligência artificial que contaminava geradores de imagens, o polêmico conjunto de dados foi imediatamente retirado do ar em 2023.

A equipe do LAION (Large-scale Artificial Intelligence Open Network) lançou uma versão limpa do conjunto de dados LAION-5B chamada Re-LAION-5B e afirmou que “é o primeiro conjunto de dados de pares texto-link para imagens em escala web a ser minuciosamente limpo de links conhecidos para CSAM suspeitos.”

Para limpar o conjunto de dados, o LAION se associou à Internet Watch Foundation (IWF) e ao Centro Canadense de Proteção à Criança (C3P) para remover 2.236 links que correspondiam a imagens com hash nos bancos de dados das organizações de segurança online. As remoções incluem todos os links sinalizados por Thiel, bem como conteúdo sinalizado pelos parceiros do LAION e por outros órgãos de vigilância, como a Human Rights Watch, que alertou para questões de privacidade após encontrar fotos de crianças reais incluídas no conjunto de dados sem o consentimento delas.

Leia os 36 parágrafos restantes | Comentários
. Redação Confraria Tech

Referências:
Nonprofit scrubs illegal content from controversial AI training dataset

Post Views: 17