A equipe do LAION (Large-scale Artificial Intelligence Open Network) lançou uma versão limpa do conjunto de dados LAION-5B chamada Re-LAION-5B e afirmou que “é o primeiro conjunto de dados de pares texto-link para imagens em escala web a ser minuciosamente limpo de links conhecidos para CSAM suspeitos.”
Para limpar o conjunto de dados, o LAION se associou à Internet Watch Foundation (IWF) e ao Centro Canadense de Proteção à Criança (C3P) para remover 2.236 links que correspondiam a imagens com hash nos bancos de dados das organizações de segurança online. As remoções incluem todos os links sinalizados por Thiel, bem como conteúdo sinalizado pelos parceiros do LAION e por outros órgãos de vigilância, como a Human Rights Watch, que alertou para questões de privacidade após encontrar fotos de crianças reais incluídas no conjunto de dados sem o consentimento delas.
Leia os 36 parágrafos restantes | Comentários
. Redação Confraria Tech
Referências:
Nonprofit scrubs illegal content from controversial AI training dataset