Quando o Reddit anunciou no mês passado que bloquearia a coleta não autorizada de dados de seu site, a reação imediata de todos foi “IA, IA, IA”. No entanto, agora que a mudança entrou em vigor, os fabricantes de chatbots não são os únicos a serem impedidos de acessar. O fórum amplamente utilizado também parece estar bloqueando todos os mecanismos de busca, exceto o Google, que supostamente fechou um acordo no início deste ano com o Reddit no valor de US$ 60 milhões anuais.
A 404 Media relatou na quarta-feira (e o Engadget confirmou em nossas consultas) que a busca por resultados do Reddit da semana passada no mecanismo rival Bing (usando “site:reddit.com”) retorna resultados vazios. A publicação informou que o DuckDuckGo produziu sete links sem nenhuma descrição, fornecendo apenas a observação “Gostaríamos de mostrar uma descrição aqui, mas o site não nos permite”. O mecanismo agora parece ter removido até mesmo esses, pois nosso teste produziu apenas uma página vazia, com a mensagem “nenhum resultado encontrado”.
Quando o Reddit disse no mês passado que atualizaria seu Protocolo de Exclusão de Robôs (robots.txt) para bloquear a coleta automatizada de dados, agora fica claro que não era apenas para impedir empresas de IA como a Perplexity e seu controverso “motor de busca”. Atualmente, o Google parece ser o único mecanismo de busca autorizado a rastrear o Reddit e produzir resultados da “página inicial da internet”.
Ironicamente, parte do arquivo robots.txt do site do fórum diz: “O Reddit acredita em uma internet aberta, mas não no uso indevido de conteúdo público”. O arquivo do Reddit agora essencialmente diz: “Não colete”. Aparentemente, agora considera que os mecanismos de busca que não fecham acordos exclusivos estão usando indevidamente seu conteúdo.
O onipresente robots.txt é o padrão da web que comunica quais partes de um site podem ser rastreadas. Embora muitos rastreadores sejam conhecidos por ignorar suas instruções, o procedimento padrão do Google é respeitá-lo. Portanto, do lado técnico, as empresas envolvidas no lucrativo acordo parecem ter implantado uma anulação manual.
É claro que a saga é um efeito cascata da coleta de dados ao vivo por chatbots de IA. Com os tribunais demorando para determinar o quanto da internet aberta é uso justo para treinar chatbots, empresas como o Reddit, cujos resultados agora dependem de proteger seus dados daqueles que não pagam, estão erguendo barreiras às custas da internet aberta. (Embora, dado o papel integral que a Microsoft desempenhou nesta era de IA, se aproximando da OpenAI desde cedo, parece irônico que o Bing se encontre no lado perdedor de pelo menos um aspecto das repercussões.)
Colin Hayhurst, CEO do mecanismo de busca “sem rastreamento” menos conhecido Mojeek, disse à 404 Media que o Reddit está “bloqueando tudo para a busca, exceto o Google”. Além disso, o executivo disse que suas tentativas de entrar em contato com o Reddit foram ignoradas. “Nunca aconteceu conosco antes”, disse ele. “Porque isso acontece conosco, somos bloqueados, geralmente por ignorância ou estupidez ou o que quer que seja, e quando entramos em contato com o site, certamente podemos resolver isso, mas nunca tivemos resposta de ninguém antes.”
O Engadget pediu comentários e confirmação ao Google e ao Reddit, mas não obtivemos retorno até a publicação. A 404 Media relatou ter esbarrado em uma parede semelhante de silêncio por parte das empresas.
O Reddit não fez segredo de seu desejo de bloquear empresas de IA de coletar seu tesouro de dados nesta era crescente da IA. No ano passado, o CEO Steve Huffman arriscou alienar grandes partes de sua base de usuários ao bloquear solicitações de API de terceiros, levando ao desaparecimento de aplicativos queridos como o Apollo, de Christian Selig. Apesar dos protestos generalizados entre moderadores e frequentadores do fórum, a empresa só temporariamente perdeu números insignificantes de usuários.
A aposta parece ter valido a pena, e o Reddit se recuperou. Ele abriu capital em março.
Este artigo apareceu originalmente no Engadget em https://ift.tt/fBbmaeh.
Referências:
Search engines that don’t pay up can’t index Reddit content