Motores de busca que não pagam não podem indexar o conteúdo do Reddit.


0


Quando o Reddit anunciou no mês passado que bloquearia a coleta não autorizada de dados de seu site, a reação imediata de todos foi “IA, IA, IA”. No entanto, agora que a mudança entrou em vigor, os fabricantes de chatbots não são os únicos a serem impedidos de acessar. O fórum amplamente utilizado também parece estar bloqueando todos os mecanismos de busca, exceto o Google, que supostamente fechou um acordo no início deste ano com o Reddit no valor de US$ 60 milhões anuais.

A 404 Media relatou na quarta-feira (e o Engadget confirmou em nossas consultas) que a busca por resultados do Reddit da semana passada no mecanismo rival Bing (usando “site:reddit.com”) retorna resultados vazios. A publicação informou que o DuckDuckGo produziu sete links sem nenhuma descrição, fornecendo apenas a observação “Gostaríamos de mostrar uma descrição aqui, mas o site não nos permite”. O mecanismo agora parece ter removido até mesmo esses, pois nosso teste produziu apenas uma página vazia, com a mensagem “nenhum resultado encontrado”.

Quando o Reddit disse no mês passado que atualizaria seu Protocolo de Exclusão de Robôs (robots.txt) para bloquear a coleta automatizada de dados, agora fica claro que não era apenas para impedir empresas de IA como a Perplexity e seu controverso “motor de busca”. Atualmente, o Google parece ser o único mecanismo de busca autorizado a rastrear o Reddit e produzir resultados da “página inicial da internet”.

Ironicamente, parte do arquivo robots.txt do site do fórum diz: “O Reddit acredita em uma internet aberta, mas não no uso indevido de conteúdo público”. O arquivo do Reddit agora essencialmente diz: “Não colete”. Aparentemente, agora considera que os mecanismos de busca que não fecham acordos exclusivos estão usando indevidamente seu conteúdo.

O onipresente robots.txt é o padrão da web que comunica quais partes de um site podem ser rastreadas. Embora muitos rastreadores sejam conhecidos por ignorar suas instruções, o procedimento padrão do Google é respeitá-lo. Portanto, do lado técnico, as empresas envolvidas no lucrativo acordo parecem ter implantado uma anulação manual.

É claro que a saga é um efeito cascata da coleta de dados ao vivo por chatbots de IA. Com os tribunais demorando para determinar o quanto da internet aberta é uso justo para treinar chatbots, empresas como o Reddit, cujos resultados agora dependem de proteger seus dados daqueles que não pagam, estão erguendo barreiras às custas da internet aberta. (Embora, dado o papel integral que a Microsoft desempenhou nesta era de IA, se aproximando da OpenAI desde cedo, parece irônico que o Bing se encontre no lado perdedor de pelo menos um aspecto das repercussões.)

Colin Hayhurst, CEO do mecanismo de busca “sem rastreamento” menos conhecido Mojeek, disse à 404 Media que o Reddit está “bloqueando tudo para a busca, exceto o Google”. Além disso, o executivo disse que suas tentativas de entrar em contato com o Reddit foram ignoradas. “Nunca aconteceu conosco antes”, disse ele. “Porque isso acontece conosco, somos bloqueados, geralmente por ignorância ou estupidez ou o que quer que seja, e quando entramos em contato com o site, certamente podemos resolver isso, mas nunca tivemos resposta de ninguém antes.”

O Engadget pediu comentários e confirmação ao Google e ao Reddit, mas não obtivemos retorno até a publicação. A 404 Media relatou ter esbarrado em uma parede semelhante de silêncio por parte das empresas.

O Reddit não fez segredo de seu desejo de bloquear empresas de IA de coletar seu tesouro de dados nesta era crescente da IA. No ano passado, o CEO Steve Huffman arriscou alienar grandes partes de sua base de usuários ao bloquear solicitações de API de terceiros, levando ao desaparecimento de aplicativos queridos como o Apollo, de Christian Selig. Apesar dos protestos generalizados entre moderadores e frequentadores do fórum, a empresa só temporariamente perdeu números insignificantes de usuários.

A aposta parece ter valido a pena, e o Reddit se recuperou. Ele abriu capital em março.
Este artigo apareceu originalmente no Engadget em https://ift.tt/fBbmaeh.

Referências:
Search engines that don’t pay up can’t index Reddit content


Like it? Share with your friends!

0

What's Your Reaction?

hate hate
0
hate
confused confused
0
confused
fail fail
0
fail
fun fun
0
fun
geeky geeky
0
geeky
love love
0
love
lol lol
0
lol
omg omg
0
omg
win win
0
win
admin

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube and Vimeo Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format