Os fundadores de 28 anos da TollBit, uma startup sediada em Nova York com apenas seis meses de existência, acreditam que estamos vivendo os “dias Napster” da inteligência artificial. Assim como as pessoas de uma certa geração baixavam músicas digitais, as empresas estão copiando vastas áreas da internet sem pagar aos detentores dos direitos. Eles querem que a TollBit seja o iTunes do mundo da inteligência artificial.
“É meio como o Faroeste agora”, disse Olivia Joslin, co-fundadora e diretora de operações da empresa, em entrevista à Engadget. “Queremos facilitar para as empresas de IA pagarem pelos dados de que precisam.” A ideia deles é simples: criar um mercado que conecte empresas de IA que precisam de acesso a dados frescos e de alta qualidade aos editores que realmente gastam dinheiro para criá-los.
As empresas de IA, de fato, apenas recentemente começaram a pagar (alguns) dados de que precisam de editores de notícias. A OpenAI deu início a uma corrida armamentista no final de 2022, mas foi apenas um ano atrás que a empresa assinou o primeiro de seus muitos acordos de licenciamento com a Associated Press. Mais tarde naquele ano, a OpenAI anunciou uma parceria com a editora alemã Axel Springer, que opera o Business Insider e o Politico nos EUA. Vários editores, incluindo Vox, Financial Times, News Corp e TIME, desde então assinaram acordos com a OpenAI e o Google.
Mas isso ainda deixa inúmeros outros editores e criadores desamparados, sem a opção de fazer esse acordo mesmo que queiram. Este é o “long tail” de editores que a TollBit quer atingir.
“Modelos de IA poderosos já existem e já foram treinados”, disse Toshit Panigrahi, co-fundador e CEO da TollBit, à Engadget. “E agora, existem milhares de aplicativos apenas pegando esses modelos existentes das prateleiras. O que eles precisam é de conteúdo fresco. Mas, no momento, não há infraestrutura — nem para eles comprarem, nem para os criadores de conteúdo venderem de forma simples.”
Tanto Joslin quanto Panigrahi não eram particularmente conhecedores da indústria de mídia. Mas ambos sabiam como operavam os marketplaces e plataformas online — eles foram colegas na Toast, uma plataforma que permite aos restaurantes gerenciar faturamento e reservas. Panigrahi observou tanto os acordos — quanto os processos — se acumularem no setor de IA, e então convocou Joslin.
Suas primeiras conversas foram sobre RAG, que significa Recuperação-Aprimorada de Geração no mundo da IA. Com o RAG, os modelos de IA primeiro procuram informações em bancos de dados específicos (como as partes que podem ser raspadas da internet) e usam essas informações para sintetizar uma resposta em vez de simplesmente depender de dados de treinamento. Serviços como o ChatGPT não sabem os preços atuais das casas, ou as últimas notícias. Em vez disso, eles buscam esses dados, normalmente olhando para sites. Essa ausência de dados atualizados é a razão pela qual os chatbots de IA muitas vezes ficam confusos com perguntas sobre eventos de última hora — se eles não raspam os dados mais recentes, simplesmente não conseguem acompanhar.
“Achamos que usar conteúdo para RAG era algo fundamentalmente diferente do que usá-lo para treinamento”, disse Panigrahi.
Por algumas estimativas, o RAG é o futuro dos mecanismos de busca. Cada vez mais, as pessoas estão fazendo perguntas na internet e esperando respostas completas em vez de uma lista de links azuis. Em pouco mais de um ano, startups como a Perplexity, apoiada por Jess Bezos e NVIDIA, entre outros, surgiram com ambições de competir com o Google. Até a OpenAI tem planos de um dia deixar o ChatGPT se tornar seu mecanismo de busca. Em resposta, o Google entrou em ação — agora ele recolhe informações relevantes dos resultados da pesquisa e apresenta isso como uma resposta coerente no topo da página de resultados, uma característica que ele chama de Visões Gerais de IA. (Isso nem sempre funciona bem, mas aparentemente veio para ficar).
A ascensão dos mecanismos de busca baseados em RAG tem deixado os editores apreensivos. Afinal, quem ganharia dinheiro se a IA lesse a internet por nós? Após o Google lançar as Visões Gerais de IA no início deste ano, pelo menos um relatório estimou que os editores perderiam mais de US$ 2 bilhões em receita publicitária porque menos pessoas teriam motivo para visitar seus sites. “As empresas de IA precisam de acesso contínuo a conteúdo e dados de alta qualidade também”, disse Joslin, “mas se você não descobrir algum modelo econômico aqui, não haverá incentivo para ninguém criar conteúdo, e esse será o fim das aplicações de IA também.”
Em vez de cortar cheques avulsos, o modelo da TollBit visa compensar os editores de forma contínua. Hipoteticamente, se o conteúdo de alguém fosse usado em mil respostas geradas por IA, eles receberiam pagamento mil vezes a um preço que eles definiram e que podem alterar a qualquer momento.
Cada vez que uma empresa de IA acessa dados frescos de um editor através da TollBit, ela pode pagar uma pequena taxa definida pelo editor e que Panigrahi e Joslin acham que deve ser aproximadamente equivalente ao que uma visualização de página tradicional teria gerado para o editor. E a plataforma também pode bloquear empresas de IA que não se cadastraram de acessar os dados dos editores.
Até agora, os fundadores afirmam ter integrado cem editores e estarem em testes com três empresas de IA desde o lançamento da TollBit em fevereiro. Eles se recusaram a revelar quais editores ou empresas de IA haviam se cadastrado até agora, citando cláusulas de confidencialidade, mas não negaram conversas com a OpenAI, Anthropic, Google e Meta. Até agora, eles dizem que nenhum dinheiro mudou de mãos entre empresas de IA e editores em sua plataforma.
Até que isso aconteça, seu modelo ainda é um grande hipotético — embora os investidores tenham até agora investido US$ 7 milhões. Os investidores da TollBit incluem Sunflower Capital, Lerer Hippeau, Operator Collective, AIX e Liquid 2 Ventures, e mais investidores atualmente estão “batendo à porta deles”, afirmou Joslin. Em abril, a TollBit também trouxe Campbell Brown como conselheira sênior, uma ex-âncora de televisão que anteriormente atuou como chefe de parcerias de notícias da Meta durante a maior parte de uma década.
Apesar de alguns processos de alto perfil, as empresas de IA ainda estão raspando a internet de graça e em grande parte saem impunes. Por que elas teriam qualquer incentivo para realmente pagar aos editores por esses dados? Existem três grandes razões, dizem os fundadores: mais sites estão tomando medidas para impedir que seu conteúdo seja raspado desde que a IA generativa se tornou mainstream, o que significa que raspar a web está se tornando mais difícil e mais caro; ninguém quer lidar com processos contínuos de direitos autorais; e, crucialmente, poder pagar facilmente pelo conteúdo conforme necessário permite que as empresas de IA acessem publicações menores e mais de nicho, porque não é possível fechar acordos de licenciamento individuais com todos os sites. Joslin também observou que vários investidores da TollBit também investiram em empresas de IA que eles temem poder enfrentar processos por usar conteúdo sem permissão.
Fazer com que as empresas de IA paguem pelo conteúdo poderia fornecer uma receita recorrente não apenas para grandes editores, mas potencialmente para qualquer pessoa que publique algo online. No mês passado, a Perplexity — que foi acusada de raspar ilegalmente conteúdo da Forbes, Wired e Condé Nast — lançou um Programa de Editores no qual planeja compartilhar uma parte de qualquer receita que ganhar com os editores se usar seu conteúdo para gerar respostas com a IA. O sucesso do programa, no entanto, depende de quanto dinheiro a Perplexity ganha quando introduz anúncios no aplicativo ainda este ano. Como a TollBit, é outro completo hipotético.
“Nossa tese com a TollBit é que se você perder uma visualização de página hoje, você deve ser compensado imediatamente em vez de alguns anos depois quando uma empresa de tecnologia descobrir seu programa de anúncios”, disse Panigrahi sobre a iniciativa da Perplexity.
Apesar de todos os acordos de licenciamento existentes e avanços técnicos, os chatbots de IA ainda são péssimas fontes de notícias. Ainda inventam fatos e conjuram com confiança links inteiros para histórias que na verdade não existem. Mas as empresas de tecnologia estão agora enfiando chatbots de IA em todos os lugares que podem, o que significa que muitas pessoas ainda obterão suas notícias de um desses produtos em um futuro não tão distante.
Uma visão mais cínica da proposta da TollBit é que a startup está efetivamente oferecendo dinheiro para acalmar os editores cujo trabalho é mais provável do que não ser transformado em desinformação. Seus fundadores, naturalmente, não concordam com a caracterização. “Somos cuidadosos com os parceiros de IA que integramos”, disse Panigrahi. “Essas empresas são muito atentas à qualidade do material de entrada e à correção das respostas. Estamos vendo que pagar pelo conteúdo — mesmo quantias nominais — cria incentivo para respeitar as entradas brutas em seus sistemas em vez de tratá-las como uma commodity livre e substituível.”
Redação Confraria Tech.
Referências:
This startup wants to be the iTunes of AI content licensing