Empresas de IA burlam protocolo para coletar dados de sites jornalísticos, alerta startup de licenciamento

Publicado por

Vinicius Siqueira

21 de junho de 2024 14:02

Créditos de Imagem: Curto News/Bing Image Creator

Várias empresas de inteligência artificial (IA) estão contornando um padrão web comum usado por editores para bloquear a extração de seus conteúdos para uso em sistemas de IA generativa, informou a startup de licenciamento de conteúdo TollBit aos editores.

Uma carta aos editores vista pela Reuters nesta sexta-feira (21), que não menciona as empresas de IA nem os editores afetados, surge em meio a uma disputa pública entre a startup de busca em IA Perplexity e o veículo de mídia Forbes envolvendo o mesmo padrão web e um debate mais amplo entre empresas de tecnologia e mídia sobre o valor do conteúdo na era da IA generativa.

O editor de mídia empresarial acusou publicamente a Perplexity de plagiar suas reportagens investigativas em resumos gerados por IA sem citar o Forbes ou solicitar permissão.

Perplexity enfrenta processo legal por plágio de conteúdo

Uma investigação da Wired publicada nesta semana descobriu que a Perplexity provavelmente está contornando os esforços para bloquear seu rastreador web através do Protocolo de Exclusão de Robôs, ou “robots.txt”, um padrão amplamente aceito destinado a determinar quais partes de um site podem ser rastreadas.

A TollBit, uma startup em estágio inicial, se posiciona como uma intermediária entre empresas de IA ávidas por conteúdo e editores dispostos a fazer acordos de licenciamento com elas.

A empresa monitora o tráfego de IA nos sites dos editores e utiliza análises para ajudar ambos os lados a concordar com as taxas a serem pagas pelo uso de diferentes tipos de conteúdo.

Por exemplo, os editores podem optar por estabelecer taxas mais altas para “conteúdos premium, como as últimas notícias ou insights exclusivos”, conforme afirmado no site da empresa.

Segundo a carta da TollBit, a Perplexity não é a única infratora que parece estar ignorando o robots.txt. A TollBit afirmou que suas análises indicam que “numerosos” agentes de IA estão contornando o protocolo, uma ferramenta padrão usada pelos editores para indicar quais partes de seu site podem ser rastreadas.

“O que isso significa em termos práticos é que agentes de IA de múltiplas fontes (não apenas uma empresa) estão optando por contornar o protocolo robots.txt para recuperar conteúdo dos sites”, escreveu a TollBit. “Quanto mais logs de editor nós processamos, mais esse padrão emerge.”

O protocolo robots.txt foi criado em meados da década de 1990 como uma maneira de evitar sobrecarregar sites com rastreadores web. Embora não haja um mecanismo de aplicação legal, historicamente houve ampla conformidade na web.

Recentemente, o robots.txt se tornou uma ferramenta fundamental que os editores têm usado para bloquear empresas de tecnologia de ingestão gratuita de seus conteúdos para uso em sistemas de IA generativa que podem imitar a criatividade humana e resumir instantaneamente artigos.

As empresas de IA usam o conteúdo tanto para treinar seus algoritmos quanto para gerar resumos de informações em tempo real.

Alguns editores, incluindo o New York Times, processaram empresas de IA por violação de direitos autorais por esses usos. Outros estão assinando acordos de licenciamento com as empresas de IA dispostas a pagar pelo conteúdo, embora frequentemente haja discordâncias sobre o valor dos materiais. Muitos desenvolvedores de IA argumentam que não quebraram nenhuma lei ao acessá-los gratuitamente.

A Thomson Reuters, proprietária da Reuters News, está entre aquelas que firmaram acordos para licenciar conteúdo de notícias para uso por modelos de IA.

Os editores têm levantado alertas especialmente sobre resumos de notícias desde que o Google lançou um produto no ano passado que usa IA para criar resumos em resposta a algumas consultas de busca.

Se os editores desejam impedir que seu conteúdo seja usado pelo Google para ajudar a gerar esses resumos, eles devem usar a mesma ferramenta que também os impediria de aparecer nos resultados de busca do Google, tornando-os virtualmente invisíveis na web.

Leia também:

Impacto da IA no setor financeiro: Mudanças inevitáveis e oportunidades promissoras

Este post foi modificado pela última vez em 21 de junho de 2024 14:09

Vinicius Siqueira

Próximo IA transforma YouTuber ucraniana em russa, expondo perigos da tecnologia »

Anterior « Impacto da IA no setor financeiro: Mudanças inevitáveis e oportunidades promissoras

Publicado por

Vinicius Siqueira

Tags: dadosforbesgoogleIA generativainteligência artificialPerplexityThe News York Times

21 de junho de 2024 14:02

Posts recentes

Inteligência Artificial

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

A Organização Mundial da Saúde reuniu ministros, autoridades governamentais e especialistas de 37 países em…

15 de julho de 2026

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Inteligência Artificial

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Empresas de IA burlam protocolo para coletar dados de sites jornalísticos, alerta startup de licenciamento

Posts relacionados

Posts recentes

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder