A guerra judicial entre o The New York Times e a OpenAI ficou mais intensa com a exigência da empresa de inteligência artificial (IA) de acessar anotações e memorandos de jornalistas.
Tudo começou em dezembro de 2023, quando o Times processou a OpenAI alegando que o ChatGPT foi treinado indevidamente em cima de seus artigos, sendo capaz de gerar “trechos quase literais” do material protegido por copyright.
Agora, na fase de descoberta do processo, a OpenAI quer ter acesso a uma grande quantidade de material jornalístico, o que o Times considera “excessivo e indevidamente pesado“.
A OpenAI argumenta que precisa de anotações de repórteres, memorandos de entrevistas e registros de materiais relacionados aos artigos supostamente copiados pelo ChatGPT. A empresa alega que isso é crucial para sua defesa, como o conceito de “fair use” (uso justo), que permite a utilização de material protegido em contextos específicos.
Segundo a OpenAI, apenas ter acesso aos artigos publicados não é suficiente para provar se o ChatGPT copiou conteúdo original do Times ou apenas utilizou trechos em contextos diferentes.
O jornal, por outro lado, considera a solicitação da OpenAI “sem precedentes e uma distorção da lei de direitos autorais”. Os advogados do Times argumentam que o processo de reportagem não está em julgamento, mas sim a violação de milhões de obras protegidas por copyright.
O Times defende que mesmo artigos baseados em citações possuem proteção legal, já que a “natureza expressiva de uma obra é determinada pela obra em si”. Quanto às alegações de infração, o jornal afirma que apenas decisões judiciais concretas são relevantes, não acusações sem fundamento.
Essa batalha legal se tornou um caso emblemático do uso justo de material protegido em treinamento de IA. A questão central é que a OpenAI supostamente coletou artigos do The New York Times sem permissão para treinar os modelos de inteligência artificial por trás do ChatGPT.
Scrapear dados para treinar IA era uma prática comum, com desenvolvedores buscando o máximo de informação possível. A justificativa era o “fair use”, que permite a criação de novas obras “transformadoras” a partir de material protegido.
No entanto, essa prática vem sendo cada vez mais criticada, com detentores de direitos autorais buscando proteger seu conteúdo. Plataformas agora exigem contratos de licenciamento lucrativos para acesso aos dados. Recentemente, o Reddit bloqueou rastreadores de IA para proteger suas informações.
Outros veículos de imprensa regionais seguiram o exemplo do The New York Times e processaram a OpenAI pelo “roubo” de conteúdo protegido por copyright.
A OpenAI nega as acusações, alegando que o Times “hackeou” o ChatGPT e o manipulou para gerar conteúdo protegido. Anteriormente, a empresa argumentou que não poderia desenvolver modelos de ponta sem acesso a material protegido.
Desde então, a OpenAI, apoiada pela Microsoft, fechou acordos de licenciamento com a News Corp, Stack Overflow e Axel Springer para garantir o acesso a dados de treinamento.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 16:18
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…