Créditos da imagem: IA

Estudo de universidade britânica alerta sobre ameaça à ciência por pesquisas de baixa qualidade geradas por IA

Uma pesquisa de uma universidade britânica alerta que o próprio conhecimento científico está sob ameaça devido a uma enxurrada de artigos de pesquisa de baixa qualidade gerados por inteligência artificial (IA).

PUBLICIDADE

Segundo o The Register, a equipe de pesquisa da Universidade de Surrey observa uma “explosão de artigos de pesquisa formulaicos”, incluindo desenhos de estudo inadequados e descobertas falsas, baseados em dados extraídos do banco de dados nacional de saúde dos EUA, o National Health and Nutrition Examination Survey (NHANES).

O estudo, publicado na PLOS Biology, uma editora sem fins lucrativos de revistas de acesso aberto, descobriu que muitos artigos pós-2021 usaram “uma abordagem superficial e simplificada para análise”. Esses artigos frequentemente focavam em uma única variável, ignorando explicações mais realistas e multifatoriais das ligações entre condições de saúde e causas potenciais, além de alguns subconjuntos de dados selecionados sem justificativa.

“Vimos um aumento de artigos que parecem científicos, mas não resistem ao escrutínio – isso é ‘ficção científica’ usando conjuntos de dados nacionais de saúde para se disfarçar como fato científico”, afirma Matt Spick, professor de análise de dados de saúde e biomédicos na Universidade de Surrey e um dos autores do relatório.

PUBLICIDADE

Capacidade reduzida para checagem

“O uso desses conjuntos de dados facilmente acessíveis via APIs, combinado com grandes modelos de linguagem, está sobrecarregando algumas revistas e revisores, reduzindo sua capacidade de avaliar pesquisas mais significativas – e, em última análise, enfraquecendo a qualidade da ciência como um todo”, acrescentou.

O relatório observa que conjuntos de dados prontos para IA, como o NHANES dos Estados Unidos, podem abrir novas oportunidades para pesquisas baseadas em dados, mas também levam ao risco de exploração de dados por aquilo que chama de “fábricas de artigos” – entidades que produzem artigos científicos questionáveis, muitas vezes para clientes pagantes que buscam confirmação de uma crença existente.

O trabalho da Universidade de Surrey envolveu uma busca sistemática na literatura dos últimos dez anos para recuperar artigos potencialmente formulaicos que cobrem dados do NHANES e analisá-los para identificar abordagens estatísticas ou desenhos de estudo característicos.

PUBLICIDADE

A equipe identificou e recuperou 341 relatórios publicados em várias revistas diferentes. Descobriu que, nos últimos três anos, houve um aumento rápido no número de publicações analisando associações de fator único entre preditores (variáveis independentes) e várias condições de saúde usando o conjunto de dados NHANES. Uma média de quatro artigos por ano foi publicada entre 2014 e 2021, aumentando para 33, 82 e 190 em 2022, 2023 e nos primeiros dez meses de 2024, respectivamente.

Segundo a The Register, também foi observado uma mudança nas origens da pesquisa publicada. De 2014 a 2020, apenas dois dos 25 manuscritos tinham um autor principal afiliado à China. Entre 2021 e 2024, esse número aumentou para 292 dos 316 manuscritos.

Aumento de risco de descobertas enganosas

O relatório afirma que esse salto na pesquisa associativa de fator único significa que há um aumento correspondente no risco de introdução de descobertas enganosas ao corpo mais amplo da literatura científica.

PUBLICIDADE

Por exemplo, diz que alguns problemas de saúde multifatoriais bem conhecidos são analisados como estudos de fator único, citando depressão, doenças cardiovasculares e função cognitiva – todos reconhecidos como multifatoriais – sendo investigados usando abordagens simplistas de fator único em alguns dos artigos revisados.

Para combater isso, a equipe apresenta várias sugestões, incluindo que editores e revisores de revistas científicas devem considerar a análise de fator único de condições conhecidas por serem complexas e multifatoriais como um “sinal de alerta” para pesquisas potencialmente problemáticas.

Os provedores de conjuntos de dados também devem tomar medidas, incluindo chaves de API e números de aplicação para evitar a exploração de dados, uma abordagem já usada pelo UK Biobank, diz o relatório. As publicações que referenciam esses dados devem incluir um número de conta auditável como condição de acesso.

PUBLICIDADE

Análise de dados deve ser obrigatória

Outra sugestão é que a análise completa do conjunto de dados deve ser obrigatória, a menos que o uso de subconjuntos de dados possa ser justificado.

“Não estamos tentando bloquear o acesso aos dados ou impedir que as pessoas usem IA em suas pesquisas – estamos pedindo alguns controles de bom senso”, disse Tulsi Suchak, pesquisador de pós-graduação na Universidade de Surrey e autor principal do estudo. “Isso inclui coisas como ser transparente sobre como os dados são usados, garantir que revisores com a expertise certa estejam envolvidos e sinalizar quando um estudo olha apenas para uma parte do problema.”

Este não é o primeiro caso em que o problema vem à tona. No ano passado, a editora americana Wiley descontinuou 19 revistas científicas supervisionadas por sua subsidiária Hindawi que estavam publicando relatórios produzidos por fábricas de artigos de IA.

Isso também faz parte de um problema mais amplo de conteúdo gerado por IA aparecendo online e em buscas na web que podem ser difíceis de distinguir da realidade. Apelidado de “lixo de IA”, isso inclui fotos falsas e sequências de vídeo inteiras de celebridades e líderes mundiais, mas também fotografias históricas falsas e retratos gerados por IA de figuras históricas aparecendo nos resultados de busca como se fossem genuínos.

Rolar para cima