Estudo questiona validade de rankings de IA: modelos superam benchmarks memorizando, não aprendendo
Créditos da imagem: Curto News/Bing AI

Estudo questiona validade de rankings de IA: modelos superam benchmarks memorizando, não aprendendo

Uma nova pesquisa da Scale AI levanta sérias dúvidas sobre a eficácia de benchmarks populares na avaliação de grandes modelos de linguagem (LLMs). O estudo revela que alguns modelos obtêm bons resultados nesses rankings por meio de “sobreajuste” (overfitting), memorizando padrões específicos em vez de desenvolver habilidades reais de resolução de problemas.

PUBLICIDADE

Detalhes do estudo:

  • Overfitting: O termo descreve a situação em que um modelo aprende a lidar com problemas específicos de um determinado benchmark ao invés de desenvolver uma capacidade generalizada de solucionar problemas.
  • Novo benchmark: A Scale AI criou um novo conjunto de dados chamado GSM1k, similar ao amplamente utilizado GSM8k para testes de matemática em inteligência artificial (IA).
  • Performance questionável: Ao serem testados no GSM1k, vários modelos de IA de alto desempenho obtiveram resultados significativamente piores do que no GSM8k, sugerindo que eles memorizaram padrões ao invés de desenvolver uma compreensão real dos conceitos.
  • Modelos afetados: Mistral e Phi tiveram quedas notáveis de desempenho, enquanto GPT-4, Claude, Gemini e Llama apresentaram resultados semelhantes nos dois benchmarks.

Por que isso importa:

O estudo da Scale AI mostra que os benchmarks atuais podem estar criando uma falsa impressão do verdadeiro progresso em IA. Modelos com alto desempenho em benchmarks tradicionais podem não possuir a capacidade generalizada de aprendizado que se espera deles.

À medida que a IA avança, é crucial desenvolver métodos de avaliação menos suscetíveis a “armadilhas” e que capturem com mais fidelidade as habilidades reais dos modelos. O GSM1k é um exemplo de uma abordagem que visa solucionar esse problema.

Leia também:

Rolar para cima