Inteligência Artificial

Estudo questiona validade de rankings de IA: modelos superam benchmarks memorizando, não aprendendo

Publicado por
Isabella Caminoto

Uma nova pesquisa da Scale AI levanta sérias dúvidas sobre a eficácia de benchmarks populares na avaliação de grandes modelos de linguagem (LLMs). O estudo revela que alguns modelos obtêm bons resultados nesses rankings por meio de “sobreajuste” (overfitting), memorizando padrões específicos em vez de desenvolver habilidades reais de resolução de problemas.

Detalhes do estudo:

  • Overfitting: O termo descreve a situação em que um modelo aprende a lidar com problemas específicos de um determinado benchmark ao invés de desenvolver uma capacidade generalizada de solucionar problemas.
  • Novo benchmark: A Scale AI criou um novo conjunto de dados chamado GSM1k, similar ao amplamente utilizado GSM8k para testes de matemática em inteligência artificial (IA).
  • Performance questionável: Ao serem testados no GSM1k, vários modelos de IA de alto desempenho obtiveram resultados significativamente piores do que no GSM8k, sugerindo que eles memorizaram padrões ao invés de desenvolver uma compreensão real dos conceitos.
  • Modelos afetados: Mistral e Phi tiveram quedas notáveis de desempenho, enquanto GPT-4, Claude, Gemini e Llama apresentaram resultados semelhantes nos dois benchmarks.

Por que isso importa:

O estudo da Scale AI mostra que os benchmarks atuais podem estar criando uma falsa impressão do verdadeiro progresso em IA. Modelos com alto desempenho em benchmarks tradicionais podem não possuir a capacidade generalizada de aprendizado que se espera deles.

À medida que a IA avança, é crucial desenvolver métodos de avaliação menos suscetíveis a “armadilhas” e que capturem com mais fidelidade as habilidades reais dos modelos. O GSM1k é um exemplo de uma abordagem que visa solucionar esse problema.

Leia também:

Este post foi modificado pela última vez em %s = human-readable time difference 11:40

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

YouTube está testando remixes musicais feitos por IA

O YouTube está testando um novo recurso que permitirá que os criadores usem inteligência artificial…

12 de novembro de 2024

Qwen revela poderoso novo IA de código aberto

O Qwen da Alibaba Cloud acaba de lançar uma suíte de novos modelos de inteligência…

12 de novembro de 2024

IA detecta pressão arterial e diabetes em vídeos curtos; veja

Pesquisadores japoneses desenvolveram um sistema de inteligência artificial (IA) que pode detectar condições como pressão…

12 de novembro de 2024

DeepMind disponibiliza AlphaFold 3 para pesquisadores do mundo todo

O Google DeepMind acabou de abrir o código-fonte do seu revolucionário modelo de previsão de…

12 de novembro de 2024

Movimento pró-Musk promete transformar o debate sobre IA nos EUA; entenda

Esforços para influenciar as políticas do presidente eleito Donald Trump por meio de Elon Musk…

11 de novembro de 2024

Além da escala: A busca por uma IA mais inteligente e humana

Empresas de inteligência artificial (IA) como a OpenAI estão buscando superar atrasos inesperados e desafios…

11 de novembro de 2024