Inteligência Artificial

Estudo questiona validade de rankings de IA: modelos superam benchmarks memorizando, não aprendendo

Publicado por
Isabella Caminoto

Uma nova pesquisa da Scale AI levanta sérias dúvidas sobre a eficácia de benchmarks populares na avaliação de grandes modelos de linguagem (LLMs). O estudo revela que alguns modelos obtêm bons resultados nesses rankings por meio de “sobreajuste” (overfitting), memorizando padrões específicos em vez de desenvolver habilidades reais de resolução de problemas.

Detalhes do estudo:

  • Overfitting: O termo descreve a situação em que um modelo aprende a lidar com problemas específicos de um determinado benchmark ao invés de desenvolver uma capacidade generalizada de solucionar problemas.
  • Novo benchmark: A Scale AI criou um novo conjunto de dados chamado GSM1k, similar ao amplamente utilizado GSM8k para testes de matemática em inteligência artificial (IA).
  • Performance questionável: Ao serem testados no GSM1k, vários modelos de IA de alto desempenho obtiveram resultados significativamente piores do que no GSM8k, sugerindo que eles memorizaram padrões ao invés de desenvolver uma compreensão real dos conceitos.
  • Modelos afetados: Mistral e Phi tiveram quedas notáveis de desempenho, enquanto GPT-4, Claude, Gemini e Llama apresentaram resultados semelhantes nos dois benchmarks.

Por que isso importa:

O estudo da Scale AI mostra que os benchmarks atuais podem estar criando uma falsa impressão do verdadeiro progresso em IA. Modelos com alto desempenho em benchmarks tradicionais podem não possuir a capacidade generalizada de aprendizado que se espera deles.

À medida que a IA avança, é crucial desenvolver métodos de avaliação menos suscetíveis a “armadilhas” e que capturem com mais fidelidade as habilidades reais dos modelos. O GSM1k é um exemplo de uma abordagem que visa solucionar esse problema.

Leia também:

Este post foi modificado pela última vez em %s = human-readable time difference 11:40

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

Google se associa à Apptronik para desenvolver robôs humanoides

O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…

20 de dezembro de 2024

Genesis: Um novo patamar para simulações físicas em IA

Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…

20 de dezembro de 2024

Google lança seu próprio modelo de IA de “raciocínio”

O Google acabou de lançar o que está chamando de um novo modelo de inteligência…

19 de dezembro de 2024

GitHub Copilot agora é gratuito

A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…

19 de dezembro de 2024

ChatGPT ganha um novo número de telefone; veja

A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…

19 de dezembro de 2024

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…

18 de dezembro de 2024