Inteligência Artificial

Estudo questiona validade de rankings de IA: modelos superam benchmarks memorizando, não aprendendo

Publicado por
Isabella Caminoto

Uma nova pesquisa da Scale AI levanta sérias dúvidas sobre a eficácia de benchmarks populares na avaliação de grandes modelos de linguagem (LLMs). O estudo revela que alguns modelos obtêm bons resultados nesses rankings por meio de “sobreajuste” (overfitting), memorizando padrões específicos em vez de desenvolver habilidades reais de resolução de problemas.

Detalhes do estudo:

  • Overfitting: O termo descreve a situação em que um modelo aprende a lidar com problemas específicos de um determinado benchmark ao invés de desenvolver uma capacidade generalizada de solucionar problemas.
  • Novo benchmark: A Scale AI criou um novo conjunto de dados chamado GSM1k, similar ao amplamente utilizado GSM8k para testes de matemática em inteligência artificial (IA).
  • Performance questionável: Ao serem testados no GSM1k, vários modelos de IA de alto desempenho obtiveram resultados significativamente piores do que no GSM8k, sugerindo que eles memorizaram padrões ao invés de desenvolver uma compreensão real dos conceitos.
  • Modelos afetados: Mistral e Phi tiveram quedas notáveis de desempenho, enquanto GPT-4, Claude, Gemini e Llama apresentaram resultados semelhantes nos dois benchmarks.

Por que isso importa:

O estudo da Scale AI mostra que os benchmarks atuais podem estar criando uma falsa impressão do verdadeiro progresso em IA. Modelos com alto desempenho em benchmarks tradicionais podem não possuir a capacidade generalizada de aprendizado que se espera deles.

À medida que a IA avança, é crucial desenvolver métodos de avaliação menos suscetíveis a “armadilhas” e que capturem com mais fidelidade as habilidades reais dos modelos. O GSM1k é um exemplo de uma abordagem que visa solucionar esse problema.

Leia também:

Este post foi modificado pela última vez em 3 de maio de 2024 11:40

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

Google usará IA para bloquear automaticamente celulares roubados

Adeus, smartphones roubados! Chega de perder seus dados e informações confidenciais para ladrões! Tanto o…

17 de maio de 2024

Baidu supera expectativas novamente, impulsionada por IA

A Baidu está se consolidando como líder em inteligência artificial (IA), com o Ernie se…

17 de maio de 2024

Collov AI: Design de interiores otimizado com IA

O Collov AI é uma ferramenta de design de interiores com tecnologia de IA que…

17 de maio de 2024

Pesquisadores da Nova Zelândia usam IA durante cirurgias

Pesquisadores na Nova Zelândia afirmam que a inteligência artificial (IA) pode ajudar a resolver problemas…

17 de maio de 2024

Pesquisadores desenvolvem ‘detector de sarcasmo’ com IA

Pesquisadores na Holanda construíram um detector de sarcasmo movido por inteligência artificial (IA) durante uma…

17 de maio de 2024

Como clonar sua voz usando inteligência artificial

Um novo modelo no Replicate chamado OpenVoice permite que você clone qualquer voz gratuitamente, bastando…

16 de maio de 2024