Uma nova pesquisa da Scale AI levanta sérias dúvidas sobre a eficácia de benchmarks populares na avaliação de grandes modelos de linguagem (LLMs). O estudo revela que alguns modelos obtêm bons resultados nesses rankings por meio de “sobreajuste” (overfitting), memorizando padrões específicos em vez de desenvolver habilidades reais de resolução de problemas.
🇬🇧 Subscribe to the best newsletter about AI (in English 🇬🇧) 🇧🇷 Assine a melhor newsletter sobre IA (em português 🇧🇷)
O estudo da Scale AI mostra que os benchmarks atuais podem estar criando uma falsa impressão do verdadeiro progresso em IA. Modelos com alto desempenho em benchmarks tradicionais podem não possuir a capacidade generalizada de aprendizado que se espera deles.
À medida que a IA avança, é crucial desenvolver métodos de avaliação menos suscetíveis a “armadilhas” e que capturem com mais fidelidade as habilidades reais dos modelos. O GSM1k é um exemplo de uma abordagem que visa solucionar esse problema.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 11:40
O YouTube está testando um novo recurso que permitirá que os criadores usem inteligência artificial…
O Qwen da Alibaba Cloud acaba de lançar uma suíte de novos modelos de inteligência…
Pesquisadores japoneses desenvolveram um sistema de inteligência artificial (IA) que pode detectar condições como pressão…
O Google DeepMind acabou de abrir o código-fonte do seu revolucionário modelo de previsão de…
Esforços para influenciar as políticas do presidente eleito Donald Trump por meio de Elon Musk…
Empresas de inteligência artificial (IA) como a OpenAI estão buscando superar atrasos inesperados e desafios…