Uma nova pesquisa da Scale AI levanta sérias dúvidas sobre a eficácia de benchmarks populares na avaliação de grandes modelos de linguagem (LLMs). O estudo revela que alguns modelos obtêm bons resultados nesses rankings por meio de “sobreajuste” (overfitting), memorizando padrões específicos em vez de desenvolver habilidades reais de resolução de problemas.
🇬🇧 Subscribe to the best newsletter about AI (in English 🇬🇧) 🇧🇷 Assine a melhor newsletter sobre IA (em português 🇧🇷)
O estudo da Scale AI mostra que os benchmarks atuais podem estar criando uma falsa impressão do verdadeiro progresso em IA. Modelos com alto desempenho em benchmarks tradicionais podem não possuir a capacidade generalizada de aprendizado que se espera deles.
À medida que a IA avança, é crucial desenvolver métodos de avaliação menos suscetíveis a “armadilhas” e que capturem com mais fidelidade as habilidades reais dos modelos. O GSM1k é um exemplo de uma abordagem que visa solucionar esse problema.
Leia também:
Este post foi modificado pela última vez em 3 de maio de 2024 11:40
Adeus, smartphones roubados! Chega de perder seus dados e informações confidenciais para ladrões! Tanto o…
A Baidu está se consolidando como líder em inteligência artificial (IA), com o Ernie se…
O Collov AI é uma ferramenta de design de interiores com tecnologia de IA que…
Pesquisadores na Nova Zelândia afirmam que a inteligência artificial (IA) pode ajudar a resolver problemas…
Pesquisadores na Holanda construíram um detector de sarcasmo movido por inteligência artificial (IA) durante uma…
Um novo modelo no Replicate chamado OpenVoice permite que você clone qualquer voz gratuitamente, bastando…