IA sob teste: Novo benchmark desafia os modelos mais avançados
O Center for AI Safety e a Scale AI lançaram o “Humanity’s Last Exam” (O Último Exame da Humanidade), um novo desafio para testar o conhecimento acadêmico de modelos de linguagem de grande porte (LLMs). Esses modelos estão ficando tão avançados que os testes atuais já não são suficientes para avaliá-los adequadamente.
Os melhores modelos de inteligência artificial (IA) atuais já conseguem obter notas acima de 90% em muitos dos testes existentes. O “Humanity’s Last Exam” é crucial para criar novos desafios e avaliar o progresso contínuo desses sistemas cada vez mais avançados. No entanto, considerando a rapidez do desenvolvimento da IA, provavelmente não demorará muito para vermos resultados impressionantes nesse novo teste.
Leia também:
Este post foi modificado pela última vez em 24 de janeiro de 2025 14:26
Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…
A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…
A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…
A inteligência artificial (IA) já deixou de ser uma promessa tecnológica distante para se tornar…
A inteligência artificial (IA) acaba de alcançar mais um marco simbólico na educação superior. Um…
A inteligência artificial (IA) está transformando setores inteiros da economia, impulsionando avanços em saúde, educação,…