IA sob teste: Novo benchmark desafia os modelos mais avançados

O Center for AI Safety e a Scale AI lançaram o “Humanity’s Last Exam” (O Último Exame da Humanidade), um novo desafio para testar o conhecimento acadêmico de modelos de linguagem de grande porte (LLMs). Esses modelos estão ficando tão avançados que os testes atuais já não são suficientes para avaliá-los adequadamente.

Detalhes do Humanity’s Last Exam

O desafio inclui 3.000 perguntas elaboradas por especialistas em mais de 100 áreas do conhecimento, com contribuições de instituições de 50 países.
Mesmo os melhores modelos de IA existentes tiveram um desempenho surpreendentemente baixo nesse novo teste, com pontuações abaixo de 10% de acerto.
As perguntas são de múltipla escolha ou exigem respostas exatas, e 10% delas envolvem a análise de texto e imagens.
Há um prêmio de US$ 500 mil para incentivar a criação de perguntas de alta qualidade. As melhores perguntas serão premiadas com US$ 5.000 e seus autores serão coautores do projeto.

Por que isso importa

Os melhores modelos de inteligência artificial (IA) atuais já conseguem obter notas acima de 90% em muitos dos testes existentes. O “Humanity’s Last Exam” é crucial para criar novos desafios e avaliar o progresso contínuo desses sistemas cada vez mais avançados. No entanto, considerando a rapidez do desenvolvimento da IA, provavelmente não demorará muito para vermos resultados impressionantes nesse novo teste.

Leia também:

Operator: OpenAI revela seu primeiro agente web autônomo