IA sob teste: Novo benchmark desafia os modelos mais avançados
Créditos da imagem: Humanity’s Last Exam

IA sob teste: Novo benchmark desafia os modelos mais avançados

O Center for AI Safety e a Scale AI lançaram o “Humanity’s Last Exam” (O Último Exame da Humanidade), um novo desafio para testar o conhecimento acadêmico de modelos de linguagem de grande porte (LLMs). Esses modelos estão ficando tão avançados que os testes atuais já não são suficientes para avaliá-los adequadamente.

PUBLICIDADE

Detalhes do Humanity’s Last Exam
  • O desafio inclui 3.000 perguntas elaboradas por especialistas em mais de 100 áreas do conhecimento, com contribuições de instituições de 50 países.
  • Mesmo os melhores modelos de IA existentes tiveram um desempenho surpreendentemente baixo nesse novo teste, com pontuações abaixo de 10% de acerto.
  • As perguntas são de múltipla escolha ou exigem respostas exatas, e 10% delas envolvem a análise de texto e imagens.
  • Há um prêmio de US$ 500 mil para incentivar a criação de perguntas de alta qualidade. As melhores perguntas serão premiadas com US$ 5.000 e seus autores serão coautores do projeto.
Por que isso importa

Os melhores modelos de inteligência artificial (IA) atuais já conseguem obter notas acima de 90% em muitos dos testes existentes. O “Humanity’s Last Exam” é crucial para criar novos desafios e avaliar o progresso contínuo desses sistemas cada vez mais avançados. No entanto, considerando a rapidez do desenvolvimento da IA, provavelmente não demorará muito para vermos resultados impressionantes nesse novo teste.

Leia também:

Rolar para cima