IA sob teste: Novo benchmark desafia os modelos mais avançados

Publicado por

Isabella Caminoto

25 de janeiro de 2025 12:00

O Center for AI Safety e a Scale AI lançaram o “Humanity’s Last Exam” (O Último Exame da Humanidade), um novo desafio para testar o conhecimento acadêmico de modelos de linguagem de grande porte (LLMs). Esses modelos estão ficando tão avançados que os testes atuais já não são suficientes para avaliá-los adequadamente.

Detalhes do Humanity’s Last Exam

O desafio inclui 3.000 perguntas elaboradas por especialistas em mais de 100 áreas do conhecimento, com contribuições de instituições de 50 países.
Mesmo os melhores modelos de IA existentes tiveram um desempenho surpreendentemente baixo nesse novo teste, com pontuações abaixo de 10% de acerto.
As perguntas são de múltipla escolha ou exigem respostas exatas, e 10% delas envolvem a análise de texto e imagens.
Há um prêmio de US$ 500 mil para incentivar a criação de perguntas de alta qualidade. As melhores perguntas serão premiadas com US$ 5.000 e seus autores serão coautores do projeto.

Por que isso importa

Os melhores modelos de inteligência artificial (IA) atuais já conseguem obter notas acima de 90% em muitos dos testes existentes. O “Humanity’s Last Exam” é crucial para criar novos desafios e avaliar o progresso contínuo desses sistemas cada vez mais avançados. No entanto, considerando a rapidez do desenvolvimento da IA, provavelmente não demorará muito para vermos resultados impressionantes nesse novo teste.

Leia também:

Operator: OpenAI revela seu primeiro agente web autônomo

Este post foi modificado pela última vez em 24 de janeiro de 2025 14:26

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo Zuckerberg anuncia plano de investimento de US$ 65 bilhões em IA »

Anterior « Perplexity estreia novo assistente móvel de IA; conheça o Perplexity Assistant

Publicado por

Isabella Caminoto

Tags: benchmarkHumanity's Last Examinteligência artificial

25 de janeiro de 2025 12:00

Posts recentes

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Inteligência Artificial

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Inteligência Artificial

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

IA sob teste: Novo benchmark desafia os modelos mais avançados

Detalhes do Humanity’s Last Exam

Por que isso importa

Posts relacionados

Posts recentes

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre