A OpenAI apresentou o GDPval, um novo benchmark criado para medir se modelos de inteligência artificial (IA) conseguem alcançar a qualidade de trabalho de profissionais humanos em 44 ocupações diferentes. O teste avaliou alguns dos modelos mais avançados do mercado, como GPT-5, Claude Opus 4.1, Gemini 2.5 e Grok 4, comparando seu desempenho ao de especialistas da indústria.
PUBLICIDADE
Detalhes do teste
- O GDPval avaliou 1.320 tarefas elaboradas por profissionais com média de 14 anos de experiência, abrangendo 9 setores econômicos, incluindo saúde e finanças.
- O Opus 4.1 obteve a maior pontuação, com taxa de acerto de 47,6%, destacando-se em tarefas de apresentação visual; já o GPT-5 liderou em termos de precisão técnica.
- A OpenAI também constatou que o desempenho triplicou do GPT-4o para o GPT-5 em apenas 15 meses, evidenciando a rápida evolução das capacidades da IA em atividades do ambiente de trabalho.
Por que importa
Apesar das manchetes alarmistas sobre substituição imediata da força de trabalho, o GDPval demonstra que, mesmo os modelos mais avançados, estão apenas começando a atingir paridade com profissionais humanos em determinadas tarefas. Mas, se este benchmark seguir a tendência de outros no campo da IA, é apenas questão de alguns meses para que modelos mais sofisticados deem um salto significativo em direção a superar o desempenho humano.
Leia também:



