A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial (IA) em tarefas de engenharia de machine learning no mundo real, utilizando competições do Kaggle.
Os agentes de IA estão ganhando força — e novos benchmarks são necessários para avaliar suas capacidades que superam as medidas de teste anteriores. Com os comentários da OpenAI, uma onda de startups impulsionando capacidades de agentes, e a criação de novos benchmarks, a revolução dos agentes de IA parece prestes a explodir.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 14:36
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…