MLE-bench

MLE-bench: Novo benchmark de agente de IA da OpenAI

A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial…

11 de outubro de 2024