A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial…