benchmark

MLE-bench: Novo benchmark de agente de IA da OpenAI

A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial…

11 de outubro de 2024

Nova IA bate recorde em benchmark de codificação

A Cosine acaba de apresentar o Genie, seu novo engenheiro de software de inteligência artificial (IA) totalmente autônomo que quebrou…

13 de agosto de 2024

Novo benchmark de IA testa a velocidade de respostas às consultas dos usuários

O grupo de benchmarking de inteligência artificial (IA) MLCommons divulgou na quarta-feira (27) um novo conjunto de testes e resultados…

27 de março de 2024