O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar a capacidade dos LLMs de…
A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial…
A Cosine acaba de apresentar o Genie, seu novo engenheiro de software de inteligência artificial (IA) totalmente autônomo que quebrou…
O grupo de benchmarking de inteligência artificial (IA) MLCommons divulgou na quarta-feira (27) um novo conjunto de testes e resultados…