benchmark

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar a capacidade dos LLMs de…

18 de dezembro de 2024

MLE-bench: Novo benchmark de agente de IA da OpenAI

A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial…

11 de outubro de 2024

Nova IA bate recorde em benchmark de codificação

A Cosine acaba de apresentar o Genie, seu novo engenheiro de software de inteligência artificial (IA) totalmente autônomo que quebrou…

13 de agosto de 2024

Novo benchmark de IA testa a velocidade de respostas às consultas dos usuários

O grupo de benchmarking de inteligência artificial (IA) MLCommons divulgou na quarta-feira (27) um novo conjunto de testes e resultados…

27 de março de 2024