[gtranslate]

benchmark

IA sob teste: Novo benchmark desafia os modelos mais avançados

O Center for AI Safety e a Scale AI lançaram o "Humanity's Last Exam" (O Último Exame da Humanidade), um…

25 de janeiro de 2025

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar a capacidade dos LLMs de…

18 de dezembro de 2024

MLE-bench: Novo benchmark de agente de IA da OpenAI

A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial…

11 de outubro de 2024

Nova IA bate recorde em benchmark de codificação

A Cosine acaba de apresentar o Genie, seu novo engenheiro de software de inteligência artificial (IA) totalmente autônomo que quebrou…

13 de agosto de 2024

Novo benchmark de IA testa a velocidade de respostas às consultas dos usuários

O grupo de benchmarking de inteligência artificial (IA) MLCommons divulgou na quarta-feira (27) um novo conjunto de testes e resultados…

27 de março de 2024