Google lança novo benchmark para testar a factualidade de LLMs

Publicado por

Isabella Caminoto

18 de dezembro de 2024 18:24

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar a capacidade dos LLMs de gerar respostas factuais e abrangentes com base em documentos fornecidos, evitando alucinações.

Detalhes do lançamento

O FACTS usa 1.719 exemplos, cada um com um documento, uma instrução do sistema e uma solicitação do usuário, para testar a capacidade de produzir respostas longas e fundamentadas.
Três modelos de IA (Gemini 1.5 Pro, GPT-4o e Claude 3.5 Sonnet) servem como juízes, avaliando as respostas quanto à precisão e ao atendimento às solicitações do usuário.
As pontuações são agregadas em todos os juízes e exemplos, com os resultados publicados em um leaderboard público do Kaggle, que será atualizado à medida que novos modelos surgirem.
Os modelos Gemini do Google atualmente lideram o ranking, com o Gemini 2.0 Flash Experimental alcançando a pontuação mais alta, 83,6%, em fundamentação factual.

Por que isso importa

As alucinações continuam a afligir até mesmo os LLMs mais avançados, limitando a confiabilidade e os casos de uso do mundo real. O FACTS Grounding fornece uma maneira mais sofisticada de medir o progresso em uma área de desenvolvimento extremamente importante para a inteligência artificial (IA), concentrando-se em respostas fundamentadas e usando uma abordagem de julgamento multi-LLM.

Leia também:

Nvidia lança supercomputador de IA compacto e barato

Este post foi modificado pela última vez em 18 de dezembro de 2024 18:26

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo ChatGPT ganha um novo número de telefone; veja »

Anterior « Nvidia lança supercomputador de IA compacto e barato

Publicado por

Isabella Caminoto

Tags: benchmarkFACTS GroundinggoogleGoogle DeepMindLLMs

18 de dezembro de 2024 18:24

Posts recentes

Inteligência Artificial

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

A inteligência artificial (IA) está transformando rapidamente a medicina. Sistemas capazes de analisar exames de…

24 de julho de 2026

Inteligência Artificial

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

A Organização Mundial da Saúde reuniu ministros, autoridades governamentais e especialistas de 37 países em…

15 de julho de 2026

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Google lança novo benchmark para testar a factualidade de LLMs

Detalhes do lançamento

Por que isso importa

Posts relacionados

Posts recentes

Quando a IA afasta o médico do paciente: o novo desafio do diagnóstico à beira do leito

OMS reúne 37 países para definir regras globais sobre inteligência artificial na saúde

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico