HealthBench: Novo padrão da OpenAI para avaliar IA na saúde

A OpenAI lançou o HealthBench, um benchmark criado com 262 médicos para avaliar o desempenho de sistemas de inteligência artificial (IA) em conversas sobre saúde – e estabelecer um novo padrão para medir a segurança e a eficácia da IA em contextos médicos.

Detalhes do HealthBench

O benchmark testa modelos em diversos temas (como encaminhamentos de emergência e saúde global) e comportamentos (precisão, qualidade da comunicação, etc.).
Modelos recentes apresentaram desempenho muito melhor no benchmark, com o o3 da OpenAI marcando 60% em comparação com os 16% do GPT-3.5 Turbo.
Os resultados também revelaram que modelos menores agora são muito mais capazes, com o GPT-4.1 Nano superando opções mais antigas e sendo 25 vezes mais barato.
A OpenAI tornou de código aberto tanto as avaliações quanto o conjunto de dados de teste de 5.000 conversas de saúde realistas e de múltiplas turnos entre modelos e usuários.

Por que isso é importante

Há uma quantidade esmagadora de evidências de que a IA pode proporcionar melhorias significativas em todos os aspectos em ambientes de saúde, e ter benchmarks validados por médicos é um passo importante tanto para medir o desempenho de cada modelo em contextos médicos quanto para decidir quando e como implantá-los.

Leia também:

IA prevê resultados de câncer a partir de fotos; veja como

HealthBench: Novo padrão da OpenAI para avaliar IA na saúde

Detalhes do HealthBench

Por que isso é importante

Sobre o autor

Isabella Caminoto

Detalhes do HealthBench

Por que isso é importante

Sobre o autor

Isabella Caminoto

Mais lidas

Relacionados