HealthBench: Novo padrão da OpenAI para avaliar IA na saúde

HealthBench: Novo padrão da OpenAI para avaliar IA na saúde

A OpenAI lançou o HealthBench, um benchmark criado com 262 médicos para avaliar o desempenho de sistemas de inteligência artificial (IA) em conversas sobre saúde – e estabelecer um novo padrão para medir a segurança e a eficácia da IA em contextos médicos.

PUBLICIDADE

Detalhes do HealthBench
  • O benchmark testa modelos em diversos temas (como encaminhamentos de emergência e saúde global) e comportamentos (precisão, qualidade da comunicação, etc.).
  • Modelos recentes apresentaram desempenho muito melhor no benchmark, com o o3 da OpenAI marcando 60% em comparação com os 16% do GPT-3.5 Turbo.
  • Os resultados também revelaram que modelos menores agora são muito mais capazes, com o GPT-4.1 Nano superando opções mais antigas e sendo 25 vezes mais barato.
  • A OpenAI tornou de código aberto tanto as avaliações quanto o conjunto de dados de teste de 5.000 conversas de saúde realistas e de múltiplas turnos entre modelos e usuários.
Por que isso é importante

Há uma quantidade esmagadora de evidências de que a IA pode proporcionar melhorias significativas em todos os aspectos em ambientes de saúde, e ter benchmarks validados por médicos é um passo importante tanto para medir o desempenho de cada modelo em contextos médicos quanto para decidir quando e como implantá-los.

Leia também:

Rolar para cima