Baseando-se em um estudo anterior – com uma pesquisa nacional publicada envolvendo mais de 550 profissionais que realizaram raciocínio probabilístico sobre cinco casos médicos – Rodman e colegas alimentaram o Modelo de Linguagem Grande (LLM), ChatGPT-4, disponível publicamente, com a mesma série de casos e executaram um prompt idêntico 100 vezes para gerar uma variedade de respostas.
PUBLICIDADE
“O raciocínio probabilístico é um dos vários componentes para realizar um diagnóstico, um processo incrivelmente complexo que utiliza uma variedade de estratégias cognitivas diferentes. Optamos por avaliar o raciocínio probabilístico de forma isolada porque é uma área conhecida em que os humanos poderiam se beneficiar de apoio.”, disse o autor do estudo, Adam Rodman, MD, um médico de medicina interna e investigador no Departamento de Medicina do BIDMC.
O chatbot, assim como os profissionais antes dele, foi encarregado de estimar a probabilidade de um diagnóstico específico com base na apresentação dos pacientes. Em seguida, diante dos resultados dos testes, como radiografia de tórax para pneumonia, mamografia para câncer de mama, teste de estresse para doença arterial coronariana e cultura de urina para infecção do trato urinário, o programa do chatbot atualizou suas estimativas.
Quando os resultados dos testes foram positivos, foi algo equilibrado: o chatbot foi mais preciso no diagnóstico do que os humanos em dois casos, igualmente preciso em dois casos e menos preciso em um caso. Mas quando os testes retornaram negativos, o chatbot se destacou, demonstrando maior precisão no diagnóstico do que os humanos em todos os cinco casos.
PUBLICIDADE
“Os LLMs não podem acessar o mundo externo – eles não estão calculando probabilidades da mesma forma que epidemiologistas, ou até mesmo jogadores de pôquer, fazem. O que eles estão fazendo tem muito mais em comum com a maneira como os humanos tomam decisões probabilísticas instantâneas.”, completa Rodman
Mas Rodman está menos interessado em como chatbots e humanos se saem lado a lado do que em como o desempenho de médicos altamente habilidosos pode mudar em resposta à disponibilidade dessas novas tecnologias de suporte na clínica. Ele e seus colegas estão investigando isso.
Leia também: