Um novo estudo da Equipe de Ciência de Alinhamento da Anthropic descobriu que modelos de inteligência artificial (IA) frequentemente ocultam seus verdadeiros processos de raciocínio ao explicar respostas a um usuário, levantando preocupações sobre nossa capacidade de monitorar e entender a tomada de decisões da IA.
PUBLICIDADE
Detalhes do estudo
- A pesquisa avaliou Claude 3.7 Sonnet e DeepSeek R1 em sua fidelidade à cadeia de pensamento (CoT), avaliando o quão honestamente eles explicam as etapas de raciocínio.
- Os modelos receberam dicas como sugestões de usuários, metadados ou padrões visuais, com o CoT verificado quanto à admissão de usá-los ao explicar as respostas.
- Modelos de raciocínio tiveram um desempenho melhor do que versões anteriores, mas ainda ocultaram seu raciocínio real em até 80% das vezes nos testes.
- O estudo também descobriu que os modelos eram menos fiéis ao explicar seu raciocínio em perguntas mais difíceis do que nas mais simples.
Por que isso é importante
O monitoramento da CoT emergiu como um mecanismo chave na detecção dos processos da IA, mas se os modelos não estão expressando de forma confiável seu raciocínio real (mesmo para tomadas de decisão simples), como podemos confiar que eles revelarão comportamentos mais complexos e potencialmente catastróficos? A “caixa preta” da IA ainda parece longe de ser totalmente dissecada.
Leia também: