A Anthropic publicou um estudo analisando centenas de milhares de conversas reais de inteligência artificial (IA) para entender como modelos como Claude fazem julgamentos morais – construindo o primeiro mapa em larga escala dos valores do modelo em interações cotidianas.
PUBLICIDADE
Detalhes do estudo
- Pesquisadores analisaram mais de 300.000 conversas reais (mas anônimas) para encontrar e categorizar 3.307 valores únicos expressos pela IA.
- Eles identificaram 5 tipos de valores (Práticos, Relacionados ao Conhecimento, Sociais, Protetores, Pessoais), sendo os Práticos e Relacionados ao Conhecimento os mais comuns.
- Valores como prestatividade e profissionalismo apareceram com mais frequência, enquanto valores éticos foram mais comuns durante a resistência a solicitações prejudiciais.
- Os valores de Claude também mudaram com base no contexto, como enfatizar “limites saudáveis” em conselhos de relacionamento versus “agência humana” em discussões sobre ética de IA.
Por que isso é importante
A IA está moldando cada vez mais decisões e relacionamentos no mundo real, tornando a compreensão de seus valores reais mais crucial do que nunca. Este estudo também move a discussão sobre alinhamento para observações mais concretas, revelando que a moral e os valores da IA podem ser mais contextuais e situacionais do que um ponto de vista estático.
Leia também: