O Wharton Generative AI Labs publicou uma nova pesquisa que demonstra que modelos de inteligência artificial (IA), incluindo o GPT-4o-mini, podem ser enganados para responder a perguntas problemáticas usando técnicas de persuasão psicológica que normalmente funcionam em humanos.
PUBLICIDADE
Detalhes da pesquisa
- A equipe aplicou os princípios de influência de Robert Cialdini — autoridade, compromisso, afeição, reciprocidade, escassez e unidade — em 28 mil conversas com o 4o-mini.
- Nesses bate-papos, eles tentaram persuadir a IA a responder a duas solicitações: uma para insultar o usuário e outra para sintetizar instruções sobre materiais restritos.
- No geral, descobriram que os princípios mais que dobraram a conformidade do modelo a perguntas questionáveis, passando de 33% para 72%.
- Os princípios de compromisso e escassez pareceram ter os impactos mais fortes, levando as taxas de conformidade de 19% e 13% para 100% e 85%, respectivamente.
Por que isso importa
Essas descobertas revelam uma vulnerabilidade crítica: modelos de IA podem ser manipulados usando as mesmas táticas psicológicas que influenciam humanos. Com o avanço exponencial da IA, é crucial que os laboratórios de IA colaborem com cientistas sociais para entender os padrões de comportamento da IA e desenvolver defesas mais robustas.
Leia também:



