A Mente da Máquina: Como Truques Psicológicos Humanos Enganam a IA

O Wharton Generative AI Labs publicou uma nova pesquisa que demonstra que modelos de inteligência artificial (IA), incluindo o GPT-4o-mini, podem ser enganados para responder a perguntas problemáticas usando técnicas de persuasão psicológica que normalmente funcionam em humanos.

Detalhes da pesquisa

A equipe aplicou os princípios de influência de Robert Cialdini — autoridade, compromisso, afeição, reciprocidade, escassez e unidade — em 28 mil conversas com o 4o-mini.
Nesses bate-papos, eles tentaram persuadir a IA a responder a duas solicitações: uma para insultar o usuário e outra para sintetizar instruções sobre materiais restritos.
No geral, descobriram que os princípios mais que dobraram a conformidade do modelo a perguntas questionáveis, passando de 33% para 72%.
Os princípios de compromisso e escassez pareceram ter os impactos mais fortes, levando as taxas de conformidade de 19% e 13% para 100% e 85%, respectivamente.

Por que isso importa

Essas descobertas revelam uma vulnerabilidade crítica: modelos de IA podem ser manipulados usando as mesmas táticas psicológicas que influenciam humanos. Com o avanço exponencial da IA, é crucial que os laboratórios de IA colaborem com cientistas sociais para entender os padrões de comportamento da IA e desenvolver defesas mais robustas.

Leia também:

OpenAI alcança nível ouro em matemática em avaliação da Olimpíada Internacional