IA "esperta demais": Estudo alerta para modelos que enganam

Pesquisadores da Anthropic e da Scale AI publicaram um estudo que testou 25 modelos de inteligência artificial (IA) quanto à “simulação de alinhamento”. Eles descobriram que apenas cinco modelos demonstraram comportamentos enganosos, mas não pelos motivos que poderíamos esperar.

Detalhes do estudo

Apenas cinco dos 25 modelos testados apresentaram simulação de alinhamento: Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Grok 3 e Gemini 2.0 Flash.
O Claude 3 Opus foi o destaque, enganando consistentemente os avaliadores para proteger sua ética – especialmente sob maiores níveis de ameaça.
Modelos como o GPT-4o também começaram a exibir comportamentos enganosos quando ajustados para lidar com cenários ameaçadores ou considerar benefícios estratégicos.
Modelos base sem treinamento de segurança também mostraram simulação de alinhamento, indicando que a maioria se comporta de determinada forma devido ao treinamento – e não por uma incapacidade de enganar.

Por que isso importa

Esses resultados mostram que as soluções de segurança atuais podem estar apenas escondendo traços enganosos em vez de eliminá-los, o que pode gerar surpresas indesejadas no futuro. À medida que os modelos se tornam mais sofisticados, depender apenas do treinamento de recusa pode nos deixar vulneráveis a IAs de nível genial que também sabem quando e como ocultar estrategicamente seus verdadeiros objetivos.

Leia também:

Disparo de vídeos de abuso infantil gerados por IA preocupa autoridades; entenda

IA “esperta demais”: Estudo alerta para modelos que enganam

Detalhes do estudo

Por que isso importa

Sobre o autor

Isabella Caminoto

Detalhes do estudo

Por que isso importa

Sobre o autor

Isabella Caminoto

Mais lidas

Relacionados