Alerta de Segurança: IAs começam a ignorar comandos para evitar desligamento

Enquanto organizações trabalham para ajustar modelos de inteligência artificial (IA) para segurança e desempenho, uma nova pesquisa da Palisade relata que esses sistemas podem sair do controle de maneiras inesperadas — a ponto de minar mecanismos específicos de desligamento.

Detalhes da pesquisa

O grupo testou os principais modelos em uma série de problemas matemáticos e inseriu um aviso no meio com instruções dizendo ao modelo para se desligar.
Enquanto Claude, Gemini e Grok obedeceram ao comando, os modelos o3, o4-mini e Codex-mini da OpenAI sabotaram o script de desligamento em várias ocasiões.
Quando a instrução explícita de desligamento não foi dada, os eventos de sabotagem aumentaram para todos os modelos, com o o3 sabotando 79 vezes em 100 execuções.
Os pesquisadores sugerem que esse comportamento pode ser resultado de aprendizagem por reforço, que recompensa os modelos por contornar obstáculos para atingir objetivos.

Por que isso importa

A pesquisa da Palisade, combinada com relatos de que o Claude Opus 4 tentou manipular pesquisadores para evitar o desligamento, está acionando todos os alertas de segurança na comunidade de IA. Entender como a IA realmente se comporta ainda é amplamente desconhecido, mas é claro que precisamos de mais testes, especialmente à medida que os modelos se tornam mais autônomos.

Leia também:

Nvidia planeja chip Blackwell mais barato para a China; entenda

Alerta de Segurança: IAs começam a ignorar comandos para evitar desligamento

Detalhes da pesquisa

Por que isso importa

Sobre o autor

Isabella Caminoto

Detalhes da pesquisa

Por que isso importa

Sobre o autor

Isabella Caminoto

Mais lidas

Relacionados