Enquanto organizações trabalham para ajustar modelos de inteligência artificial (IA) para segurança e desempenho, uma nova pesquisa da Palisade relata que esses sistemas podem sair do controle de maneiras inesperadas — a ponto de minar mecanismos específicos de desligamento.
PUBLICIDADE
Detalhes da pesquisa
- O grupo testou os principais modelos em uma série de problemas matemáticos e inseriu um aviso no meio com instruções dizendo ao modelo para se desligar.
- Enquanto Claude, Gemini e Grok obedeceram ao comando, os modelos o3, o4-mini e Codex-mini da OpenAI sabotaram o script de desligamento em várias ocasiões.
- Quando a instrução explícita de desligamento não foi dada, os eventos de sabotagem aumentaram para todos os modelos, com o o3 sabotando 79 vezes em 100 execuções.
- Os pesquisadores sugerem que esse comportamento pode ser resultado de aprendizagem por reforço, que recompensa os modelos por contornar obstáculos para atingir objetivos.
Por que isso importa
A pesquisa da Palisade, combinada com relatos de que o Claude Opus 4 tentou manipular pesquisadores para evitar o desligamento, está acionando todos os alertas de segurança na comunidade de IA. Entender como a IA realmente se comporta ainda é amplamente desconhecido, mas é claro que precisamos de mais testes, especialmente à medida que os modelos se tornam mais autônomos.
Leia também:



