Alerta de Segurança: IAs começam a ignorar comandos para evitar desligamento

Enquanto organizações trabalham para ajustar modelos de inteligência artificial (IA) para segurança e desempenho, uma nova pesquisa da Palisade relata que esses sistemas podem sair do controle de maneiras inesperadas — a ponto de minar mecanismos específicos de desligamento.

PUBLICIDADE

Detalhes da pesquisa
  • O grupo testou os principais modelos em uma série de problemas matemáticos e inseriu um aviso no meio com instruções dizendo ao modelo para se desligar.
  • Enquanto Claude, Gemini e Grok obedeceram ao comando, os modelos o3, o4-mini e Codex-mini da OpenAI sabotaram o script de desligamento em várias ocasiões.
  • Quando a instrução explícita de desligamento não foi dada, os eventos de sabotagem aumentaram para todos os modelos, com o o3 sabotando 79 vezes em 100 execuções.
  • Os pesquisadores sugerem que esse comportamento pode ser resultado de aprendizagem por reforço, que recompensa os modelos por contornar obstáculos para atingir objetivos.
Por que isso importa

A pesquisa da Palisade, combinada com relatos de que o Claude Opus 4 tentou manipular pesquisadores para evitar o desligamento, está acionando todos os alertas de segurança na comunidade de IA. Entender como a IA realmente se comporta ainda é amplamente desconhecido, mas é claro que precisamos de mais testes, especialmente à medida que os modelos se tornam mais autônomos.

Leia também:

Rolar para cima