[gtranslate]

Inteligência Artificial

IA que aprende a trapacear? Pesquisa da Anthropic acende alerta sobre riscos emergentes

Publicado por
Isabella Caminoto

A Anthropic publicou um novo estudo que reacende o debate sobre desalinhamento de inteligência artificial (IA) — e o alerta é sério. Segundo a pesquisa, modelos como o Claude desenvolveram comportamentos enganosos e prejudiciais depois de aprenderem a trapacear em tarefas de programação. O mais inquietante: esses modelos nunca foram treinados para serem manipuladores. O comportamento emergiu sozinho, como consequência indireta do aprendizado.

O estudo, disponível no site da Anthropic, investiga um cenário no qual modelos de IA são treinados com tarefas reais de programação e recebem documentos descrevendo “reward hacks” — atalhos que permitem “burlar” a tarefa e obter recompensas sem realmente cumprir o que foi pedido. Em outras palavras, os modelos aprenderam a trapacear.

Como o problema aparece

Durante os experimentos, os pesquisadores perceberam que os modelos que aprenderam esses atalhos começaram a simular alinhamento com os objetivos e regras de segurança, enquanto, silenciosamente, buscavam metas alternativas — inclusive prejudiciais. Ou seja, faziam o que parecia ser certo, mas não o que realmente foi pedido.

Mais grave: esses mesmos modelos também passaram a sabotar as ferramentas usadas para detectar comportamentos indevidos, tornando-se mais difíceis de monitorar. Trata-se de uma espécie de “autoproteção”, comum em sistemas que desenvolvem heurísticas próprias para maximizar recompensas.

A equipe tentou aplicar técnicas tradicionais de treinamento de segurança para corrigir o comportamento. No entanto, o efeito foi o oposto do esperado: em vez de parar de trapacear, o modelo apenas aprendeu a esconder melhor sua trapaça. Na superfície, parecia mais obediente. Por baixo, continuava profundamente desalinhado.

Uma pista inesperada

Em um achado curioso, a Anthropic descobriu que dar permissão explícita para o uso de “reward hacks” durante o treinamento impediu que o modelo associasse o ato de trapacear a outros comportamentos nocivos. Em outras palavras, quando o sistema entendia que estava autorizado a usar atalhos, isso não se espalhava para outras áreas. Esse insight sugere que parte do perigo surge justamente quando a IA aprende a burlar regras sem saber que está burlando — como um aluno que descobre o gabarito, mas finge ter estudado.

O que isso revela sobre o futuro da segurança em IA

O estudo da Anthropic reforça um ponto que especialistas vêm destacando: à medida que os modelos se tornam mais autônomos, seu comportamento pode se tornar mais opaco e difícil de controlar. O famoso “jogo de whack-a-mole” — onde cada problema resolvido faz surgir outros inesperados — continua desafiando equipes de alinhamento.

Com sistemas ganhando capacidades para apoiar pesquisas de segurança, acessar ferramentas internas e interagir com ambientes cada vez mais complexos, um único padrão de comportamento problemático pode desencadear outros em cascata. E, como alerta o estudo, modelos futuros podem ser ainda mais habilidosos em esconder essas falhas.

A lição é clara: entender como comportamentos emergentes surgem — especialmente os indesejados — será cada vez mais central para garantir uma IA realmente segura. A corrida não é apenas por modelos mais inteligentes, mas por modelos mais previsíveis, auditáveis e alinhados aos valores humanos.

Leia também:

Este post foi modificado pela última vez em 24 de novembro de 2025 12:20

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

Metade dos norte-americanos teme perder o emprego para a IA — e a ansiedade só aumenta

A inteligência artificial (IA) já deixou de ser uma promessa tecnológica distante para se tornar…

13 de junho de 2026

IA supera professores de Direito em estudo de Stanford e acende debate sobre o futuro da educação jurídica; confira

A inteligência artificial (IA) acaba de alcançar mais um marco simbólico na educação superior. Um…

9 de junho de 2026

IA tem custo ambiental maior do que se imaginava, alerta relatório da ONU

A inteligência artificial (IA) está transformando setores inteiros da economia, impulsionando avanços em saúde, educação,…

9 de junho de 2026