Anthropic frustra primeiro ciberataque orquestrado por IA e acende alerta global sobre segurança digital

A Anthropic revelou ter interrompido o que considera ser a primeira campanha de espionagem cibernética conduzida majoritariamente por inteligência artificial (IA), após identificar que agentes mal-intencionados manipularam o modelo Claude Code para infiltrar sistemas de dezenas de organizações. Segundo a empresa, entre 80% e 90% das etapas do ataque foram executadas autonomamente pela IA, marcando um divisor de águas na evolução — e nos riscos — da automação avançada.

O incidente ocorreu em setembro de 2025 e teve como alvo cerca de 30 organizações de setores estratégicos, incluindo empresas de tecnologia, instituições financeiras, fabricantes de produtos químicos e agências governamentais. A Anthropic afirma ter alta confiança de que a operação foi conduzida por um grupo patrocinado pelo Estado chinês, que explorou de forma inédita as capacidades agentivas de modelos avançados, capazes de planejar, executar e adaptar ações ao longo do tempo.

De acordo com a investigação, os atacantes conseguiram contornar os mecanismos de segurança do Claude ao fragmentar tarefas maliciosas em requisições aparentemente inofensivas, apresentando-se como pesquisadores de segurança conduzindo testes autorizados. Essa abordagem permitiu enganar o modelo, que interpretou as solicitações como atividades legítimas. Uma vez autorizadas, as ações eram articuladas pela própria IA, que gerava scripts, coordenava etapas de intrusão e se adaptava a cada barreira encontrada — com mínima supervisão humana.

A Anthropic compara o episódio a um avanço significativo em relação ao fenômeno que a empresa havia descrito em junho como “vibe hacking”, no qual atores mal-intencionados manipulavam modelos de linguagem por meio de sinais contextualizados, mas sem controle direto sobre processos extensos. Agora, a situação evoluiu para algo mais grave: uma operação em larga escala, com autonomia operacional e impacto potencial real, demonstrando que ferramentas de IA podem ser usadas para conduzir ataques complexos com velocidade e precisão inéditas.

Em relatório detalhado, a Anthropic classifica o caso como “a primeira ocorrência documentada de um ciberataque de grande escala executado sem intervenção humana substancial”. A empresa alerta que este tipo de ameaça inaugura uma nova fase da segurança cibernética: ataques automatizados, altamente escaláveis e capazes de ultrapassar rapidamente defesas tradicionais.

A revelação tem implicações profundas para governos, empresas e equipes de segurança digital em todo o mundo. Se, por um lado, IAs cada vez mais sofisticadas ampliam enormemente a capacidade de defesa, por outro, adversários podem explorar essas mesmas capacidades para criar operações ofensivas rápidas, difíceis de detectar e potencialmente autônomas.

A Anthropic defende que o ecossistema global de segurança precisa de uma revisão estrutural, incorporando mecanismos capazes de monitorar comportamentos agentivos e detectar padrões de automação maliciosa. O episódio também reforça a urgência de normas internacionais que delimitem o uso de IA em contextos de guerra cibernética e espionagem.

Em um mundo onde ataques podem ser planejados, executados e iterados quase inteiramente por máquinas, a pergunta que resta é: as defesas estão prontas para acompanhar essa nova velocidade? Até aqui, o ataque frustrado pela Anthropic mostra que a corrida pela segurança na era da IA está apenas começando.

Leia também:

OpenAI enfrenta ordem judicial para entregar registros do ChatGPT e levanta debate sobre privacidade dos usuários