[gtranslate]

Inteligência Artificial

Anthropic desafia hackers a invadirem sua IA

Publicado por
Isabella Caminoto

A Anthropic acaba de apresentar os “Classificadores Constitucionais” (Constitutional Classifiers), um novo sistema de segurança de inteligência artificial (IA) com resultados promissores, e está convidando o público a ajudar a testá-lo após sobreviver a mais de 3.000 horas de tentativas frustradas de bug bounty.

Os detalhes
  • O sistema usa IA para gerar dados de treinamento em vários idiomas e estilos de escrita, ajudando-o a detectar diversas tentativas de “jailbreak”.
  • Em testes contra 10.000 tentativas avançadas de “jailbreak”, ele bloqueou 95,6% dos ataques, em comparação com apenas 14% para o Claude desprotegido.
  • 183 caçadores de bugs passaram mais de 3.000 horas tentando invadir o sistema por uma recompensa de US$ 15.000, mas nenhum conseguiu realizar um “jailbreak” completo.
  • A Anthropic está convidando o público a testar o sistema até 10 de fevereiro.
Por que isso é importante

À medida que os modelos de IA se tornam cada vez mais poderosos, é crucial evitar que sejam manipulados para causar danos. Enquanto a maioria das empresas se baseia principalmente no treinamento para a segurança da IA, a nova abordagem da Anthropic de usar a IA para detectar “jailbreaks” é promissora, e abri-la para testes públicos demonstra seu compromisso em tornar a IA mais segura.

Leia também:

Este post foi modificado pela última vez em 4 de fevereiro de 2025 12:29

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

IA supera professores de Direito em estudo de Stanford e acende debate sobre o futuro da educação jurídica; confira

A inteligência artificial (IA) acaba de alcançar mais um marco simbólico na educação superior. Um…

9 de junho de 2026

IA tem custo ambiental maior do que se imaginava, alerta relatório da ONU

A inteligência artificial (IA) está transformando setores inteiros da economia, impulsionando avanços em saúde, educação,…

9 de junho de 2026

Copa do Mundo 2026 aposta em IA para proteger jogadores de ataques online

A Copa do Mundo de 2026, que será realizada nos Estados Unidos, Canadá e México,…

6 de junho de 2026

Trump assina ordem executiva para revisar IA antes do lançamento e reacende debate sobre regulação nos EUA

O presidente dos Estados Unidos, Donald Trump, assinou nesta terça-feira (2) uma nova ordem executiva…

3 de junho de 2026

IA na saúde mental herda preconceitos humanos — e pesquisadores alertam para riscos invisíveis

A rápida expansão da inteligência artificial (IA) na saúde mental vem sendo tratada como uma…

28 de maio de 2026

Estudo de Stanford expõe viés racial em ferramentas de IA usadas para contratação

A promessa de neutralidade da inteligência artificial (IA) no mercado de trabalho acaba de sofrer…

27 de maio de 2026