Anthropic desafia hackers a invadirem sua IA

A Anthropic acaba de apresentar os “Classificadores Constitucionais” (Constitutional Classifiers), um novo sistema de segurança de inteligência artificial (IA) com resultados promissores, e está convidando o público a ajudar a testá-lo após sobreviver a mais de 3.000 horas de tentativas frustradas de bug bounty.

Os detalhes

O sistema usa IA para gerar dados de treinamento em vários idiomas e estilos de escrita, ajudando-o a detectar diversas tentativas de “jailbreak”.
Em testes contra 10.000 tentativas avançadas de “jailbreak”, ele bloqueou 95,6% dos ataques, em comparação com apenas 14% para o Claude desprotegido.
183 caçadores de bugs passaram mais de 3.000 horas tentando invadir o sistema por uma recompensa de US$ 15.000, mas nenhum conseguiu realizar um “jailbreak” completo.
A Anthropic está convidando o público a testar o sistema até 10 de fevereiro.

Por que isso é importante

À medida que os modelos de IA se tornam cada vez mais poderosos, é crucial evitar que sejam manipulados para causar danos. Enquanto a maioria das empresas se baseia principalmente no treinamento para a segurança da IA, a nova abordagem da Anthropic de usar a IA para detectar “jailbreaks” é promissora, e abri-la para testes públicos demonstra seu compromisso em tornar a IA mais segura.

Leia também:

SoftBank e OpenAI anunciam a “Cristal Intelligence”