Anthropic desafia hackers a invadirem sua IA

Publicado por

Isabella Caminoto

4 de fevereiro de 2025 16:00

A Anthropic acaba de apresentar os “Classificadores Constitucionais” (Constitutional Classifiers), um novo sistema de segurança de inteligência artificial (IA) com resultados promissores, e está convidando o público a ajudar a testá-lo após sobreviver a mais de 3.000 horas de tentativas frustradas de bug bounty.

Os detalhes

O sistema usa IA para gerar dados de treinamento em vários idiomas e estilos de escrita, ajudando-o a detectar diversas tentativas de “jailbreak”.
Em testes contra 10.000 tentativas avançadas de “jailbreak”, ele bloqueou 95,6% dos ataques, em comparação com apenas 14% para o Claude desprotegido.
183 caçadores de bugs passaram mais de 3.000 horas tentando invadir o sistema por uma recompensa de US$ 15.000, mas nenhum conseguiu realizar um “jailbreak” completo.
A Anthropic está convidando o público a testar o sistema até 10 de fevereiro.

Por que isso é importante

À medida que os modelos de IA se tornam cada vez mais poderosos, é crucial evitar que sejam manipulados para causar danos. Enquanto a maioria das empresas se baseia principalmente no treinamento para a segurança da IA, a nova abordagem da Anthropic de usar a IA para detectar “jailbreaks” é promissora, e abri-la para testes públicos demonstra seu compromisso em tornar a IA mais segura.

Leia também:

SoftBank e OpenAI anunciam a “Cristal Intelligence”

Este post foi modificado pela última vez em 4 de fevereiro de 2025 12:29

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo OmniHuman-1: IA da ByteDance gera deepfakes incrivelmente realistas »

Anterior « UE investe US$ 56 milhões para construir rival de IA de código aberto

Publicado por

Isabella Caminoto

Tags: AnthropicConstitutional Classifiershackersinteligência artificial

4 de fevereiro de 2025 16:00

Posts recentes

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Inteligência Artificial

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Inteligência Artificial

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

Anthropic desafia hackers a invadirem sua IA

Os detalhes

Por que isso é importante

Posts relacionados

Posts recentes

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre