Anthropic identifica riscos de sabotagem em modelos de IA avançados

Publicado por

Isabella Caminoto

22 de outubro de 2024 09:00

A Anthropic acaba de publicar um conjunto de novas avaliações destinadas a detectar potenciais capacidades de sabotagem em sistemas avançados de inteligência artificial (IA), focando em riscos que podem surgir se os modelos tentarem subverter a supervisão humana ou a tomada de decisões.

Os detalhes

Quatro novas avaliações foram desenvolvidas: sabotagem de decisão humana, sabotagem de código, sabotagem (ocultando capacidades) e minando a supervisão.
As avaliações usam cenários simulados para testar a capacidade dos modelos de manipular e enganar humanos, inserir bugs no código e minar sistemas de monitoramento.
Os testes foram realizados nos modelos Claude 3 Opus e Claude 3.5 Sonnet, que não sinalizaram resultados preocupantes, mas mostraram a capacidade de sabotagem.
A Anthropic está abrindo o código das avaliações e disse que serão necessárias medidas de mitigação mais fortes contra sabotagem à medida que a IA continuar a melhorar.

Por que isso importa

A pesquisa da Anthropic mostra que a IA não é muito boa em sabotar humanos… ainda. Mas as capacidades estão lá em alguma capacidade – e se a aceleração do modelo continuar como muitos pensam que será, é apenas uma questão de tempo antes que essas ameaças sejam reais e importantes de mitigar.

Leia também:

Meta revela novos modelos e ferramentas de IA

Este post foi modificado pela última vez em 21 de outubro de 2024 15:52

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Próximo Microsoft revela agentes autônomos do Copilot »

Anterior « Bill Gates revela as 3 profissões que sobreviverão à inteligência artificial; confira

Publicado por

Isabella Caminoto

Tags: AnthropicIA generativainteligência artificialsabotagem

22 de outubro de 2024 09:00

Posts recentes

Inteligência Artificial

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

A inteligência artificial (IA) já começa a transformar hospitais, consultórios e sistemas de saúde, assumindo…

10 de julho de 2026

Inteligência Artificial

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

A OpenAI apresentou oficialmente o GPT-5.6, sua mais nova geração de modelos de inteligência artificial…

29 de junho de 2026

Inteligência Artificial

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

Inteligência Artificial

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Inteligência Artificial

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Inteligência Artificial

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

Anthropic identifica riscos de sabotagem em modelos de IA avançados

Os detalhes

Por que isso importa

Posts relacionados

Posts recentes

IA promete eficiência na saúde, mas Harvard alerta para risco de desumanização do cuidado

GPT-5.6: OpenAI apresenta sua IA mais poderosa, mas restringe acesso a poucos parceiros

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre