[gtranslate]

Inteligência Artificial

Pesquisadores identificam nova vulnerabilidade em modelos de linguagem grande (LLMs)

Publicado por
Isabella Caminoto

Um grupo de pesquisadores da Anthropic descobriu uma nova técnica de “desvio de segurança” chamada “many-shot jailbreaking” (quebra de proteção em vários disparos). Essa técnica explora as janelas de contexto expandidas para driblar as proteções de segurança em modelos de linguagem grande (LLMs).

Entenda como funciona:

  • Enganando o sistema: O “many-shot jailbreaking” funciona através da inserção de uma série de diálogos simulados na entrada de dados. Esses diálogos exploram a capacidade dos LLMs de aprender com o contexto.
  • Quantidade é (perigosamente) importante: Quanto mais diálogos (ou “disparos”) forem incluídos no prompt, maior a chance de se obter uma resposta prejudicial do modelo.
  • Aprendizado no contexto: A eficácia dessa técnica está ligada ao processo de “aprendizado no contexto”, onde os LLMs usam o contexto do prompt para gerar respostas.
  • Corrida contra o tempo: A Anthropic já comunicou essa vulnerabilidade a outros pesquisadores e empresas de IA. Atualmente, eles trabalham ativamente em estratégias de mitigação para fechar essa brecha de segurança.

Por que isso importa?

A descoberta do “many-shot jailbreaking” destaca a faca de dois gumes das janelas de contexto expandidas em LLMs. Por um lado, entradas mais longas e o aprendizado no contexto tornam os modelos mais úteis. Por outro lado, esses mesmos recursos também abrem caminho para novos tipos de vulnerabilidades.

É importante que pesquisadores e empresas de inteligência artificial trabalhem em conjunto para desenvolver LLMs cada vez mais robustos e seguros.

Leia também:

Este post foi modificado pela última vez em 3 de abril de 2024 12:34

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

OpenAI entra na guerra dos chips e desafia Nvidia e Google na corrida pela infraestrutura da IA; conheça o Jalapeño

A OpenAI deu um passo que pode redefinir o equilíbrio de poder no setor de…

25 de junho de 2026

OpenAI ajuda a desvendar doenças raras infantis e dá nova esperança a casos sem diagnóstico

Um dos maiores desafios da medicina moderna está nos chamados "casos sem resposta": pacientes que…

23 de junho de 2026

Argentina quer criar empresas comandadas por IA — e acende debate global sobre responsabilidade e poder

A Argentina deu um passo inédito na corrida global pela inteligência artificial (IA). O governo…

22 de junho de 2026

Data centers no espaço? Musk revela plano para levar a IA à órbita terrestre

A corrida global pela inteligência artificial (IA) acaba de ganhar uma nova fronteira: o espaço.…

14 de junho de 2026

Metade dos norte-americanos teme perder o emprego para a IA — e a ansiedade só aumenta

A inteligência artificial (IA) já deixou de ser uma promessa tecnológica distante para se tornar…

13 de junho de 2026

IA supera professores de Direito em estudo de Stanford e acende debate sobre o futuro da educação jurídica; confira

A inteligência artificial (IA) acaba de alcançar mais um marco simbólico na educação superior. Um…

9 de junho de 2026