Pesquisadores identificam nova vulnerabilidade em modelos de linguagem grande (LLMs) Anthropic
Créditos da imagem: Reprodução/Anthropic

Pesquisadores identificam nova vulnerabilidade em modelos de linguagem grande (LLMs)

Um grupo de pesquisadores da Anthropic descobriu uma nova técnica de “desvio de segurança” chamada “many-shot jailbreaking” (quebra de proteção em vários disparos). Essa técnica explora as janelas de contexto expandidas para driblar as proteções de segurança em modelos de linguagem grande (LLMs).

PUBLICIDADE

Entenda como funciona:

  • Enganando o sistema: O “many-shot jailbreaking” funciona através da inserção de uma série de diálogos simulados na entrada de dados. Esses diálogos exploram a capacidade dos LLMs de aprender com o contexto.
  • Quantidade é (perigosamente) importante: Quanto mais diálogos (ou “disparos”) forem incluídos no prompt, maior a chance de se obter uma resposta prejudicial do modelo.
  • Aprendizado no contexto: A eficácia dessa técnica está ligada ao processo de “aprendizado no contexto”, onde os LLMs usam o contexto do prompt para gerar respostas.
  • Corrida contra o tempo: A Anthropic já comunicou essa vulnerabilidade a outros pesquisadores e empresas de IA. Atualmente, eles trabalham ativamente em estratégias de mitigação para fechar essa brecha de segurança.

Por que isso importa?

A descoberta do “many-shot jailbreaking” destaca a faca de dois gumes das janelas de contexto expandidas em LLMs. Por um lado, entradas mais longas e o aprendizado no contexto tornam os modelos mais úteis. Por outro lado, esses mesmos recursos também abrem caminho para novos tipos de vulnerabilidades.

É importante que pesquisadores e empresas de inteligência artificial trabalhem em conjunto para desenvolver LLMs cada vez mais robustos e seguros.

Leia também:

* O texto desta matéria foi parcialmente gerado por ferramentas de inteligência artificial, modelos de linguagem de última geração que auxiliam na elaboração, revisão, tradução e resumos de textos. As entradas de texto foram criadas pela equipe do Curto News e as respostas das ferramentas de IA foram utilizadas para aprimorar o conteúdo final.
É importante destacar que as ferramentas de IA são apenas ferramentas, e a responsabilidade final pelo conteúdo publicado é do Curto News. Ao utilizarmos essas ferramentas de forma responsável e ética, nosso objetivo é ampliar as possibilidades da comunicação e democratizar o acesso à informação de qualidade.
🤖

PUBLICIDADE

Procurando uma ferramenta de Inteligência Artificial para facilitar a sua vida? Neste guIA, você navega por um catálogo de robôs movidos a IA e conhece suas funcionalidades. Confira a avaliação que a nossa equipe de jornalistas deu para elas!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima