Microsoft abre acesso à sua ferramenta de testes de segurança para modelos de linguagem

Chamado de PyRIT (Python Risk Identification Toolkit), o testador pode ser usado para avaliar os resultados dos modelos de linguagem para alucinações, preconceitos e geração de conteúdo proibido.

Chatbots de IA também podem ter ‘alucinações’; entenda

Design-sem-nome-13-2-aspect-ratio-930-440

No Dia dos Namorados deste ano, o repórter Kevin Roose teve uma interação perturbadora com o chatbot integrado no motor de busca alimentado por inteligência artificial (IA) da Microsoft, o Bing. Saiba mais!

Ele também pode identificar possíveis maneiras de usar o modelo, como geração de malware e jailbreak, bem como possíveis danos à privacidade, como roubo de identidade.

A ferramenta automatiza tarefas de ‘equipe vermelha’ enviando avisos maliciosos. Ao receber uma resposta, ele pontua o modelo e envia um novo prompt para fornecer mais testes.

A Microsoft usou o PyRIT para testar um de seus sistemas assistentes Copilot AI, gerando milhares de prompts maliciosos para avaliar sua capacidade de lidar com entradas nefastas. Usando o PyRIT, o processo de teste foi concluído em questão de horas. Normalmente, os testes levariam semanas.

Microsoft lança Copilot Pro com novos recursos de IA; saiba mais

A Microsoft apresenta o Copilot Pro, uma subscrição premium que aprimora a experiência do Copilot com funcionalidades avançadas.

A Microsoft disse que abriu o PyRIT na esperança de capacitar profissionais de segurança e engenheiros de aprendizado de máquina para encontrar riscos em sistemas generativos de inteligência artificial.

“Isso permite que eles tenham dados empíricos sobre o desempenho de seu modelo hoje e detectem qualquer degradação de desempenho com base em melhorias futuras”, diz a página do PyRIT GitHub .

Leia também:

Humane oferece meses grátis de AI Pin para compensar atraso