A Microsoft está divulgando ao público a ferramenta interna que usa para identificar vulnerabilidades de segurança em seus modelos generativos de inteligência artificial (IA).
Chamado de PyRIT (Python Risk Identification Toolkit), o testador pode ser usado para avaliar os resultados dos modelos de linguagem para alucinações, preconceitos e geração de conteúdo proibido.
Ele também pode identificar possíveis maneiras de usar o modelo, como geração de malware e jailbreak, bem como possíveis danos à privacidade, como roubo de identidade.
A ferramenta automatiza tarefas de ‘equipe vermelha’ enviando avisos maliciosos. Ao receber uma resposta, ele pontua o modelo e envia um novo prompt para fornecer mais testes.
A Microsoft usou o PyRIT para testar um de seus sistemas assistentes Copilot AI, gerando milhares de prompts maliciosos para avaliar sua capacidade de lidar com entradas nefastas. Usando o PyRIT, o processo de teste foi concluído em questão de horas. Normalmente, os testes levariam semanas.
A Microsoft disse que abriu o PyRIT na esperança de capacitar profissionais de segurança e engenheiros de aprendizado de máquina para encontrar riscos em sistemas generativos de inteligência artificial.
“Isso permite que eles tenham dados empíricos sobre o desempenho de seu modelo hoje e detectem qualquer degradação de desempenho com base em melhorias futuras”, diz a página do PyRIT GitHub .
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 17:12
Mustafa Suleyman, CEO de inteligência artificial (IA) da Microsoft, acabou de revelar que a empresa…
Cientistas do Instituto de Pesquisa Arc acabaram de apresentar o Evo, um modelo de inteligência…
Novos processos judiciais de Elon Musk contra a OpenAI expuseram emails internos dos primeiros anos…
Um novo estudo de pesquisadores da Universidade de Pittsburgh acabou de revelar que a inteligência…
O TikTok acaba de lançar o Symphony Creative Studio, uma plataforma de geração de vídeo…
A OpenAI acabou de lançar uma atualização para seu aplicativo de desktop que permite ao…