叫 皮瑞特 (Python风险识别工具包),测试器可用于评估语言模型的幻觉、偏见和禁止内容生成的结果。
宣传
它还可以识别使用该模型的可能方式,例如生成恶意软件和越狱,以及潜在的隐私危害(例如身份盗窃)。
该工具通过发送恶意警告来自动执行“红队”任务。当它收到响应时,它会对模型进行评分并发送新的提示以提供进一步的测试。
A Microsoft 使用 PyRIT 测试其辅助系统之一 Copilot AI,生成数千个恶意提示来评估您处理恶意输入的能力。使用 PyRIT,测试过程在几个小时内完成。通常,测试需要aria米周。
宣传
A Microsoft 他表示,他开设 PyRIT 的目的是希望能够帮助安全专业人士和机器学习工程师发现生成安全系统中的风险。 人工智能.
“这使他们能够获得有关模型当前表现的经验数据,并根据未来的改进检测任何性能下降,” PyRIT GitHub 页面。
阅读: