Microsoft öffnet den Zugriff auf sein Sicherheitstesttool für Sprachmodelle
Bildnachweis: Curto Nachrichten/Bing AI

Microsoft öffnet den Zugriff auf sein Sicherheitstesttool für Sprachmodelle

A Microsoft stellt der Öffentlichkeit das interne Tool zur Verfügung, mit dem es Sicherheitslücken in seinen Modellen der generativen künstlichen Intelligenz (KI) identifiziert.

namens PyrIT (Python Risk Identification Toolkit) kann der Tester verwendet werden, um die Ergebnisse von Sprachmodellen auf Halluzinationen, Vorurteile und verbotene Inhaltsgenerierung auszuwerten.

WERBUNG

Es kann auch mögliche Verwendungszwecke des Modells identifizieren, beispielsweise die Generierung von Malware und Jailbreaking, sowie potenzielle Datenschutzschäden wie Identitätsdiebstahl.

Das Tool automatisiert „Red-Team“-Aufgaben, indem es böswillige Warnungen sendet. Wenn es eine Antwort erhält, bewertet es das Modell und sendet eine neue Aufforderung, um weitere Tests durchzuführen.

A Microsoft nutzte PyRIT, um eines seiner Assistenzsysteme zu testen Copilot AI, wodurch Tausende bösartiger Eingabeaufforderungen generiert werden, um Ihre Fähigkeit zu beurteilen, mit schändlichen Eingaben umzugehen. Mit PyRIT konnte der Testprozess innerhalb weniger Stunden abgeschlossen werden. Normalerweise dauern Testsariam Wochen.

WERBUNG

A Microsoft sagte, er habe PyRIT in der Hoffnung eröffnet, Sicherheitsexperten und Ingenieure für maschinelles Lernen in die Lage zu versetzen, Risiken in generativen Sicherheitssystemen zu erkennen. künstliche.

„Dadurch können sie empirische Daten über die heutige Leistung ihres Modells erhalten und Leistungseinbußen anhand zukünftiger Verbesserungen erkennen“, sagt der PyrIT-GitHub-Seite.

Lesen Sie auch:

hochscrollen