Microsoft öffnet den Zugriff auf sein Sicherheitstesttool für Sprachmodelle

namens PyrIT (Python Risk Identification Toolkit) kann der Tester verwendet werden, um die Ergebnisse von Sprachmodellen auf Halluzinationen, Vorurteile und verbotene Inhaltsgenerierung auszuwerten.

KI-Chatbots können auch „Halluzinationen“ haben; verstehen

Namenloses Design-13-2-Seitenverhältnis-930-440

Am diesjährigen Valentinstag hatte der Reporter Kevin Roose eine beunruhigende Interaktion mit dem Chatbot, der in die auf künstlicher Intelligenz (KI) basierende Suchmaschine von Google integriert ist. Microsoft, Bing. Mehr wissen!

Es kann auch mögliche Verwendungszwecke des Modells identifizieren, beispielsweise die Generierung von Malware und Jailbreaking, sowie potenzielle Datenschutzschäden wie Identitätsdiebstahl.

Das Tool automatisiert „Red-Team“-Aufgaben, indem es böswillige Warnungen sendet. Wenn es eine Antwort erhält, bewertet es das Modell und sendet eine neue Aufforderung, um weitere Tests durchzuführen.

A Microsoft nutzte PyRIT, um eines seiner Assistenzsysteme zu testen Copilot AI, wodurch Tausende bösartiger Eingabeaufforderungen generiert werden, um Ihre Fähigkeit zu beurteilen, mit schändlichen Eingaben umzugehen. Mit PyRIT konnte der Testprozess innerhalb weniger Stunden abgeschlossen werden. Normalerweise dauern Testsariam Wochen.

Microsoft Lanze Copilot Pro mit neuen KI-Funktionen; mehr wissen

A Microsoft präsentiert die Copilot Pro, ein Premium-Abonnement, das das Spielerlebnis verbessert Copilot mit erweiterten Funktionen.

A Microsoft sagte, er habe PyRIT in der Hoffnung eröffnet, Sicherheitsexperten und Ingenieure für maschinelles Lernen in die Lage zu versetzen, Risiken in generativen Sicherheitssystemen zu erkennen. künstliche.

„Dadurch können sie empirische Daten über die heutige Leistung ihres Modells erhalten und Leistungseinbußen anhand zukünftiger Verbesserungen erkennen“, sagt der PyrIT-GitHub-Seite.

Lesen Sie auch:

Humane bietet AI Pin monatelang kostenlos an, um Verzögerungen auszugleichen