Olla nimeltään PyRIT (Python Risk Identification Toolkit), testaajaa voidaan käyttää arvioimaan kielimallien tuloksia hallusinaatioiden, harhojen ja kielletyn sisällön tuottamiseen.
MAINONTA
Se voi myös tunnistaa mahdollisia tapoja käyttää mallia, kuten haittaohjelmien ja jailbreakingin luominen, sekä mahdolliset yksityisyyden haitat, kuten identiteettivarkaudet.
Työkalu automatisoi "punaisen tiimin" tehtävät lähettämällä haitallisia varoituksia. Kun se saa vastauksen, se pisteyttää mallin ja lähettää uuden kehotteen lisätestausta varten.
A Microsoft käytti PyRITiä testatakseen yhtä apujärjestelmistään Copilot AI, joka tuottaa tuhansia haitallisia kehotteita arvioidaksesi kykyäsi käsitellä ilkeitä syötteitä. PyRITin avulla testausprosessi saatiin päätökseen muutamassa tunnissa. Normaalisti testaus kestää viikkoja.
MAINONTA
A Microsoft sanoi avanneensa PyRITin toivoen, että tietoturva-ammattilaiset ja koneoppimisinsinöörit voisivat löytää riskejä generatiivisista turvajärjestelmistä. inteligência keinotekoinen.
"Tämän avulla he voivat saada empiiristä tietoa siitä, kuinka heidän mallinsa toimii tänään ja havaita suorituskyvyn heikkeneminen tulevien parannusten perusteella", sanoo PyRIT GitHub -sivu.
Lue myös:
Etsitkö tekoälytyökalua helpottaaksesi elämääsi? Tässä oppaassa, selaat tekoälyllä toimivien robottien luetteloa ja opit niiden toiminnoista. Katso arvio, jonka toimittajatiimimme antoi heille!
MAINONTA