Microsoft avaa pääsyn kielimallien tietoturvatestaustyökaluun
Kuvatekstit: Curto Uutiset/Bing AI

Microsoft avaa pääsyn kielimallien tietoturvatestaustyökaluun

A Microsoft julkaisee yleisölle sisäisen työkalun, jolla se tunnistaa generatiivisten tekoälymalliensa tietoturva-aukkoja.

Olla nimeltään PyRIT (Python Risk Identification Toolkit), testaajaa voidaan käyttää arvioimaan kielimallien tuloksia hallusinaatioiden, harhojen ja kielletyn sisällön tuottamiseen.

MAINONTA

Se voi myös tunnistaa mahdollisia tapoja käyttää mallia, kuten haittaohjelmien ja jailbreakingin luominen, sekä mahdolliset yksityisyyden haitat, kuten identiteettivarkaudet.

Työkalu automatisoi "punaisen tiimin" tehtävät lähettämällä haitallisia varoituksia. Kun se saa vastauksen, se pisteyttää mallin ja lähettää uuden kehotteen lisätestausta varten.

A Microsoft käytti PyRITiä testatakseen yhtä apujärjestelmistään Copilot AI, joka tuottaa tuhansia haitallisia kehotteita arvioidaksesi kykyäsi käsitellä ilkeitä syötteitä. PyRITin avulla testausprosessi saatiin päätökseen muutamassa tunnissa. Normaalisti testaus kestää viikkoja.

MAINONTA

A Microsoft sanoi avanneensa PyRITin toivoen, että tietoturva-ammattilaiset ja koneoppimisinsinöörit voisivat löytää riskejä generatiivisista turvajärjestelmistä. inteligência keinotekoinen.

"Tämän avulla he voivat saada empiiristä tietoa siitä, kuinka heidän mallinsa toimii tänään ja havaita suorituskyvyn heikkeneminen tulevien parannusten perusteella", sanoo PyRIT GitHub -sivu.

Lue myös:

Etsitkö tekoälytyökalua helpottaaksesi elämääsi? Tässä oppaassa, selaat tekoälyllä toimivien robottien luetteloa ja opit niiden toiminnoista. Katso arvio, jonka toimittajatiimimme antoi heille!

MAINONTA

Selaa ylöspäin