Microsoft membuka akses kepada alat ujian keselamatannya untuk model bahasa
Kredit imej: Curto Berita/Bing AI

Microsoft membuka akses kepada alat ujian keselamatannya untuk model bahasa

A Microsoft sedang mengeluarkan kepada umum alat dalaman yang digunakannya untuk mengenal pasti kelemahan keselamatan dalam model kecerdasan buatan (AI) generatifnya.

dipanggil PyRIT (Python Risk Identification Toolkit), penguji boleh digunakan untuk menilai keputusan model bahasa untuk halusinasi, berat sebelah dan penjanaan kandungan yang dilarang.

PUBLISITI

Ia juga boleh mengenal pasti cara yang mungkin untuk menggunakan model, seperti menjana perisian hasad dan pemecahan jail, serta potensi bahaya privasi seperti kecurian identiti.

Alat ini mengautomasikan tugas 'pasukan merah' dengan menghantar amaran berniat jahat. Apabila ia menerima respons, ia menjaringkan model dan menghantar gesaan baharu untuk menyediakan ujian lanjut.

A Microsoft menggunakan PyRIT untuk menguji salah satu sistem pembantunya Copilot AI, menjana beribu-ribu gesaan berniat jahat untuk menilai keupayaan anda menangani input jahat. Menggunakan PyRIT, proses ujian selesai dalam masa beberapa jam. Biasanya, ujian akan mengambil masa berminggu-minggu.

PUBLISITI

A Microsoft berkata beliau membuka PyRIT dengan harapan dapat memperkasakan profesional keselamatan dan jurutera pembelajaran mesin untuk mencari risiko dalam sistem keselamatan generatif. inteligência buatan.

"Ini membolehkan mereka mempunyai data empirikal tentang prestasi model mereka hari ini dan mengesan sebarang kemerosotan prestasi berdasarkan penambahbaikan pada masa hadapan," kata Halaman PyRIT GitHub.

Baca juga:

Mencari alat Kepintaran Buatan untuk menjadikan hidup anda lebih mudah? Dalam panduan ini, anda menyemak imbas katalog robot berkuasa AI dan belajar tentang fungsinya. Lihat penilaian yang diberikan oleh pasukan wartawan kami!

PUBLISITI

Tatal ke atas