Microsoft abre el acceso a su herramienta de prueba de seguridad para modelos de lenguaje
Créditos de la imagen: Curto Noticias/Bing AI

Microsoft abre el acceso a su herramienta de prueba de seguridad para modelos de lenguaje

A Microsoft está lanzando al público la herramienta interna que utiliza para identificar vulnerabilidades de seguridad en sus modelos de inteligencia artificial (IA) generativa.

llamado PyRIT (Python Risk Identification Toolkit), el probador se puede utilizar para evaluar los resultados de los modelos de lenguaje en busca de alucinaciones, sesgos y generación de contenido prohibido.

PUBLICIDAD

También puede identificar posibles formas de utilizar el modelo, como generar malware y hacer jailbreak, así como posibles daños a la privacidad, como el robo de identidad.

La herramienta automatiza las tareas del 'equipo rojo' enviando advertencias maliciosas. Cuando recibe una respuesta, califica el modelo y envía un nuevo mensaje para realizar más pruebas.

A Microsoft utilizó PyRIT para probar uno de sus sistemas asistentes Copilot AI, generando miles de mensajes maliciosos para evaluar su capacidad para lidiar con entradas nefastas. Utilizando PyRIT, el proceso de prueba se completó en cuestión de horas. Normalmente, las pruebas tomanariam semanas.

PUBLICIDAD

A Microsoft dijo que abrió PyRIT con la esperanza de capacitar a los profesionales de la seguridad y a los ingenieros de aprendizaje automático para encontrar riesgos en los sistemas de seguridad generativos. inteligencia artificial.

"Esto les permite tener datos empíricos sobre el rendimiento actual de su modelo y detectar cualquier degradación del rendimiento en función de mejoras futuras", dice el Página de PyRIT GitHub.

Lea también:

desplazarse hacia arriba