Microsoft abre el acceso a su herramienta de prueba de seguridad para modelos de lenguaje

llamado PyRIT (Python Risk Identification Toolkit), el probador se puede utilizar para evaluar los resultados de los modelos de lenguaje en busca de alucinaciones, sesgos y generación de contenido prohibido.

Los chatbots de IA también pueden tener "alucinaciones"; entender

Diseño-sin-nombre-13-2-relación-de-aspecto-930-440

El día de San Valentín de este año, el periodista Kevin Roose tuvo una interacción inquietante con el chatbot integrado en el motor de búsqueda impulsado por inteligencia artificial (IA) de Google. Microsoft, Bing. ¡Sepa mas!

También puede identificar posibles formas de utilizar el modelo, como generar malware y hacer jailbreak, así como posibles daños a la privacidad, como el robo de identidad.

La herramienta automatiza las tareas del 'equipo rojo' enviando advertencias maliciosas. Cuando recibe una respuesta, califica el modelo y envía un nuevo mensaje para realizar más pruebas.

A Microsoft utilizó PyRIT para probar uno de sus sistemas asistentes Copilot AI, generando miles de mensajes maliciosos para evaluar su capacidad para lidiar con entradas nefastas. Utilizando PyRIT, el proceso de prueba se completó en cuestión de horas. Normalmente, las pruebas tomanariam semanas.

Microsoft lanza Copilot Pro con nuevas funciones de IA; sepa mas

A Microsoft presenta el Copilot Pro, una suscripción premium que mejora la experiencia de juego Copilot con funciones avanzadas.

A Microsoft dijo que abrió PyRIT con la esperanza de capacitar a los profesionales de la seguridad y a los ingenieros de aprendizaje automático para encontrar riesgos en los sistemas de seguridad generativos. inteligencia artificial.

"Esto les permite tener datos empíricos sobre el rendimiento actual de su modelo y detectar cualquier degradación del rendimiento en función de mejoras futuras", dice el Página de PyRIT GitHub.

Lea también:

Humane ofrece meses gratis de AI Pin para compensar retrasos