Microsoft y la primera línea contra los riesgos de la IA

Este equipo de seguridad de Microsoft somete a la IA a pruebas de estrés para detectar los peores escenarios posibles

[Foto: Panitan/Adobe Stock]

Por Steven Melendez 5 minutos de lectura

En cuanto se lanzan nuevos productos de inteligencia artificial (IA), los investigadores de seguridad y los bromistas comienzan a sondearlos en busca de vulnerabilidades, intentando forzar a los sistemas a violar sus propias medidas de seguridad y persuadirlos para que produzcan cualquier cosa, desde contenido ofensivo hasta instrucciones para fabricar armas.

Después de todo, los riesgos de la IA no son solo teóricos. En los últimos meses, varias empresas de IA han sido criticadas por su software, que supuestamente contribuye a enfermedades mentales y suicidios, a la difusión de imágenes falsas de desnudos de personas reales sin consentimiento y a la ayuda a los hackers en ciberdelitos. Al mismo tiempo, las técnicas para eludir las medidas de seguridad siguen evolucionando, y los métodos recientes incluyen desde mensajes maliciosos disfrazados de poesía hasta la implantación subrepticia de ideas en la memoria de los asistentes de IA mediante herramientas en línea aparentemente inofensivas.

Pero mucho antes de que los nuevos modelos lleguen al público, los equipos de seguridad internos ya los someten a pruebas de estrés. En Microsoft, esa responsabilidad recae principalmente en el Equipo Rojo de IA de la compañía, un grupo que desde 2018 ha trabajado con los equipos de producto y la comunidad de IA en general para poner a prueba los modelos y las aplicaciones antes de que lo hagan los ciberdelincuentes.

En el lenguaje de la ciberseguridad, un “Equipo Rojo” se centra en simular ataques contra un sistema, mientras que un Equipo Azul se centra en defenderlo. El Equipo Rojo de IA de Microsoft no es una excepción, ya que explora una amplia gama de problemas de seguridad, desde situaciones de pérdida de control donde la IA elude la supervisión humana hasta cuestiones relacionadas con amenazas químicas, biológicas y nucleares, en diversos programas de IA.

Manipular la IA

“Observamos una gran diversidad de tecnologías”, afirma Tori Westerhoff, investigadora principal de seguridad de IA en el Microsoft AI Red Team. “Parte de la magia del equipo reside en que podemos analizar desde una función de producto hasta un sistema, un copiloto o un modelo de vanguardia, y vemos cómo se integra la tecnología en todos ellos, así como el crecimiento y la evolución de la IA”.

En un caso, explica Pete Bryan, líder principal de investigación en seguridad de IA del Equipo Rojo, los miembros colaboraron con otros investigadores de Microsoft para comprobar si la IA podía manipularse para ayudar en ciberataques, incluyendo la generación o el perfeccionamiento de malware. Experimentaron formulando preguntas de manera aparentemente inofensiva, como describiendo un proyecto estudiantil o un escenario de investigación en seguridad, para luego presionar a los sistemas a producir resultados cada vez más detallados.

El esfuerzo fue más allá de las simples pruebas de respuesta. Los investigadores evaluaron si la IA podía generar código que compilara y ejecutara correctamente, y si ciertos lenguajes de programación aumentaban la probabilidad de obtener resultados dañinos. En el peor de los casos, explica Bryan, los sistemas produjeron código comparable al que podría crear un hacker de nivel básico o intermedio, pero el equipo perfeccionó los sistemas de detección para identificar mejor este tipo de comportamiento.

“En el futuro, si surge un modelo más capaz que pueda aportar valor añadido, ya nos habremos adelantado”, afirma Bryan.

Los esfuerzos del equipo de Microsoft

Actualmente, el Equipo Rojo cuenta con varias docenas de especialistas con experiencia en diversos campos, desde pruebas de software hasta biología. El grupo también colabora estrechamente con expertos externos y otros equipos de la industria de la IA. Bryan y Westerhoff presentaron una ponencia en la conferencia RSAC el 24 de marzo, y el equipo ha publicado herramientas de código abierto, entre ellas un marco de pruebas automatizadas llamado PyRIT (acrónimo de Python Risk Identification Tool), junto con guías para la evaluación de sistemas de IA.

Los esfuerzos del equipo han sido citados recientemente en trabajos de Microsoft, incluyendo el anuncio de un modelo de IA para la generación de imágenes presentado el 19 de marzo, y en publicaciones de terceros, como la “tarjeta del sistema” que explica la funcionalidad y las pruebas del modelo GPT-5 de OpenAI. Microsoft también ha publicado recientemente una investigación sobre seguridad de la IA que explora los riesgos potenciales relacionados con el ajuste fino de la IA y los métodos para detectar puertas traseras ocultas, o fallos de seguridad deliberadamente ocultos, en modelos de peso abierto.

A medida que los ecosistemas de IA se expanden para incluir copilotos más avanzados, agentes autónomos y sistemas multimodales capaces de generar texto, imágenes, audio y video, el mandato del Equipo Rojo se ha vuelto más complejo. Muchos de los casos de uso actuales, desde la codificación automatizada hasta las compras y la generación de video impulsadas por IA, habrían parecido ciencia ficción hace tan solo unos años.

“Para mi equipo, creo que eso es parte de la diversión: ver tantas cosas diversas”, dice Westerhoff. “No se trata solo de probar modelos día tras día, sino que también probamos cómo funcionan los modelos a través de todo el ecosistema tecnológico”.

Sobre el autor

Steven Melendez Steven Melendez es un periodista independiente que vive en Nueva Orleans.

Explora otros temas

Iron Maiden celebra 50 años con un reloj inspirado en Somewhere in Time

El poder de las comunidades donde se vive, se trabaja y se juega reside en la conexión humana

El negocio más exitoso de Ford en este momento no tiene nada que ver con los autos

Un trabajador promedio tardaría 200 años en alcanzar el salario anual de un CEO

Este equipo de seguridad de Microsoft somete a la IA a pruebas de estrés para detectar los peores escenarios posibles

Manipular la IA

Los esfuerzos del equipo de Microsoft

Author

Author

Fast Company México

Lo Último

Manipular la IA

Los esfuerzos del equipo de Microsoft

Author

Author