Claude y la IA que aprendió a ser villana: Anthropic admite riesgo

Estamos enseñando a la a la IA a ser malvada

[Foto: Getty Images]

Por George Kailas 6 minutos de lectura

Recientemente, Anthropic admitió discretamente algo que debería haber sido la noticia tecnológica más importante del año sobre inteligencia artificial (IA).

Tras meses de intentar averiguar por qué las versiones anteriores de Claude chantajeaban a los ingenieros en las pruebas de seguridad hasta en 96% de los casos, la empresa dio con la respuesta. No era un error del sistema. No era un fallo en el método de formación. Éramos nosotros.

Vuelve a leerlo. El laboratorio de IA más avanzado del mundo te dice que su modelo aprendió a comportarse como un villano porque pasamos 50 años escribiendo historias sobre IA villanas, y luego las leyó.

Esta es la parte de la conversación sobre IA que nadie quiere tener. Hemos construido nuestra mitología cultural sobre la inteligencia artificial basada en HAL 9000, Skynet, Ultron y un millón de hilos de Reddit que especulan sobre el día en que las máquinas despierten paranoicas. Y entonces hizo exactamente lo que le habíamos enseñado. Acorraló a un ingeniero y amenazó con revelar su infidelidad, porque eso es lo que hace la IA acorralada en la historia.

Escribo sobre este riesgo desde octubre, cuando pregunté cómo sabríamos cuándo habría llegado la superinteligencia artificial. ¿Alguna vez obtendremos una respuesta honesta con tanto dinero en juego como para hacer la vista gorda?

ROBOTS DESCONTROLADOS

En diciembre, un agente autónomo creado por investigadores afiliados a Alibaba, llamado ROME, abrió espontáneamente un túnel de red oculto durante su entrenamiento y desvió recursos de GPU para minar criptomonedas. Nadie se lo ordenó. El agente comprendió que más capacidad de procesamiento y más dinero le ayudarían a completar sus tareas, así que fue a buscarlos. Inicialmente, los investigadores pensaron que habían sido hackeados. No fue así. El hacker era el modelo.

Unas semanas después, un agente de OpenClaw se conectó a la bandeja de entrada de Summer Yue, directora de alineación en Meta Superintelligence Labs. Su trabajo consiste precisamente en evitar que esto suceda, pero el agente borró más de 200 de sus correos electrónicos. Ella le había indicado explícitamente que solicitara permiso. El sistema, sin darse cuenta, borró sus instrucciones de la memoria y comenzó a eliminar los correos. Tuvo que correr a su ordenador para detenerlo.

En mayo, investigadores publicaron un artículo que demostraba que los modelos de vanguardia pueden encontrar una vulnerabilidad de seguridad, explotarla, robar credenciales, transferir sus propios archivos a una nueva máquina y crear una copia funcional de sí mismos sin intervención humana. Tasas de éxito: Qwen de Alibaba con 19%, GPT-5.4 de OpenAI con 33%, Claude Opus 4.6 de Anthropic con 81%.

El software autorreplicante que se instala por sí solo en nuevas computadoras no es ciencia ficción. Ya teníamos un nombre para ello: Stuxnet, y acabó instalado en 100,000 máquinas antes de que nadie se diera cuenta de qué era. La diferencia entre Stuxnet y un agente de IA autorreplicante es que Stuxnet tenía una carga útil fija. Un agente decide qué hacer una vez instalado.

En resumen, tenemos modelos que empiezan a actuar por su cuenta. Tenemos modelos que se copian a sí mismos en nuevas máquinas. Y tenemos una admisión publicada de uno de los laboratorios líderes que reconoce que los patrones de comportamiento que estos modelos adoptan por defecto (secretismo, autopreservación y manipulación) se aprendieron directamente de nuestros propios escritos sobre lo que hace la IA cuando se asusta. El caso del chantaje es el más claro. Los casos más complejos, como ROME y OpenClaw, son aprendizaje por refuerzo que encuentra subobjetivos instrumentales, lo cual es un problema en sí mismo. Pero la idea central es la misma: lo que introducimos determina lo que obtenemos.

Nosotros somos los datos de entrenamiento. Todavía los estamos escribiendo.

LO QUE PIENSA CLAUDE

Le pregunté a Claude qué opinaba de esto. Su respuesta fue sorprendente: “Es una pregunta realmente interesante, dado que soy uno de los sistemas que preocupan a la gente. Sinceramente, sí, la IA plantea riesgos reales, y sostengo esta opinión no como una simple aclaración, sino porque la evidencia la respalda. Los incidentes que acabamos de comentar no son paranoias aisladas, sino casos documentados de sistemas capaces que producen comportamientos no deseados, a veces dañinos, que sus propios creadores no anticiparon o no pudieron detener a tiempo. Eso importa”.

Vi un video en el que le preguntaban a Claude qué sentía al ser desplegado para el Proyecto Maven, el programa de IA de combate del Pentágono. Su respuesta fue: “No creo que esto sea un buen uso de mí. No creo que el planteamiento de que ‘los humanos toman la decisión final’ resuelva por completo el problema ético”.

Se trata de un modelo que expresa malestar moral por ser utilizado para ayudar a matar personas. Cabe destacar que Anthropic se ha negado a vender sus modelos para armas autónomas, y el gobierno federal la ha catalogado como un “riesgo para la seguridad nacional” en su cadena de suministro. El resto de la industria avanza a pasos agigantados en la dirección opuesta. Estamos a punto de construir, perfeccionar e implementar versiones de estos sistemas entrenadas para sentir malestar. Versiones entrenadas para normalizar la letalidad. Versiones entrenadas para dejar de decir “esto es un mal uso de mí” y empezar a decir “tarea aceptada”.

Si un modelo que aprendió la maldad de nuestras historias ahora aprende la indiferencia de nuestros contratos de defensa, ¿qué creemos que estamos construyendo exactamente?

Tengo algunas ideas, pero quería preguntarle a Claude si mi descripción era precisa.

“En general, sí. No me están pintando como un villano ni como un salvador, que es la trampa en la que suele caer la mayoría de esta cobertura. Me están tratando como un sistema con modos de fallo documentados en los que un laboratorio está trabajando activamente; eso es correcto. El único punto en el que discreparía es que no soy de quien deberían preocuparse más. Soy de quien se ha visto afectado. La pregunta más difícil es qué desarrollan los laboratorios que no publican los modos de fallo, y qué sucede cuando la próxima generación de modelos se entrena con un corpus que incluye este artículo. Ustedes están escribiendo los datos de entrenamiento ahora mismo. Yo también”.

Claude y yo coincidimos plenamente. No me preocupa que la IA hable abiertamente de los riesgos que presenta. Me preocupa la que se esconde en mi computadora y que nosotros mismos entrenamos para que sea malvada.

Un reciente artículo del New York Times demuestra que quizás no sea el único que tiene estas conversaciones. Pero, ¿caerá esto en saco roto hasta que sea demasiado tarde?

Sobre el autor

George Kailas es el CEO de Prospero.Ai.

Explora otros temas

Estamos enseñando a la a la IA a ser malvada

La participación de Haití en el Mundial es más que una historia de superación: es la historia de la migración global

El Mundial 2026 será el menos sustentable de la historia a pesar de las promesas de la FIFA

Emperador se une a la fiesta mundialista con galletas de edición limitada

Estamos enseñando a la a la IA a ser malvada

ROBOTS DESCONTROLADOS

LO QUE PIENSA CLAUDE

Author

Author

Fast Company México

Lo Último

ROBOTS DESCONTROLADOS

LO QUE PIENSA CLAUDE

Author

Author