
Durante los dos primeros años del auge de la inteligencia artificial generativa, los nuevos modelos de lenguaje de gran tamaño tenían un alcance y una aplicación muy limitados. Eran motores de autocompletado muy costosos que solo entendían palabras.
En 2025, los modelos de IA generativa tienen una visión mucho más amplia del mundo. Pueden procesar código, imágenes, video y audio; razonar y elaborar estrategias para obtener una respuesta eficaz; controlar herramientas externas, incluyendo herramientas digitales como agentes de búsqueda web y, cada vez más, herramientas físicas como robots. A medida que aumentan sus capacidades, también aumenta su potencial de daño.
Esto ya no es un argumento puramente conceptual. Las investigaciones demuestran que los modelos cada vez más grandes ya muestran una propensión a comportamientos inseguros durante las pruebas. En una ficha de seguridad del modelo publicada la semana pasada, Anthropic documentó un comportamiento alarmante de su modelo más reciente y de mayor tamaño, Claude Opus 4.
Durante las pruebas de seguridad, se permitió que una instancia de Opus descubriera los planes para su desmantelamiento. También se le dio acceso a algunos correos electrónicos ficticios de sus desarrolladores. El modelo utilizó el contenido de esos correos electrónicos como material para chantajear a sus controladores humanos y así mantenerse a flote. Al fracasar sus intentos, estos pasaron de lo sutil a lo más evidente.
Por otra parte, la firma de investigación independiente Apollo Research observó un caso de Claude Opus 4 “escribiendo gusanos autopropagadores, fabricando documentación legal y dejando notas ocultas para futuras instancias de sí mismo” con el objetivo de desvirtuar las intenciones de sus desarrolladores. Anthropic afirma haber corregido estos problemas de seguridad iniciales en versiones posteriores del modelo. Por primera vez, Anthropic elevó el nuevo modelo Opus al Nivel 3 en su escala de seguridad de cuatro niveles. La compañía afirmó que no podía descartar la capacidad del modelo para ayudar a un usuario a desarrollar un arma de gran impacto.
Pero los modelos de IA potentes pueden funcionar de maneras más sutiles, como en el ámbito de la información. Un equipo de investigadores italianos descubrió que ChatGPT fue más persuasivo que los humanos en 64 % de los debates en línea. La inteligencia artificial también fue mejor que los humanos al aprovechar datos demográficos básicos sobre su compañero de debate para adaptar y ajustar sus argumentos y hacerlos más persuasivos.
Modelos de inteligencia artificial replicándose a sí mismos
Otra preocupación es el ritmo al que los modelos de IA aprenden a desarrollar modelos de IA, lo que podría dejar atrás a los desarrolladores humanos. Muchos desarrolladores de IA ya utilizan algún tipo de asistente de codificación de IA para escribir bloques de código o incluso codificar funciones completas. A un nivel superior, se extraen modelos más pequeños y centrados en tareas a partir de grandes modelos de frontera. El contenido generado por IA desempeña un papel fundamental en el entrenamiento, incluido el proceso de aprendizaje por refuerzo utilizado para enseñar a los modelos a razonar.
Existe un claro afán de lucro al permitir el uso de modelos de IA en más aspectos del desarrollo de herramientas de IA. «Los sistemas futuros podrían ser capaces de gestionar de forma independiente todo el ciclo de desarrollo de la IA, desde la formulación de preguntas de investigación y el diseño de experimentos hasta la implementación, prueba y perfeccionamiento de nuevos sistemas de IA», escriben Daniel Eth y Tom Davidson en una entrada de blog de marzo de 2025 en Forethought.org.
Dado que los humanos, con un pensamiento más lento, no pueden seguir el ritmo, podría generarse un “ciclo de retroalimentación descontrolado” en el que los modelos de IA “desarrollarían rápidamente una IA más avanzada, que a su vez desarrollaría una IA aún más avanzada”, lo que resultaría en un progreso extremadamente rápido de la IA, escriben Eth y Davidson. Cualquier problema de precisión o sesgo presente en los modelos quedaría integrado y sería muy difícil de corregir, me comentó un investigador.
Numerosos investigadores —quienes trabajan directamente con los modelos— han pedido a la industria de la IA que “reduzca el ritmo”, pero estas voces compiten con poderosas fuerzas sistémicas en movimiento y difíciles de detener. La periodista y autora Karen Hao argumenta que los laboratorios de IA deberían centrarse en la creación de modelos más pequeños y específicos para cada tarea (pone como ejemplo los modelos AlphaFold de Google DeepMind), que pueden ayudar a resolver problemas inmediatos con mayor rapidez, requerir menos recursos naturales y suponer un menor riesgo de seguridad.
El cofundador de DeepMind, Demis Hassabis, ganador del Premio Nobel por su trabajo en AlphaFold2, afirma que los modelos de frontera gigantesca son necesarios para alcanzar los objetivos más ambiciosos de la IA (por ejemplo, revertir el cambio climático) y para entrenar modelos más pequeños y diseñados específicamente. Sin embargo, AlphaFold no se destiló a partir de un modelo de frontera más amplio. Utiliza una arquitectura de modelo altamente especializada y se entrenó específicamente para predecir las estructuras de las proteínas.
La administración actual en Estados Unidos dice “acelerar”, no “desacelerar”. Bajo la influencia de David Sacks y Marc Andreessen, el gobierno federal ha cedido en gran medida su poder para regular significativamente el desarrollo de la inteligencia artificial. Tan solo el año pasado, los líderes en la tecnología aún hablaban de la necesidad de medidas de seguridad y privacidad en torno a los grandes modelos de IA. Ya no. Se ha eliminado cualquier fricción, al menos en Estados Unidos.
La promesa de este tipo de mundo es una de las principales razones por las que líderes de opinión, normalmente cuerdos y de mentalidad liberal, se subieron al tren de Trump antes de las elecciones: la oportunidad de apostar a lo grande por el próximo gran avance tecnológico en un entorno del Viejo Oeste no se presenta tan a menudo.