
¿Por qué son tan inteligentes los chatbots de inteligencia artificial, capaces de comprender ideas complejas, crear relatos breves sorprendentemente buenos y captar intuitivamente lo que quieren decir los usuarios? Lo cierto es que no lo sabemos del todo. Los grandes modelos de lenguaje “piensan” de maneras que no parecen muy humanas. Sus resultados se forman a partir de miles de millones de señales matemáticas que rebotan a través de capas de redes neuronales impulsadas por ordenadores de una potencia y velocidad sin precedentes, y la mayor parte de esa actividad permanece invisible o inescrutable para los investigadores de inteligencia artificial.
Esta opacidad presenta desafíos obvios, ya que la mejor manera de controlar algo es comprender cómo funciona. Los científicos tenían un sólido conocimiento de la física nuclear antes de que se construyera la primera bomba o central eléctrica. No ocurre lo mismo con los modelos de inteligencia artificial generativa.
Los investigadores que trabajan en el subcampo de la seguridad de la IA, la “interpretabilidad mecanicista”, y que dedican sus días a estudiar las complejas secuencias de funciones matemáticas que llevan a un LLM a generar su siguiente palabra o píxel, todavía están intentando ponerse al día. La buena noticia es que están logrando avances reales. Un ejemplo: la publicación de dos nuevos artículos de investigación de Anthropic que ofrecen nuevas perspectivas sobre el pensamiento interno de los LLM.
Así como los parámetros dentro de las redes neuronales se basan en las neuronas del cerebro, los investigadores de Anthropic recurrieron a la neurociencia para estudiar la inteligencia artificial. El científico investigador de Anthropic, Joshua Batson, explica a Fast Company que su equipo desarrolló una herramienta de investigación —una especie de “microscopio de IA”— que puede seguir los patrones de datos y los flujos de información dentro de un LLM, observando cómo vincula palabras y conceptos en su camino hacia una respuesta. Hace un año, los investigadores solo podían observar características específicas de estos patrones y flujos, pero ahora han comenzado a observar cómo una idea conduce a otra mediante una secuencia de razonamiento.
“Intentamos conectar todo esto y, básicamente, explicar paso a paso, al introducir una indicación en un modelo, por qué dice la siguiente palabra”, explica Batson. Y como las respuestas del modelo se dan palabra por palabra, si se puede desglosar y simplemente preguntar: ‘Bueno, ¿por qué dijo esta palabra en lugar de aquella?’, se puede descomponer el problema por completo.
La inteligencia artificial piensa de forma diferente, incluso en matemáticas simples
La investigación refuerza la idea de que los sistemas de IA abordan los problemas de forma muy distinta a los seres humanos. A los LLM no se les enseñan explícitamente tareas como la aritmética. En cambio, se les muestran las respuestas correctas y se les deja desarrollar su propio camino probabilístico hacia esa conclusión. Batson y su equipo estudiaron un ejemplo sencillo de estas matemáticas: pedirle a un LLM de prueba de 18 capas que sumara los números 36 y 59, y descubrieron que el “proceso” de la IA era muy diferente del cálculo humano promedio.
En lugar de realizar un proceso paso a paso similar al humano, el modelo de prueba utilizó dos tipos de lógica para llegar a la respuesta: aproximó la respuesta (¿está en los 90?) y estimó el último dígito de la respuesta. Al combinar las probabilidades de varias respuestas, Claude logró obtener la suma correcta. “Definitivamente aprendió una estrategia matemática diferente a la que nos enseñaron en la escuela”, afirma Batson.
Pensando en conceptos universales
Los investigadores también estudiaron si los LLM, que suelen analizar y generar contenido en varios idiomas, necesariamente “piensan” en el idioma de las palabras que se les dan en la instrucción del usuario. “¿Utiliza solo palabras en inglés cuando trabaja con inglés, partes en francés cuando trabaja con francés y partes en chino cuando trabaja con chino?”, pregunta Batson. “¿O hay partes del modelo que realmente piensan en términos de conceptos universales, independientemente del idioma en el que trabaje?”.
Los investigadores descubrieron que los LLM hacen ambas cosas. Le pidieron a Claude que tradujera oraciones simples a varios idiomas y rastrearon las señales superpuestas que utilizó durante el procesamiento. Esas señales compartidas (es decir, fragmentos de significado) representaban ideas centrales, independientes del idioma, como “pequeñez” u “oposición”. Y el uso combinado de esos dos tokens resultó en la representación de otro concepto universal que significa “grandeza” (lo opuesto a que pequeño sea grande). El modelo utiliza estos conceptos universales incluso antes de traducirlos a un idioma determinado para el usuario.
Esto sugiere que Claude puede aprender un concepto como “pequeñez” en un idioma y luego aplicar ese conocimiento al hablar otro idioma sin necesidad de formación adicional, afirma Batson. Estudiar cómo el modelo comparte lo que sabe en diferentes contextos es importante para comprender su razonamiento sobre preguntas en diferentes ámbitos.
Los LLM pueden planificar e improvisar
Claude no solo piensa en la siguiente palabra lógica que generará, sino que también tiene la capacidad de pensar con antelación. Cuando el equipo de investigación le pidió que escribiera poesía, Claude incorporó esquemas de rima en sus patrones de procesamiento. Por ejemplo, después de que un verso terminara con “agárralo”, Claude seleccionó palabras en el verso siguiente que propiciarían el uso de “conejo” como conclusión.
“Alguien de mi equipo descubrió que justo al final de esta línea, después de ‘agárralo’, antes incluso de empezar a escribir la siguiente, estaba pensando en un conejo”, dice Batson. Los investigadores intervinieron entonces en ese mismo punto del proceso, insertando un nuevo esquema de rima o una nueva palabra final, y Claude modificó su plan en consecuencia, eligiendo una nueva ruta verbal para llegar a una rima con sentido.
Batson afirma que la observación poética es una de sus favoritas porque ofrece una visión relativamente clara de una parte específica del razonamiento LLM a través de un problema y porque demuestra que las herramientas de observación de su equipo (por ejemplo, el microscopio de IA) funcionan.
El estudio poético pone de relieve cuánto trabajo queda por hacer. El elemento del LLM que se activa mediante la generación relacionada con la poesía es muy pequeño en comparación con el universo completo de tareas que el modelo puede realizar. Los investigadores de la industria están tomando instantáneas, de la misma manera que un neurocientífico estudiaría cómo una zona del hipocampo humano convierte la memoria a corto plazo en memoria a largo plazo.
“Explorar ese espacio tan complejo es como una aventura cada vez, así que solo necesitábamos herramientas para ver cómo se conectaban las cosas, probar ideas y movernos”, dice Batson. “Así que, después de construir el microscopio, tenemos esta fase de investigación: observamos algo y nos preguntamos: ‘Oh, ok, ¿qué es esa parte?’, ‘¿Qué es esto de aquí?’”.
Pero suponiendo que las empresas de IA sigan financiando y priorizando la investigación sobre interpretabilidad mecanicista, las instantáneas se ampliarán y comenzarán a interconectarse, lo que proporcionará una comprensión más amplia de por qué los LLM funcionan como lo hacen. Una mejor comprensión de esos patrones podría brindar a la industria una mejor comprensión de los riesgos reales que los sistemas podrían representar, así como mejores maneras de “guiarlos” hacia un comportamiento seguro y benévolo.
Batson señala que, con el tiempo, podríamos desarrollar más confianza en los sistemas de IA al adquirir más experiencia con sus resultados. Sin embargo, añade que se sentiría «muchísimo más tranquilo si también entendiéramos lo que ocurre [en su interior]».