Un nuevo modelo de inteligencia artificial (IA) alcanzó resultados a nivel humano en una prueba diseñada para medir la “inteligencia general”.
El 20 de diciembre, el sistema o3 de OpenAI obtuvo 85% en el benchmark ARC-AGI, muy por encima del mejor puntaje anterior de una IA (55%) y equiparable al promedio humano. También logró buenos resultados en una prueba matemática de alta dificultad.
Crear inteligencia general artificial (AGI, por sus siglas en inglés) es el objetivo declarado de todos los principales laboratorios de investigación en IA. A primera vista, OpenAI parece haber dado un paso significativo hacia este objetivo.
Aunque persisten las dudas, muchos investigadores y desarrolladores de IA sienten que algo ha cambiado. Para muchos, la perspectiva de la AGI ahora parece más real, urgente y cercana de lo anticipado. ¿Tienen razón?
Generalización e inteligencia
Para entender qué significa el resultado de o3, es necesario comprender de qué trata la prueba ARC-AGI. En términos técnicos, es una prueba de la “eficiencia de muestra” de un sistema de IA al adaptarse a algo nuevo: cuántos ejemplos de una situación desconocida necesita ver el sistema para entender cómo funciona.
Un sistema de IA como ChatGPT (GPT-4) no es muy eficiente con muestras. Fue “entrenado” con millones de ejemplos de texto humano, construyendo “reglas” probabilísticas sobre qué combinaciones de palabras son más probables.
El resultado es bastante bueno en tareas comunes, pero malo en tareas poco comunes, ya que tiene menos datos (menos muestras) sobre esas tareas.
Hasta que los sistemas de IA puedan aprender con pocas muestras y adaptarse de manera más eficiente, solo se usarán para trabajos muy repetitivos o donde se tolere algún fallo ocasional.
La capacidad de resolver problemas desconocidos o novedosos con un número limitado de muestras de datos se conoce como capacidad de generalización. Esta se considera un elemento necesario, incluso fundamental, de la inteligencia.
Cuadrículas y patrones
El benchmark ARC-AGI evalúa la adaptación eficiente con problemas de cuadrículas, como el que se muestra a continuación. La IA necesita identificar el patrón que transforma la cuadrícula de la izquierda en la de la derecha.
Cada pregunta ofrece tres ejemplos para aprender. Luego, el sistema debe encontrar las reglas que “generalicen” de los tres ejemplos al cuarto.
Estas pruebas son similares a los tests de coeficiente intelectual que podrías recordar de la escuela.
Reglas débiles y adaptación
No sabemos exactamente cómo lo logró OpenAI, pero los resultados sugieren que el modelo o3 es altamente adaptable. Con solo unos pocos ejemplos, encuentra reglas que pueden generalizarse.
Para identificar un patrón, no debemos hacer suposiciones innecesarias ni ser más específicos de lo necesario. En teoría, si puedes identificar las reglas “más débiles” que logran el objetivo, maximizas tu capacidad para adaptarte a nuevas situaciones.
¿Qué significa “reglas más débiles”? Aunque la definición técnica es compleja, suelen ser reglas que pueden describirse en términos más simples.
En el ejemplo anterior, una expresión en inglés simple de la regla podría ser algo como: “Cualquier forma con una línea sobresaliente se moverá hasta el final de esa línea y ‘cubrirá’ cualquier otra forma que se superponga”.
¿Buscando cadenas de pensamiento?
Aunque no sabemos cómo logró OpenAI este resultado, parece poco probable que hayan optimizado deliberadamente el sistema o3 para encontrar reglas débiles. Sin embargo, para tener éxito en las tareas del ARC-AGI, debe estar encontrándolas.
Sabemos que OpenAI comenzó con una versión de propósito general del modelo o3 (que se diferencia de otros modelos porque puede “pensar” más tiempo en preguntas difíciles) y luego lo entrenó específicamente para el test ARC-AGI.
El investigador de IA francés François Chollet, creador del benchmark, cree que o3 busca entre diferentes “cadenas de pensamiento” describiendo pasos para resolver la tarea. Luego selecciona la “mejor” según una regla vaga o “heurística”.
Esto sería “no muy diferente” de cómo el sistema AlphaGo de Google buscaba entre diferentes secuencias de movimientos para vencer al campeón mundial de Go.
Puedes pensar en estas cadenas de pensamiento como programas que encajan con los ejemplos. Si se parece a la IA que juega al Go, necesitará una heurística, o regla vaga, para decidir cuál programa es mejor.
Podrían generarse miles de programas aparentemente igualmente válidos. Esa heurística podría ser “elige el más débil” o “elige el más simple”.
Si es como AlphaGo, entonces simplemente entrenaron una IA para crear una heurística. Este fue el proceso para AlphaGo: Google entrenó un modelo para calificar diferentes secuencias de movimientos como mejores o peores.
Lo que aún no sabemos
La pregunta es: ¿esto realmente acerca a la AGI? Si ese es el funcionamiento de o3, el modelo subyacente podría no ser mucho mejor que los anteriores.
Los conceptos que el modelo aprende del lenguaje podrían no ser más adecuados para generalizar que antes. En cambio, podríamos estar viendo una “cadena de pensamiento” más generalizable encontrada gracias a los pasos adicionales de entrenar una heurística especializada para esta prueba. La prueba definitiva, como siempre, estará en los resultados.
Casi todo sobre o3 sigue siendo desconocido. OpenAI ha limitado la información a algunas presentaciones mediáticas y pruebas iniciales con unos pocos investigadores, laboratorios e instituciones de seguridad en IA.
Comprender verdaderamente el potencial de o3 requerirá un trabajo extenso, incluidas evaluaciones, análisis de la distribución de sus capacidades, cuán a menudo falla y cuán a menudo tiene éxito.
Cuando finalmente se lance o3, tendremos una mejor idea de si es aproximadamente tan adaptable como un humano promedio.
Si es así, podría tener un impacto económico revolucionario y marcar el inicio de una nueva era de inteligencia acelerada y automejorable. Esto requerirá nuevos estándares para la AGI en sí y una seria consideración de cómo debería ser regulada.
Si no, seguirá siendo un resultado impresionante. Sin embargo, la vida cotidiana permanecerá prácticamente igual.
Por Michael Timothy Bennett, estudiante de doctorado de la School of Computing, Australian National University, y Elija Perrier, investigador del Stanford Center for Responsible Quantum Technology, Stanford University.
Este artículo se republica de The Conversation bajo una licencia Creative Commons. Lea el artículo original.