
Existe una carrera global sin cuartel por el dominio de la IA. Las empresas más grandes y poderosas del mundo invierten miles de millones de dólares en una potencia informática sin precedentes. Los países más poderosos dedican ingentes recursos energéticos para apoyarlas. Y la carrera se centra en una idea: una arquitectura basada en transformadores con modelos de lenguaje grande es la clave para ganar la carrera de la IA. ¿Y si se equivocan?
Lo que llamamos inteligencia evolucionó en la vida biológica a lo largo de cientos de millones de años. Esto comenzó con organismos unicelulares simples, como las bacterias, que interactuaban con su entorno. La vida evolucionó gradualmente hacia organismos multicelulares que aprendieron a buscar lo que necesitaban y a evitar lo que pudiera dañarlos.
Finalmente, los humanos surgieron con cerebros altamente complejos, miles de millones de neuronas y un número exponencialmente mayor de interacciones neuronales diseñadas para responder a sus necesidades, interacciones y asociaciones entre sí y con el mundo. Crear una forma artificial de esto probablemente implique algo más que generar lenguaje inteligentemente con herramientas entrenadas en repositorios masivos de texto, en su mayoría sin procesar, y comercializarlo como inteligencia.
Modelos de lenguaje grande y la sabiduría acumulado
¿Y si recopilar la vasta supuesta sabiduría colectiva acumulada en internet y analizarla estadísticamente con algoritmos complejos para responder sin pensar a las indicaciones humanas fuera en realidad un ejercicio de “basura entra, basura sale” increíblemente costoso y que consume muchos recursos? En el mejor de los casos, podría ser un ingenioso cronista del saber popular. En el peor, un desperdicio de recursos sin precedentes e innecesario, con consecuencias potencialmente perjudiciales. Prefigurando inquietantemente una crítica a la IA convencional actual, Immanuel Kant escribió en su obra emblemática, Crítica de la razón pura: “Los pensamientos sin contenido son vacíos, las intuiciones sin conceptos son ciegas”. Dicho de otro modo, ¿es posible replicar eones de inteligencia evolucionada y reducirla al loro más grande del mundo o al autocompletado más grandioso?
Con el poder global, la publicidad y los recursos que respaldan este enfoque, se podría tener la impresión de que es la única manera viable de crear una forma artificial de inteligencia humana. Afortunadamente, no lo es.
Incrementalismo
En el extremo incrementalista del espectro de la investigación y el desarrollo de IA, existen enfoques que buscan un uso más eficiente de los recursos. Tal es el caso de la agrupación de modelos de lenguaje pequeño (SLM o Small language models) con agentes de IA. Así permitirían consultas y respuestas más enfocadas y económicas. (Véase: Los modelos de lenguaje pequeño son el futuro de la IA agéntica, Universidad de Cornell). Es una teoría. Los agentes de IA flexibles y eficientes son tecnología que puede interactuar de manera autónoma con el entorno y realizar tareas sin supervisión humana. Así podrían acceder a los SLM, conjuntos de datos más pequeños, más específicos y que consumen menos recursos.
La teoría subyacente es la misma para los SLM y los LLM: agregar datos y modelarlos estadísticamente para generar texto u otros datos. Los SLM son simplemente una forma más pequeña y eficiente (aunque inherentemente más limitada) de lograr esto. Este enfoque puede incorporar tecnología adicional para lograr una mayor precisión, como la generación aumentada de recuperación (RAG). La RAG puede acceder a información más específica, verificable y, críticamente, en tiempo real, en lugar de depender únicamente de datos estáticos (preentrenados).
Un fin mayor que la suma de sus partes
Una posible alternativa más significativa a la arquitectura LLM y GPT, que simula con mayor precisión cómo pensamos, se basa en el intento de replicar la biología evolutiva. Una empresa pionera en este trabajo es Softmax (nombrada por una función estadística utilizada en el aprendizaje automático), dirigida por Emmett Shear, cofundador de Twitch, quien se desempeñó brevemente como director ejecutivo de OpenAI.
Este enfoque se basa en la biología celular y en la idea de que las partes individuales (células) que trabajan (o están alineadas) entre sí pueden formar un todo con una funcionalidad más coordinada que las partes individuales. Un ser humano está formado por células individuales pero sincronizadas que, por sí solas, no funcionan como nosotros, pero que de alguna manera se cohesionan para permitirnos pensar y funcionar como seres humanos. En términos de construir un modelo informático, los agentes de IA son el equivalente a las células en este enfoque que, al menos en teoría, pueden trabajar juntas para formar una entidad funcional y de aprendizaje superior.
Si el dominio actual de los LLM y la arquitectura GPT continúa y otros enfoques innovadores se quedan (o son relegados) en el camino, no sería la primera vez en la historia de la informática que las fuerzas comerciales prevalecen sobre alternativas potencialmente mejores (véase “Por qué las malas ideas persisten en el software“, Alan Kay, 2012, discurso ante el Congreso sobre el Futuro del Software de Ingeniería).
Como dijo Albert Einstein, si tuviera una hora para salvar el mundo, dedicaría 55 minutos a definir el problema y cinco minutos a resolverlo. Las grandes entidades que impulsan el enfoque dominante actual para el desarrollo de la IA aún no han definido el problema que intentan resolver. Los LLM y GPT han demostrado ser capaces de realizar tareas que las personas consideran útiles y probablemente seguirán haciéndolo. La pregunta es: ¿qué tiene que ver esto, si es que tiene algo que ver, con la inteligencia, humana o de otro tipo?