Investigo la intersección de la inteligencia artificial, el procesamiento del lenguaje natural y el razonamiento humano como director del laboratorio de Avance del Razonamiento Humano y de Máquinas en la Universidad del Sur de Florida. También estoy comercializando esta investigación en una empresa emergente de IA que proporciona un escáner de vulnerabilidades para modelos de lenguaje.
Desde mi punto de vista, observé importantes avances en el campo de los modelos de lenguaje de IA en 2024, tanto en la investigación como en la industria.
Tal vez los más emocionantes sean las capacidades de los modelos de lenguaje más pequeños, el soporte para abordar la alucinación de la IA y los marcos para desarrollar agentes de IA.
Las IA pequeñas causan sensación
En el corazón de los productos de IA generativa disponibles comercialmente como ChatGPT se encuentran los modelos de lenguaje grandes, o LLM, que se entrenan en grandes cantidades de texto y producen un lenguaje convincente similar al humano. Su tamaño generalmente se mide en parámetros, que son los valores numéricos que un modelo deriva de sus datos de entrenamiento. Los modelos más grandes, como los de las principales empresas de IA, tienen cientos de miles de millones de parámetros.
Existe una interacción iterativa entre los modelos de lenguaje grandes y los modelos de lenguaje más pequeños, que parece haberse acelerado en 2024.
En primer lugar, las organizaciones con más recursos computacionales experimentan y entrenan modelos de lenguaje cada vez más grandes y poderosos. Estos producen nuevas capacidades de modelos de lenguaje grandes, puntos de referencia, conjuntos de entrenamiento y trucos de entrenamiento o de indicación. A su vez, estos se utilizan para crear modelos de lenguaje más pequeños (en el rango de tres mil millones de parámetros o menos) que se pueden ejecutar en configuraciones de computadora más asequibles, requieren menos energía y memoria para entrenar y se pueden ajustar con menos datos.
No es de extrañar, entonces, que los desarrolladores hayan lanzado una gran cantidad de modelos de lenguaje más pequeños y poderosos, aunque la definición de pequeño sigue cambiando: Phi-3 y Phi-4 de Microsoft, Llama-3.2 1B y 3B, y Qwen2-VL-2B son solo algunos ejemplos.
Estos modelos de lenguaje más pequeños se pueden especializar para tareas más específicas, como resumir rápidamente un conjunto de comentarios o verificar un texto con una referencia específica. Pueden trabajar con sus primos más grandes para producir sistemas híbridos cada vez más potentes.
Acceso más amplio
Un mayor acceso a modelos lingüísticos de gran capacidad, grandes y pequeños, puede ser una bendición a medias. Como en 2024 hubo muchas elecciones importantes en todo el mundo, la tentación de hacer un mal uso de los modelos lingüísticos fue alta.
Los modelos lingüísticos pueden dar a los usuarios malintencionados la capacidad de generar publicaciones en las redes sociales e influir engañosamente en la opinión pública. Hubo mucha preocupación por esta amenaza en 2024, dado que fue un año electoral en muchos países.
Y, de hecho, una llamada automática que falsificaba la voz del presidente Joe Biden pidió a los votantes de las primarias demócratas de New Hampshire que se quedaran en casa. OpenAI tuvo que intervenir para interrumpir más de 20 operaciones y redes engañosas que intentaron utilizar sus modelos para campañas engañosas. Se crearon y compartieron videos y memes falsos con la ayuda de herramientas de IA.
A pesar de la ansiedad que rodea a la desinformación de IA, aún no está claro qué efecto tuvieron realmente estos esfuerzos en la opinión pública y las elecciones estadounidenses. Sin embargo, en 2024, Estados Unidos aprobó una gran cantidad de leyes que regulan el uso de la IA en elecciones y campañas.
Chatbots que se portan mal
Google comenzó a incluir descripciones generales de la IA en sus resultados de búsqueda, y arrojó algunos resultados que eran ridículamente y obviamente erróneos, a menos que te guste el pegamento en la pizza. Sin embargo, otros resultados pueden haber sido peligrosamente erróneos, como cuando sugirió mezclar lejía y vinagre para limpiar la ropa.
Los modelos de lenguaje grandes, como se implementan con mayor frecuencia, son propensos a las alucinaciones. Esto significa que pueden afirmar cosas que son falsas o engañosas, a menudo con un lenguaje seguro. Aunque yo y otros insistimos en esto, en 2024 muchas organizaciones aprendieron sobre los peligros de las alucinaciones de la IA por las malas.
A pesar de las pruebas significativas, un chatbot que desempeñaba el papel de un sacerdote católico abogó por el bautismo a través de Gatorade. Un chatbot que asesoraba sobre las leyes y regulaciones de la ciudad de Nueva York dijo incorrectamente que era “legal que un empleador despidiera a un trabajador que se queja de acoso sexual, no revela un embarazo o se niega a cortarse las rastas”. Y el modelo con capacidad de hablar de OpenAI olvidó a quién le tocaba hablar y respondió a un humano con su propia voz.
Afortunadamente, en 2024 también vimos nuevas formas de mitigar y vivir con las alucinaciones de la IA. Las empresas y los investigadores están desarrollando herramientas para asegurarse de que los sistemas de IA sigan las reglas dadas antes de la implementación, así como entornos para evaluarlas. Los llamados marcos de barandilla inspeccionan las entradas y salidas de modelos de lenguaje grandes en tiempo real, aunque a menudo utilizando otra capa de modelos de lenguaje grandes.
Y la conversación sobre la regulación de la IA se aceleró, lo que provocó que los grandes actores en el espacio de los modelos de lenguaje a gran escala actualizaran sus políticas sobre la ampliación y el aprovechamiento responsable de la IA.
Pero aunque los investigadores encuentran continuamente formas de reducir las alucinaciones, en 2024, la investigación demostró de manera convincente que las alucinaciones de IA siempre van a existir de alguna forma. Puede ser una característica fundamental de lo que sucede cuando una entidad tiene recursos informáticos y de información finitos. Después de todo, incluso los seres humanos son conocidos por recordar mal y decir falsedades con confianza de vez en cuando.
El auge de los agentes de IA
Los modelos de lenguaje a gran escala, en particular los que funcionan con variantes de la arquitectura del transformador, siguen impulsando los avances más significativos en IA. Por ejemplo, los desarrolladores están utilizando modelos de lenguaje a gran escala no solo para crear chatbots, sino para servir como base de los agentes de IA. El término “IA agéntica” saltó a la fama en 2024, y algunos expertos incluso lo llaman la tercera ola de IA.
Para entender qué es un agente de IA, piense en un chatbot ampliado de dos maneras: primero, déle acceso a herramientas que le proporcionen la capacidad de realizar acciones. Esta podría ser la capacidad de consultar un motor de búsqueda externo, reservar un vuelo o usar una calculadora. Segundo, déle mayor autonomía o la capacidad de tomar más decisiones por sí mismo.
Por ejemplo, un chatbot de IA de viajes podría realizar una búsqueda de vuelos en función de la información que le proporcione, pero un agente de viajes equipado con herramientas podría planificar un itinerario de viaje completo, incluida la búsqueda de eventos, la reserva de reservas y su incorporación a su calendario.
En 2024, surgieron nuevos marcos para el desarrollo de agentes de IA. Solo por nombrar algunos, LangGraph, CrewAI, PhiData y AutoGen/Magentic-One se lanzaron o mejoraron en 2024.
Las empresas recién están comenzando a adoptar agentes de IA. Los marcos para el desarrollo de agentes de IA son nuevos y evolucionan rápidamente. Además, los riesgos de seguridad, privacidad y alucinaciones siguen siendo una preocupación.
Pero los analistas del mercado global pronostican que esto cambiará: 82% de las organizaciones encuestadas planean utilizar agentes dentro de 1 a 3 años, y es probable que 25% de todas las empresas que actualmente utilizan IA generativa adopten agentes de IA en 2025.
Este artículo fue escrito por John Licato, profesor asociado de informática y director del laboratorio AMHR en la Universidad del Sur de Florida. Fue publicado originalmente en The Conversation bajo una licencia Creative Commons.