
Esta semana, el FBI reveló que dos hombres sospechosos de bombardear una clínica de fertilidad en California el mes pasado presuntamente utilizaron Inteligencia Artificial (IA) para obtener instrucciones para fabricar bombas. El FBI no reveló el nombre del programa en cuestión.
Esto pone de manifiesto la urgente necesidad de mejorar la seguridad de la IA. Vivimos en la era del “salvaje oeste”, donde las empresas compiten ferozmente para desarrollar los sistemas de IA más rápidos y entretenidos. Cada empresa busca superar a sus competidores y alcanzar el primer puesto. Esta intensa competencia a menudo conduce a atajos, intencionales o no, especialmente en materia de seguridad.
Por coincidencia, casi al mismo tiempo que la revelación del FBI, uno de los “padrinos” de la IA moderna, el profesor canadiense de informática Yoshua Bengio, lanzó una nueva organización sin fines de lucro dedicada a desarrollar un nuevo modelo diseñado específicamente para ser más seguro que otros modelos de IA y apuntar a aquellos que causan daño social.
¿Cuál es entonces el nuevo modelo de IA de Bengio? ¿Y realmente protegerá al mundo del daño?
Una IA ‘honesta’
En 2018, Bengio, junto con sus colegas Yann LeCun y Geoffrey Hinton, ganó el Premio Turing por la investigación pionera que habían publicado tres años antes sobre aprendizaje profundo, una rama del aprendizaje automático, que intenta imitar los procesos del cerebro humano mediante redes neuronales artificiales para aprender de datos computacionales y realizar predicciones.
La nueva organización sin fines de lucro de Bengio, LawZero, está desarrollando “IA Científica”. Bengio ha afirmado que este modelo será honesto y no engañoso, e incorporará principios de seguridad desde el diseño.
Según un artículo publicado en línea a principios de este año, la IA científica se diferenciará de los sistemas actuales en dos formas clave.
En primer lugar, puede evaluar y comunicar su nivel de confianza en sus respuestas, lo que ayuda a reducir el problema de que la IA de respuestas demasiado seguras e incorrectas.
En segundo lugar, puede explicar su razonamiento a los humanos, permitiendo que sus conclusiones sean evaluadas y probadas en cuanto a su precisión.
Curiosamente, los sistemas de IA más antiguos contaban con esta característica. Pero con la prisa por la velocidad y los nuevos enfoques, muchos modelos modernos no pueden explicar sus decisiones. Sus desarrolladores han sacrificado la explicabilidad por la velocidad.
Bengio también pretende que la IA Científica actúe como barrera contra la IA insegura. Podría supervisar otros sistemas menos fiables y dañinos, combatiendo así el fuego con fuego.
Esta podría ser la única solución viable para mejorar la seguridad de estas herramientas. Los humanos no pueden supervisar adecuadamente sistemas como ChatGPT, que gestionan más de mil millones de consultas diarias. Solo otra IA puede gestionar esta escala.
Utilizar un sistema de IA contra otros sistemas no es sólo un concepto de ciencia ficción: es una práctica común en la investigación para comparar y probar diferentes niveles de inteligencia.
Añadiendo un ‘modelo mundial’
Los modelos de lenguaje de gran tamaño y el aprendizaje automático son solo pequeñas partes del panorama actual de la IA.
Otra incorporación clave que el equipo de Bengio está incorporando a Scientist AI es el “modelo del mundo“, que aporta certeza y explicabilidad. Así como los humanos toman decisiones basándose en su comprensión del mundo, la IA necesita un modelo similar para funcionar eficazmente.
La ausencia de un modelo mundial en los modelos actuales es clara.
Un ejemplo bien conocido es el “problema de la mano”: la mayoría de los modelos actuales pueden imitar la apariencia de las manos, pero no pueden replicar los movimientos naturales de las manos, porque carecen de una comprensión de la física —un modelo del mundo— detrás de ellos.
Otro ejemplo es cómo modelos como ChatGPT tienen dificultades con el ajedrez, no logrando ganar e incluso realizando movimientos ilegales.
Esto ocurre a pesar de que existen sistemas más simples, que sí contienen un modelo del “mundo” del ajedrez, superando incluso a los mejores jugadores humanos.
Estos problemas se derivan de la falta de un modelo mundial fundamental en estos sistemas, que no están diseñados inherentemente para modelar la dinámica del mundo real.

En el camino correcto, pero con baches
Bengio está en el camino correcto y aspira a construir una IA más segura y confiable combinando grandes modelos de lenguaje con otras tecnologías de IA.
Sin embargo, su camino no será fácil. La financiación de 30 millones de dólares de LawZero es pequeña en comparación con iniciativas como el proyecto de 500,000 millones de dólares anunciado por el presidente estadounidense Donald Trump a principios de este año para acelerar el desarrollo de la IA.
Lo que hace que la tarea de LawZero sea más difícil es el hecho de que Scientist AI, como cualquier otro proyectode este tipo, necesita enormes cantidades de datos para ser potente, y la mayoría de los datos están controlados por grandes empresas tecnológicas.
También hay una pregunta pendiente. Incluso si Bengio pudiera construir un sistema que hiciera todo lo que él dice que puede, ¿cómo podría controlar otros sistemas que podrían estar causando daños?
Aun así, este proyecto, con investigadores talentosos detrás, podría impulsar un movimiento hacia un futuro donde la IA realmente ayude a las personas a prosperar. De tener éxito, podría establecer nuevas expectativas para una herramienta segura, motivando a investigadores, desarrolladores y legisladores a priorizar la seguridad.
Quizás si hubiéramos tomado medidas similares cuando surgieron las redes sociales, tendríamos un entorno en línea más seguro para la salud mental de los jóvenes. Y tal vez, si la IA Científica ya hubiera estado disponible, podría haber evitado que personas con malas intenciones accedieran a información peligrosa con la ayuda de otros sistemas de IA.
Armin Chitizadeh es Profesor de la Facultad de Ciencias de la Computación de la Universidad de Sídney.
Este artículo fue publicado originalmente en The Conversation.