| Tech

10 años de AlphaGo: cómo un movimiento inesperado cambió el rumbo de la IA

En entrevista con Fast Company México, científicos de AlphaGo explican cómo el sistema sigue marcando el rumbo de la inteligencia artificial actual a una década de su hazaña legendaria.

10 años de AlphaGo: cómo un movimiento inesperado cambió el rumbo de la IA [Foto: Unsplash]

Hace una década, AlphaGo, un sistema de inteligencia artificial desarrollado por DeepMind, marcó un punto de inflexión para la investigación en IA al lograr una hazaña que hasta entonces parecía imposible: dominar Go—un milenario juego de estrategia asiático, considerado como uno de los más antiguos y complejos del mundo.

Y no solo sabía jugarlo; AlphaGo también fue capaz de idear estrategias propias y derrotar a varios de los mejores jugadores de Go, incluyendo a un campeón mundial.

En entrevista con Fast Company México, Thore Graepel, científico distinguido y miembro del equipo original de AlphaGo, y Pushmeet Kohli, vicepresidente de ciencia en DeepMind, explican cómo el verdadero legado del sistema no fue solo ganar una partida histórica, sino demostrar que las máquinas pueden ayudar a descubrir conocimiento nuevo y cómo ese momento sigue definiendo el rumbo de la inteligencia artificial moderna. 

Campo de juego

[Foto: Unsplash]

Demis Hassabis, cofundador y CEO de DeepMind (ahora propiedad de Google), siempre ha considerado que los juegos y entornos virtuales son ideales para desarrollar inteligencia artificial, ya que ofrecen reglas claras, objetivos definidos y sistemas de puntuación. Esto permite que los algoritmos aprendan mediante prueba y error y facilita medir con precisión su progreso. Básicamente, entre más complejo es un juego, mejores resultados pueden obtenerse.

AlphaGo fue desarrollado con el objetivo de resolver lo que se consideraba el santo grial de los desafíos de la inteligencia artificial: dominar el juego de estrategia Go, considerado mucho más complejo que otros juegos de estrategia como el ajedrez, debido a su ilimitado número de jugadas posibles.

Juegos complejos como el Go presentan espacios de decisión enormes, ideales para desarrollar algoritmos avanzados de planificación y estrategia. También permiten el autoentrenamiento, donde la IA juega contra sí misma millones de veces para mejorar sin depender de datos humanos, un enfoque que luego perfeccionó AlphaZero, el modelo posterior a AlphaGo que aprendió ajedrez, shogi y Go desde cero en horas mediante autoaprendizaje.

Dicho de otra manera, los juegos funcionan como laboratorios seguros para desarrollar técnicas que después pueden aplicarse a problemas reales en ciencia, ingeniería y optimización. Sin embargo, el verdadero reto estaba no sólo en lograr que una IA fuera capaz de jugar algo como Go, sino en emular las habilidades de un jugador humano. En 2015 se pensaba que esto estaba a décadas de distancia, pero la realidad era otra.

Diseñando a un campeón

Para poder jugar Go —un juego que consta mucho de la intuición del jugador— el sistema AlphaGo combinó tres componentes principales que trabajaron juntos para decidir cada jugada en el tablero.

El primero es la red de política, un modelo de inteligencia artificial entrenado con millones de partidas que ayuda al sistema a identificar cuáles movimientos tienen más sentido en una posición determinada. En lugar de analizar todas las opciones posibles —algo prácticamente imposible en Go—, esta red reduce las alternativas y señala las jugadas más prometedoras.

El segundo componente es la red de valor, que evalúa qué tan favorable es una posición del tablero y estima las probabilidades de ganar desde ese punto de la partida. Finalmente, AlphaGo utiliza un algoritmo llamado Árbol de búsqueda Monte Carlo, que simula miles de posibles escenarios del juego para analizar las consecuencias de cada movimiento.

Al combinar estas simulaciones con las predicciones de las redes neuronales, el sistema puede elegir la jugada con mayor probabilidad de éxito. Juntos, estos tres elementos permitieron que AlphaGo combinara intuición y cálculo para tomar decisiones complejas. Para Thore Graepel, esta arquitectura fue uno de los elementos determinantes para el éxito del sistema.

“Con AlphaGo estábamos abordando uno de los problemas más difíciles de la informática en ese momento, y lo resolvimos mucho antes de lo que la gente esperaba. Por supuesto, eso requirió una serie de innovaciones” señala.

“Si lo vemos en retrospectiva, lo que realmente destaca es su arquitectura, que tiene dos componentes y se puede comparar con la forma en que piensan los humanos: tenemos una manera rápida e intuitiva de pensar —la intuición o el instinto— que nos permite tomar decisiones inmediatas. Y también tenemos otro modo de razonamiento más lento, en el que analizamos las cosas paso a paso, de forma más lógica. Es la combinación de estos dos modos de pensamiento, el rápido y el lento, lo que hizo a AlphaGo tan efectivo. Y si avanzamos 10 años, es exactamente este mismo tipo de enfoque dual el que vemos en los modelos modernos de lenguaje a gran escala”, explica.

Punto de inflexión

Lee Sedol, campeón mundial de Go en 2016, contra AlphaGo. [Foto: Netflix]

AlphaGo logró su primera gran victoria al derrotar en 2015 al jugador profesional Fan Hui, un maestro de Go nacido en China y radicado en Europa, quien en ese momento era campeón europeo y uno de los jugadores más fuertes fuera de Asia. El enfrentamiento, disputado a puerta cerrada, terminó con un contundente 5-0 a favor de AlphaGo, marcando la primera vez que una inteligencia artificial vencía a un profesional humano en condiciones de torneo completo. Fan Hui no solo reconoció el nivel del sistema, sino que posteriormente colaboró con el equipo de DeepMind para mejorar el juego de la IA. 

Sin embargo, no sería sino hasta un año después que el sistema alcanzó notoriedad mundial, cuando compitió contra el entonces campeón surcoreano Lee Sedol en una serie de cinco partidas.

El momento que lo cambió todo ocurrió durante la segunda partida contra Sedol, cuando AlphaGo realizó una jugada —conocida como el “movimiento 37”— que desconcertó tanto a jueces como a Sedol. AlphaGo colocó una piedra en la quinta línea del tablero, una posición que los jugadores profesionales casi nunca utilizan al ser considerada como “mala”. Sin embargo, lo que parecía una equivocación terminó siendo una jugada brillante, marcando un antes y un después en la percepción de lo que estas tecnologías podían lograr.

AlphaGo había sido entrenado con partidas humanas, donde esa jugada casi nunca se utilizaba; sin embargo, gracias a su capacidad de simulación y planificación, AlphaGo descubrió que la estrategia podía ser efectiva. El movimiento le permitió al sistema obtener una influencia clave en el tablero y eventualmente controlar la partida

Al final, AlphaGo derrotó al campeón surcoreano Lee Sedol, ganando 4-1. Tras la partida, la Asociación Coreana de Baduk otorgó a la IA el máximo rango de gran maestro de Go: un “9º dan honorífico”. Este reconocimiento se concedió por los “sinceros esfuerzos” de AlphaGo para dominar el juego.

El movimiento 37 se volvió un momento histórico porque mostró que la inteligencia artificial no solo podía imitar estrategias humanas, sino también descubrir enfoques completamente nuevos, influyendo incluso en la forma en que los profesionales juegan Go hoy en día.

“Si lo piensas de forma ingenua, si entrenas un sistema solo con datos humanos, ¿por qué esperarías que pueda salir del espacio de ideas humanas y generar algo nuevo o creativo? Y por creativo me refiero a que sea novedoso, sorprendente y efectivo” señala Graepel. “Con el movimiento 37, el sistema logró trascender esos límites impuestos por el conjunto de entrenamiento humano y proponer jugadas que los jugadores consideran muy inusuales y altamente creativas. Al principio, incluso los expertos pensaron que era un error. Simplemente no podían imaginar que la máquina jugara en esa posición del tablero”, recuerda.

Para Kohli, ese momento representó un punto de inflexión más amplio: “Ese momento del movimiento 37 fue un punto de inflexión clave… ahora sabíamos que era posible descubrir nuevo conocimiento. A partir de ahí, el desafío dejó de ser vencer en juegos complejos y pasó a una ambición mayor: escalar ese mismo enfoque a campos como la biología, la química o las matemáticas”.

De los juegos a la ciencia

Desde ese momento, la investigación en IA se ha enfocado en aplicar ese enfoque a problemas más complejos, como teorías matemáticas o algoritmos.

“Los modelos de lenguaje permiten navegar espacios casi infinitos de posibilidades”, dice Kohli. “Ahora pueden proponer nuevas teorías, nuevos algoritmos o nuevas soluciones”.

Tras AlphaGo, el equipo desarrolló sistemas como AlphaZero, capaces de aprender sin datos humanos mediante autojuego. “Desde un punto de vista científico, AlphaZero fue incluso un avance mayor”, explicó Graepel. “Aprendía completamente por sí mismo. El sistema fue capaz de redescubrir estrategias conocidas en juegos como ajedrez o Go y, en algunos casos, superarlas”.

Ese paradigma también inspiró proyectos científicos como AlphaFold, que revolucionó la predicción de estructuras de proteínas.

Según Kohli, AlphaGo también cambió la forma de abordar grandes problemas científicos. “Nos dio confianza para atacar desafíos que la comunidad pensaba que tardarían 10 años o más en resolverse”, dijo.

En la última década, ese salto se ha materializado en sistemas capaces de explorar espacios de conocimiento mucho más amplios, impulsados por modelos de lenguaje y nuevas arquitecturas. Sin embargo, este avance también ha traído consigo nuevos dilemas.

“Cuando AlphaGo jugó el movimiento 37, era muy difícil discernir si era una genialidad o una alucinación. Incluso los expertos en el juego no estaban completamente seguros”, dice Kohli. “Hoy ocurre algo similar en muchos campos científicos: estos modelos de IA están generando cosas nuevas y sorprendentes, pero ¿cómo podemos saber si realmente son descubrimientos valiosos o simplemente alucinaciones poco útiles? Por eso, una parte importante del trabajo actual se centra en desarrollar sistemas de verificación que permitan separar los descubrimientos reales de las alucinaciones”.

Lecciones para el futuro

La frontera entre descubrimiento y error se ha convertido en uno de los principales retos de la IA contemporánea. Kohli explica que la incertidumbre en torno al movimiento 37 se traslada con el uso masivo de la inteligencia artificial en la actualidad: usuarios de todo el mundo deben aprender a distinguir cuándo estas herramientas son acertadas y cuándo pueden equivocarse. El punto clave, señala, no es sólo la precisión, sino la capacidad de reconocer la incertidumbre.

Sistemas como AlphaFold demostraron que su verdadero valor está en indicar cuándo no están seguros, evitando que los usuarios confíen ciegamente en resultados incorrectos y se enfoquen en investigar de manera más profunda. De cara al futuro, el reto es que los modelos de IA sean más transparentes sobre sus límites, para que las personas puedan usarlos de forma más informada y crítica.

Para Graepel, una de las lecciones más importantes que dejó la era de AlphaGo tiene que ver con cómo reaccionan las personas ante sistemas de inteligencia artificial más avanzados.

“En su momento, la comunidad de jugadores de Go, muchos de los cuales habían dedicado su vida a dominar este juego, se enfrentó a la idea de que una máquina podía superarlos. Las reacciones fueron diversas: algunos lo ignoraron, otros lo rechazaron porque rompía la noción de que los humanos eran los mejores, pero con el tiempo la mayoría terminó aceptándolo”, explica.

De hecho, Graepel dice que muchos jugadores comenzaron a ver a AlphaGo no como una amenaza, sino como una herramienta de aprendizaje. Algunos incluso lo describían como si fuera una especie de “entidad superior” que mostraba nuevas formas de jugar, casi como descubrir un libro secreto lleno de estrategias desconocidas. Este cambio de percepción convirtió a la IA en una aliada para mejorar y entender más profundamente el juego.

De cara al desarrollo de sistemas de IA más avanzados y de propósito general, esta experiencia deja una enseñanza clara: aunque al inicio puede haber resistencia, estas tecnologías tienen el potencial de ampliar nuestras capacidades, ayudarnos a aprender más y a hacer mejor nuestro trabajo. La expectativa es que, al igual que ocurrió con AlphaGo, las comunidades terminen adoptando la IA como una herramienta para avanzar y alcanzar nuevos objetivos.

El próximo “momento AlphaGo”

Ambos investigadores coinciden en que el próximo “momento AlphaGo” ya está ocurriendo y tiene que ver con la capacidad de la IA para programar. “Estamos en medio de ese punto de inflexión”, señala Graepel, al explicar que estos modelos pueden escribir código con gran eficacia en un entorno donde los resultados se pueden comprobar fácilmente: “puedes escribir código, probarlo y mejorarlo hasta que funcione”.

Este avance es especialmente relevante porque la programación es la base de muchas otras tareas tecnológicas, incluyendo la evolución de los modelos de IA. “El aspecto más importante es que usamos el código para mejorar los propios modelos de IA. Esto crea un efecto multiplicador: herramientas de IA que ayudan a construir mejores sistemas de IA”, añade.

En la misma línea, Kohli destaca que esta capacidad va más allá de programar: “Creo que la capacidad de crear estos nuevos algoritmos es un momento muy emocionante. Sin duda, acelerará el aprendizaje automático y la investigación en inteligencia artificial”.

Ambos subrayan que ya estamos viendo este impacto en sistemas avanzados como AlphaEvolve y modelos de uso más general como Gemini, que no sólo resuelven problemas, sino que también contribuyen a mejorar su propio entrenamiento. En conjunto, esta evolución apunta a una nueva etapa donde la IA no solo ejecuta tareas, sino que acelera su propio desarrollo, marcando un antes y un después en la industria.

Author

  • Héctor Cueto

    Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.

    View all posts

Author

  • Héctor Cueto

    Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.

    View all posts

Sobre el autor

Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.