
La compañía de inteligencia artificial Anthropic utilizó un método poco convencional para evaluar la capacidad de razonamiento de Claude 3.7 Sonnet, su más reciente modelo: un videojuego de Pokémon.
Específicamente, Anthropic puso a Claude 3.7 Sonnet a jugar Pokémon Red, uno de los dos primeros títulos de la franquicia, lanzado en 1998.
¿Por qué Pokémon Red? El videojuego sirvió como un entorno de prueba lo suficientemente desafiante que permitió a Claude desarrollar habilidades complejas de toma de decisiones. Superar obstáculos, planificar estrategias y adaptarse a situaciones inesperadas en el juego ayudaron al modelo a perfeccionar su razonamiento paso a paso.
La compañía equipó a Claude con memoria básica, entrada de píxeles en la pantalla y llamadas de función para presionar botones y navegar por la pantalla. Esto le permitió jugar Pokémon de forma continua.
Una característica única de Claude 3.7 Sonnet es su capacidad de participar en un “pensamiento extendido”. Al igual que o3-mini de OpenAI y R1 de DeepSeek, Claude 3.7 Sonnet puede “razonar” a través de problemas desafiantes aplicando más computación y tomando más tiempo. Eso le resultó útil en Pokémon Red.
De acuerdo con Antrhopic, Claude 3.7 Sonnet superó a sus predecesores en estas pruebas, demostrando una capacidad superior para resolver problemas y adaptarse a entornos complejos.
En comparación con una versión anterior (Claude 3.0 Sonnet) que no logró salir de la casa en Pueblo Paleta donde comienza la historia, Claude 3.7 Sonnet luchó con éxito contra tres líderes de gimnasio Pokémon y ganó sus medallas.
Más allá de conseguir medallas de gimnasio Pokémon, Claude 3.7 Sonnet es capaz de alternar entre respuestas rápidas y reflexiones profundas, dependiendo de las necesidades del usuario. El modelo también destaca en programación y desarrollo web, convirtiéndose en una herramienta potente para tareas de codificación gracias a su nueva función Claude Code. Este asistente puede buscar, leer, editar código, realizar pruebas y hasta integrarse con GitHub, lo que permite a los desarrolladores delegar tareas complejas directamente desde su terminal.
Claude 3.7 Sonnet ya está disponible en todas las plataformas de Anthropic, incluyendo Amazon Bedrock y Google Cloud Vertex AI.
El papel de los videojuegos en la investigación de la IA
Históricamente, los juegos han sido fundamentales para el desarrollo de la IA. Algunos hitos notables incluyen la victoria de Deep Blue de IBM sobre el campeón de ajedrez Garry Kasparov en 1996, y la victoria de AlphaGo de DeepMind sobre un jugador destacado de Go en 2016.
Ahora, cada vez más compañías de IA evalúan las capacidades de sus modelos en diferentes tipos de videojuegos.
DeepMind, una subsidiaria de Google, es pionera en el uso de videojuegos como campo de pruebas para la IA. La compañía ha logrado un rendimiento sobrehumano en juegos complejos como Go, ajedrez y StarCraft II.
OpenAI, conocida por sus innovadores modelos de lenguaje como GPT-4, también se ha valido de videojuegos para sus evaluaciones. Han entrenado a agentes de IA para jugar Dota 2, mostrando su capacidad para aprender y adaptarse en escenarios complejos en tiempo real.
El debate de usar videojuegos para entrenar IA
Sin embargo, el valor de los videojuegos en la investigación de IA presenta opiniones divididas. Mientras algunos creen que estos impulsan la innovación y conducen a aplicaciones prácticas de IA, otros sostienen que son muy limitados para evaluar una IA.
Los críticos sostienen que si bien los videojuegos proporcionan datos de entrenamiento infinitos, no necesariamente desarrollan la inteligencia general, ya que los sistemas de IA a menudo no logran adaptarse más allá de sus entornos de juego específicos. Por ejemplo, OpenAI Five dominó solo una fracción de los personajes de Dota 2. A su vez, los cambios menores en los entornos de juego a menudo degradan el rendimiento de la IA.
Empresas como Nvidia y Microsoft creen que los juegos ofrecen entornos estructurados ideales para refinar las estrategias de IA, particularmente en el aprendizaje de refuerzo. Iniciativas como XLand de DeepMind y Project Paida de Microsoft apuntan a usar juegos para entrenar a una IA colaborativa y adaptable.
Sin embargo, los escépticos sostienen que los juegos se están volviendo puntos de referencia menos valiosos a medida que avanza la IA. Algunos expertos sugieren cambiar el enfoque hacia tareas que requieren un razonamiento más general, creatividad y habilidades sociales complejas, desafíos que aún en gran medida no han sido resueltos por los sistemas de IA actuales.