Anthropic usa Pokémon para evaluar su último modelo de IA

Anthropic usó un juego de Pokémon para evaluar su último modelo de IA

[Imágenes: DepositPhotos, PngEgg]

Por Héctor Cueto 4 minutos de lectura

La compañía de inteligencia artificial Anthropic utilizó un método poco convencional para evaluar la capacidad de razonamiento de Claude 3.7 Sonnet, su más reciente modelo: un videojuego de Pokémon.

Específicamente, Anthropic puso a Claude 3.7 Sonnet a jugar Pokémon Red, uno de los dos primeros títulos de la franquicia, lanzado en 1998.

¿Por qué Pokémon Red? El videojuego sirvió como un entorno de prueba lo suficientemente desafiante que permitió a Claude desarrollar habilidades complejas de toma de decisiones. Superar obstáculos, planificar estrategias y adaptarse a situaciones inesperadas en el juego ayudaron al modelo a perfeccionar su razonamiento paso a paso.

La compañía equipó a Claude con memoria básica, entrada de píxeles en la pantalla y llamadas de función para presionar botones y navegar por la pantalla. Esto le permitió jugar Pokémon de forma continua.

Una característica única de Claude 3.7 Sonnet es su capacidad de participar en un “pensamiento extendido”. Al igual que o3-mini de OpenAI y R1 de DeepSeek, Claude 3.7 Sonnet puede “razonar” a través de problemas desafiantes aplicando más computación y tomando más tiempo. Eso le resultó útil en Pokémon Red.

De acuerdo con Antrhopic, Claude 3.7 Sonnet superó a sus predecesores en estas pruebas, demostrando una capacidad superior para resolver problemas y adaptarse a entornos complejos.

En comparación con una versión anterior (Claude 3.0 Sonnet) que no logró salir de la casa en Pueblo Paleta donde comienza la historia, Claude 3.7 Sonnet luchó con éxito contra tres líderes de gimnasio Pokémon y ganó sus medallas.

Más allá de conseguir medallas de gimnasio Pokémon, Claude 3.7 Sonnet es capaz de alternar entre respuestas rápidas y reflexiones profundas, dependiendo de las necesidades del usuario. El modelo también destaca en programación y desarrollo web, convirtiéndose en una herramienta potente para tareas de codificación gracias a su nueva función Claude Code. Este asistente puede buscar, leer, editar código, realizar pruebas y hasta integrarse con GitHub, lo que permite a los desarrolladores delegar tareas complejas directamente desde su terminal.

Claude 3.7 Sonnet ya está disponible en todas las plataformas de Anthropic, incluyendo Amazon Bedrock y Google Cloud Vertex AI.

El papel de los videojuegos en la investigación de la IA

Históricamente, los juegos han sido fundamentales para el desarrollo de la IA. Algunos hitos notables incluyen la victoria de Deep Blue de IBM sobre el campeón de ajedrez Garry Kasparov en 1996, y la victoria de AlphaGo de DeepMind sobre un jugador destacado de Go en 2016.

Ahora, cada vez más compañías de IA evalúan las capacidades de sus modelos en diferentes tipos de videojuegos.

DeepMind, una subsidiaria de Google, es pionera en el uso de videojuegos como campo de pruebas para la IA. La compañía ha logrado un rendimiento sobrehumano en juegos complejos como Go, ajedrez y StarCraft II.

OpenAI, conocida por sus innovadores modelos de lenguaje como GPT-4, también se ha valido de videojuegos para sus evaluaciones. Han entrenado a agentes de IA para jugar Dota 2, mostrando su capacidad para aprender y adaptarse en escenarios complejos en tiempo real.

El debate de usar videojuegos para entrenar IA

Sin embargo, el valor de los videojuegos en la investigación de IA presenta opiniones divididas. Mientras algunos creen que estos impulsan la innovación y conducen a aplicaciones prácticas de IA, otros sostienen que son muy limitados para evaluar una IA.

Los críticos sostienen que si bien los videojuegos proporcionan datos de entrenamiento infinitos, no necesariamente desarrollan la inteligencia general, ya que los sistemas de IA a menudo no logran adaptarse más allá de sus entornos de juego específicos. Por ejemplo, OpenAI Five dominó solo una fracción de los personajes de Dota 2. A su vez, los cambios menores en los entornos de juego a menudo degradan el rendimiento de la IA.

Empresas como Nvidia y Microsoft creen que los juegos ofrecen entornos estructurados ideales para refinar las estrategias de IA, particularmente en el aprendizaje de refuerzo. Iniciativas como XLand de DeepMind y Project Paida de Microsoft apuntan a usar juegos para entrenar a una IA colaborativa y adaptable.

Sin embargo, los escépticos sostienen que los juegos se están volviendo puntos de referencia menos valiosos a medida que avanza la IA. Algunos expertos sugieren cambiar el enfoque hacia tareas que requieren un razonamiento más general, creatividad y habilidades sociales complejas, desafíos que aún en gran medida no han sido resueltos por los sistemas de IA actuales.

Héctor Cueto

Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.
View all posts

Héctor Cueto

Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.
View all posts

Sobre el autor

Héctor Cueto Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.

Explora otros temas

Los incendios sí pueden ayudar a la restauración y conservación de los ecosistemas

Zendaya y On crearon unos tenis con todo el estilo y un toque innovador

¿Por qué Trump va tras el CEO de Intel?

Ya en la antigua Roma Séneca se quejaba de los turistas

Anthropic usó un juego de Pokémon para evaluar su último modelo de IA

El papel de los videojuegos en la investigación de la IA

El debate de usar videojuegos para entrenar IA

Author

Author

Fast Company México

Lo Último

El papel de los videojuegos en la investigación de la IA

El debate de usar videojuegos para entrenar IA

Author

Author