ADVERTISEMENT

| Tech

Del entrenamiento de perros a las máquinas inteligentes: así es como el aprendizaje de refuerzo enseña a la IA

El problema del aprendizaje de refuerzo en IA es cómo diseñar agentes que logren sus objetivos percibiendo y actuando en sus entornos.

Del entrenamiento de perros a las máquinas inteligentes: así es como el aprendizaje de refuerzo enseña a la IA Perros e IA | fast company mexico

Comprender la inteligencia artificial (IA) y crear máquinas inteligentes son grandes retos científicos de nuestro tiempo. La capacidad de aprender de la experiencia es fundamental para la inteligencia, tanto de las máquinas como de los seres vivos.

En un informe notablemente profético de 1948Alan Turing —el padre de la informática moderna— propuso la construcción de máquinas que exhibieran un comportamiento inteligente. También abordó la “educación” de dichas máquinas “mediante recompensas y castigos”.

Las ideas de Turing finalmente condujeron al desarrollo del aprendizaje por refuerzo, una rama de la IA. El aprendizaje por refuerzo diseña agentes inteligentes entrenándolos para maximizar las recompensas al interactuar con su entorno.

Como investigador en aprendizaje automático, me parece apropiado que los pioneros del aprendizaje de refuerzo, Andrew Barto y Richard Sutton, hayan recibido el Premio Turing de la ACM de 2024.

¿Qué es el aprendizaje por refuerzo?

Los entrenadores de animales saben que el comportamiento animal puede influirse recompensando comportamientos deseables. Un entrenador de perros le da un premio al perro cuando realiza un truco correctamente. Esto refuerza el comportamiento y aumenta la probabilidad de que el perro lo haga correctamente la próxima vez. El aprendizaje por refuerzo tomó prestada esta idea de la psicología animal.

Pero el aprendizaje por refuerzo de la IA se centra en el entrenamiento de agentes computacionales, no de animales. El agente puede ser un agente de software, como un programa de ajedrez. Pero también puede ser una entidad corpórea, como un robot que aprende a hacer las tareas del hogar. De igual forma, el entorno de un agente puede ser virtual, como el tablero de ajedrez o el mundo diseñado en un videojuego. Pero también puede ser una casa donde trabaja un robot.

Al igual que los animales, un agente de IA puede percibir aspectos de su entorno y actuar. Un agente que juega al ajedrez puede acceder a la configuración del tablero y realizar movimientos. Un robot puede percibir su entorno con cámaras y micrófonos. Puede usar sus motores para desplazarse por el mundo físico.

Los agentes también tienen objetivos que sus diseñadores humanos programan en ellos. El objetivo de un agente que juega al ajedrez es ganar la partida. El objetivo de un robot podría ser ayudar a su dueño humano con las tareas del hogar.

El problema del aprendizaje por refuerzo en IA reside en cómo diseñar agentes que logren sus objetivos percibiendo y actuando en su entorno. El aprendizaje por refuerzo plantea una afirmación audaz: todos los objetivos pueden lograrse diseñando una señal numérica, llamada recompensa, y haciendo que el agente maximice la suma total de recompensas que recibe.

Los investigadores desconocen si esta afirmación es realmente cierta debido a la amplia variedad de objetivos posibles. Por ello, a menudo se la denomina la hipótesis de la recompensa.

A veces es fácil elegir una señal de recompensa que corresponda a un objetivo. Para un agente que juega al ajedrez, la recompensa puede ser +1 por victoria, 0 por empate y -1 por derrota. No está tan claro cómo diseñar una señal de recompensa para un útil asistente robótico doméstico. Sin embargo, la lista de aplicaciones donde los investigadores del aprendizaje de refuerzo han logrado diseñar buenas señales de recompensa es cada vez mayor.

Un gran éxito del aprendizaje por refuerzo se dio en el juego de mesa Go. Los investigadores creían que Go era mucho más difícil de dominar que el ajedrez para las máquinas. La empresa DeepMind, ahora Google DeepMind, utilizó el aprendizaje por refuerzo para crear AlphaGo. AlphaGo derrotó al mejor jugador de Go, Lee Sedol, en una partida de cinco rondas en 2016.

Un ejemplo más reciente es el uso del aprendizaje por refuerzo para aumentar la utilidad de chatbots de IA como ChatGPT. El aprendizaje por refuerzo también se utiliza para mejorar la capacidad de razonamiento de los chatbots.

Los orígenes del aprendizaje por refuerzo

Sin embargo, ninguno de estos éxitos se podía prever en la década de 1980. Fue entonces cuando Barto y su entonces estudiante de doctorado, Sutton, propusieron el aprendizaje por refuerzo como marco general para la resolución de problemas. Se inspiraron no solo en la psicología animal, sino también en la teoría del control, el uso de la retroalimentación para influir en el comportamiento de un sistema, y ​​la optimización, una rama de las matemáticas que estudia cómo seleccionar la mejor opción entre un abanico de opciones disponibles. Proporcionaron a la comunidad investigadora fundamentos matemáticos que han resistido el paso del tiempo. También crearon algoritmos que ahora se han convertido en herramientas estándar en este campo.

Es una ventaja poco común en un campo que los pioneros se tomen el tiempo de escribir un libro de texto. Ejemplos destacados como “La naturaleza del enlace químico” de Linus Pauling y El arte de la programación informática” de Donald E. Knuth son memorables por su escasez. “Aprendizaje por refuerzo: una introducción” de Sutton y Barto se publicó por primera vez en 1998. Una segunda edición salió en 2018. Su libro ha influido en una generación de investigadores y ha sido citado más de 75,000 veces.

Mucho más allá de la IA

El aprendizaje por refuerzo también ha tenido un impacto inesperado en la neurociencia. El neurotransmisor dopamina desempeña un papel clave en las conductas impulsadas por la recompensa en humanos y animales. Los investigadores han utilizado algoritmos específicos desarrollados en el aprendizaje por refuerzo para explicar los hallazgos experimentales en el sistema dopaminérgico de personas y animales.

El trabajo fundacional, la visión y la defensa de Barto y Sutton han impulsado el crecimiento del aprendizaje por refuerzo. Su trabajo ha inspirado un amplio corpus de investigación, ha impactado en aplicaciones prácticas y ha atraído enormes inversiones de empresas tecnológicas. Estoy seguro de que los investigadores del aprendizaje por refuerzo seguirán avanzando gracias a su apoyo.


Ambuj Tewari es Profesor de Estadística en la Universidad de Michigan.

Este artículo fue publicado originalmente en The Conversation.

Author

  • The Conversation

    Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.

    View all posts

Author

  • The Conversation

    Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.

    View all posts

Sobre el autor

Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.

ADVERTISEMENT

ADVERTISEMENT