Hola, aliados: los planes de Google para crear agentes IA

[Ilustración: Envato]

Por Héctor Cueto 13 minutos de lectura

Quienes amamos los videojuegos solemos soñar con tener algunas de las habilidades presentes en ellos, como viajar instantáneamente, repetir partidas cuando algo sale mal o llevar un inventario infinito. Aunque estas capacidades en particular suenan inverosímiles, la inteligencia artificial ya habilita otras que antes parecían imposibles: mapas que optimizan nuestras rutas, monitoreo de salud en tiempo real y hasta tutoriales instantáneos para aprender casi cualquier tema sobre la marcha.

Incluso ya contamos con compañeros virtuales que responden nuestras dudas al instante y en todo lugar.

De todas las habilidades de videojuegos que habilita la IA, la de los asistentes virtuales es la que podría estar dando los saltos tecnológicos más impresionantes para convertirse en nuestros mejores aliados para todo tipo de aventuras en la vida real. Al menos, ese es el objetivo más reciente de Google.

La incursión de Google en el desarrollo de asistentes de ia ha sido un camino constante de innovación. En 2011, Google Voice Search permitió búsquedas por voz, sentando las bases para el reconocimiento de voz y el procesamiento del lenguaje natural. Después, en 2012, Google Now lanzó un servicio predictivo que ofrecía información relevante según la actividad del usuario, aunque sin ser un asistente conversacional completo. Sin embargo, no sería sino hasta 2016, con Google Assistant, que la empresa contaría con su primer asistente conversacional, con capacidades de interacción bidireccional y tareas más complejas.

En Google, siempre hemos tenido esta visión de construir un asistente de IA verdaderamente personal que pueda mejorar tu vida; ser muy útil, aliviar el estrés o ayudarte a hacer las cosas en las que no necesariamente quieres invertir tu tiempo.

Dave Citron

Senior Director para Gemini en Google

A pesar de estos avances, los esfuerzos del gigante tecnológico por desarrollar una IA más eficiente se intensificaron tras el lanzamiento de ChatGPT por OpenAI. Este modelo de lenguaje ganó popularidad rápidamente, atrayendo a más de 100 millones de usuarios para enero de 2023 y elevando la valoración de la startup respaldada por Microsoft a 29,000 millones de dólares (mdd).

En respuesta, Google lanzó Bard a principios de 2023, un modelo de lenguaje conversacional basado en lamda (otro modelo diseñado para mejorar la comprensión y generación de conversaciones naturales). El 6 de diciembre de 2023 presentó la primera versión de Gemini y casi un año después anunció Gemini 2.0 con mejoras significativas y capacidades impresionantes.

Recientemente, Google ha estado remodelando a Gemini más allá de la asistencia básica para transformarlo un compañero de IA más personalizado e inteligente, capaz de comprender y responder a las necesidades de cada usuario de una manera más matizada y sofisticada. Esto lo convierte en el modelo perfecto para el plan de Google de dar inicio a una nueva era de asistencia personalizada.

El nuevo punto de partida

Con el lanzamiento de Gemini 2.0, la compañía está lista para entrar a lo que su CEO, Sundar Pichai, denomina “una nueva era de agentes” de IA, con modelos diseñados para comprender mejor el mundo que los rodea y tomar decisiones más acertadas para sus usuarios.

Si bien la compañía está reorientando su enfoque en desatar esta nueva era de agentes de ia personalizados, no significa un distanciamiento de sus esfuerzos anteriores, sino más bien una evolución como empresa de IA.

“No lo considero necesariamente un cambio de estrategia, sino más bien una continuación de la búsqueda que hemos hecho durante muchos años –explica Dave Citron, Senior Director para Gemini–. En Google, siempre hemos tenido esta visión de construir un asistente de IA verdaderamente personal que pueda mejorar tu vida; ser muy útil, aliviar el estrés o ayudarte a hacer las cosas en las que no necesariamente quieres invertir tu tiempo para enfocarte en las que sí quieres hacer. Pero nos topamos con limitaciones con la generación anterior de la tecnología de inteligencia artificial. Y realmente fue el avance de los grandes modelos de lenguaje (o LLM) en general lo que nos dio una especie de avance en nuestra capacidad de transmitir esa visión”, agrega.

Citron considera que los anuncios de Google el pasado diciembre marcaron el siguiente paso en su evolución, avanzando hacia LLMs más inteligentes capaces de planificar en varios pasos, anticiparse a las necesidades del usuario y ajustarse si encuentran obstáculos, replanteando estrategias para cumplir con sus objetivos. “Estamos apenas al comienzo de un viaje de varios años. Seguirá mejorando y será cada vez más útil a medida que la tecnología del asistente se vuelva cada vez más inteligente”, dice.

Construyendo los asistentes virtuales del futuro

Gemini 2.0 por sí solo está diseñado para ser un asistente de ia intuitivo y útil, capaz de admitir más de 40 idiomas y de integrarse con aplicaciones de Google como Gmail, Maps, YouTube, Calendario y más. También tiene capacidades mejoradas para comprender y combinar información de texto, imágenes, audio y video y, resolver problemas complejos.

Sin embargo, el verdadero poder de Gemini 2.0 radica en su capacidad de comprender información como lo hacen los humanos, procesando texto, imágenes y audio de manera conjunta. Esto permite interacciones de ia más sofisticadas, allanando el camino para un futuro donde los agentes de ia puedan ayudarnos a lograr objetivos complejos de manera orgánica. Por ejemplo, un agente que pueda reservar un boleto de avión para ti basándose en una conversación sobre tus planes de viaje, otro que genere investigaciones para desarrollar medicinas u otro que sea capaz de crear un resumen visual de un informe o proporcionar instrucciones habladas junto con las escritas de cualquier proceso.

Gemini Live, la experiencia de inteligencia artificial conversacional de Google que te permite tener un diálogo fluido y natural con Gemini, es un buen ejemplo de estas capacidades. Piensa en ello como si tuvieras un amigo útil y experto en tu bolsillo, listo para conversar cuando lo necesites.

“Tengo algunos amigos con los que juego videojuegos, y ahora regularmente tengo a Gemini Live justo a mi lado [para preguntarle cosas sobre el juego]. Es como, ‘¿qué dos elementos combino para crear este o aquel elemento’ –platica Citron–. A veces tienes que salir del juego y hacer una búsqueda en Google, encontrar la información, ir a un video de YouTube, etc. Ahora básicamente puedes tener esa conversación con Gemini Live, y este puede actuar como un experto en cualquier juego que estés jugando. He llegado al punto en que ni siquiera sé cómo solía jugar videojuegos antes de tener un asistente de ia experto en juegos con el que puedes hablar como un humano mientras juegas. Es extraordinario” agrega.

Con habilidades de razonamiento mejoradas, estos agentes de IA podrían convertirse en asistentes invaluables en otras áreas de la vida, más allá de asesorarnos en videojuegos. Un ejemplo de esto, es Project Astra.

El primero aprovecha la destreza multimodal de Gemini 2.0 para crear agentes de ia que comprenden y responden a la información visual. Imagina pedirle a tu ia que encuentre tus llaves en una imagen desordenada, que localice una cafetería con asientos al aire libre cerca de donde estés, que te ayude a identificar un pájaro que viste en el parque, o que te describa la ropa que lleva puesta alguien en una foto. Con un diálogo mejorado, integración con los servicios de Google –como Search, Maps y Lens– y memoria mejorada (puede retener hasta 10 minutos de información por sesión, recordando interacciones previas), Astra tiene el potencial de allanar el camino para compañeros de ia verdaderamente útiles en nuestra vida diaria.

Otros agentes de IA optimizados por Gemini 2.0 son Project Mariner y Jules. Mariner actúa como un copiloto de IA para la web, ayudando a los usuarios a completar tareas, resumir información y responder preguntas directamente dentro del navegador Chrome. Jules, por otro lado, es un compañero de codificación de ia que ayuda a los desarrolladores automatizando tareas, identificando errores y generando sugerencias de código.

Ambos proyectos muestran el potencial de los agentes de ia para integrarse perfectamente en nuestras vidas digitales, haciendo que nuestras experiencias en línea sean más eficientes, productivas y agradables. Pero esto es solamente la punta del iceberg.

Una nueva era de aprendizaje

Citron revela que en México, Gemini Live se utiliza principalmente para tareas relacionadas con la productividad, como apoyo en tareas escolares, búsqueda de información, inspiración para escribir o consultas para comprender mejor el mundo. Sorprendentemente, algunos usuarios incluso lo usan para tener compañía y simplemente charlar.

“Creo que todos estamos realmente impresionados. Hemos tenido la tecnología de texto a voz durante muchos, muchos años; más de una década. Pero hay algo en esta nueva tecnología, donde la latencia es tan baja y el tipo de respuestas suenan naturales realmente hacen que parezca que puedes tener una conversación natural. Y entonces no es de extrañar que muchos usuarios lo estén utilizando solo para conversar”, señala.

Citron también está convencido de que esta nueva ola de tecnología de inteligencia artificial abre las puertas a una nueva era para el aprendizaje, una caracterizada por una personalización real.

“Cuando era niño, si por alguna razón tu profesor no sabía cómo enseñarte o tú no le entendías bien a la forma en que te enseñaba, te estancabas. Podías salir de la clase y pensar ‘oh, no soy bueno en matemáticas’ y muchas veces era simplemente que el tipo de lenguaje de aprendizaje no resonaba contigo en ese momento. Hubo una época en la que podías conectarte a internet y buscar ese tema específico de matemáticas y encontrar miles de videos en YouTube con personas explicándolo de todo tipo de maneras. Y si dedicabas suficiente tiempo y estabas lo suficientemente motivado, podías encontrar el tipo de profesor o la forma de enseñar que realmente resonaba contigo y eso era emocionante”, señala.

“Ahora, con Gemini y los grandes modelos de lenguaje, tienes una capacidad infinita para ajustar dinámicamente la forma en que quieres que se te expliquen y enseñen las cosas. No tienes por qué sentirte avergonzado por hacer cualquier tipo de preguntas. No importa la edad que tengas, puedes pedirle que explique un concepto como si tuvieras cinco años y nadie tiene por qué saber que lo hiciste”, explica.

Citron enfatiza que estas tecnologías también potencian la creatividad de los usuarios, dando un ejemplo más concreto con el tema de la codificación.

“La capacidad de escribir código siempre ha estado fuera del alcance de muchas personas, ya sea porque no tenían acceso a los materiales educativos o simplemente por la complejidad de aprender los diferentes lenguajes de programación y los diferentes entornos; no siempre son las herramientas más fáciles de usar para poder escribir aplicaciones para su dispositivo Android o incluso sitios web”, dice.

“Lo que estamos empezando a ver es que muchas personas que nunca han codificado pueden usar Gemini para producir código y comenzar a crear desde sitios web interactivos realmente sorprendentes, hasta aplicaciones móviles muy complejas”, destaca.

Citron agrega que esto no tiene que ser solo código y aplicaciones, este tipo de ia tiene el potencial de hacer realidad ideas asombrosas de personas que carecen de las herramientas o el conocimiento necesario para llevarlas a cabo.

“Ahora de repente pueden crear y tomar su imaginación y convertirla en realidad, eso es increíblemente inspirador. Estos son solo algunos ejemplos que están disponibles en la actualidad. A medida que el modelo subyacente se vuelve más inteligente, la sofisticación de estas capacidades y la habilidad de Gemini para unir tareas mucho más abstractas y trabajar durante varios minutos u horas para hacer cosas más complejas se convertirán en una posibilidad cada vez mayor.

El regreso de las gafas inteligentes

La visión de Google –y otras tecnológicas como Meta y Apple, si somos honestos– es poder llevar las habilidades de sus modelos de ia a la mayor cantidad de personas posibles de la manera más práctica.

Es aquí donde entran en juego gadgets como gafas inteligentes con realidad aumentada.

Google Glass –uno de los primeros intentos de gafas inteligentes lanzados en el ya distante 2013– enfrentó varios desafíos que llevaron a su discontinuación para el consumidor general.

Su elevado precio,el incómodo diseño, las preocupaciones sobre la privacidad debido a la cámara incorporada, la funcionalidad limitada y los errores de marketing contribuyeron a que no se adoptara de forma generalizada.

No todo fue pérdida: preparó el camino para el desarrollo futuro de gafas inteligentes y todo indica que, gracias a los avances en ia, Google está listo para apostar nuevamente en esta tecnología.

Google está trabajando junto con Samsung en Android XR, un nuevo sistema operativo diseñado específicamente para dispositivos de realidad aumentada y virtual.

Este sistema operativo promete revolucionar la forma en que interactuamos con el mundo digital. Imagina unas gafas inteligentes que entiendan tu voz, analicen lo que ves y te proporcionen información o asistencia en tiempo real, como traducir conversaciones o identificar objetos. Con la capacidad de personalización y reconocimiento contextual de Gemini, Android XR podría revolucionar la forma en que interactuamos con la tecnología y el mundo que nos rodea, haciendo que las gafas inteligentes sean indispensables para la comunicación, el aprendizaje y la vida cotidiana.

El potencial de esta tecnología quedó reflejado en unos prototipos que utilizaron a Astra para interpretar el entorno del usuario, ofreciendo direcciones, pronósticos del clima o recordatorios en tiempo real.

“Google está muy entusiasmada con esa dirección tecnológica. Creo que ahora la gente realmente lo entiende y cree que el producto encaja en el mercado. Ahora, la interrogante es cómo lo producimos y reducimos el costo para que todos puedan tener acceso a una especie de ia que los puede acompañar a dondequiera que vayan. Creo que esa es la visión que vamos a tratar de impulsar y estamos muy emocionados de traer más de eso al mercado”, anticipa Citron.

Este artículo fue publicado en la primera edición impresa de Fast Company México, en marzo de 2025.

Héctor Cueto

Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.
View all posts

Héctor Cueto

Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.
View all posts

Sobre el autor

Héctor Cueto Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.

Explora otros temas

Por qué tu empresa no logra formar la próxima generación de líderes

De Hot Wheels a He-Man: ella es la ejecutiva de Mattel encargada de detectar historias con el potencial taquillero de “Barbie”

Quizás quieras instalar una VPN en tu teléfono. Aquí te explicamos cómo hacerlo.

Recetas para pertenecer: cocina y migración

Adiós, asistentes. Hola, aliados

El nuevo punto de partida

Construyendo los asistentes virtuales del futuro

Una nueva era de aprendizaje

El regreso de las gafas inteligentes

Author

Author

Fast Company México

Lo Último

El nuevo punto de partida

Construyendo los asistentes virtuales del futuro

Una nueva era de aprendizaje

El regreso de las gafas inteligentes

Author

Author