Google lanza Gemini 2.0 y muestra avances en agentes de IA

[Foto: AFP]

Por Héctor Cueto 8 minutos de lectura

Fue hace prácticamente un año cuando Google presentó a Gemini 1.0 (sucesor de Bard) como su nuevo modelo de inteligencia artificial para hacer competencia a ChatGPT de OpenAI. Ahora, el gigante tecnológico acaba de revelar a Gemini 2.0, un nuevo modelo más avanzado y poderoso que, según la compañía, está “hecho para la era de los agentes de IA”.

Durante el último año, Google ha estado invirtiendo en el desarrollo de agentes de IA que puedan comprender mejor el mundo que les rodea con el fin de interactuar con sus usuarios de manera similar a cómo lo haría una persona real. Project Astra, presentado en el pasado en Google I/O, fue uno de los primeros ejemplos de esto, y la compañía espera que con Gemini 2.0 este objetivo esté aún más cerca de ser una realidad.

De acuerdo con Google, Gemini 2.0 es capaz de interactuar nativamente con prácticamente todas las aplicaciones de la compañía, desde su motor de búsqueda y Maps hasta Gmail y Lens. También es capaz de codificar y continúa la tendencia de ser multimodal, lo que significa que puede entender comandos de texto, voz e imagen, pero también generar todo eso en sus respuestas.

“Con nuevos avances en multimodalidad (como salida de audio e imagen nativa) y uso de herramientas nativas, [Gemini 2.0] nos permitirá crear nuevos agentes de IA que nos acerquen a nuestra visión de un asistente universal” escribió Sundar Pichai, CEO de Google, en un comunicado. “Si Gemini 1.0 se trataba de organizar y comprender la información, Gemini 2.0 se trata de hacerla mucho más útil”.

Google dijo que a partir de este miércoles estará probando las capacidades de Gemini 2.0 tanto en su motor de búsqueda como AI Overviews (que ya llega a 1,000 millones de personas), lo que permitirá a la herramienta abordar temas más complejos y recibir preguntas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y codificación. También dijo que continuará llevando AI Overviews a más países e idiomas durante el próximo año.

Puedes probar el modelo experimental Gemini 2.0 Flash a partir de hoy

Google también está lanzando hoy el primer modelo de la familia Gemini 2.0: Gemini 2.0 Flash, una versión experimental diseñada para ofrecer baja latencia y alto rendimiento. Este modelo mejora varios puntos de Gemini 1.5 Flash, manteniendo tiempos de respuesta rápidos y superando incluso a 1.5 Pro en los principales puntos de referencia, con el doble de velocidad.

Gemini 2.0 Flash incluye nuevas capacidades multimodales: admite entradas como imágenes, video y audio, además de generar salidas mixtas de texto, imágenes nativas y audio multilingüe dirigido de texto a voz (TTS). También puede interactuar de forma nativa con herramientas como Google Search, ejecutar código y utilizar funciones de terceros definidas por el usuario.

Pichai agregó que el modelo experimental Gemini 2.0 Flash estará disponible a partir de hoy para todos los usuarios a nivel mundial, seleccionándola en el menú desplegable de modelos en la versión de escritorio y la web móvil. El CEO aseguró que pronto estará disponible en la aplicación móvil de Gemini.

La compañía también lanzó una nueva función para Gemini Advanced llamada Deep Research, que utiliza capacidades de razonamiento avanzado y contexto extenso para actuar como asistente de investigación, explorando temas complejos y compilando informes por el usuario.

Project Astra se vuelve más inteligente con Gemini 2.0

Google también dio una nueva demostración de Project Astra, que ahora estará impulsado por Gemini 2.0.

En la demostración, uno de los investigadores de Google lleva el prototipo de Gemini 2.0 en su celular con él mientras explora el centro de Londres. El modelo es capaz de responder en tiempo las preguntas que se le hace, dando información precisa sobre una estatua en un parque y explicando en francés la historia de las linternas en la entrada del barrio chino.

Bibo Xu, líder de Project Astra, dijo a periodistas que Project Astra irá aprendiendo a medida que interactúa con el usuario. Xu agregó que esta última versión con Gemini 2.0 cuenta con avances significativos como mejor comprensión de idiomas y acentos, integración con herramientas como Search, Maps y Lens, mayor capacidad de memoria (ahora puede retener hasta 10 minutos de información por sesión, así como recordar conversaciones pasadas con el usuario y datos específicos de estas) y una latencia más cercana a la conversación humana.

Estas innovaciones no solo mejoran su utilidad en la vida diaria, sino que también preparan el terreno para su implementación en nuevos formatos, como gafas inteligentes.

De hecho, Google también mostró las capacidades del mejorado Project Astra a través de un prototipo de gafas inteligentes. Al ser capaz de ver lo que ve el usuario, el agente de IA puede hacer cosas como dar un pronóstico del tiempo al ver el cielo, dar direcciones en tiempo real o recordar una clave de acceso a un hostal, entre muchas cosas más.

Google no dio más información sobre estas gafas inteligentes, pero dijo que un pequeño grupo de personas pronto comenzará a probar a Project Astra en ellas, lo cual es emocionante.

Nuevos agentes de IA que ayudan a codificar y a ser mejor en videojuegos

Además de las mejoras en Astra, Google también presentó dos nuevos agentes de IA: Project Mariner y Jules.

Project Mariner es un prototipo de agente de IA basado en Gemini 2.0 que ayuda a los usuarios a realizar tareas complejas en su navegador o ejecutar otras acciones. Como prototipo de investigación, puede comprender y razonar sobre la información en la pantalla de tu navegador (incluidos pixeles y elementos web como texto, código, imágenes y formularios) y luego utiliza esa información a través de una extensión experimental de Chrome para completar tareas por usted.

Aunque todavía tiene limitaciones en velocidad y precisión, ha demostrado un desempeño sobresaliente en pruebas iniciales. El proyecto incluye controles para garantizar seguridad. Por ejemplo, Project Mariner sólo puede escribir, desplazarse o hacer clic en la pestaña activa del navegador y solicita a los usuarios una confirmación final antes de realizar ciertas acciones sensibles, como comprar algo.

Por otro lado, Jules es un agente de IA experimental diseñado para asistir a desarrolladores, integrándose en flujos de trabajo de GitHub. Este agente puede planificar y ejecutar soluciones a problemas de desarrollo bajo la supervisión del usuario, representando un paso hacia el uso de IA en múltiples áreas, incluyendo la programación.

Google DeepMind también está desarrollando agentes de IA basados en Gemini 2.0 que pueden ofrecer asistencia en tiempo real dentro de videojuegos, razonando sobre las acciones en pantalla y proporcionando sugerencias a través de conversaciones. En colaboración con desarrolladores como Supercell, estos agentes están siendo probados en diversos videojuegos (desde títulos de estrategia como Clash of Clans hasta simuladores agrícolas como Hay Day) para interpretar reglas y superar desafíos. Además, pueden utilizar Google Search para acceder a información relevante sobre juegos en la web.

Más allá del ámbito virtual, Google DeepMind también está explorando cómo aplicar las capacidades de razonamiento espacial de estos agentes de IA a la robótica, para brindar asistencia en el mundo físico.

La seguridad sigue siendo una prioridad para Google en la era de los agentes de IA

La empresa subraya que la responsabilidad y la seguridad son fundamentales para garantizar que sus modelos sean confiables y beneficiosos para los usuarios. A medida que Gemini 2.0 y los agentes de IA que potencia aumentan su multimodalidad, la compañía sigue evaluando y entrenando el modelo en entradas y salidas de imagen y audio para mejorar su seguridad.

Con Project Astra, por ejemplo, está explorando maneras de mitigar que los usuarios compartan sin querer información sensible, además de incorporar controles de privacidad que permiten eliminar sesiones fácilmente. También investiga cómo asegurar que los agentes de IA sean fuentes confiables de información y eviten acciones no deseadas en nombre del usuario.

En el caso de Project Mariner, Google busca que el modelo priorice las instrucciones del usuario sobre intentos de inyección de prompts de terceros, identificando instrucciones maliciosas de fuentes externas para prevenir fraudes o intentos de phishing escondidos en correos electrónicos, documentos o sitios web.

La compañía asegura que realiza investigaciones con múltiples prototipos, implementando capacitación en seguridad de manera iterativa, colaborando con testers de confianza y expertos externos, y llevando a cabo evaluaciones exhaustivas de riesgos y seguridad.

Héctor Cueto

Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.
View all posts

Héctor Cueto

Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.
View all posts

Sobre el autor

Héctor Cueto Héctor Cueto Holmes es licenciado en Periodismo y Medios de Información por el Tecnológico de Monterrey. Con más de 14 años de experiencia en el ámbito editorial, comenzó su carrera como reportero en Animal Político (anteriormente Pájaro Político). A lo largo de su trayectoria, ha ocupado diversos cargos en medios destacados: fue consejero editorial para la sección Internacional del periódico Reforma, coeditor de la revista Deep del Grupo Medios y editor de Tecnología en Business Insider México, donde ha cubierto el impacto de diversas tecnologías en los ámbitos social, económico y de entretenimiento.

Explora otros temas

HBO Max será más estricto con las contraseñas compartidas a partir de septiembre

¿Crees que el Cybertruck se ve raro? Mira a sus predecesores

Por qué los modelos de código abierto de OpenAI son importantes

Por qué tus juntas rápidas no dan resultados —3 estrategias para mejorar

Google lanza Gemini 2.0 y muestra avances en agentes de IA

Puedes probar el modelo experimental Gemini 2.0 Flash a partir de hoy

Project Astra se vuelve más inteligente con Gemini 2.0

Nuevos agentes de IA que ayudan a codificar y a ser mejor en videojuegos

La seguridad sigue siendo una prioridad para Google en la era de los agentes de IA

Author

Author

Fast Company México

Lo Último

Puedes probar el modelo experimental Gemini 2.0 Flash a partir de hoy

Project Astra se vuelve más inteligente con Gemini 2.0

Nuevos agentes de IA que ayudan a codificar y a ser mejor en videojuegos

La seguridad sigue siendo una prioridad para Google en la era de los agentes de IA

Author

Author