| Tech

La estrategia de IA de Google finalmente está cobrando claridad

Google ya no se limita a “organizar la información del mundo”. Con Gemini, busca que la IA razone sobre esa información y actúe cada vez más en nombre del usuario.

La estrategia de IA de Google finalmente está cobrando claridad [Captura de pantalla: Google]

En un importante avance en la carrera por la IA, Google anunció el martes una serie de productos nuevos y actualizados en su conferencia para desarrolladores I/O. Estos abarcaron desde herramientas para implementar agentes de IA personales hasta generadores de código, herramientas de búsqueda y un nuevo “modelo del mundo” para generar videos físicamente precisos.

En conjunto, estos lanzamientos reflejan la estrategia actual de Google para acercar la inteligencia artificial a consumidores y empresas. Se trata de una estrategia que aprovecha eficazmente la vasta infraestructura de información de la compañía, construida a través de la búsqueda, de maneras que le otorgan claras ventajas sobre las empresas de IA más recientes.

Nuevos modelos

Los modelos más recientes de Google DeepMind son más grandes e inteligentes, profundamente multimodales y optimizados para la acción. Muchos de los nuevos productos y funciones anunciados en I/O funcionan con el nuevo modelo Gemini 3.5 Flash. Google afirma que el modelo está optimizado para la velocidad y la eficiencia, es cuatro veces más rápido que otros modelos de vanguardia y cuesta entre la mitad y un tercio del precio de modelos comparables. Gemini 3.1 Pro era anteriormente el mejor modelo de DeepMind, y 3.5 Flash lo supera en casi todas las pruebas de rendimiento, especialmente en codificación y uso de herramientas.

También existe un modelo Gemini 3.5 Pro, que se convertirá en el nuevo modelo insignia de DeepMind, pero los investigadores aún están estudiando sus implicaciones de seguridad y planean lanzarlo públicamente en algún momento de junio. “Nos hemos centrado por completo en la serie 3.5 en aprovechar la inteligencia del modelo y asegurar que el uso de herramientas, el seguimiento de instrucciones, los casos de uso a largo plazo y la decodificación de agentes funcionen correctamente”, declaró el CEO de Alphabet, Sundar Pichai, durante una conferencia telefónica con periodistas el lunes.

Google también anunció su entrada en la creciente carrera por crear “modelos del mundo”; es decir, modelos capaces de crear entornos digitales o videos que se mantengan fieles a las propiedades físicas del mundo real. El nuevo Gemini Omni, es multimodal, lo que significa que puede generar diversos tipos de resultados (video, imágenes, texto, audio y más) a partir de indicaciones que incluyan contenido en esos mismos formatos.

Un ejemplo: un usuario puede proporcionar una imagen suya, junto con un video, y el modelo utilizará razonamiento avanzado para que su imagen aparezca como personaje en el video. Google lanza hoy una versión reducida de Omni, llamada Omni Flash. Un modelo más grande, Omni Pro, se encuentra actualmente en desarrollo.

Mostrando sus ventajas

Antes de hablar sobre sus nuevos modelos, Google mencionó la infraestructura que ha construido para darles soporte. Google afirma que prevé invertir hasta 190,000 millones de dólares en nueva infraestructura este año. Gran parte de esa inversión se destinará a nuevos centros de datos donde los modelos Gemini se ejecutan en cientos de miles de chips de IA propios de Google.

La compañía se encuentra ahora en su octava generación de unidades de procesamiento tensorial (TPU), los chips que realizan los miles de millones de cálculos matemáticos que requieren las redes neuronales. A medida que los laboratorios de IA aumentan sus recursos informáticos, la potencia y la eficiencia de costos de los chips que utilizan influyen cada vez más en la rentabilidad de ofrecer modelos y aplicaciones de IA a los usuarios. Google afirma que el entrenamiento de grandes modelos de IA ya no se limita a un único centro de datos, sino que puede distribuirse entre más de un millón de TPU a nivel mundial, creando así el clúster de entrenamiento más grande del mundo.

Google también podría tener una clara ventaja en lo que respecta a los datos de entrenamiento. Es muy probable que la compañía cuente con el rastreador web más avanzado del mundo, la tecnología que rastrea e indexa continuamente las páginas web para que puedan ser buscadas. Los investigadores entrenan grandes modelos de IA con enormes cantidades de este contenido web, y el volumen, la calidad y la composición de esos datos de entrenamiento pueden influir directamente en la inteligencia general del modelo.

Los rastreadores de Google podrían simplemente acceder a más páginas web y contenido que los utilizados por otros laboratorios de IA. La compañía también recopila gran parte de este contenido en un “grafo de conocimiento”, lo que le permite ofrecer rápidamente información sobre personas, lugares, organizaciones, productos, eventos y conceptos. Toda esta información puede utilizarse para entrenar modelos. Además, Google tiene disponible el corpus completo de videos de YouTube para el entrenamiento de IA. Es muy probable que ese contenido se haya utilizado para entrenar el nuevo modelo Omni World y que este comprendiera las relaciones y el movimiento de los objetos en el mundo real.

Un punto más importante: los laboratorios de IA piden al público que deposite mucha fe en ellos. Fe en que nuestra información se mantendrá segura; en que las empresas invertirán responsablemente en la seguridad de la IA; en que no permitirán que su tecnología se utilice con fines dañinos, como armas autónomas o vigilancia masiva; en que los nuevos centros de datos no dispararán los precios de la energía ni agravarán el impacto ambiental; en que los beneficios de la IA se distribuirán ampliamente.

Y fe en que el propio negocio, con el tiempo, generará suficiente demanda de mercado e ingresos para sobrevivir. Google no es perfecta, pero el enfoque pragmático de la compañía respecto a la IA da la impresión de que puede cumplir tales promesas de manera creíble y de que, de hecho, hay adultos al mando.

Enfoque en el consumidor

La narrativa predominante ha sido que empresas como Google, Anthropic y OpenAI necesitan estos centros de datos para impulsar procesos empresariales basados ​​en IA en las grandes corporaciones. Por ello, resultó llamativo escuchar a Google centrarse principalmente en nuevos modelos, aplicaciones y servicios orientados al consumidor durante el evento I/O. Pichai declaró durante la sesión informativa del lunes que Google está tratando de poner a disposición de los consumidores la mayor cantidad posible de inteligencia de vanguardia.

“Como alguien que creció utilizando el buscador de Google, creo que toda la filosofía de la compañía ha consistido en organizar la información del mundo y hacerla universalmente accesible y útil”, afirma Tulsee Doshi, directora sénior y líder de producto de IA generativa y modelos Gemini en DeepMind, en una entrevista con Fast Company. “Y ahora, en la era de los agentes, se puede añadir: ‘ayudar a los usuarios a actuar sobre esa información de una manera reflexiva e intencional'”.

Doshi reconoció que una gran parte del retorno de la masiva inversión de capital que Google ha destinado a los centros de datos provendrá, probablemente, del sector empresarial.

Agentes personales

Este año, Anthropic y OpenAI ampliaron sus herramientas de programación —Claude Code y Codex— para abarcar también tareas de gestión de información que no implican codificación, incluida la creación y administración de agentes autónomos. Es posible que Google llegue con un ligero retraso a esta tendencia, pero está haciendo todo lo posible por ponerse al día.

La compañía lanzó Gemini Spark, un agente de IA personal que funciona con Gemini 3.5 Flash y permanece activo en segundo plano incluso cuando los dispositivos del usuario están apagados.

El gran punto fuerte de Spark podría ser su rápida capacidad de personalización. Al conectarse con Gmail, Docs, Slides y otras herramientas de Workspace de uso generalizado, puede aprender rápidamente los intereses, las preferencias y los hábitos de trabajo del usuario. Google afirma que este agente es capaz de gestionar tareas complejas, como redactar informes de estado a partir de múltiples documentos o planificar fiestas vecinales. También puede realizar tareas de varios pasos, tales como analizar extractos de tarjetas de crédito, monitorear la bandeja de entrada de Gmail en busca de información urgente o transformar notas de reuniones en documentos pulidos y profesionales.

Tal como ya han comenzado a hacer sus competidores, Google también ha desarrollado conectores para herramientas de terceros, como Canva, OpenTable e Instacart. Google ha anunciado que este verano llegarán más funcionalidades, incluida la posibilidad de enviar mensajes de texto o correos electrónicos directamente a Spark, crear subagentes personalizados y permitir que Spark controle el navegador local. Los usuarios controlan a qué aplicaciones puede acceder Spark, y el agente está diseñado para solicitar confirmación antes de realizar acciones de alto riesgo, como enviar correos electrónicos o gastar dinero. Google afirma que Spark llegará pronto a su aplicación móvil Gemini, lo que permitirá a los usuarios gestionar los agentes desde cualquier lugar.

La búsqueda y la IA se están fusionando

Al comienzo del auge de la IA generativa, muchos creyeron que la búsqueda basada en IA arruinaría el negocio de publicidad en búsquedas de Google, su principal fuente de ingresos. Google siempre había colocado anuncios junto a los resultados de búsqueda clasificados —los clásicos “10 enlaces azules”—, pero no estaba claro cómo funcionaría la publicidad en torno a las respuestas personalizadas generadas por IA. Ahora, la compañía parece dispuesta a argumentar que mejorar radicalmente la búsqueda mediante la IA simplemente animó a los usuarios a buscar con más frecuencia, creando nuevas oportunidades publicitarias que, de otro modo, no habrían existido.

Google señaló que los usuarios realizaron más búsquedas durante el primer trimestre del año que en cualquier trimestre anterior, probablemente debido a la naturaleza conversacional y de consultas múltiples de la búsqueda con IA. La empresa afirma que las consultas realizadas en el «Modo IA» se han duplicado cada trimestre y que, actualmente, más de mil millones de personas utilizan esta herramienta cada mes.

Google comenzó a utilizar grandes modelos lingüísticos, en un primer momento, para ayudar a interpretar la intención detrás de las búsquedas de los usuarios. Tras la llegada de ChatGPT, introdujo las “AI Overviews” (Resúmenes de IA) para algunas búsquedas; en este formato, los resultados se presentaban empaquetados en resúmenes generados por IA, diseñados para responder a las preguntas de los usuarios. Posteriormente llegó el “Modo IA”, una evolución de esa misma idea. Hoy en día, la IA se entiende mejor como una capa permanente que se sitúa por encima de toda la funcionalidad de búsqueda de Google.

Muchos supusieron que Google tendría que inventar un modelo de negocio publicitario totalmente nuevo para la búsqueda con IA. En cambio, ha integrado la IA en su maquinaria publicitaria de búsqueda ya existente. Google sigue mostrando los anuncios de búsqueda tradicionales por encima y por debajo de las respuestas generadas por IA, y sus subastas de anuncios actuales continúan funcionando con normalidad.

La nueva función de Google “Ask YouTube” (Pregunta a YouTube), que estará disponible próximamente, ofrece un útil microejemplo de cómo la IA está potenciando la búsqueda. Los usuarios ya pueden buscar videos sobre un tema —quizás para resolver una duda práctica o “cómo hacer algo”— y, posteriormente, examinar esos videos en busca de respuestas. Pronto, la IA permitirá a los usuarios “conversar” con los videos y formular preguntas sobre su contenido. Es posible que YouTube también ofrezca resultados de búsqueda personalizados que combinen varios videos con instrucciones o pasos para completar una tarea específica.

A escala de toda la web, Google aspira a que su IA analice de manera similar la información mundial, razone sobre ella y responda a las preguntas que surjan al respecto. “Hemos combinado con éxito lo mejor del motor de búsqueda con lo mejor de la IA para poder crear una verdadera experiencia de búsqueda basada en IA que reúne nuestros modelos Gemini más avanzados, nuestras capacidades de agente más recientes y toda la amplitud de la información mundial”, afirmó Liz Reid, directora de Google Search, durante la conferencia de prensa.

Es importante destacar que las nuevas capacidades de búsqueda anunciadas por Google están impulsadas por el nuevo modelo Gemini 3.5 Flash.

Por primera vez, Google ha modificado su tradicional cuadro de búsqueda para que este se expanda dinámicamente, adaptándose así a consultas más extensas y detalladas. En los próximos meses, los usuarios también podrán implementar «agentes en segundo plano» que supervisen de forma continua información específica en la web, o incluso crear herramientas personalizadas y persistentes, tales como rastreadores de actividad física.

Cabe recordar que las ambiciones de Google en el ámbito de la IA siguen dependiendo de la solidez de su negocio principal: la publicidad en las búsquedas. A diferencia de algunos de sus competidores, Google no depende exclusivamente de los ingresos generados por las API de modelos de IA o por las suscripciones para mantener su operatividad. La IA actúa como un complemento a las búsquedas; es, además, un nuevo y potente producto para comercializar a través del próspero negocio de servicios en la nube de la compañía. Si bien Wall Street podría tener su propia perspectiva sobre estos avances, la diversificación del negocio de Google debería protegerla frente a los crecientes temores de que el actual auge de la IA —y las enormes inversiones de capital asociadas a él— termine resultando ser una burbuja.

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Sobre el autor

Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan