ADVERTISEMENT

| Tech

Gemini 2.5 Pro de Google podría ser el modelo de IA más importante en lo que va del año

Gemini 2.5 Pro obtiene resultados significativamente mejores que su competencia en todo, desde matemáticas difíciles hasta comprensión de contextos largos.

Gemini 2.5 Pro de Google podría ser el modelo de IA más importante en lo que va del año [Foto: Jaque Silva/NurPhoto via Getty Images]

Google lanzó su nuevo modelo de IA experimental Gemini 2.5 Pro a finales del mes pasado, y rápidamente ha obtenido las mejores calificaciones en diversas pruebas comparativas de programación, matemáticas y razonamiento. Esto lo convierte en un candidato a ser el mejor modelo de IA en el mundo.

Gemini 2.5 Pro es un modelo de “razonamiento”, lo que significa que sus respuestas se derivan de una combinación de datos de entrenamiento y razonamiento en tiempo real realizado en respuesta a la pregunta o solicitud del usuario. Al igual que otros modelos más recientes, Gemini 2.5 Pro puede consultar la web, pero también contiene una imagen bastante reciente del conocimiento mundial: sus datos de entrenamiento finalizan a finales de enero de 2025.

El año pasado, para mejorar el rendimiento del modelo, los investigadores de IA comenzaron a enseñar a los modelos a “razonar” cuando están activos y responden a las solicitudes del usuario. Este enfoque requiere que los modelos procesen y retengan cada vez más datos para obtener respuestas precisas. (Gemini 2.5 Pro, por ejemplo, puede gestionar hasta un millón de tokens). Sin embargo, los modelos suelen tener dificultades con la sobrecarga de información, lo que dificulta la extracción de información significativa de todo ese contexto.

Gemini 2.5 Pro sobresale en comprensión

Google parece haber avanzado en el aspecto de razonamiento y comprensión. El canal de YouTube AI Explained señala que Gemini 2.5 obtuvo excelentes resultados en una nueva prueba de referencia llamada Fiction.liveBench, diseñada para evaluar la capacidad de un modelo para recordar y comprender la información contextual.

Por ejemplo, Fiction.liveBench podría pedirle al modelo que lea una novela corta y responda preguntas que requieran una comprensión profunda de la historia y los personajes. Algunos de los mejores modelos, como los de OpenAI y Anthropic, obtienen buenos resultados cuando la cantidad de datos almacenados (la ventana de contexto) es relativamente pequeña. Pero a medida que la ventana de contexto aumenta a 32 K, luego a 60 K y luego a 120 K (aproximadamente el tamaño de una novela corta), Gemini 2.5 Pro destaca por su comprensión superior.

Esto es importante porque algunos de los casos de uso más productivos hasta la fecha para la IA generativa implican la comprensión y el resumen de grandes cantidades de datos. Un representante de servicio podría depender de una herramienta de IA para analizar manuales voluminosos y ayudar a alguien con dificultades técnicas sobre el terreno, o un responsable de cumplimiento corporativo podría necesitar una amplia ventana de contexto para analizar años de regulaciones y políticas.

También es muy bueno en matemáticas

Gemini también obtuvo una puntuación mucho más alta que los modelos de razonamiento de la competencia en un nuevo punto de referencia llamado MathArena, que evalúa los modelos utilizando preguntas difíciles de olimpiadas y concursos de matemáticas recientes. La prueba también requiere que el modelo muestre claramente su razonamiento a medida que avanza hacia una respuesta. Los mejores modelos de OpenAI, Anthropic y DeepSeek no superaron el 5% de la puntuación perfecta, pero el modelo Gemini 2.5 Pro obtuvo un impresionante 24.4%.

El nuevo modelo de Google también obtuvo una alta puntuación en otro punto de referencia extremadamente difícil llamado El último examen de la humanidad, cuyo objetivo es mostrar cuándo los modelos de IA superan el conocimiento y el razonamiento de los mejores expertos en un campo determinado. Gemini 2.5 obtuvo 18.8%, una puntuación solo superada por el modelo Deep Research de OpenAI. El modelo también lidera la clasificación de benchmarking colaborativo LMArena.

Finalmente, Gemini 2.5 Pro se encuentra entre los mejores modelos para programación informática. Obtuvo 70.4% en el benchmark LiveCodeBench, justo por detrás del modelo o3-mini de OpenAI, que obtuvo 74.1%. Gemini 2.5 Pro obtuvo 63.8% en SWE-bench (que mide la codificación agencial), mientras que el último modelo de Anthropic, Claude 3.7 Sonnet, obtuvo 70.3%. Finalmente, el modelo de Google superó a los modelos de Anthropic, OpenAI y xAI en la prueba de lectura visual MMMU por aproximadamente 6 puntos.

Google lanzó inicialmente su nuevo modelo para suscriptores de pago, pero ahora lo ha puesto a disposición de todos los usuarios de forma gratuita.

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Sobre el autor

Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

ADVERTISEMENT

ADVERTISEMENT