| Tech

¿El benchmark más importante de la IA en 2026? La confianza

“Mi confianza en los chatbots creció en 2025. Pero también disminuyó”.

¿El benchmark más importante de la IA en 2026? La confianza [Imagen base: Getty Images]

En 2026 (y más allá) el mejor benchmark para los modelos de lenguaje grandes no será MMLU ni AgentBench ni GAIA. Será la confianza, algo que la IA tendrá que reconstruir antes de poder ser ampliamente útil y valiosa tanto para consumidores como para empresas.

Los investigadores identifican varios tipos diferentes de confianza en la IA. En las personas que usan chatbots como compañeros o confidentes, miden un sentimiento de que la IA es benevolente o tiene integridad. En las personas que usan IA para productividad o negocios, miden algo llamado “confianza en la competencia”, o la creencia de que la IA es precisa y no alucina hechos. Me enfocaré en ese segundo tipo.

La confianza en la competencia puede crecer o disminuir. Un usuario de herramientas de IA, de manera bastante racional, comienza dándole a la IA tareas simples—quizás buscar datos o resumir documentos largos. Si la IA hace un buen trabajo en estas cosas, el usuario naturalmente piensa “¿qué más puedo hacer con esto?”, pueden darle a la IA una tarea ligeramente más difícil. Si la IA continúa haciendo las cosas bien, la confianza crece, pero si la IA falla o proporciona una respuesta de baja calidad, el usuario pensará dos veces antes de intentar automatizar la tarea la próxima vez.

Pasos adelante, pasos atrás

Los chatbots de IA de hoy, que están impulsados por grandes modelos de IA generativa, son mucho mejores que los que teníamos en 2023 y 2024. Pero las herramientas de IA apenas están comenzando a construir confianza con la mayoría de los usuarios, y con la mayoría de los ejecutivos de nivel C que esperan que las herramientas agilicen las funciones de negocio. Mi propia confianza en los chatbots creció en 2025. Pero también disminuyó.

Ejemplo: Entré en una larga conversación con uno de los chatbots populares sobre el contenido de un documento largo. La IA hizo algunas observaciones interesantes sobre el trabajo y sugirió algunas formas sensatas de llenar los vacíos. Luego hizo una observación que parecía contradecir algo que yo sabía que estaba en el documento.

Cuando señalé los datos faltantes, inmediatamente admitió su error. Cuando le pregunté (de nuevo) si había digerido el documento completo, nuevamente insistió en que sí. Otro chatbot de IA devolvió un reporte de investigación que dijo estaba basado en 20 fuentes. Pero no había citas en el texto conectando declaraciones específicas con fuentes específicas. Después de que agregara las citas dentro del texto, noté que en dos lugares la IA había confiado en una sola fuente poco confiable para un hecho clave.

Aprendí que los modelos de IA todavía luchan con conversaciones largas que involucran grandes cantidades de información, y que no son buenos para decirle al usuario cuándo están sobrepasados. La experiencia ajustó mi confianza en las herramientas.

Lidiar con la ambigüedad

Al entrar en 2026, la historia de la IA generativa todavía está en sus primeros capítulos. La historia comenzó con laboratorios de IA desarrollando modelos que podían conversar, escribir y resumir. Ahora los grandes laboratorios de IA parecen confiar en que los agentes de IA pueden trabajar autónomamente a través de tareas complejas, recurriendo a herramientas y verificando su trabajo contra datos expertos. Parecen convencidos de que los agentes pronto manejarán la ambigüedad con juicio similar al humano.

Si las grandes empresas comienzan a confiar en que estos agentes pueden hacer tales trabajos de manera confiable, significaría enormes ingresos para la compañía de IA que los desarrolló. Basándose en sus inversiones actuales de cientos de miles de millones en infraestructura de IA, las compañías de IA y sus patrocinadores parecen creer que este resultado está cerca.

Incluso si la IA pudiera traer intelecto de nivel humano a escenarios de negocios mañana, aún podría tomar tiempo construir confianza entre los tomadores de decisiones y trabajadores. Hoy, la confianza en la IA no es alta. La firma consultora KPMG encuestó a 48,000 personas en 47 países (dos tercios de las cuales usan IA regularmente) y encontró que mientras 83% cree que la IA será benéfica, solo 46% realmente confía en el resultado de las herramientas de IA. Algunos pueden tener una falsa confianza en la tecnología: dos tercios de los encuestados dicen que a veces confían en el resultado de la IA sin evaluar su precisión.

Pero dudo que los agentes de IA estén listos para completar tareas complejas y manejar la ambigüedad como podrían hacerlo los expertos humanos. A medida que la IA sea usada por más personas y empresas, encontrarán un universo de problemas únicos dentro de varios contextos que nunca han visto antes. Dudo que los agentes de IA actuales entiendan las formas de los humanos y el mundo lo suficientemente bien como para improvisar su camino a través de tales situaciones. Todavía no, de todos modos.

Las limitaciones de los modelos

El hecho es que las compañías de IA están usando el mismo tipo de modelos de IA (basados en transformadores) para respaldar agentes de razonamiento que usaron para los primeros chatbots que eran esencialmente generadores de palabras. La función central de tales modelos, y el objetivo de todo su entrenamiento, es predecir la siguiente palabra (o píxel o bit de audio) en una secuencia, explicó el CEO de Microsoft AI (y cofundador de Google DeepMind) Mustafa Suleyman en un podcast reciente. “Está usando esa función muy simple de predicción de probabilidad de palabra para simular cómo es tener una gran conversación o responder preguntas complejas”, dijo.

Suleyman y otros lo dudan. Suleyman cree que los modelos actuales no toman en cuenta algunos de los impulsores clave de las cosas que los humanos dicen y hacen. “Naturalmente, esperaríamos que algo que tiene las características de la inteligencia también tenga la fisiología sintética subyacente que nosotros tenemos, pero no la tiene”, dijo Suleyman. “No hay red de dolor, no hay sistema emocional, no hay voluntad interna ni impulso ni deseo”.

El pionero de la IA (y ganador del Premio Turing) Yann LeCun dice que los LLM de hoy son lo suficientemente útiles como para ser aplicados de algunas formas valiosas, pero piensa que nunca lograrán la inteligencia general o de nivel humano necesaria para hacer el trabajo realmente de alto valor que las compañías de IA esperan que hagan. Para aprender a intuir caminos a través de la complejidad del mundo real, la IA necesitaría un régimen de entrenamiento de mucho mayor ancho de banda que solo palabras, imágenes y código de computadora, dice LeCun. Podrían necesitar aprender el mundo a través de algo más parecido a la experiencia multisensorial que tienen los bebés, y poseer la asombrosa habilidad de procesar y almacenar toda esa información rápidamente, como pueden hacerlo los bebés, dice.

Suleyman y LeCun pueden estar equivocados. Compañías como OpenAI y Anthropic pueden lograr inteligencia de nivel humano usando modelos cuyo origen está en el lenguaje.

La gobernanza importa

Mientras tanto, la competencia es solo un factor en la confianza en la IA entre los usuarios de negocios. Las empresas usan plataformas de gobernanza para monitorear si y cómo los sistemas de IA podrían estar creando problemas de cumplimiento regulatorio o exponiendo a la compañía al riesgo de ciberataque, por ejemplo. “Cuando se trata de IA, las grandes empresas… quieren ser confiables para clientes, inversionistas y reguladores”, dice Navrina Singh, fundadora y CEO de la plataforma de gobernanza Credo AI. “La gobernanza de la IA no nos está ralentizando, es lo único que permite una confianza medible y deja que la inteligencia escale sin romper el mundo”.

Mientras tanto, el ritmo al que los humanos delegan tareas a la IA será moderado por la confianza. Las herramientas de IA deben usarse para tareas en las que son buenas, para que la confianza en los resultados crezca. Eso tomará tiempo, y es un objetivo móvil porque la IA está mejorando continuamente. Descubrir y delegar nuevas tareas para la IA, monitorear los resultados y ajustar las expectativas muy probablemente se convertirá en una parte rutinaria del trabajo en el siglo XXI.

No, la IA no reinventará repentinamente los negocios de una sola vez el próximo año. 2026 no será el “año del agente”. Tomará una década para que las herramientas de IA se prueben y se vuelvan probadas en batalla. La confianza es el agente endurecedor.

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Author

  • Mark Sullivan

    Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan

    View all posts

Sobre el autor

Mark Sullivan es redactor sénior de Fast Company y cubre temas de tecnología emergente, inteligencia artificial y políticas tecnológicas. Antes de incorporarse a Fast Company en enero de 2016, Sullivan escribió para VentureBeat, Light Reading, CNET, Wired y PCWorld. Síguelo en Twitter @thesullivan