ADVERTISEMENT

| Work Life

Fallamos al medir el éxito de la IA —¿qué pueden hacer los líderes para corregirlo?

Los métodos actuales ignoran lo que realmente importa: la ética, la colaboración humana y el impacto a largo plazo.

Fallamos al medir el éxito de la IA —¿qué pueden hacer los líderes para corregirlo? [Foto: sommart/Adobe Stock]

Aquí va una advertencia importante: estamos evaluando el éxito de la inteligencia artificial (IA) como si fuera un auto deportivo. Creemos que un modelo es bueno si es rápido y potente, cuando en realidad deberíamos preguntarnos si puede ser un socio confiable y estratégico para el negocio.

La manera en que medimos su desempeño importa. Hoy, los modelos de IA ya influyen en decisiones críticas, desde contrataciones hasta diagnósticos médicos. Pero nuestro enfoque obsesionado con métricas como la precisión o los benchmarks técnicos está dejando pasar aspectos clave, y eso puede llevarnos por el camino equivocado. A la larga, lo que realmente cuenta no es solo la eficiencia, sino la eficacia.

Piénsalo así: cuando contratas a alguien para tu equipo, no te fijas solo en qué tan rápido trabaja o si cumple con los números. También importa cómo colabora, si encaja con tus valores, si puede reconocer errores y cómo impacta en la cultura del equipo. ¿Por qué no aplicamos ese mismo criterio cuando elegimos una herramienta de IA que tomará decisiones a nuestro lado? Hoy seguimos atrapados en su “desempeño técnico”, como si eso fuera suficiente.

El punto de referencia es la trampa

Hoy en día, al entrar en cualquier empresa tecnológica, se oye a ejecutivos alardear de sus últimas métricas de rendimiento: “¡Nuestro modelo alcanzó una precisión de 94.7 %!” o “¡Redujimos el uso de tokens en 20%!”. Estas cifras parecen impresionantes, pero no nos dicen prácticamente nada sobre si estos sistemas realmente satisfarán eficazmente las necesidades humanas.

A pesar de los importantes avances tecnológicos, los marcos de evaluación siguen obstinadamente centrados en las métricas de rendimiento, ignorando en gran medida los factores éticos, sociales y humanos. Es como juzgar a un restaurante únicamente por la rapidez con la que sirve la comida, sin tener en cuenta si los platos son nutritivos, seguros o realmente sabrosos.

Esta miopía en la medición nos está llevando por mal camino. Estudios recientes encontraron altos niveles de sesgo hacia grupos demográficos específicos cuando se les pide a los modelos de IA que tomen decisiones sobre individuos en relación con tareas como la contratación, las recomendaciones salariales, la aprobación de préstamos y la imposición de sentencias. Estos resultados no son solo teóricos. Por ejemplo, los sistemas de reconocimiento facial implementados en contextos policiales siguen mostrando tasas de error más altas al identificar a personas de color. Sin embargo, estos sistemas suelen superar las pruebas de rendimiento tradicionales con gran éxito.

La desconexión es evidente: celebramos logros técnicos mientras que las vidas de las personas se ven afectadas de manera negativa por nuestros puntos ciegos en las mediciones.

Lecciones del mundo real

Watson for Oncology de IBM se presentó en su momento como un avance revolucionario que transformaría la atención oncológica. Al evaluarlo con métricas tradicionales, el modelo de IA resolvió: procesaba rápidamente grandes cantidades de datos médicos y generaba recomendaciones de tratamiento con sofisticación clínica.

Sin embargo, como informó Scientific American, la realidad distó mucho de cumplir esta promesa. Cuando los principales centros oncológicos implementaron Watson, surgieron problemas importantes. Las recomendaciones del sistema a menudo no se ajustaban a las mejores prácticas, en parte porque Watson se formó principalmente con un número limitado de casos de una sola institución, en lugar de una base de datos completa de resultados reales de pacientes.

La desconexión no residía en las capacidades computacionales de Watson; según las métricas de rendimiento tradicionales, funcionaba según lo previsto. La brecha residía en sus capacidades de evaluación centradas en el usuario: ¿Mejoró los resultados de los pacientes? ¿Aumentó la experiencia del médico? Al compararlo con estos estándares, Watson tuvo dificultades para demostrar su valor, lo que llevó a muchas instituciones sanitarias a abandonar el sistema.

Priorizar la dignidad

Seeing AI de Microsoft es un ejemplo de lo que ocurre cuando las empresas miden el éxito desde el principio con una perspectiva centrada en el ser humano. Como informó la revista Time, la aplicación Seeing AI surgió del compromiso de Microsoft con la innovación en accesibilidad, utilizaba la visión artificial para narrar el mundo visual de las personas ciegas y con baja visión.

Lo que distingue a Seeing AI no son solo sus capacidades técnicas, sino también cómo el equipo de desarrollo priorizó la dignidad humana y la independencia por encima de las métricas de rendimiento. Microsoft colaboró ​​estrechamente con la comunidad de personas ciegas durante las fases de diseño y pruebas, midiendo el éxito no solo por los porcentajes de precisión, sino por la eficacia con la que la aplicación mejoró la capacidad de los usuarios para navegar por su mundo de forma independiente.

Este enfoque creó una tecnología que realmente empodera a los usuarios, ofreciendo descripciones de audio en tiempo real que ayudan con todo, desde la selección de comestibles hasta la navegación en espacios desconocidos. La lección: cuando empezamos con los resultados humanos como nuestra principal métrica de éxito, construimos sistemas que no solo funcionan, sino que mejoran significativamente la vida.

Cinco dimensiones del éxito

Los líderes inteligentes van más allá de las métricas tradicionales para evaluar los sistemas en cinco dimensiones críticas:

1. Colaboración entre humanos e IA. En lugar de medir el rendimiento de forma aislada, evalúa la eficacia de la colaboración entre humanos y tecnología. Un estudio reciente publicado en el Journal of the American College of Surgeons demostró que los informes postoperatorios generados por IA solo tenían la mitad de probabilidades de contener discrepancias significativas que los redactados por cirujanos solos. La clave: una cuidadosa división del trabajo entre humanos y máquinas puede mejorar los resultados, permitiendo a los humanos dedicar más tiempo a lo que mejor saben hacer.

2. Impacto ético y equidad. Incorporar auditorías de sesgo y puntuaciones de equidad como métricas de evaluación obligatorias. Esto implica evaluar continuamente si los sistemas tratan a todas las poblaciones de forma equitativa y si tienen un impacto positivo en la libertad, la autonomía y la dignidad humanas.

3. Estabilidad y autoconciencia. Un estudio de Nature Scientific Reports detectó una degradación del rendimiento con el tiempo en 91% de los modelos probados tras su exposición a datos reales. En lugar de medir únicamente la precisión inicial de un modelo, monitoree el rendimiento a lo largo del tiempo y evalúe su capacidad para identificar caídas de rendimiento y recurrir a la supervisión humana cuando su fiabilidad disminuya.

4. Alineación de valores. Como lo enfatiza el informe técnico de 2024 del Foro Económico Mundial, los modelos de IA deben operar de acuerdo con los valores humanos fundamentales para servir eficazmente a la humanidad. Esto requiere integrar consideraciones éticas a lo largo del ciclo de vida de la tecnología.

5. Impacto social a largo plazo. Ve más allá de los objetivos de optimización estrechos para evaluar la alineación con los beneficios sociales a largo plazo. Considera cómo la tecnología influye en las conexiones humanas auténticas, preserva el trabajo significativo y contribuye al bien común.

El imperio del liderazgo: despegarse y dedicarse

Para transformar la forma en que tu organización mide el éxito de la IA, adopta el paradigma “Desprenderse y dedicarse” que describimos en nuestro libro TRANSCEND:

Separarse de:

  • Métricas de eficiencia estrechas que ignoran el impacto humano
  • La suposición de que reemplazar el trabajo humano es beneficioso
  • Enfoques que tratan a los humanos como obstáculos para la optimización

Dedicarse a:

  • Fomentar conexiones y colaboraciones auténticas entre personas
  • Proteger la capacidad de decisión y la autonomía significativa del ser humano
  • Diseñar tecnología que se adapte a las personas, no personas que se adapten a la tecnología

El camino a seguir

Los líderes con visión de futuro ya están cambiando la forma en que evalúan la IA. En lugar de comenzar con métricas técnicas, parten de los resultados humanos que desean alcanzar. A partir de ahí, diseñan procesos continuos de participación humana y miden el impacto en función de los objetivos reales de las personas involucradas.

Las empresas que adopten este enfoque no solo construirán mejores sistemas, sino también organizaciones más confiables, valiosas y exitosas. No se trata solo de tener tecnología más rápida, sino de desarrollar herramientas que impulsen el potencial humano y respondan a las necesidades reales de la sociedad.

Y es que lo que está en juego es enorme. A medida que los modelos de IA se integran en decisiones clave —como contrataciones, diagnósticos médicos, justicia penal o acceso a servicios financieros—, la forma en que los evaluamos determinará si estos sistemas ayudan a cerrar brechas o perpetúan desigualdades.

Al final, la métrica más importante no es la velocidad ni la precisión técnica, sino si el uso de la IA realmente mejora la vida de las personas. La pregunta no es si la tecnología es suficientemente avanzada, sino si es suficientemente humana. Esa debería ser siempre la medida definitiva.

Author

  • Faisal Hoque

    Faisal Hoque es reconocido como uno de los principales pensadores y tecnólogos de gestión del mundo. Autor de libros superventas del Wall Street Journal y USA Today , Faisal es el fundador de SHADOKA, NextChapter y otras empresas. Su próximo libro, TRANSCEND: Unlocking Humanity in the Age of AI, se publicará en 2025 a través de Post Hill Press y será distribuido por Simon & Schuster.

    View all posts

Author

  • Faisal Hoque

    Faisal Hoque es reconocido como uno de los principales pensadores y tecnólogos de gestión del mundo. Autor de libros superventas del Wall Street Journal y USA Today , Faisal es el fundador de SHADOKA, NextChapter y otras empresas. Su próximo libro, TRANSCEND: Unlocking Humanity in the Age of AI, se publicará en 2025 a través de Post Hill Press y será distribuido por Simon & Schuster.

    View all posts

Sobre el autor

Faisal Hoque es reconocido como uno de los principales pensadores y tecnólogos de gestión del mundo. Autor de libros superventas del Wall Street Journal y USA Today , Faisal es el fundador de SHADOKA, NextChapter y otras empresas. Su próximo libro, TRANSCEND: Unlocking Humanity in the Age of AI, se publicará en 2025 a través de Post Hill Press y será distribuido por Simon & Schuster.

ADVERTISEMENT

ADVERTISEMENT