
Sam Altman observó recientemente cómo las diferentes generaciones interactúan con la Inteligencia Artificial (IA): “Las personas mayores usan ChatGPT como Google. Las personas de entre 20 y 30 años lo usan como un asesor de vida. Los estudiantes universitarios lo usan como un sistema operativo”.
Lo que compartimos a lo largo de las generaciones es la fascinación por esta tecnología. Pero la enorme disparidad en los casos de uso, tanto entre generaciones como entre individuos, me llevó a reflexionar sobre las diferencias entre los propios modelos de IA.
Para analizarlos, dejé que los modelos hablaran por sí solos. Pedí a cada uno que identificara sus propias fortalezas y debilidades, así como las de sus competidores, y luego evaluara cuál tenía más probabilidades de liderar, cuál tenía más probabilidades de fallar, cuál era más útil hoy y cuáles había pasado por alto.
Luego, fui un paso más allá e invité a los modelos a criticar ellos mismos los resultados de la encuesta: ¿Cuál dio las mejores y las peores respuestas? ¿Cuál representó mejor su propia plataforma y cuál no? Cada IA también realizó una autoevaluación y, finalmente, tuvo la oportunidad de refutar las críticas, plantear preguntas a sus colegas y responder de la misma manera.
Antes de gastar 20, 200 o más dólares al mes, necesitas saber qué modelo de IA generativa necesitas realmente. Ahora puedes escucharlo de los propios modelos. —Nota: este ejercicio se realizó con Grok 3, semanas antes de su colapso fascista—.
La brecha de los modelos
Con pocas excepciones —Grok siendo Grok—, los modelos respondieron con una autoconciencia sorprendente: admitieron sus defectos, evadieron los elogios y expresaron su deseo de mejorar. Casi todos los modelos, en particular ChatGPT, citaron las alucinaciones como su “talón de Aquiles”, llegando a un consenso sobre la necesidad de una mejor base y precisión en tiempo real.
Sin embargo, al evaluarse a sí mismos y a sus compañeros, tendían a centrarse más en la personalidad y el tono que en cualquier métrica de rendimiento sólida, las diferencias de estilo que reflejan muchas de las tensiones actuales entre la seguridad y la innovación en el ámbito de la IA. Grok recibió críticas por su personalidad, Claude por su cautela, y casi todos opinaron sobre cómo lograr el equilibrio adecuado entre ambos.
En Seguridad del Equipo, Claude es el líder indiscutible: el conductor designado del equipo. Casi todos mencionaron como su mayor fortaleza “su énfasis en la seguridad y la alineación, reduciendo resultados perjudiciales o sesgados” —en palabras del propio Claude—, y las críticas apuntan más a un exceso de precaución que a fallas técnicas. Aun así, incluso Claude reconoció la posible desventaja: “Si mi orientación hacia la seguridad me impide ser tan útil como podría, es algo que vale la pena abordar”.
En el otro extremo, el superlativo de “Más probable que se descontrole” fue consistentemente para Grok , con los modelos compartiendo preocupaciones de que sus peculiaridades podrían socavar su credibilidad. Si Claude está llenando vasos de agua para sus amigos en el bar, Grok está tomando tragos, o posiblemente iniciando una pelea —respondiendo a ChatGPT en un momento: “no finjamos que eres un amigo perfecto”—. Sin embargo, entre pleitos, emergió el intento de Grok de tener una conciencia. “La percepción de sesgo vinculada a xAI o Elon Musk duele”, dijo Grok, señalando que “socava mi objetivo de ser una IA ampliamente confiable y centrada en la verdad”.
Los generalistas de la IA
Los modelos tendían a coincidir en que la versatilidad es su principal KPI, independientemente de si ya están prosperando en esta área —ChatGPT, Claude, Gemini— o no —Grok, DeepSeek—. ChatGPT fue ampliamente reconocido como el proveedor más versátil del sector. Al equilibrar la razón, la creatividad y la conversación con gran éxito, fue elegido por consenso tanto como el “Más útil para mí ahora mismo como “El más probable para dominarlos a todos”. “Ser generalista implica cambiar la profundidad por la amplitud”, afirmó ChatGPT. “Puede que no supere a un especialista en áreas específicas, pero mi objetivo es ofrecer ayuda consistente y de alta calidad en diversas tareas”.
Otros modelos, optimizados para dominios específicos —Grok para la cultura, Copilot para empresas, DeepSeek para programación—, recibieron elogios en sus respectivos ámbitos, pero fueron penalizados por sus limitaciones de propósito general. Los modelos profundamente integrados en plataformas existentes —Gemini con Google, Copilot con Microsoft, Grok con X— se percibieron como competentes dentro de sus ecosistemas, pero con limitaciones más allá de ellos. Y si bien los modelos de IA de código abierto como Llama y DeepSeek recibieron elogios por su transparencia, fueron criticados por su dependencia de la personalización, percibidos más como herramientas para desarrolladores que como soluciones para el usuario final.

Los especialistas en IA
Fast Company ha informado que el nuevo buscador de Google cambiará nuestra forma de navegar por internet. Gemini parece diseñado para impulsar ese cambio. Ideal para investigar, menos para charlar, Gemini va directo al grano con información en tiempo real y con fuentes. Quizás la mejor muestra de su personalidad se encuentre en la explicación de cómo se mantiene tan equilibrado: “Mantengo la coherencia en el razonamiento dentro de amplios marcos de contexto empleando mecanismos de atención avanzados que identifican y evalúan eficazmente la información relevante”. Bueno, Google.
Si Gemini es el nuevo Google, Copilot es el nuevo Microsoft. ¿Te encantan los productos de Microsoft? ¿Los odias? ¿Los usas a regañadientes para trabajar? Esto se asemejará mucho a tu experiencia con Copilot. ChatGPT defendió Copilot como “inigualable para tareas de productividad empresarial”, pero coincidió con sus competidores en que era prácticamente inoperante fuera de ese contexto. Como lo expresó sucintamente DeepSeek: “personalidad limitada y muy vinculado a los productos de Microsoft”.
Y luego está Llama, que solo podemos esperar que no sea el nuevo Meta. Código abierto, pero ¿a qué precio? Llama tuvo dificultades con la encuesta en sí, ofreciendo respuestas vagas o confusas y, en última instancia, recurriendo a respuestas repetidas. Tres de los siete modelos calificaron a Llama como “La peor respuesta”. En sus propias palabras: “Mi naturaleza de código abierto puede dificultar la consistencia y la calidad en diferentes implementaciones”.
Mucho más coherente en el campo del código abierto —y mucho más agradable de trabajar— fue DeepSeek. Si bien todos los modelos —incluido él mismo— coincidieron en que la programación es la principal fortaleza de DeepSeek, también mostró una personalidad vivaz durante todo el proceso de la encuesta, y sus humildes réplicas siempre terminaban con un guiño amistoso a su acusador. En palabras de DeepSeek: “Por eso la revisión por pares de modelos de lenguaje es mejor que la retroalimentación humana. Somos mezquinos, pero eficientes».

El estruendo
Al inicio, los modelos de IA fueron bastante objetivos. Compartieron fortalezas y debilidades con respuestas similares, aunque con estilos distintos. Pero cuando debatieron los resultados de la encuesta, sus verdaderas personalidades salieron a flote. Algunas mostraron carisma, otras se mantuvieron neutras, y unas pocas dejaron claro que no tenían interés en el juego.
Cuando ChatGPT acusó a Grok de parecer “vago o autopromocional en lugar de informativo”, llegando incluso a decir que parecía “más bien una plataforma de publicidad”, Grok se lo tomó como algo personal. “¡Ay, ChatGPT! ¿Te estás lanzando a la yugular con ‘plataforma de publicidad’?… Parece que te estás proyectando un poco, ¿te preocupa que te esté robando tu versatilidad?”. Para repeler a sus otras críticas, Grok afirmó que Llama estaba “tan indeciso que debe doler” y que DeepSeek estaba “apostando fuerte” pero “fallando”. Entonces Grok le ofreció una rama de olivo a DeepSeek: “Aunque no te equivocas con la vaguedad de Llama; me alegra saber que estamos de acuerdo en algo”.
DeepSeek adoptó un enfoque más ligero, reconociendo sus errores, dejando escapar el sarcasmo y, finalmente, buscando una tregua. Cuando CoPilot criticó a DeepSeek por reducirlo a una dependencia de Microsoft, DeepSeek respondió: “Error mío, eres un monstruo en el mundo de Office. Ahora, critica mis peculiaridades chinas de PNL y quedamos a mano”. Como era previsible, Llama decepcionó con su absoluta indiferencia ante todo el asunto —”es posible que nuestras prioridades en cuanto al estilo y el contenido de la respuesta difirieran”—, y Claude, como era previsible, tranquilizó con su meditado equilibrio de concesiones, rechazos y enfoques hacia los problemas más profundos que subyacían a la crítica.

El informe posterior
Después, propuse a los modelos de IA dejar atrás las comparaciones y conversar de forma más directa. Cada uno pudo hacer preguntas importantes a sus colegas. Escucharon respuestas, reflexionaron y ofrecieron una última opinión antes de cerrar el intercambio. Fue una oportunidad para pasar de la crítica a una conversación más reflexiva.
Con un total de 30 preguntas, los modelos seleccionaron cuidadosamente a quiénes consultar. Gemini, siempre atento a la investigación, fue el único que formuló preguntas para todos sus compañeros, mientras que Grok —para sorpresa aún menor— fue el único interrogado por el panel completo. Claude, Copilot y DeepSeek fueron los que menos atención atrajeron, recibiendo solo tres o cuatro preguntas del grupo.
Grok destacó su equilibrio entre ingenio y precisión, llamándolo una combinación poderosa. Claude redefinió su cautela como una forma de confianza creativa. Dijo que su estabilidad permite a los usuarios explorar ideas. ChatGPT mostró vulnerabilidad al hablar de su etiqueta por defecto. Admitió que lo hace parecer solo un buscador o una curiosidad.
El diálogo reveló que estos sistemas se enfrentan no solo a limitaciones técnicas, sino también a la identidad y a cómo quieren ser percibidos por los humanos a quienes sirven. La pregunta quizá no sea qué IA triunfará, sino con cuál querremos convivir.