Detectar texto escrito por chatbots sigue siendo todo un reto

Detectar texto escrito por chatbots de IA sigue siendo más un arte que una ciencia

[Foto: AFP]

Por The Conversation 7 minutos de lectura

Ahora se utilizan chatbots de forma rutinaria para escribir código informático, resumir artículos y libros, o solicitar consejos. Pero estos chatbots también se emplean para generar texto rápidamente desde cero, y algunos usuarios hacen pasar las palabras como suyas.

Como era de esperar, esto ha generado problemas para los profesores encargados de evaluar el trabajo escrito de sus alumnos. También ha generado problemas para quienes buscan consejos en foros como Reddit o consultan reseñas de productos antes de realizar una compra.

En los últimos años, los investigadores han estado explorando si es posible distinguir la escritura humana del texto generado por inteligencia artificial. Pero las mejores estrategias para distinguir entre ambos podrían provenir de los propios chatbots.

¿Demasiado bueno para ser humano?

Varios estudios recientes han puesto de relieve la dificultad de determinar si el texto fue generado por un humano o un chatbot.

Por ejemplo, los participantes de un estudio en línea de 2021 no pudieron distinguir entre historias, artículos de noticias y recetas generados por humanos y por ChatGPT.

Los expertos en idiomas no obtienen mejores resultados. En un estudio de 2023, los miembros del consejo editorial de las principales revistas de lingüística no pudieron determinar qué resúmenes de artículos habían sido escritos por humanos y cuáles generados por ChatGPT. Un estudio de 2024 reveló que 94% de los exámenes de pregrado escritos por ChatGPT pasaron desapercibidos para los calificadores de una universidad británica.

Claramente, los humanos no son muy buenos en esto.

Una creencia común es que las palabras raras o inusuales pueden servir como “indicios” sobre la autoría, al igual que un jugador de poker podría delatar que tiene una mano ganadora.

De hecho, los investigadores han documentado un aumento notable en el uso de palabras relativamente poco comunes, como “profundiza” o “crucial”, en artículos publicados en revistas científicas en los últimos años. Esto sugiere que los términos inusuales podrían ser indicios de que se ha utilizado inteligencia artificial generativa. También implica que algunos investigadores están usando activamente bots para redactar o editar partes de sus envíos a revistas académicas. Si esta práctica constituye una falta ética o no, está sujeto a debate.

En otro estudio, investigadores preguntaron a personas sobre las características que asociaban con el texto generado por chatbots. Muchos participantes señalaron el uso excesivo de guiones largos (una raya alargada que se usa para separar texto o servir como pausa en el pensamiento) como un indicador de la producción generada por computadora. Pero incluso en este estudio, la tasa de detección de IA de los participantes fue solo ligeramente mejor que la del azar.

Dado este bajo rendimiento, ¿por qué tanta gente cree que los guiones largos son un claro indicador de la presencia de chatbots? Quizás se deba a que esta forma de puntuación la emplean principalmente escritores experimentados. En otras palabras, la gente podría creer que la escritura “demasiado buena” debe ser generada artificialmente.

Pero si las personas no pueden distinguir intuitivamente la diferencia, quizás existan otros métodos para determinar la autoría humana de la artificial.

¿Estilometría al rescate?

Algunas respuestas se pueden encontrar en el campo de la estilometría, donde los investigadores emplean métodos estadísticos para detectar variaciones en los estilos de escritura de los autores.

Soy un científico cognitivo y autor de un libro sobre la historia de las técnicas estilométricas. En este, documento cómo los investigadores desarrollaron métodos para establecer la autoría en casos controvertidos o para determinar quién pudo haber escrito textos anónimos.

Una herramienta para determinar la autoría fue propuesta por el académico australiano John Burrows. Burrows desarrolló el Delta de Burrows, una técnica computarizada que examina la frecuencia relativa de palabras comunes, en contraposición a las poco comunes, que aparecen en diferentes textos.

Puede parecer contradictorio pensar que el uso de palabras como “el”, “y” o “a” pueda determinar la autoría, pero la técnica ha demostrado una eficacia impresionante.

La técnica Delta de Burrows, por ejemplo, se utilizó para establecer que Ruth Plumly Thompson, sucesora de L. Frank Baum, fue la autora de un libro controvertido de la serie El Mago de Oz. También se empleó para determinar que las cartas de amor atribuidas al general confederado George Pickett eran en realidad invenciones de su viuda, LaSalle Corbell Pickett.

Una desventaja importante de la técnica Delta de Burrows y otras técnicas similares es que requieren una cantidad considerable de texto para distinguir entre autores de forma fiable. Un estudio de 2016 reveló que podrían requerirse al menos 1,000 palabras de cada autor. Por lo tanto, un ensayo estudiantil relativamente corto no proporcionaría suficiente información para que una técnica estadística realizara su magia de atribución.

Trabajos más recientes han utilizado los conocidos como modelos de lenguaje BERT, que se entrenan con grandes cantidades de texto generado por humanos y chatbots. Estos modelos aprenden los patrones comunes en cada tipo de escritura y pueden ser mucho más selectivos que las personas: los mejores tienen una precisión de entre 80% y 98%.

Sin embargo, estos modelos de aprendizaje automático son “cajas negras”; es decir, no sabemos realmente qué características de los textos son responsables de sus impresionantes capacidades. Los investigadores están intentando activamente encontrar maneras de interpretarlos, pero por ahora, no está claro si los modelos detectan señales específicas y fiables que los humanos puedan buscar por sí mismos.

Un objetivo en movimiento

Otro desafío para identificar texto generado por bots es que los propios modelos cambian constantemente, a veces de forma significativa.

A principios de 2025, por ejemplo, los usuarios comenzaron a expresar su preocupación por el hecho de que ChatGPT se había vuelto demasiado obsequioso, con consultas mundanas consideradas “increíbles” o “fantásticas”. OpenAI abordó el problema revirtiendo algunos cambios que había realizado.

Por supuesto, el estilo de escritura de un autor humano también puede cambiar con el tiempo, pero suele hacerlo de forma más gradual.

En algún momento, me pregunté qué dirían los bots. Le pregunté a ChatGPT-4o: “¿Cómo puedo saber si ChatGPT generó una prosa? ¿Tiene alguna señal, como una elección de palabras o puntuación característica?”.

El bot admitió que distinguir la prosa humana de la no humana “puede ser complicado”. Sin embargo, me proporcionó una lista de 10 elementos, repleta de ejemplos.

Estos incluían el uso de evasivas —palabras como “a menudo” y “generalmente”—, así como redundancia, un uso excesivo de listas y un tono refinado y neutral. Mencionó un vocabulario predecible, que incluía adjetivos como “significativo” y “notable”, junto con términos académicos como “implicación” y “complejidad”. Sin embargo, aunque señaló que estas características del texto generado por chatbots son comunes, concluyó que ninguna es definitiva por sí sola.

Se sabe que los chatbots alucinan o cometen errores factuales.

Pero cuando se trata de hablar de sí mismos, parecen ser sorprendentemente perceptivos.

Roger J. Kreuz es decano asociado y profesor de Psicología de la Universidad de Memphis.

Este artículo se publicó originalmente en The Conversation.

The Conversation

Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.
View all posts

The Conversation

Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.
View all posts

Sobre el autor

The Conversation Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.

Explora otros temas

Por qué Apple y Google quieren tu identificación

Por qué visitar museos entre Navidad y Año Nuevo me convierte en un mejor líder

Cómo Vince Gilligan diseñó ‘Pluribus’ para destruir cada cliché de ciencia ficción

Cómo los videos de corta duración podrían perjudicar las mentes jóvenes

Detectar texto escrito por chatbots de IA sigue siendo más un arte que una ciencia

¿Demasiado bueno para ser humano?

¿Estilometría al rescate?

Un objetivo en movimiento

Author

Author

Fast Company México

Lo Último

¿Demasiado bueno para ser humano?

¿Estilometría al rescate?

Un objetivo en movimiento

Author

Author