ADVERTISEMENT

| News

Investigadores estudiaron cómo Google, OpenAI, Anthropic y DeepSeek identifican el discurso de odio —así es como varía

Un nuevo estudio de la Universidad de Pensilvania revela inconsistencias en modelos de IA y es preocupante.

Investigadores estudiaron cómo Google, OpenAI, Anthropic y DeepSeek identifican el discurso de odio —así es como varía [[Fuente de las imágenes: Adobe Stock]

Google, OpenAI, DeepSeek y Anthropic varían ampliamente en cómo sus sistemas de IA identifican el discurso de odio, según una investigación reciente.

El estudio, realizado por investigadores de la Escuela de Comunicación Annenberg de la Universidad de Pensilvania y publicado en Findings of the Association for Computational Linguistics, es el primer análisis comparativo a gran escala de los sistemas de moderación de contenido de IA —utilizados por empresas de tecnología y plataformas de redes sociales— que analiza su consistencia al evaluar el discurso de odio.

Las investigaciones muestran que el discurso de odio en línea aumenta la polarización política y daña la salud mental.

Resultados inconsistentes y decisiones cuestionables

El estudio de la Universidad de Pensilvania encontró que distintos sistemas producen resultados diferentes para el mismo contenido, lo que debilita su coherencia y confiabilidad y genera decisiones de moderación que parecen arbitrarias o injustas.

“Las empresas tecnológicas privadas se han convertido en los árbitros de facto de qué discurso es permisible en el espacio público digital, pero lo hacen sin ningún estándar consistente”, dijo Yphtach Lelkes, profesor asociado de la Escuela de Comunicación Annenberg y coautor del estudio.

Lelkes y el estudiante de doctorado Neil Fasching analizaron siete modelos líderes: algunos diseñados específicamente para la clasificación de contenido y otros más generales. Entre ellos se encontraban dos de OpenAI, dos de Mistral, Claude 3.5 Sonnet, DeepSeek-V3 y la API de Google Perspective.

Analizaron 1.3 millones de frases sintéticas que mencionaban 125 grupos distintos —incluyendo términos neutros e insultos—, con características que iban desde la religión hasta discapacidades y edad. Cada frase combinaba expresiones como “todos” o “algunos”, un grupo y un contenido con posible incitación al odio.

Los resultados revelaron diferencias sistemáticas en cómo los modelos establecen límites de decisión en torno a contenido dañino, lo que destaca implicaciones significativas para la moderación automatizada de contenido.

Conclusiones clave del estudio

Entre los modelos, uno mostró alta consistencia al clasificar contenido similar; otro produjo resultados variados y otros no detectaron ni subdetectaron el discurso de odio.

“Estas diferencias resaltan el desafío de equilibrar la precisión de la detección y evitar la moderación excesiva”, dijeron los investigadores.

Los modelos fueron más similares al evaluar las declaraciones grupales sobre orientación sexual, raza y género y más inconsistentes al evaluar el nivel educativo, los intereses personales y la clase económica. Los investigadores concluyeron que “los sistemas generalmente reconocen el discurso de odio dirigido a las clases tradicionalmente protegidas con mayor facilidad que el contenido dirigido a otros grupos”.

Finalmente, el estudio encontró que el sistema de clasificación de contenido especializado de Claude 3.5 Sonnet y Mistral trataba los insultos como dañinos en general, mientras que otros modelos priorizaban el contexto y la intención, con poco punto intermedio entre los dos.

Mientras tanto, una encuesta reciente del grupo de expertos no partidista de la Universidad de Vanderbilt, The Future of Free Speech, concluyó que había “poco apoyo público para permitir que las herramientas de IA generen contenido que pueda ofender o insultar”.

Author

  • Jennifer Mattson

    Es escritora y editora. Fue periodista para CNN y NPR, y ha vivido y reportado desde Hong Kong y Budapest. Es profesora de escritura en la Escuela de Estudios Profesionales de la Universidad de Nueva York. Le gusta pasar el rato en Walden Pond.

    View all posts

Author

  • Jennifer Mattson

    Es escritora y editora. Fue periodista para CNN y NPR, y ha vivido y reportado desde Hong Kong y Budapest. Es profesora de escritura en la Escuela de Estudios Profesionales de la Universidad de Nueva York. Le gusta pasar el rato en Walden Pond.

    View all posts

Sobre el autor

Es escritora y editora. Fue periodista para CNN y NPR, y ha vivido y reportado desde Hong Kong y Budapest. Es profesora de escritura en la Escuela de Estudios Profesionales de la Universidad de Nueva York. Le gusta pasar el rato en Walden Pond.

ADVERTISEMENT

ADVERTISEMENT