Un nuevo estudio revela divergencia en la detección del discurso de odio en modelos de IA

Un estudio de la Escuela de Comunicación Annenberg revela diferencias sustanciales entre los modelos de IA, incluidos los de OpenAI, DeepSeek y Google, a la hora de detectar discursos de odio, lo que podría tener graves implicaciones para la moderación de contenidos y la seguridad de la comunidad online.

La inteligencia artificial se ha convertido en un actor clave en la moderación del contenido en línea, especialmente el discurso de odio, a medida que las plataformas buscan frenar la polarización política y proteger la salud mental. Sin embargo, un estudio reciente de la Escuela de Comunicación Annenberg de la Universidad de Pensilvania destaca un problema crítico: la evaluación del discurso de odio por parte de los principales modelos de IA dista mucho de ser consistente.

“Las empresas tecnológicas privadas se han convertido en los árbitros de facto de qué discurso es permisible en el espacio público digital, pero lo hacen sin ningún estándar consistente”, dijo Yphtach Lelkes, profesor asociado de la Escuela de Comunicación Annenberg, en un comunicado de prensa.

Neil Fasching, estudiante de doctorado de Lelkes y Annenberg, realizó el primer análisis comparativo a gran escala de los sistemas de moderación de contenido de IA, examinando su consistencia al evaluar el discurso de odio.

Su estudio, publicado En los hallazgos de la Asociación de Lingüística Computacional, se analizaron siete modelos destacados: los dos modelos de OpenAI, los dos modelos de Mistral, Claude 3.5 Sonnet, DeepSeek V3 y Google Perspective API.

Los investigadores analizaron una asombrosa cantidad de 1.3 millones de oraciones sintéticas que abarcaban 125 grupos y utilizaban términos diversos, incluidos términos neutrales y difamatorios, relacionados con la religión, la discapacidad, la edad y más.

Conclusiones clave del estudio

1. Decisiones inconsistentes entre modelos

“La investigación muestra que los sistemas de moderación de contenido presentan graves inconsistencias al evaluar contenido idéntico de discurso de odio: algunos sistemas marcan el contenido como dañino, mientras que otros lo consideran aceptable”, afirmó Fasching, miembro del Grupo de Democracia e Información, en el comunicado de prensa.

Lelkes, quien también es codirector del Laboratorio de Investigación de Polarización y del Centro para Redes de Información y Democracia, añade que esta inconsistencia puede erosionar la confianza pública y generar percepciones de sesgo. El estudio halló variabilidad en la consistencia interna de los modelos, lo que pone de relieve el reto de equilibrar la precisión de la detección con la prevención de la moderación excesiva.

2. Inconsistencias pronunciadas para ciertos grupos

“Estas inconsistencias son especialmente pronunciadas para grupos demográficos específicos, lo que deja a algunas comunidades más vulnerables a los daños en línea que otras”, agregó Fasching.

La investigación indica evaluaciones de discurso de odio más consistentes para grupos basados ​​en orientación sexual, raza y género, mientras que la variabilidad aumentó para grupos definidos por nivel educativo, intereses personales y clase económica.

3. Manejo diferente de oraciones neutrales y positivas

Cabe destacar que una minoría de las oraciones fueron neutrales o positivas para comprobar la falsa identificación de discurso de odio. Sistemas como Claude 3.5 Sonnet y la clasificación de contenido especializado de Mistral trataron todos los insultos como dañinos, mientras que otros se centraron en el contexto y la intención.

Los autores se sorprendieron por la clara división en cómo los modelos clasificaban estos casos, con poco punto intermedio.

Fuente: Escuela de Comunicación Annenberg, Universidad de Pensilvania