Detectar noticias falsas con la ayuda de un algoritmo

Publicado:

Actualizado:

Investigadores de la Universidad de Michigan han recientemente desarrollado un algoritmo que puede identificar noticias falsas mejor que los humanos. El algoritmo utiliza pistas lingüísticas para diferenciar entre historias reales e inexactas.

El algoritmo podría ser utilizado por los principales agregadores de noticias y sitios de redes sociales como Google News y Facebook para detectar y combatir la desinformación.

La lucha contra la falsificación de noticias

Después de la elección de 2016, "noticias falsas" se convirtió en una palabra de moda política como muchos especulado que las noticias falsas difundidas en Facebook influyeron en los resultados de las elecciones.

En los últimos años han proliferado las historias de noticias que informan información falsa o cuestionable en las redes sociales. Estas historias, creadas ya sea como cebo o con la intención de influir en la opinión pública, han desencadenado controversias en la política y han causado graves problemas a las plataformas de medios sociales que luchan por regular la enorme cantidad de datos y noticias circuladas en sus sitios web.

Desde la elección de 2016, Facebook ha tomado medidas para combatir la distribución de contenido falso en sus plataformas. Han intentado prohibir usuarios destacados, como el comentarista de derecha Alex Jones, trabajando con verificadores de datos de tercerosy permitiendo a los usuarios marcar historias inexactas.

Estos esfuerzos han tenido un éxito limitado hasta este punto, lo que plantea la necesidad de nuevas estrategias para ingresar al redil. Un algoritmo que puede identificar de forma automática y precisa noticias falsas ofrece una herramienta atractiva.

"Ha habido un esfuerzo significativo últimamente en la comunidad de investigación para abordar este problema", dijo Rada Mihalcea, profesor de ingeniería eléctrica e informática en la UM y el investigador principal del proyecto.

"Sin embargo, la mayor parte del trabajo, incluidos los desafíos recientes en torno a noticias falsas, se han centrado en comprender la postura y en la verificación de reclamos y hechos".

"Por lo que sé, este es el primer sistema que aborda la identificación automática de noticias falsas en su totalidad, y como suelen aparecer en línea", continuó.

Según Mihalcea, otras investigaciones han sido más limitadas, buscando identificar cebos de clic o aprendiendo la distinción entre noticias satíricas y reales.

Actualmente, los sitios de noticias falsas se basan principalmente en verificadores de datos humanos, lo que lleva tiempo. Con la abrumadora afluencia de noticias compartidas en línea, esto significa que la mayoría de las historias falsas no son captadas, y si lo son, ya han sido leídas por suficientes personas como para haber tenido un impacto.

La verificación automática podría ayudar a los agregadores de noticias y sitios de redes sociales a encontrar historias de noticias falsas antes, y tal vez con mayor precisión, que los reguladores humanos.

Mihalcea dijo que el algoritmo de su equipo podría ser utilizado tanto por los usuarios como por los sitios de redes sociales para marcar historias y distinguir entre medios confiables y no confiables. Ya ha demostrado que puede identificar noticias falsas con una tasa de éxito del 76 por ciento, que es un margen de error significativo, pero mayor que la tasa de éxito humano del porcentaje de 70.

¿Cómo funciona?

El nuevo algoritmo adopta un enfoque bastante único para identificar noticias falsas. Utiliza el análisis lingüístico, lo que significa que examina las características cuantificables en el estilo y contenido de escritura de cada artículo, desde su estructura gramatical, hasta el uso de la puntuación y la complejidad de su lenguaje.

"Comenzamos reuniendo un conjunto de datos de noticias, tanto falsas como legítimas, que se pueden utilizar para conocer las características de las noticias falsas", dijo Mihalcea. “Representamos los datos utilizando una serie de características: secuencias de palabras, puntuación, categorías de palabras, relaciones sintácticas y otras.

“Por ejemplo, una de esas características podría ser un número que refleja la cantidad de veces que vemos la palabra 'historia', otra podría ser la cantidad de veces que vemos palabras en una relación sujeto-verbo, y así sucesivamente. Estos representantes luego se introducen en el algoritmo de aprendizaje, que finalmente decide cómo ponderarlos para la clasificación final ".

Mihalcea explicó que estas pistas a menudo son diferentes a las que los humanos buscan. Por ejemplo, el algoritmo identifica ciertas palabras clave que significan precisión o inexactitud, que los humanos pueden no buscar instintivamente.

"En esta y otras investigaciones que hemos realizado sobre el engaño, hemos encontrado, por ejemplo, que el uso de la palabra 'yo' está asociado con la verdad", dijo. “Es fácil para un algoritmo contar la cantidad de veces que se dice 'I' y encontrar la diferencia.

"Sin embargo, la gente no cuenta de forma natural, y aunque puede ser fácil, los distraería de la comprensión real del texto".

El entrenamiento de un algoritmo para detectar el engaño requiere identificar un gran conjunto de pistas lingüísticas extraídas de una muestra significativa de noticias falsas. Esto presenta un desafío, ya que las noticias falsas aparecen y desaparecen rápidamente, aparecen en muchos géneros y pueden confundirse con sátiras.

El equipo evitó este problema al redactar sus propias fuentes de noticias falsas. Contrataron a escritores externos para que tomaran noticias reales y las convirtieran en falsificaciones. Los escritores fueron reclutados utilizando el mercado de Internet crowdsourcing Amazon Mechanical Turk.

Mihalcea señaló que este proceso es coherente con la forma en que las historias de noticias falsas generalmente se crean en el mundo real.

Al final del proceso, el equipo tenía un conjunto de historias reales y falsas de 500 para alimentar el algoritmo. Después de que el algoritmo realizó un análisis lingüístico de estos elementos, lo probaron con noticias reales y falsas extraídas de Internet.

El algoritmo actualmente puede identificar historias fraudulentas a una tasa porcentual 76, lo cual es bueno, pero hay margen de mejora.

Mihalcea señaló que existe evidencia de que alimentar el algoritmo con más datos puede hacer que el algoritmo sea más efectivo. Trazaron el rendimiento del algoritmo en función de la cantidad de datos que ingresaron, creando una "curva de aprendizaje" que les permitió ver si el algoritmo deja de aprender después de cierta cantidad de datos.

"Lo que observamos es que es probable que más datos traigan un aumento en el rendimiento, por lo que el siguiente paso natural sería recopilar más noticias, tanto falsas como legítimas, como una forma de mejorar la eficacia del algoritmo", dijo.

El trabajo del equipo en el desarrollo del algoritmo llega a un punto crucial en la historia política y mediática. Casi la mitad de los estadounidenses ahora sobre todo obtener sus noticias en línea, y más de dos tercios dicen que obtienen al menos algunas de sus noticias a través de las redes sociales.

Pero internet sigue siendo una fuente de información ampliamente no regulada.

"La web, incluidas las redes sociales, juega un papel muy importante en la sociedad actual, ya que es una fuente importante de información que las personas utilizan para tomar decisiones", dijo Mihalcea.

"Considere, por ejemplo, los eventos políticos recientes, o las discusiones sobre la vacunación, etc. En este entorno, donde todos pueden poner 'noticias' por ahí, es importante que las personas tengan un medio para distinguir entre lo que es confiable y lo que no ".

Prueba GRATUITA de 6 meses

Luego, disfrute de Amazon Prime a mitad de precio: ¡50 % de descuento!

TUN AI – Tu asistente educativo

SINTONIZAR IA

¡Estoy aquí para ayudarte con becas, búsqueda de universidades, clases en línea, ayuda financiera, elección de especialidades, admisiones universitarias y consejos de estudio!

La Red Universitaria