Los chatbots líderes suelen exagerar los hallazgos científicos, según un nuevo estudio

Los investigadores revelan que los chatbots más conocidos tienden a exagerar las conclusiones científicas, y las indicaciones de precisión, sorprendentemente, conducen a más generalizaciones excesivas. Los hallazgos subrayan la necesidad de un uso riguroso de la IA en la comunicación científica.

Los chatbots líderes, como ChatGPT y DeepSeek, suelen tergiversar los hallazgos científicos exagerando las conclusiones hasta en un 73 % de los casos, según un nuevo estudio. El estudio, realizado por Uwe Peters, de la Universidad de Utrecht, y Benjamin Chin-Yee, de la Universidad Western (Canadá) y la Universidad de Cambridge (Reino Unido), destaca importantes problemas de precisión en los resúmenes científicos generados por IA.

Los investigadores probaron 10 de los modelos de lenguaje grande (LLM) más destacados, incluidos ChatGPT, DeepSeek, Claude y LLaMA, analizando casi 5,000 resúmenes de artículos de investigación de prestigiosas revistas científicas, como Nature, Science y Lancet.

Descubrieron que seis de cada diez modelos estiraban sistemáticamente las conclusiones de los textos originales, transformando a menudo un lenguaje cauteloso y específico del estudio en afirmaciones engañosas y generalizadoras.

Estudiantes, investigadores y legisladores podrían asumir que si le piden a ChatGPT que evite imprecisiones, obtendrán un resumen más fiable. Nuestros hallazgos demuestran lo contrario, afirmó Peters en un comunicado de prensa.

Curiosamente, los esfuerzos por contrarrestar estas inexactitudes, incitando a los modelos a ser más precisos, tuvieron el efecto contrario. Cuando se les pidió explícitamente que evitaran las inexactitudes, los modelos tuvieron casi el doble de probabilidades de llegar a conclusiones sobregeneralizadas que cuando se les asignaron tareas de resumen espontáneas.

Publicado En Royal Society Open Science, el estudio destaca una tendencia preocupante: los modelos de IA más recientes, como ChatGPT-4o y DeepSeek, obtuvieron peores resultados en términos de precisión en comparación con sus homólogos más antiguos. Esto plantea riesgos adicionales en la comunicación científica, donde la precisión es crucial.

Los investigadores compararon los resúmenes generados por IA con los escritos por humanos. Cabe destacar que los chatbots tenían casi cinco veces más probabilidades de producir generalizaciones amplias que los escritores humanos.

“Peor aún, en general, los modelos de IA más nuevos, como ChatGPT-4o y DeepSeek, tuvieron un peor desempeño que los más antiguos”, agregó Peters.

El problema surge del hecho de que las generalizaciones excesivas son frecuentes en los escritos científicos humanos, en los que están entrenados los modelos de IA, explicó Chin-Yee.

Además, las preferencias de los usuarios humanos por un lenguaje claro y ampliamente aplicable podrían llevar a los modelos a generalizar excesivamente durante su proceso de entrenamiento.

Para mitigar estos riesgos, los investigadores recomiendan usar LLM como Claude, que demostró la mayor precisión, y ajustar la configuración para reducir la "temperatura" del chatbot, un parámetro que controla su creatividad. También abogan por indicaciones que refuercen la presentación indirecta en pasado en los resúmenes. 

"Si queremos que la IA apoye la alfabetización científica en lugar de socavarla, necesitamos más vigilancia y pruebas de los LLM en contextos de comunicación científica", añadió Peters.

Fuente: Universidad de Utrecht