¿Es la IA capaz de aprobar exámenes de historia de nivel doctoral?

A pesar de su destreza en varios dominios, la IA aún no alcanza el nivel de conocimiento histórico necesario para expertos, ya que los modelos de mejor desempeño obtienen una precisión de apenas el 46 %. El estudio destaca las limitaciones y el potencial futuro de la IA en la investigación histórica.

Los chatbots de inteligencia artificial han revolucionado campos que van desde la atención al cliente hasta la investigación jurídica, pero nuevos hallazgos sugieren que estos sistemas aún tienen dificultades con el conocimiento histórico complejo. Un equipo de científicos de la complejidad y expertos en inteligencia artificial evaluó recientemente el rendimiento de modelos de lenguaje avanzados, incluido ChatGPT-4, en preguntas de historia de nivel de doctorado. Los resultados, presentó en la conferencia NeurIPS en Vancouver, revelan importantes lagunas en su comprensión histórica.

Dirigido por Peter Turchin, científico de la complejidad del Complexity Science Hub (CSH), y Maria del Rio-Chanona, profesora adjunta del University College de Londres, el estudio evaluó modelos de IA como ChatGPT-4 Turbo, Llama y Gemini con un riguroso parámetro de referencia desarrollado utilizando el banco de datos de historia global de Seshat. El parámetro de referencia abarcó casi 600 sociedades, más de 36,000 puntos de datos y más de 2,700 referencias académicas.

“Los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés), como ChatGPT, han tenido un enorme éxito en algunos campos; por ejemplo, han tenido éxito en gran medida al reemplazar a los asistentes jurídicos. Pero cuando se trata de emitir juicios sobre las características de las sociedades pasadas, especialmente las ubicadas fuera de América del Norte y Europa Occidental, su capacidad para hacerlo es mucho más limitada”, dijo Turchin, quien dirige el grupo de investigación de CSH sobre complejidad social y colapso, en un artículo publicado en la revista Science. comunicado de prensa.

A pesar de las mejoras de las iteraciones anteriores, el modelo de mejor rendimiento, GPT-4 Turbo, logró solo un 46 % de precisión en un examen de historia de opción múltiple diseñado para estudiantes de posgrado. Si bien esto es mejor que el 25 % de precisión esperado de las suposiciones aleatorias, subraya las limitaciones de la IA para comprender contextos históricos matizados.

“Pensé que los chatbots de IA funcionarían mucho mejor”, agregó del Rio-Chanona, quien también es miembro externo del cuerpo docente de CSH y autor correspondiente. “La historia a menudo se considera como hechos, pero a veces es necesaria una interpretación para darle sentido”.

Uno de los hallazgos más sorprendentes del estudio fue la especificidad del dominio de las capacidades de la IA.

“Este resultado demuestra que la 'inteligencia' artificial es bastante específica de un dominio. Los LLM funcionan bien en algunos contextos, pero muy mal, en comparación con los humanos, en otros”, añadió Turchin.

El rendimiento varió notablemente en diferentes períodos de tiempo y regiones geográficas. Los modelos de IA fueron más precisos al responder preguntas sobre historia antigua, en particular desde el 8,000 a. C. hasta el 3,000 a. C., pero tuvieron dificultades significativas con eventos históricos más recientes desde el 1,500 d. C. hasta el presente.

También hubo notables disparidades en la precisión según el enfoque geográfico: modelos como el de OpenAI funcionaron mejor para América Latina y el Caribe, pero menos eficazmente para África subsahariana.

El primer autor Jakob Hauser, científico residente en CSH, explicó la importancia de establecer dichos puntos de referencia.

"Queríamos establecer un punto de referencia para evaluar la capacidad de estos LLM para manejar conocimientos de historia a nivel experto. El banco de datos Seshat nos permite ir más allá de las preguntas de 'conocimiento general'", dijo en el comunicado de prensa.

El estudio destacó además que los modelos de IA sobresalieron en ciertas categorías como sistemas legales y complejidad social, pero fallaron en temas relacionados con la discriminación y la movilidad social.

“La principal conclusión de este estudio es que los LLM, aunque impresionantes, aún carecen de la profundidad de comprensión necesaria para la historia avanzada. Son excelentes para los hechos básicos, pero cuando se trata de una investigación histórica más matizada, de nivel de doctorado, aún no están a la altura de la tarea”, agregó del Rio-Chanona.

De cara al futuro, el equipo de investigación, que incluye expertos de la Universidad de Oxford y del Instituto Alan Turing, pretende ampliar su conjunto de datos y perfeccionar sus puntos de referencia para incluir cuestiones históricas más diversas y complejas.

“Planeamos seguir perfeccionando el parámetro de referencia mediante la integración de puntos de datos adicionales de diversas regiones, especialmente del Sur Global”, añadió Hauser. “También esperamos probar modelos LLM más recientes, como o3, para ver si pueden salvar las brechas identificadas en este estudio”.

Estos hallazgos ofrecen información importante tanto para los historiadores como para los desarrolladores de IA, destacando áreas de mejora y el potencial para una mejor integración de la IA en la investigación histórica.