Un nuevo estudio de la Universidad de Georgia explora cómo la IA podría aliviar la carga de calificación de los docentes, prometiendo calificaciones más rápidas y comentarios más oportunos para los estudiantes.
La calificación de tareas puede ser una de las tareas que más tiempo consume en el trabajo docente. Una nueva investigación de la Universidad de Georgia sugiere que la inteligencia artificial (IA) podría aliviar significativamente esta carga, permitiendo a los educadores centrarse más en la enseñanza y menos en las tareas administrativas.
Con la adopción de los Estándares de Ciencias de Próxima Generación en muchos estados, la complejidad de la calificación ha aumentado. Estos estándares enfatizan la capacidad de los estudiantes para argumentar, investigar y analizar datos. Sin embargo, esto ha dificultado aún más el proceso de calificación.
“Pedir a los niños que dibujen un modelo, escriban una explicación y discutan entre ellos son tareas muy complejas”, declaró en un comunicado de prensa el autor correspondiente Xiaoming Zhai, profesor asociado de la Facultad de Educación Temprana Mary Frances de la UGA. “Los docentes a menudo no tienen tiempo suficiente para evaluar todas las respuestas de los estudiantes, lo que significa que no podrán recibir retroalimentación oportuna”.
El estudio, publicado En Tecnología, Conocimiento y Aprendizaje, exploró el desempeño de los modelos de lenguaje grande (LLMs) como Mixtral en la calificación del trabajo de los estudiantes.
A diferencia de la IA tradicional, los LLM se entrenan utilizando grandes cantidades de datos de Internet, lo que les permite generar un lenguaje similar al humano.
Para este estudio, se presentaron a Mixtral las respuestas escritas de estudiantes de secundaria a preguntas sobre el comportamiento de partículas a diferentes temperaturas. La IA creó rúbricas para evaluar el desempeño de los estudiantes y asignarles puntuaciones.
Sin embargo, la investigación reveló las limitaciones de confiar únicamente en la IA para la calificación. Si bien los LLM pueden procesar las respuestas rápidamente, a menudo utilizan atajos, como la identificación de palabras clave específicas, lo que puede dar lugar a suposiciones erróneas sobre la comprensión del estudiante.
“Los estudiantes podrían mencionar un aumento de temperatura, y el modelo de lenguaje amplio interpreta que todos comprenden que las partículas se mueven más rápido cuando las temperaturas suben”, añadió Zhai. “Pero basándonos en lo que escriben los estudiantes, como humanos, no podemos inferir si saben si las partículas se moverán más rápido o no”.
El hallazgo clave del estudio fue que la precisión de la calificación de la IA mejora significativamente al combinarse con rúbricas creadas por personas. Sin estas directrices, los LLM tenían una tasa de precisión de tan solo el 33.5 %. Sin embargo, con el acceso a rúbricas creadas por personas, esta tasa superó el 50 %.
"El tren ya salió de la estación, pero acaba de salir", añadió Zhai. "Significa que aún nos queda mucho camino por recorrer en el uso de la IA, y que aún tenemos que decidir qué dirección tomar".
A pesar de estos desafíos, los beneficios potenciales de la IA en la educación son significativos. Si se perfeccionan las herramientas de IA para proporcionar una calificación más precisa y matizada, podrían ahorrarles a los docentes incontables horas que normalmente dedican a la calificación y la retroalimentación.
Algunos educadores ya han expresado su entusiasmo por este posible desarrollo.
Muchos profesores me dijeron: "Tenía que dedicar el fin de semana a dar retroalimentación, pero con la calificación automática, ya no tengo que hacerlo. Ahora tengo más tiempo para concentrarme en tareas más significativas en lugar de en tareas laboriosas", añadió Zhai. "Eso me anima mucho".
Fuente: Universidad de Georgia