Un nuevo estudio revela el arte y los defectos de las imágenes generadas por IA.

Un nuevo estudio analiza las capacidades de las herramientas de IA Midjourney y DALL·E para generar imágenes a partir de texto. Los investigadores descubrieron que, si bien estos programas de IA pueden crear imágenes estéticamente agradables, a menudo tienen dificultades con instrucciones básicas y reflejan sesgos culturales.

En un mundo donde la inteligencia artificial avanza a pasos agigantados, un equipo de investigadores se ha embarcado en una misión para comprender las capacidades y limitaciones de las populares herramientas de IA Midjourney y DALL·E. Estos programas de IA generativa han llamado la atención por su capacidad para transformar descripciones escritas en arte visual, pero ¿pueden realmente capturar la esencia de nuestras ideas?

Un estudio colaborativo, con la participación de científicos de la Universidad de Lieja en Bélgica, la Universidad de Lorena y la EHESS en Francia, buscó responder a esta pregunta. Combinando conocimientos en semiótica, informática e historia del arte, los investigadores analizaron meticulosamente las imágenes producidas por estos sistemas de IA basándose en diversos criterios, como formas, colores y la disposición de los elementos.

«Nuestro enfoque se basa en una serie de pruebas rigurosas», declaró en un comunicado de prensa la coautora Maria Giulia Dondero, semióloga y directora de investigación del FNRS en la Universidad de Lieja. «Presentamos solicitudes muy específicas a estos dos sistemas de IA y analizamos las imágenes producidas según criterios de las humanidades, como la disposición de las formas, los colores, las miradas, el dinamismo específico de la imagen fija, el ritmo de su despliegue, etc.». 

Los resultados, publicado En la revista Semiotic Review, se revela que si bien las herramientas de IA como Midjourney y DALL·E pueden generar imágenes visualmente atractivas, a menudo tienen dificultades al seguir instrucciones sencillas.

Por ejemplo, las indicaciones que implican negación, como «un perro sin cola», suelen dar lugar a imágenes de perros con cola u otras imprecisiones. Del mismo modo, representar relaciones espaciales complejas, como «dos mujeres detrás de una puerta», plantea importantes desafíos.

La IA también tiene dificultades con las acciones y las secuencias temporales, a veces interpretando “pelear” como bailar o sin representar la progresión de acciones como “empezar a comer” o “haber terminado de comer”.

«Estas IA generales nos permiten reflexionar sobre nuestra propia forma de ver y representar el mundo», añadió el autor principal, Enzo D'Armenio, antiguo investigador de la Universidad de Lieja y ahora profesor adjunto en la Universidad de Lorena. «Reproducen estereotipos visuales a partir de sus bases de datos, a menudo construidas con imágenes occidentales, y revelan las limitaciones de la traducción entre el lenguaje verbal y el visual».

El equipo de investigación validó sus resultados mediante la repetición, realizando hasta 50 generaciones por cada estímulo para garantizar la solidez estadística. Descubrieron rasgos estéticos distintivos en los modelos: Midjourney tiende a producir imágenes «estetizadas» con adornos, mientras que DALL·E ofrece un mayor control compositivo, pero varía en el número y la orientación de los objetos.

A pesar de sus fascinantes capacidades, los modelos de IA son inherentemente estadísticos y producen los resultados más probables basándose en sus conjuntos de datos de entrenamiento y las configuraciones establecidas por sus creadores. Esto suele reforzar los estereotipos culturales.

Por ejemplo, la instrucción “CEO dando un discurso” podría generar imágenes predominantemente masculinas en algunos modelos y mayoritariamente femeninas en otros, lo que pone de manifiesto los sesgos inherentes a sus datos de entrenamiento.

“Las IA generales producen el resultado más plausible basándose en sus bases de datos de entrenamiento y en la configuración (a veces editorial) de sus diseñadores”, añadió el coautor Adrien Deliège, matemático de la ULiège, “estas elecciones podrían estandarizar la mirada y transmitir o reorientar estereotipos”. 

Los investigadores destacan la importancia de utilizar herramientas interdisciplinarias de las humanidades para evaluar estas tecnologías.

«Las herramientas de IA no son simplemente herramientas automáticas», concluyó D'Armenio. «Traducen nuestras palabras según su propia lógica, influenciadas por sus bases de datos y algoritmos. Las humanidades tienen un papel esencial que desempeñar en su comprensión y evaluación». 

El estudio subraya tanto el potencial como las limitaciones actuales de las imágenes generadas por IA, sugiriendo que, si bien estas herramientas pueden ayudar a visualizar ideas, aún no logran una traducción perfecta. La integración de las humanidades en el proceso de evaluación es crucial para una comprensión integral de sus implicaciones culturales y simbólicas.

Fuente: Universidad de Lieja