Un nuevo estudio realizado por científicos de la Universidad de Nueva York revela un modelo de IA que puede predecir la fluidez y el disfrute de las videoconferencias mediante el análisis de los turnos de conversación y las expresiones faciales. Este avance podría mejorar drásticamente las reuniones virtuales, haciéndolas más eficientes y agradables.
Desde el inicio de la pandemia de COVID-19, las plataformas de videoconferencia como Zoom y MS Teams se han convertido en parte integral de nuestra vida laboral y social. A pesar de sus ventajas, estas plataformas suelen presentar momentos incómodos o improductivos. Ahora, un equipo de científicos de la Universidad de Nueva York ofrece una solución de alta tecnología para que las reuniones virtuales sean más agradables y eficientes.
Los investigadores han desarrollado un modelo de inteligencia artificial capaz de evaluar el comportamiento humano durante las videoconferencias. Esto incluye la monitorización de los turnos de conversación y las expresiones faciales para predecir si estas interacciones son fluidas y agradables.
“Nuestro modelo de aprendizaje automático revela la intrincada dinámica de la interacción social de alto nivel al decodificar patrones sutiles en las señales básicas de audio y video de las videoconferencias”, declaró en un nuevo comunicado Andrew Chang, autor principal e investigador postdoctoral del Departamento de Psicología de la Universidad de Nueva York. “Este avance representa un paso importante hacia la mejora dinámica de las experiencias de videoconferencia, al mostrar cómo evitar interrupciones en la conversación antes de que ocurran”.
Para crear esta maravilla del aprendizaje automático, se analizaron más de 100 horas de grabaciones de Zoom. El modelo registró la voz, las expresiones faciales y los movimientos corporales para identificar elementos disruptivos que dificultaban la fluidez o el disfrute de las conversaciones.
Curiosamente, el modelo descubrió que los “silencios incómodos” eran más perjudiciales para la calidad de las reuniones que las conversaciones superpuestas, lo que sugiere que los debates enérgicos son más favorables que los períodos de silencio.
Para validar el modelo, más de 300 jueces humanos revisaron la misma grabación de la videoconferencia y calificaron la fluidez y la amenidad de las conversaciones. Sus evaluaciones coincidieron estrechamente con las predicciones de la IA, lo que confirmó la fiabilidad del modelo.
“Las videoconferencias son ahora una parte fundamental de nuestras vidas, por lo que comprender y abordar sus aspectos negativos es vital no solo para fomentar una mejor comunicación y conexión interpersonal, sino también para mejorar la eficiencia de las reuniones y la satisfacción laboral de los empleados”, añadió el autor principal, Dustin Freeman, investigador visitante del Departamento de Psicología de la Universidad de Nueva York. “Al predecir los momentos de interrupción de la conversación, este trabajo puede allanar el camino para que los sistemas de videoconferencia mitiguen estas interrupciones y faciliten el flujo de las conversaciones, ya sea manipulando implícitamente los retrasos de la señal para adaptarlos o proporcionando señales explícitas a los usuarios, algo con lo que estamos experimentando actualmente”.
La investigación del equipo, publicado en las actas de la Conferencia Internacional IEEE sobre Acústica, Habla y Procesamiento de Señales (ICASSP), se muestra un avance significativo en el campo de la comunicación virtual, con posibles aplicaciones que podrían extenderse más allá de las videoconferencias a diversas formas de comunicación remota.
El artículo fue coescrito por Viswadruth Akkaraju y Ray McFadden Cogliano, ambos estudiantes de posgrado en la Escuela de Ingeniería Tandon de la Universidad de Nueva York en ese momento, así como por David Poeppel, profesor de psicología en la Universidad de Nueva York y la Sociedad Max Planck en Munich, Alemania.
Fuente: New York University