Auriculares innovadores con IA traducen la voz de varios hablantes en tiempo real

Investigadores de la Universidad de Washington presentan auriculares con IA que traducen la voz de varios hablantes en tiempo real, conservando sus características únicas. Esta innovadora tecnología podría revolucionar la comunicación en diversos idiomas.

Investigadores de la Universidad de Washington (UW) han desarrollado unos innovadores auriculares con IA que pueden traducir las voces de varios hablantes simultáneamente, conservando las características y direcciones únicas de sus voces. Este innovador sistema, conocido como Traducción Espacial del Habla, promete un avance significativo en la tecnología de traducción de idiomas en tiempo real.

Tuochao Chen, estudiante de doctorado de la Universidad de Washington en la Escuela Paul G. Allen de Ciencias de la Computación e Ingeniería, se enfrentó recientemente a un obstáculo común durante una visita a un museo en México: la imposibilidad de entender español en medio del ruido ambiental al usar una aplicación de traducción en su teléfono. La experiencia puso de relieve las limitaciones de las aplicaciones de traducción actuales, que a menudo se ven saturadas por los sonidos de fondo.

Inspirados por este desafío, Chen y su equipo se propusieron crear una solución que pudiera trascender estas limitaciones.

“Otras tecnologías de traducción se basan en la premisa de que solo habla una persona”, declaró en un comunicado de prensa Shyam Gollakota, autor principal y profesor de la Escuela Allen de la Universidad de Washington. “Pero en la vida real, no es posible que una sola voz robótica hable por varias personas en una habitación. Por primera vez, hemos preservado el sonido de la voz de cada persona y su origen”.

El sistema de Traducción Espacial del Habla utiliza auriculares estándar con cancelación de ruido y micrófono. Los algoritmos del sistema funcionan como un radar, escaneando el entorno en 360 grados para detectar y rastrear a múltiples hablantes, traduciendo su voz con un ligero retraso de 2 a 4 segundos.

Esta metodología garantiza que la voz de cada hablante se preserve de forma auténtica, manteniendo sus cualidades expresivas y su volumen.

"Nuestros algoritmos funcionan de forma similar a un radar", añadió Chen. "Escanea el espacio en 360 grados y determina y actualiza constantemente si hay una persona, seis o siete".

El equipo de investigación presentaron sus hallazgos En la Conferencia ACM CHI sobre Factores Humanos en Sistemas Informáticos, celebrada en Yokohama, Japón. El código del dispositivo de prueba de concepto es de código abierto, lo que permite a otros desarrollar y ampliar este trabajo pionero.

Este sistema funciona con dispositivos móviles con chip Apple M2, como portátiles y el Apple Vision Pro, y evita la computación en la nube para abordar las preocupaciones de privacidad relacionadas con la clonación de voz. Al probarse en 10 entornos diferentes, tanto interiores como exteriores, los usuarios eligieron el nuevo sistema con mayor frecuencia que los modelos tradicionales que no rastreaban a los hablantes en el espacio.

En una de las pruebas de usuario, los participantes prefirieron un retraso de 3 a 4 segundos, ya que el sistema cometía menos errores en comparación con un retraso de 1 a 2 segundos.

Si bien el dispositivo actualmente maneja lenguaje común en lugar de jerga técnica, se ha probado con éxito en español, alemán y francés. Modelos de traducción previos sugieren que podría ser entrenado para manejar aproximadamente 100 idiomas en el futuro.

“Este es un paso hacia la eliminación de las barreras lingüísticas entre culturas”, añadió Chen. “Así, si camino por la calle en México, aunque no hable español, puedo traducir las voces de todos y saber quién dijo qué”.

Fuente: Universidad de Washington