Un nuevo estudio de la Universidad Queen Mary de Londres ha demostrado que las voces generadas por IA han alcanzado un nivel de realismo indistinguible de las voces humanas, lo que plantea preguntas importantes sobre el papel de la tecnología en la comunicación, la seguridad y la ética.
La tecnología de voz de IA ha alcanzado un hito notable. Un nuevo estudio de la Universidad Queen Mary de Londres revela que las voces sintéticas ahora son indistinguibles de las de los humanos reales, lo que supone un avance significativo en las capacidades de la inteligencia artificial.
Muchos han considerado durante mucho tiempo que el habla generada por IA es poco convincente y fácilmente distinguible de la voz humana. Sin embargo, las últimas investigaciones demuestran que esta percepción está cada vez más obsoleta.
Publicado En la revista PLOS One, el estudio comparó voces humanas reales con dos tipos de voces generadas por IA: aquellas clonadas para imitar a una persona específica y aquellas creadas a partir de grandes modelos de voz sin una contraparte humana específica.
Los participantes en el estudio evaluaron el realismo, el dominio y la confiabilidad de las voces.
Los hallazgos revelaron que las voces generadas por IA podían sonar tan reales como las humanas, lo que dificultaba a los oyentes distinguirlas. Curiosamente, estas voces se percibían a menudo como más dominantes y, en algunos casos, más fiables que las humanas.
“Las voces generadas por IA nos rodean por completo. Todos hemos hablado con Alexa o Siri, o hemos recibido llamadas de sistemas automatizados de atención al cliente”, declaró en un comunicado de prensa Nadine Lavan, profesora titular de psicología en la Universidad Queen Mary de Londres y codirectora del estudio. “Esas voces no suenan exactamente como voces humanas reales, pero era solo cuestión de tiempo hasta que la tecnología de IA comenzara a producir un habla natural y con un sonido humano. Nuestro estudio demuestra que ese momento ha llegado, y necesitamos urgentemente comprender cómo percibe la gente estas voces realistas”.
Lavan destacó la facilidad y rapidez con que el equipo pudo crear clones de voz utilizando software disponible comercialmente.
“El proceso requirió una experiencia mínima, solo unos minutos de grabación de voz y prácticamente nada de dinero”, añadió. “Esto demuestra lo accesible y sofisticada que se ha vuelto la tecnología de voz con IA”.
La rápida mejora en la síntesis de voz con IA tiene profundas implicaciones éticas, de derechos de autor y de seguridad. La preocupación por la desinformación, el fraude y la suplantación de identidad es fundamental, especialmente a medida que la generación de voz realista se vuelve más accesible y avanzada.
Sin embargo, en una nota positiva, Lavan enfatizó el potencial de la tecnología de voz de IA para ofrecer oportunidades interesantes.
“Podría haber aplicaciones para mejorar la accesibilidad, la educación y la comunicación, donde las voces sintéticas personalizadas de alta calidad pueden mejorar la experiencia del usuario”, afirmó.
Fuente: Queen Mary University of London
