Scroll to top
© 2022, SYNTONIZE Digital Pulse

Qué es VALL-E: la apuesta por IA de Microsoft

Este año 2023 está pisando bien fuerte con la inteligencia artificial. Son varias las compañías y empresas que se han sumado a esta nueva era. Sin ir más lejos, una de estas compañías es Microsoft. La manera de la que Microsoft integra la inteligencia artificial no es solo con el ChatGPT en Bing. Microsoft cuenta con un arma secreta y esta es VALL-E. No te suena, ¿verdad? En este artículo te vamos a explicar qué es VALL-E y para qué va a servir. 

¿Qué es VALL-E?

Esta inteligencia artificial es un modelo del lenguaje para la síntesis de texto a voz. Dicho de otra forma, es una herramienta que permitirá replicar cualquier voz y a la vez que se inserte un texto. Microsoft asegura que tan solo es necesario tres segundos de grabación para poder imitar la voz. ¿No parece increíble? Lo más interesante de todo esto, es que Microsoft está trabajando a la par con Chat GPT para que ambas tecnologías puedan trabajar juntas. Si lo piensas por un momento, esto quiere decir que se combinará la tecnología IA generativa y la IA por voz. 

Para que sea más claro de entender. Imagínatelo como una actualización de ChatGPT, en la que tenga una opción para mostrarnos los resultados con la voz que deseemos. Con esta opción, podrías pedirle que los resultados te los leyera con la voz de tu celebridad favorita. Lo único que necesita es una grabación de tres segundos y ya tendrías tu fantasía hecha realidad. 

Además, no es solo capaz de imitar la voz, sino además, es capaz de imitar la cadencia original del lenguaje y el tono con el que se ha grabado la voz. No solo es compatible con ChatGPT, puede combinarse con otras aplicaciones de síntesis de voz como TTS y otras de edición de voz. 

Qué es VALL-EQué es VALL-E: proceso

El proceso es sencillo, simplemente lo que debes de hacer es insertar por un lado el texto que quieres sintetizar. Por otro lado, añades la grabación de tres segundos de la voz de la persona que quieras que esta tecnología imite. El paso siguiente es convertir el texto en una conversión de fonemas, mientras que pasa la grabación por un codificador de códec de audio. Una vez logrado esto, ambos convergen en un modelado de lenguaje de códecs neuronales. Por último, esta unión de texto y voz pasa por un descodificador de códec de audio, obteniendo así el discurso personalizado.

Qué es VALL-E

VALL-E: Advertencias

A través del enlace que somos dejado arriba, como podréis ver hay varios ejemplos sobre los usos de esta tecnología. Pero como es normal si os habrá pasado por la mente una pregunta al conocer el potencial de esta herramienta. ¿Qué ocurre con la suplantación de voz? Esto es un apartado al final de la página, en el que te explican la declaración ética de VALL-E. Admiten que puede llevar riesgos potenciales por su posible mal uso, como hacerse pasar por un hablante. 

Por otro lado, explica que los experimentos llevados a cabo, se realizan bajo la aceptación de que el orador desea ser el objetivo del síntesis del habla. Por ello es necesario y recomendable incluir un protocolo para asegurar que el speaker aprueba el uso de su voz.

Como es habitual siempre en los temas relacionados con la inteligencia artificial, rozan la ética moral humana. Sin duda es una cuestión que a medida que avanza la inteligencia artificial no podemos dejar de lado. Por ello, no podemos olvidar que la tecnología es una herramienta para ayudar, pero que puede hacerse un mal uso de ella en función de las manos de las que se encuentre. La tecnología avanza y avanzará, pero también debemos aprender y protegernos de sus posibles malos usos.

Suscripción a la newsletter de Syntonize