Buscar
RPP Noticias
Estás escuchando En vivo
 
00:00 / 00:00
Lima
89.7 FM /730 AM
Arequipa
102.3 FM / 1170 AM
Chiclayo
96.7 FM / 870 AM
Huancayo
97.3 FM / 1140 AM
Trujillo
90.9 FM / 790 AM
Piura
103.3 FM / 920 AM
Cusco
93.3 FM
Cajamarca
100.7 FM / 1130 AM
La información más relevante de la actualidad al momento
Actualizado hace 0 minutos
Informes RPP
La inflación dejó de ser una preocupación
EP 1235 • 04:07
Entrevistas ADN
El Tribunal Constitucional no declaró inocente al prófugo Vladimir Cerrón, precisó abogado
EP 1768 • 17:57
El poder en tus manos
EP138 | INFORMES | ¿Cómo avanza la participación política de las mujeres en América latina?
EP 138 • 03:42

Microsoft revela VALL-E, una IA capaz de imitar cualquier voz con tan solo escucharla por 3 segundos

VALL-E es la nueva inteligencia artificial de Microsoft capaz de imitar la voz de cualquier persona con tan solo escucharla por 3 segundos.
VALL-E es la nueva inteligencia artificial de Microsoft capaz de imitar la voz de cualquier persona con tan solo escucharla por 3 segundos. | Fuente: Unsplash | Fotógrafo: KELLY SIKKEMA X

El nuevo modelo de lenguaje para la síntesis de texto a voz desarrollado por Microsoft puede replicar cualquier voz con solo 3 segundos de haberla escuchado.

Todas las noticias en tu celular
¡Únete aquí a nuestro canal de WhatsApp!

Microsoft está sumamente interesada en la inteligencia artificial y no solo ha optado por invertir en GPT-3 de OpenAI, la cual terminará siendo aplicada a los programas y servicios de la firma como Word y Bing, sino que además ha presentado una nueva iniciativa desarrollada por su propio equipo. La compañía ha revelado VALL-E, una herramienta capaz de imitar la voz de cualquier persona con tan solo haberla escuchado por 3 segundos.

La empresa dirigida por Satya Nadella está trabajando en sus propios modelos de inteligencias artificiales. En concreto, VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec -códec de audio de Meta- que puede generar audios mediante una pequeña descripción en texto.

Diferenciándose de otras tecnologías similares

Si bien la propia Microsoft ya cuenta con un sistema similar llamado Text to Speech para convertir un texto en voz sintetizada, la característica que diferencia a VALL-E de su antecesor según la compañía es que puede analizar la voz de una persona para luego interpretar cómo sonaría con frases distintas mientras conserva la entonación y las emociones del hablante. Solo requiere de 3 segundos para obtener resultados sorprendentes.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60 mil horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, dijo Microsoft en la web de la herramienta.

VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec que puede generar audios mediante una pequeña descripción en texto.

VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec que puede generar audios mediante una pequeña descripción en texto.Fuente: GitHub/Microsoft

Una IA impresionante y peligrosa

Además de ser capaz de replicar la voz de cualquier persona con una excelencia de temer, la inteligencia artificial VALL-E de Microsoft también puede usarse con otros modelos de IA generativa como el ya mencionado GPT-3. A través de esta opción, los usuarios tendrán la facultad de pedirle al popular chatbot ChatGPT que imite la voz de un personaje en específico.

Con estas alternativas, Microsoft busca conseguir un sistema capaz de crear discursos de voz mediante una descripción de texto y, si bien resulta impresionante en concepto, lo cierto es que puede representar un grave riesgo si es que llega a estar disponible al público general. VALL-E podría ser utilizado para suplantar la identidad de las personas.

Microsoft señaló que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E, pero esta IA podría ser el medio por el que una nueva generación de estafas aparezca en Internet.

Te recomendamos METADATA, el podcast de tecnología de RPP. Noticias, análisis, reseñas, recomendaciones y todo lo que debes saber sobre el mundo tecnológico.

Tags

Lo último en Más Tecnología

Lo más leído

Suscribirte al boletín de tus noticias preferidas

Suscríbete a nuestros boletines y actualiza tus preferencias

Buzon
Al suscribirte, aceptas nuestras políticas de privacidad

Contenido promocionado

Taboola
SIGUIENTE NOTA