Meta anuncia Voicebox demostrando todo lo que puede hacer la IA con la voz
El aprendizaje es clave en esta nueva herramienta que es un importante avance
Meta Platforms, la división de investigación en inteligencia artificial de la conocida compañía norteamericana, presentó Voicebox. Este es un modelo de aprendizaje automático capaz de generar voz a partir de texto y que se diferencia de otras opciones por su capacidad para realizar muchas tareas para las cuales no ha sido entrenado, como la edición, la eliminación de ruido y la transferencia de estilo.
Hay que decir que Meta no ha lanzado Voicebox al mercado -al menos por el momento- debido a preocupaciones éticas sobre su mal uso. El caso es que los resultados iniciales son prometedores y pueden impulsar muchas aplicaciones en el futuro.
Qué es exactamente Voicebox de Meta
Este desarrollo es un modelo generativo capaz de sintetizar voz en seis idiomas diferentes, incluyendo inglés, francés, español, alemán, polaco y portugués. Mientras que los modelos de lenguaje que existían hasta la fecha intentan aprender las regularidades estadísticas de las palabras y las secuencias de texto, Voicebox ha sido entrenado para aprender los patrones que mapean las muestras de audio de voz a sus transcripciones.
Este tipo de modelo puede aplicarse a muchas tareas secundarias con poco o ningún ajuste adicional. "El objetivo es construir un solo modelo que pueda realizar muchas tareas de generación de voz guiada por texto a través del aprendizaje contextual", escriben los investigadores de Meta. Un detalle importante: para entrenar el modelo, Meta utilizó su técnica llamada ‘Flow Matching’, que es más eficiente y generalizable que los métodos de aprendizaje basados en difusión utilizados en otros modelos generativos. Esta técnica permite un "aprendizaje de datos de voz variados sin necesidad de etiquetas cuidadosas".
Algo que es clave en Voicebox es que puede realizar muchos trabajos para los cuales no ha sido entrenado. Por ejemplo, la IA puede utilizar una muestra de voz de dos segundos para generar voz para un nuevo texto. Meta afirma que esta capacidad se puede utilizar para brindar voz a personas que no pueden hablar o personalizar las voces de personajes de juegos no jugables y asistentes virtuales.
Muchas opciones de cara al futuro
El desarrollo que utiliza Inteligencia Artificial puede generar varias muestras de voz a partir de una sola secuencia de texto. Esta capacidad se puede utilizar para generar datos sintéticos y entrenar otros modelos de procesamiento de voz. Meta señala que "nuestros resultados muestran que los modelos de reconocimiento de voz entrenados con voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados con voz real, con una degradación de la tasa de error de solo el 1 por ciento en comparación con el 45 al 70 por ciento de degradación con voz sintética de modelos anteriores de texto a voz".
Sin embargo, Voicebox también tiene sus límites. Dado que ha sido entrenado con datos de audiolibros, no se adapta bien al habla conversacional que es informal y contiene sonidos no verbales. Además, no proporciona un control completo sobre diferentes atributos de la voz generada, como el estilo de voz, el tono, la emoción y las condiciones acústicas. El equipo de investigación de Meta está explorando técnicas para superar estas limitaciones en el futuro.