Meta anuncia Voicebox demostrando todo lo que puede hacer la IA con la voz

El aprendizaje es clave en esta nueva herramienta que es un importante avance

Qué es exactamente Voicebox de Meta

Este desarrollo es un modelo generativo capaz de sintetizar voz en seis idiomas diferentes, incluyendo inglés, francés, español, alemán, polaco y portugués. Mientras que los modelos de lenguaje que existían hasta la fecha intentan aprender las regularidades estadísticas de las palabras y las secuencias de texto, Voicebox ha sido entrenado para aprender los patrones que mapean las muestras de audio de voz a sus transcripciones.

Easywithai

Este tipo de modelo puede aplicarse a muchas tareas secundarias con poco o ningún ajuste adicional. "El objetivo es construir un solo modelo que pueda realizar muchas tareas de generación de voz guiada por texto a través del aprendizaje contextual", escriben los investigadores de Meta. Un detalle importante: para entrenar el modelo, Meta utilizó su técnica llamada ‘Flow Matching’, que es más eficiente y generalizable que los métodos de aprendizaje basados en difusión utilizados en otros modelos generativos. Esta técnica permite un "aprendizaje de datos de voz variados sin necesidad de etiquetas cuidadosas".

Algo que es clave en Voicebox es que puede realizar muchos trabajos para los cuales no ha sido entrenado. Por ejemplo, la IA puede utilizar una muestra de voz de dos segundos para generar voz para un nuevo texto. Meta afirma que esta capacidad se puede utilizar para brindar voz a personas que no pueden hablar o personalizar las voces de personajes de juegos no jugables y asistentes virtuales.

Muchas opciones de cara al futuro

El desarrollo que utiliza Inteligencia Artificial puede generar varias muestras de voz a partir de una sola secuencia de texto. Esta capacidad se puede utilizar para generar datos sintéticos y entrenar otros modelos de procesamiento de voz. Meta señala que "nuestros resultados muestran que los modelos de reconocimiento de voz entrenados con voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados con voz real, con una degradación de la tasa de error de solo el 1 por ciento en comparación con el 45 al 70 por ciento de degradación con voz sintética de modelos anteriores de texto a voz".

Sin embargo, Voicebox también tiene sus límites. Dado que ha sido entrenado con datos de audiolibros, no se adapta bien al habla conversacional que es informal y contiene sonidos no verbales. Además, no proporciona un control completo sobre diferentes atributos de la voz generada, como el estilo de voz, el tono, la emoción y las condiciones acústicas. El equipo de investigación de Meta está explorando técnicas para superar estas limitaciones en el futuro.

Más información

WhatsApp lanza los mensajes de vídeo, serán muy útiles... pero no son nada nuevo

Iván Martín Barbero

Instagram mejora su apartado Notas: añade música e, incluso, traducción

Iván Martín Barbero

Qué es exactamente Voicebox de Meta

Muchas opciones de cara al futuro

Más información

Archivado En