VibeVoice: el modelo de IA de texto a voz multi-locutor de código abierto de Microsoft para podcasts y audio de formato largo
🎙️ Demo de TTS multi-locutor de VibeVoice
Tiempo de carga: 3–5 segundos
Cargando demo...
Conectando con el servicio de Hugging Face
Qué es VibeVoice: el modelo TTS multi-locutor de Microsoft
VibeVoice es el modelo de texto a voz (TTS) de código abierto de Microsoft, diseñado para audio conversacional de formato largo y con múltiples hablantes. Puede generar hasta ~90 minutos de diálogo natural por turnos con hasta cuatro hablantes, lo que lo hace ideal para podcasts, audiolibros y narración para e-learning.
Impulsado por tokenizadores de habla continua (~7,5 Hz) y un decodificador de difusión de siguiente token, VibeVoice mantiene una fuerte consistencia de hablante y una prosodia natural en secuencias largas. Para creadores, funciona como generador de voz para podcasts, admite narración de texto a voz de formato largo y permite síntesis de diálogos multi-locutor.
El proyecto tiene licencia MIT, por lo que puedes ejecutarlo localmente o probarlo mediante demos alojadas.