Saltar al contenido

VibeVoice: el modelo de IA de texto a voz multi-locutor de código abierto de Microsoft para podcasts y audio de formato largo

🎙️ Demo de TTS multi-locutor de VibeVoice

Admite conversaciones naturales de 2 a 4 hablantes
Síntesis de voz en inglés y chino
Genera hasta 90 minutos de audio
Ideal para podcasts, audiolibros y e-learning

Tiempo de carga: 3–5 segundos

Qué es VibeVoice: el modelo TTS multi-locutor de Microsoft

VibeVoice es el modelo de texto a voz (TTS) de código abierto de Microsoft, diseñado para audio conversacional de formato largo y con múltiples hablantes. Puede generar hasta ~90 minutos de diálogo natural por turnos con hasta cuatro hablantes, lo que lo hace ideal para podcasts, audiolibros y narración para e-learning.

Impulsado por tokenizadores de habla continua (~7,5 Hz) y un decodificador de difusión de siguiente token, VibeVoice mantiene una fuerte consistencia de hablante y una prosodia natural en secuencias largas. Para creadores, funciona como generador de voz para podcasts, admite narración de texto a voz de formato largo y permite síntesis de diálogos multi-locutor.

El proyecto tiene licencia MIT, por lo que puedes ejecutarlo localmente o probarlo mediante demos alojadas.

Demos de VibeVoice: texto a voz con IA en acción

Mira cómo VibeVoice genera conversaciones naturales con múltiples hablantes

Guía de configuración de VibeVoice: primeros pasos con TTS multi-locutor

Demo de conversación de cuatro hablantes de VibeVoice

Funciones y capacidades avanzadas de VibeVoice

Tutorial de instalación local de VibeVoice

Preguntas frecuentes de VibeVoice: dudas comunes sobre TTS multi-locutor

¿Cuánto dura y cuántos hablantes por generación?
Hasta ~90 minutos y hasta 4 hablantes en una sola pasada, según la variante elegida, el cómputo y los límites de alojamiento.
¿Qué idiomas son compatibles?
Principalmente inglés y chino. Las capacidades multilingües y de canto son emergentes y pueden ser inestables según el guion y los prompts.
¿Cuáles son los casos de uso típicos?
Generador de voz para podcasts, diálogos de entrevista/panel, conversaciones de audiolibros, narración de cursos largos de texto a voz, role-play y simulaciones de atención al cliente.
¿En qué se diferencia del TTS tradicional de un solo hablante?
VibeVoice se centra en TTS conversacional: múltiples hablantes, turnos naturales y estabilidad de larga duración. El TTS tradicional suele enfocarse en textos cortos de un solo hablante y es más débil para diálogos y contenido muy largo.
¿Cómo debo estructurar mi guion?
Etiqueta cada línea con un hablante (por ejemplo, "Alice: …"), mantén las frases cortas, sigue turnos naturales y usa puntuación simple. Añade pausas o indicaciones escénicas solo cuando sea necesario.
¿Cómo reduzco artefactos como música de fondo o una prosodia extraña?
Prueba otra voz/prompt, divide frases largas, suaviza señales emocionales o aplica un ligero denoise en posprocesado. Para proyectos muy largos, genera por capítulo y luego une.
¿Admite clonación de voz o imitación de celebridades?
Las demos públicas generalmente no ofrecen clonación de voz. No imites a personas reales sin consentimiento; sigue las leyes aplicables y las normas de la plataforma.
¿Qué formatos de exportación hay? ¿Quién es dueño del resultado?
Puedes descargar el audio (normalmente WAV/MP3, según la demo). Eres responsable de garantizar derechos de autor/cumplimiento al usar o publicar el resultado.