VibeVoice — modelo de IA de texto para fala multi-locutor de código aberto da Microsoft para podcasts e áudio de formato longo
🎙️ Demo de TTS multi-locutor do VibeVoice
Tempo de carregamento: 3–5 segundos
Carregando demo...
Conectando ao serviço do Hugging Face
O que é o VibeVoice — o modelo TTS multi-locutor da Microsoft
O VibeVoice é o modelo de texto para fala (TTS) de código aberto da Microsoft, criado para áudio conversacional de formato longo e com múltiplos locutores. Ele pode gerar até ~90 minutos de diálogo natural, com alternância de turnos, com até quatro locutores, sendo ideal para podcasts, audiolivros e narração para e-learning.
Impulsionado por tokenizadores contínuos de fala (~7,5 Hz) e um decodificador de difusão de próximo token, o VibeVoice mantém alta consistência de locutor e prosódia natural em sequências longas. Para criadores, funciona como gerador de voz para podcasts, suporta narração longa de texto para fala e permite síntese de diálogos multi-locutor.
O projeto é licenciado sob MIT, então você pode executá-lo localmente ou testá-lo por meio de demos hospedadas.