Pular para o conteúdo

VibeVoice — modelo de IA de texto para fala multi-locutor de código aberto da Microsoft para podcasts e áudio de formato longo

🎙️ Demo de TTS multi-locutor do VibeVoice

Suporta conversas naturais com 2 a 4 locutores
Síntese de fala em inglês e chinês
Gere até 90 minutos de áudio
Perfeito para podcasts, audiolivros e e-learning

Tempo de carregamento: 3–5 segundos

O que é o VibeVoice — o modelo TTS multi-locutor da Microsoft

O VibeVoice é o modelo de texto para fala (TTS) de código aberto da Microsoft, criado para áudio conversacional de formato longo e com múltiplos locutores. Ele pode gerar até ~90 minutos de diálogo natural, com alternância de turnos, com até quatro locutores, sendo ideal para podcasts, audiolivros e narração para e-learning.

Impulsionado por tokenizadores contínuos de fala (~7,5 Hz) e um decodificador de difusão de próximo token, o VibeVoice mantém alta consistência de locutor e prosódia natural em sequências longas. Para criadores, funciona como gerador de voz para podcasts, suporta narração longa de texto para fala e permite síntese de diálogos multi-locutor.

O projeto é licenciado sob MIT, então você pode executá-lo localmente ou testá-lo por meio de demos hospedadas.

Demonstrações do VibeVoice — TTS com IA em ação

Veja como o VibeVoice gera conversas naturais com múltiplos locutores

Guia de configuração do VibeVoice - Primeiros passos com TTS multi-locutor

Demo de conversa com quatro locutores do VibeVoice

Recursos e capacidades avançadas do VibeVoice

Tutorial de instalação local do VibeVoice

FAQ do VibeVoice — perguntas comuns sobre TTS multi-locutor

Qual a duração e quantos locutores por geração?
Até ~90 minutos e até 4 locutores em uma única execução, dependendo da variante escolhida, do processamento e dos limites de hospedagem.
Quais idiomas são suportados?
Principalmente inglês e chinês. Capacidades multilíngues e de canto são emergentes e podem ser instáveis dependendo do roteiro e dos prompts.
Quais são os casos de uso típicos?
Gerador de voz para podcasts, diálogos de entrevista/painel, conversas de audiolivros, narração longa de cursos em texto para fala, role-play e simulações de atendimento ao cliente.
Como ele difere do TTS tradicional de um único locutor?
O VibeVoice foca em TTS conversacional: múltiplos locutores, alternância natural e estabilidade em longas durações. O TTS tradicional costuma focar em textos curtos de um único locutor e é mais fraco para diálogos e conteúdo muito longo.
Como devo estruturar meu roteiro?
Rotule cada linha com um locutor (por exemplo, "Alice: …"), mantenha as frases curtas, siga turnos naturais e prefira pontuação simples. Adicione pausas ou indicações de cena apenas quando necessário.
Como reduzir artefatos como música de fundo ou prosódia estranha?
Experimente outra voz/prompt, divida frases longas, suavize pistas emocionais ou faça um pós-processamento com leve denoise. Para projetos muito longos, gere por capítulo e depois una.
Há suporte a clonagem de voz ou imitação de celebridades?
As demos públicas geralmente não oferecem clonagem de voz. Não imite pessoas reais sem consentimento; siga leis aplicáveis e regras da plataforma.
Quais formatos de exportação existem? Quem é dono do resultado?
Você pode baixar o áudio (geralmente WAV/MP3, dependendo da demo). Você é responsável por garantir direitos autorais/conformidade ao usar ou publicar o resultado.