VibeVoice — IA avançada de texto para fala multi-locutor

🎙️ Demo de TTS multi-locutor do VibeVoice

• Suporta conversas naturais com 2 a 4 locutores

• Síntese de fala em inglês e chinês

• Gere até 90 minutos de áudio

• Perfeito para podcasts, audiolivros e e-learning

Tempo de carregamento: 3–5 segundos

O que é o VibeVoice — o modelo TTS multi-locutor da Microsoft

O VibeVoice é o modelo de texto para fala (TTS) de código aberto da Microsoft, criado para áudio conversacional de formato longo e com múltiplos locutores. Ele pode gerar até ~90 minutos de diálogo natural, com alternância de turnos, com até quatro locutores, sendo ideal para podcasts, audiolivros e narração para e-learning.

Impulsionado por tokenizadores contínuos de fala (~7,5 Hz) e um decodificador de difusão de próximo token, o VibeVoice mantém alta consistência de locutor e prosódia natural em sequências longas. Para criadores, funciona como gerador de voz para podcasts, suporta narração longa de texto para fala e permite síntese de diálogos multi-locutor.

O projeto é licenciado sob MIT, então você pode executá-lo localmente ou testá-lo por meio de demos hospedadas.

Ver no GitHub

Demonstrações do VibeVoice — TTS com IA em ação

Veja como o VibeVoice gera conversas naturais com múltiplos locutores

FAQ do VibeVoice — perguntas comuns sobre TTS multi-locutor

Qual a duração e quantos locutores por geração?

Até ~90 minutos e até 4 locutores em uma única execução, dependendo da variante escolhida, do processamento e dos limites de hospedagem.

Quais idiomas são suportados?

Principalmente inglês e chinês. Capacidades multilíngues e de canto são emergentes e podem ser instáveis dependendo do roteiro e dos prompts.

Quais são os casos de uso típicos?

Gerador de voz para podcasts, diálogos de entrevista/painel, conversas de audiolivros, narração longa de cursos em texto para fala, role-play e simulações de atendimento ao cliente.

Como ele difere do TTS tradicional de um único locutor?

O VibeVoice foca em TTS conversacional: múltiplos locutores, alternância natural e estabilidade em longas durações. O TTS tradicional costuma focar em textos curtos de um único locutor e é mais fraco para diálogos e conteúdo muito longo.

Como devo estruturar meu roteiro?

Rotule cada linha com um locutor (por exemplo, "Alice: …"), mantenha as frases curtas, siga turnos naturais e prefira pontuação simples. Adicione pausas ou indicações de cena apenas quando necessário.

Como reduzir artefatos como música de fundo ou prosódia estranha?

Experimente outra voz/prompt, divida frases longas, suavize pistas emocionais ou faça um pós-processamento com leve denoise. Para projetos muito longos, gere por capítulo e depois una.

Há suporte a clonagem de voz ou imitação de celebridades?

As demos públicas geralmente não oferecem clonagem de voz. Não imite pessoas reais sem consentimento; siga leis aplicáveis e regras da plataforma.

Quais formatos de exportação existem? Quem é dono do resultado?

Você pode baixar o áudio (geralmente WAV/MP3, dependendo da demo). Você é responsável por garantir direitos autorais/conformidade ao usar ou publicar o resultado.

VibeVoice — modelo de IA de texto para fala multi-locutor de código aberto da Microsoft para podcasts e áudio de formato longo

🎙️ Demo de TTS multi-locutor do VibeVoice

Carregando demo...

O que é o VibeVoice — o modelo TTS multi-locutor da Microsoft

Demonstrações do VibeVoice — TTS com IA em ação

Veja como o VibeVoice gera conversas naturais com múltiplos locutores

Guia de configuração do VibeVoice - Primeiros passos com TTS multi-locutor

Demo de conversa com quatro locutores do VibeVoice

Recursos e capacidades avançadas do VibeVoice

Tutorial de instalação local do VibeVoice

FAQ do VibeVoice — perguntas comuns sobre TTS multi-locutor