TTS local em tempo real (31M parâmetros, 5.6x CPU, clonagem de voz, ONNX)

Olá pessoal, criei um modelo de TTS baseado na minha versão altamente aprimorada do VITS, condicionado a embeddings de falantes externos (Resemblyzer da Resemble AI). O modelo, com ~31M parâmetros (ONNX), é otimizado para baixa latência e inferência local, e já vem exportado. Estava tentando explorar os limites do que poderia fazer com modelos pequenos e rápidos. Executa 5.6x mais rápido que tempo real em CPU de servidor. Suporta clonagem de voz, mistura de vozes (combinar dois ou mais falantes para criar uma nova voz), a licença é Apache 2.0 e usa DeepPhonemizer (MIT) para a fonemização, então não há problemas de licença. O repositório contém o checkpoint, instruções de execução e links para demonstrações no Colab e HuggingFace. Como é compacto, a qualidade do áudio não é a melhor, e como foi treinado em LibriTTS-R + VCTK (ambos conjuntos de dados totalmente abertos), a similaridade do falante não é tão boa. Mesmo assim, espero que seja útil.

  • Agente de IA
  • Aplicação Web
  • Código Aberto
Mar 18, 2026Visitar site

Resumo de IA

Um modelo leve de texto para voz em tempo real otimizado para inferência local em CPU, oferecendo capacidades de clonagem e mistura de voz. Prioriza velocidade e baixo uso de recursos em vez da mais alta qualidade de áudio e similaridade do falante.

Melhor para

Desenvolvedores que precisam de TTS rápido e local para aplicações, Hobbyistas experimentando com síntese de voz em hardware limitado, Projetos que exigem licenciamento permissivo Apache 2.0

Por que importa

Oferece uma solução de TTS rápida e executável localmente com recursos de manipulação de voz, equilibrando capacidade com um tamanho de modelo pequeno adequado para implantação em CPU.

Principais recursos

  • Conversão de texto em voz em tempo real com desempenho 5,6 vezes mais rápido que o tempo real em CPUs de servidor
  • Clonagem de voz usando embeddings de falantes externos do Resemblyzer
  • Mistura de voz para combinar múltiplos falantes e criar novas vozes
  • Inferência local otimizada para baixa latência com modelo ONNX pré-exportado

Casos de uso

  • Um desenvolvedor criando uma ferramenta de acessibilidade offline para um Raspberry Pi precisa de um mecanismo de TTS leve que possa rodar sem aceleração de GPU e gerar fala a partir de texto fornecido pelo usuário em tempo real.
  • Um criador independente de jogos quer adicionar narração de voz dinâmica ao seu jogo para PC de baixo recurso, clonando a voz de um amigo para diálogos de personagens sem depender de APIs na nuvem ou licenciamentos caros.
  • Um pesquisador prototipando um aplicativo personalizado de aprendizado de idiomas em um servidor de baixo orçamento precisa misturar duas amostras de sotaque para criar uma voz de tutor única para exercícios de pronúncia, garantindo que todos os componentes sejam de código aberto.