TTS local en tiempo real (31M parámetros, 5.6x CPU, clonación de voz, ONNX)
Hola a todos, he creado un modelo de TTS basado en mi base VITS altamente mejorada, condicionado con embeddings de hablantes externos (Resemblyzer de Resemble AI). El modelo, con ~31M parámetros (ONNX), está optimizado para baja latencia e inferencia local, y ya viene exportado. Estaba intentando llevar al límite lo que podía hacer con modelos pequeños y rápidos. Funciona 5.6 veces más rápido que tiempo real en una CPU de servidor. Soporta clonación de voz, mezcla de voces (combinar dos o más hablantes para crear una nueva voz), la licencia es Apache 2.0 y utiliza DeepPhonemizer (MIT) para la fonemización, así que no hay problemas de licencia. El repositorio contiene el checkpoint, cómo ejecutarlo, y enlaces a demos de Colab y HuggingFace. Ahora, como es pequeño, la calidad de audio no es la mejor, y como fue entrenado en LibriTTS-R + VCTK (ambos conjuntos de datos completamente abiertos), la similitud del hablante no es tan buena. A pesar de todo, espero que sea útil.
- Agente de IA
- Aplicación Web
- Código Abierto
✨ Resumen de IA
Un modelo de texto a voz ligero y en tiempo real optimizado para inferencia local en CPU, que ofrece capacidades de clonación y mezcla de voces. Prioriza la velocidad y el bajo uso de recursos sobre la máxima calidad de audio y similitud de locutor.
Ideal para
Desarrolladores que necesitan TTS rápido y local para aplicaciones, Aficionados que experimentan con síntesis de voz en hardware limitado, Proyectos que requieren licencia permisiva Apache 2.0
Por qué importa
Ofrece una solución TTS rápida y ejecutable localmente con funciones de manipulación de voz, equilibrando capacidad con un tamaño de modelo reducido adecuado para implementación en CPU.
Funciones clave
- Conversión de texto a voz en tiempo real con un rendimiento 5.6 veces más rápido que el tiempo real en CPUs de servidor
- Clonación de voz mediante incrustaciones de altavoz externas de Resemblyzer
- Mezcla de voces para combinar múltiples hablantes y crear nuevas voces
- Inferencia local optimizada para baja latencia con modelo ONNX preexportado
Casos de uso
- Un desarrollador que construye una herramienta de accesibilidad sin conexión para una Raspberry Pi necesita un motor TTS ligero que pueda funcionar sin aceleración por GPU y generar voz a partir de texto proporcionado por el usuario en tiempo real.
- Un creador indie de videojuegos quiere añadir narración de voz dinámica a su juego para PC de bajos recursos clonando la voz de un amigo para los diálogos de los personajes, sin depender de APIs en la nube ni licencias costosas.
- Un investigador que prototipa una aplicación personalizada de aprendizaje de idiomas en un servidor económico necesita combinar dos muestras de acento para crear una voz de tutor única para ejercicios de pronunciación, asegurando que todos los componentes sean de código abierto.