TTS local en temps réel (31M paramètres, 5.6x CPU, clonage vocal, ONNX)

Salut à tous, j'ai créé un modèle TTS basé sur ma version fortement améliorée de VITS, conditionné par des embeddings de locuteurs externes (Resemblyzer de Resemble AI). Le modèle, avec environ 31M de paramètres (ONNX), est optimisé pour la latence et l'inférence locale, et est déjà exporté. Je cherchais à repousser les limites de ce que je pouvais faire avec des modèles petits et rapides. Fonctionne 5.6x plus vite que le temps réel sur un CPU serveur. Il prend en charge le clonage vocal, le mélange de voix (combiner deux locuteurs ou plus pour créer une nouvelle voix), la licence est Apache 2.0 et il utilise DeepPhonemizer (MIT) pour la phonémisation, donc pas de problèmes de licence. Le repo contient le checkpoint, comment l'exécuter, et des liens vers les démos Colab et HuggingFace. Attention, comme il est minuscule, la qualité audio n'est pas la meilleure, et comme il a été entraîné sur LibriTTS-R + VCTK (deux datasets entièrement ouverts), la similarité des locuteurs n'est pas parfaite. Malgré tout, j'espère qu'il sera utile.

  • Agent IA
  • Application Web
  • Création de contenu

Résumé IA

Un modèle de synthèse vocale léger et en temps réel optimisé pour l'inférence locale sur CPU, offrant des capacités de clonage et fusion de voix. Il privilégie la vitesse et une faible utilisation des ressources plutôt que la qualité audio et la similarité vocale maximale.

Idéal pour

Développeurs nécessitant une synthèse vocale rapide et locale pour leurs applications, Amateurs expérimentant la synthèse vocale sur des matériels limités, Projets nécessitant une licence Apache 2.0 permissive

Pourquoi c'est important

Il offre une solution de synthèse vocale rapide et exécutable localement avec des fonctionnalités de manipulation de la voix, équilibrant capacité et taille réduite du modèle adaptée à une déployabilité sur CPU.

Fonctionnalités clés

  • Synthèse vocale en temps réel avec une performance 5,6 fois plus rapide que le temps réel sur les CPU de serveur
  • Clonage vocal utilisant des embeddings de locuteurs externes de Resemblyzer
  • Mélange vocal pour combiner plusieurs locuteurs et créer de nouvelles voix
  • Inference locale optimisée pour une faible latence avec un modèle ONNX pré-exporté

Cas d'usage

  • Un développeur créant un outil d'accessibilité hors ligne pour Raspberry Pi a besoin d'un moteur TTS léger fonctionnant sans accélération GPU et générant de la parole à partir de texte fourni par l'utilisateur en temps réel.
  • Un créateur de jeu indépendant souhaite ajouter une narration vocale dynamique à son jeu PC à faibles ressources en clonant la voix d'un ami pour les dialogues des personnages, sans dépendre d'API cloud ou de licences coûteuses.
  • Un chercheur prototypant une application d'apprentissage linguistique personnalisée sur un serveur à budget limité doit fusionner deux échantillons d'accent pour créer une voix de tuteur unique pour des exercices de prononciation, en s'assurant que tous les composants sont open-source.