Echtzeit lokale TTS (31M Parameter, 5,6x CPU, Stimmklonen, ONNX)
Hallo zusammen, ich habe ein TTS-Modell auf Basis meiner stark verbesserten VITS-Grundlage erstellt, das mit externen Sprecher-Embeddings (Resemble AIs Resemblyzer) konditioniert ist. Das Modell mit ~31M Parametern (ONNX) ist auf Latenz und lokale Inferenz optimiert und kommt bereits exportiert. Ich wollte die Grenzen dessen austesten, was mit kleinen, schnellen Modellen möglich ist. Läuft 5,6x in Echtzeit auf einer Server-CPU. Es unterstützt Stimmklonen, Stimmvermischung (zwei oder mehr Sprecher mischen, um eine neue Stimme zu erzeugen), die Lizenz ist Apache 2.0 und es verwendet DeepPhonemizer (MIT) für die Phonemisierung, also keine Lizenzprobleme. Das Repo enthält den Checkpoint, eine Anleitung zur Ausführung und Links zu Colab- und HuggingFace-Demos. Da es so kompakt ist, ist die Audioqualität nicht die beste, und da es auf LibriTTS-R + VCTK (beide vollständig offene Datensätze) trainiert wurde, ist die Sprecherähnlichkeit nicht optimal. Trotzdem hoffe ich, dass es nützlich ist.
- Content-Erstellung
- Datenschutz an erster Stelle
- KI-Agent
✨ KI-Zusammenfassung
Ein leichtgewichtiges, echtzeitfähiges Text-zu-Sprache-Modell, optimiert für lokale CPU-Inferenz, mit Sprachklon- und Mischfunktionen. Es priorisiert Geschwindigkeit und geringen Ressourcenverbrauch gegenüber höchster Audioqualität und Sprecherähnlichkeit.
Am besten geeignet für
Entwickler, die schnelle, lokale TTS für Anwendungen benötigen, Hobbyisten, die mit Sprachsynthese auf begrenzter Hardware experimentieren, Projekte, die eine freizügige Apache-2.0-Lizenz erfordern
Warum es wichtig ist
Es bietet eine schnelle, lokal ausführbare TTS-Lösung mit Sprachmanipulationsfunktionen, die Fähigkeiten mit einer geringen Modellgröße für CPU-Bereitstellung ausbalanciert.
Hauptfunktionen
- Echtzeit-Text-zu-Sprache mit 5,6-facher Echtzeit-Leistung auf Server-CPUs
- Stimmenklonierung mithilfe externer Sprecher-Einbettungen von Resemblyzer
- Stimmenmischung zur Kombination mehrerer Sprecher und Erstellung neuer Stimmen
- Lokale Inferenz für niedrige Latenz mit vorab exportiertem ONNX-Modell optimiert
Anwendungsfälle
- Ein Entwickler, der ein Offline-Barrierefreiheitstool für einen Raspberry Pi baut, benötigt eine schlanke TTS-Engine, die ohne GPU-Beschleunigung läuft und Sprache aus benutzerbereitgestelltem Text in Echtzeit erzeugen kann.
- Ein Indie-Spieleentwickler möchte dynamische Sprachausgabe in sein ressourcenschonendes PC-Spiel integrieren, indem er die Stimme eines Freundes für Charakterdialoge klont, ohne auf Cloud-APIs oder teure Lizenzen angewiesen zu sein.
- Ein Forscher, der eine personalisierte Sprachlern-App auf einem Budget-Server prototypisiert, muss zwei Akzentproben mischen, um eine einzigartige Tutorenstimme für Ausspracheübungen zu erstellen, wobei alle Komponenten quelloffen sein müssen.