Echtzeit lokale TTS (31M Parameter, 5,6x CPU, Stimmklonen, ONNX)

Hallo zusammen, ich habe ein TTS-Modell auf Basis meiner stark verbesserten VITS-Grundlage erstellt, das mit externen Sprecher-Embeddings (Resemble AIs Resemblyzer) konditioniert ist. Das Modell mit ~31M Parametern (ONNX) ist auf Latenz und lokale Inferenz optimiert und kommt bereits exportiert. Ich wollte die Grenzen dessen austesten, was mit kleinen, schnellen Modellen möglich ist. Läuft 5,6x in Echtzeit auf einer Server-CPU. Es unterstützt Stimmklonen, Stimmvermischung (zwei oder mehr Sprecher mischen, um eine neue Stimme zu erzeugen), die Lizenz ist Apache 2.0 und es verwendet DeepPhonemizer (MIT) für die Phonemisierung, also keine Lizenzprobleme. Das Repo enthält den Checkpoint, eine Anleitung zur Ausführung und Links zu Colab- und HuggingFace-Demos. Da es so kompakt ist, ist die Audioqualität nicht die beste, und da es auf LibriTTS-R + VCTK (beide vollständig offene Datensätze) trainiert wurde, ist die Sprecherähnlichkeit nicht optimal. Trotzdem hoffe ich, dass es nützlich ist.

Content-Erstellung
Datenschutz an erster Stelle
KI-Agent

Mar 18, 2026Website besuchen

✨ KI-Zusammenfassung

Ein leichtgewichtiges, echtzeitfähiges Text-zu-Sprache-Modell, optimiert für lokale CPU-Inferenz, mit Sprachklon- und Mischfunktionen. Es priorisiert Geschwindigkeit und geringen Ressourcenverbrauch gegenüber höchster Audioqualität und Sprecherähnlichkeit.

Am besten geeignet für

Entwickler, die schnelle, lokale TTS für Anwendungen benötigen, Hobbyisten, die mit Sprachsynthese auf begrenzter Hardware experimentieren, Projekte, die eine freizügige Apache-2.0-Lizenz erfordern

Warum es wichtig ist

Es bietet eine schnelle, lokal ausführbare TTS-Lösung mit Sprachmanipulationsfunktionen, die Fähigkeiten mit einer geringen Modellgröße für CPU-Bereitstellung ausbalanciert.

Hauptfunktionen

Echtzeit-Text-zu-Sprache mit 5,6-facher Echtzeit-Leistung auf Server-CPUs
Stimmenklonierung mithilfe externer Sprecher-Einbettungen von Resemblyzer
Stimmenmischung zur Kombination mehrerer Sprecher und Erstellung neuer Stimmen
Lokale Inferenz für niedrige Latenz mit vorab exportiertem ONNX-Modell optimiert

Anwendungsfälle

Ein Entwickler, der ein Offline-Barrierefreiheitstool für einen Raspberry Pi baut, benötigt eine schlanke TTS-Engine, die ohne GPU-Beschleunigung läuft und Sprache aus benutzerbereitgestelltem Text in Echtzeit erzeugen kann.
Ein Indie-Spieleentwickler möchte dynamische Sprachausgabe in sein ressourcenschonendes PC-Spiel integrieren, indem er die Stimme eines Freundes für Charakterdialoge klont, ohne auf Cloud-APIs oder teure Lizenzen angewiesen zu sein.
Ein Forscher, der eine personalisierte Sprachlern-App auf einem Budget-Server prototypisiert, muss zwei Akzentproben mischen, um eine einzigartige Tutorenstimme für Ausspracheübungen zu erstellen, wobei alle Komponenten quelloffen sein müssen.

Echtzeit lokale TTS (31M Parameter, 5,6x CPU, Stimmklonen, ONNX)

✨ KI-Zusammenfassung

Hauptfunktionen

Anwendungsfälle

Originalquellen