即時本地語音合成(3100萬參數、5.6倍CPU效能、聲音複製、ONNX格式)
各位朋友大家好,我基於大幅升級的VITS架構,結合外部說話者嵌入技術(Resemble AI的Resemblyzer),開發了這款語音合成模型。這個模型約有3100萬參數(ONNX格式),專為低延遲與本地推論優化,且已預先匯出完成。我試圖探索小型快速模型的極限潛力。在伺服器CPU上能以5.6倍即時速度運行,支援聲音複製、聲音混合(混合兩個以上說話者創造新聲音),採用Apache 2.0授權,並使用DeepPhonemizer(MIT授權)進行音素轉換,完全沒有授權問題。程式庫包含檢查點檔案、執行教學,以及Colab和HuggingFace示範連結。由於模型體積輕巧,音質並非最佳,且訓練資料採用LibriTTS-R與VCTK(皆為完全開放資料集),說話者相似度仍有進步空間。無論如何,希望這個工具能對大家有所幫助。
- AI 助理
- 內容創作
- 多語言支援
✨ AI 摘要
一個輕量級、實時的文字轉語音模型,專為本地CPU推理優化,提供語音克隆和混合功能。它優先考慮速度和低資源使用,而非最高的音質和說話者相似度。
適合誰
需要快速、本地化文字轉語音功能的開發者, 在有限硬體上嘗試語音合成的愛好者, 需要Apache 2.0許可證的項目
為何值得關注
它提供了一個快速、可在本地運行的文字轉語音解決方案,並具備語音操控功能,平衡了能力與適合CPU部署的小型模型尺寸。
核心功能
- 即時文字轉語音,在伺服器CPU上實現比即時快5.6倍的效能
- 使用來自Resemblyzer的外部說話者嵌入進行語音克隆
- 語音混合功能,可混合多位說話者並創造新聲音
- 本地推理優化,採用預導出的ONNX模型以實現低延遲
使用場景
- 一位開發者正在為 Raspberry Pi 建構一款離線輔助工具,需要一個輕量級的 TTS 引擎,能夠在不使用 GPU 加速的情況下運行,並能從使用者提供的文字中即時生成語音。
- 一位獨立遊戲創作者希望在他們的低資源 PC 遊戲中加入動態聲音敘述,透過克隆朋友的聲音來製作角色對話,而不依賴雲端 API 或昂貴的授權。
- 一位研究人員正在預算有限的伺服器上原型設計一款個性化語言學習應用,需要混合兩個口音樣本,為發音練習創建獨特的導師聲音,確保所有元件都是開源的。