三款全新 Kitten TTS 模型 – 最小模型不到 25MB
Kitten TTS ( https://github.com/KittenML/KittenTTS ) 是一系列開源、小巧且富有表現力的文字轉語音模型,專為裝置端應用設計。去年我們在這裡有過討論:https://news.ycombinator.com/item?id=44807868 。今天我們發布了三款新模型,分別擁有 80M、40M 和 14M 參數。最大模型(80M)品質最高。14M 版本在同等規模模型中達到表現力的新 SOTA,儘管其大小不到 25MB。這次發布是對先前版本的重大升級,支援八種聲音的英文文字轉語音應用:四種男聲和四種女聲。這裡有個簡短演示:https://www.youtube.com/watch?v=ge3u5qblqZA 。大多數模型量化為 int8 + fp16,並使用 ONNX 運行。我們的模型設計可在任何地方運行,例如 Raspberry Pi、低階智慧型手機、穿戴裝置、瀏覽器等。不需要 GPU!這次發布旨在彌合裝置端與雲端模型在 TTS 應用上的差距。多語言模型即將發布。裝置端 AI 的瓶頸只有一個:缺乏真正能發揮效能的小型模型。我們的目標是開源更多模型,讓生產級語音代理和應用完全在裝置端運行。我們期待您的回饋!
- AI 助理
- Android
- 內容創作
✨ AI 摘要
Kitten TTS 提供一系列開源、裝置端文字轉語音模型,最小版本不到 25MB,並在其尺寸級別中實現了頂尖的表現力。這些模型專為低資源環境設計,支援八種英語語音。
適合誰
開發裝置端人工智慧應用的開發者, 行動應用程式開發者, 嵌入式系統開發者(例如樹莓派)
為何值得關注
Kitten TTS 提供高效且富有表現力的文字轉語音功能,能夠完全在裝置端運行,無需 GPU。
核心功能
- 提供三種文字轉語音模型,參數量分別為8000萬、4000萬和1400萬。
- 最小模型不到25MB,在其尺寸中實現了最先進的表達力。
- 支援英文文字轉語音,提供八種獨特聲音(四男四女)。
- 量化為int8 + fp16以提升效率。
使用場景
- 一位手機遊戲開發者將1400萬參數的Kitten TTS模型整合到遊戲中,為遊戲角色提供完全在用戶設備上運行的對話功能,確保低延遲與離線遊玩性,同時不耗盡電池壽命。
- 一家穿戴式裝置製造商採用量化版Kitten TTS模型,為其智慧手錶啟用語音指令與語音通知功能,讓使用者能免持操作裝置,且無需保持網路連線。
- 一位獨立作家運用8000萬參數的Kitten TTS模型製作有聲書,為其故事實現高品質朗讀效果,並能壓縮成易於下載的小檔案,方便頻寬有限的聽眾取得。