三款全新 Kitten TTS 模型 – 最小模型不到 25MB

Kitten TTS ( https://github.com/KittenML/KittenTTS ) 是一系列開源、小巧且富有表現力的文字轉語音模型，專為裝置端應用設計。去年我們在這裡有過討論：https://news.ycombinator.com/item?id=44807868 。今天我們發布了三款新模型，分別擁有 80M、40M 和 14M 參數。最大模型（80M）品質最高。14M 版本在同等規模模型中達到表現力的新 SOTA，儘管其大小不到 25MB。這次發布是對先前版本的重大升級，支援八種聲音的英文文字轉語音應用：四種男聲和四種女聲。這裡有個簡短演示：https://www.youtube.com/watch?v=ge3u5qblqZA 。大多數模型量化為 int8 + fp16，並使用 ONNX 運行。我們的模型設計可在任何地方運行，例如 Raspberry Pi、低階智慧型手機、穿戴裝置、瀏覽器等。不需要 GPU！這次發布旨在彌合裝置端與雲端模型在 TTS 應用上的差距。多語言模型即將發布。裝置端 AI 的瓶頸只有一個：缺乏真正能發揮效能的小型模型。我們的目標是開源更多模型，讓生產級語音代理和應用完全在裝置端運行。我們期待您的回饋！

AI 助理
Android
內容創作

Mar 19, 2026造訪官網

✨ AI 摘要

Kitten TTS 提供一系列開源、裝置端文字轉語音模型，最小版本不到 25MB，並在其尺寸級別中實現了頂尖的表現力。這些模型專為低資源環境設計，支援八種英語語音。

適合誰

開發裝置端人工智慧應用的開發者, 行動應用程式開發者, 嵌入式系統開發者（例如樹莓派）

為何值得關注

Kitten TTS 提供高效且富有表現力的文字轉語音功能，能夠完全在裝置端運行，無需 GPU。

核心功能

提供三種文字轉語音模型，參數量分別為8000萬、4000萬和1400萬。
最小模型不到25MB，在其尺寸中實現了最先進的表達力。
支援英文文字轉語音，提供八種獨特聲音（四男四女）。
量化為int8 + fp16以提升效率。

使用場景

一位手機遊戲開發者將1400萬參數的Kitten TTS模型整合到遊戲中，為遊戲角色提供完全在用戶設備上運行的對話功能，確保低延遲與離線遊玩性，同時不耗盡電池壽命。
一家穿戴式裝置製造商採用量化版Kitten TTS模型，為其智慧手錶啟用語音指令與語音通知功能，讓使用者能免持操作裝置，且無需保持網路連線。
一位獨立作家運用8000萬參數的Kitten TTS模型製作有聲書，為其故事實現高品質朗讀效果，並能壓縮成易於下載的小檔案，方便頻寬有限的聽眾取得。

三款全新 Kitten TTS 模型 – 最小模型不到 25MB

✨ AI 摘要

核心功能

使用場景

原始來源