三款全新Kitten TTS模型发布——最小模型不足25MB

Kitten TTS（https://github.com/KittenML/KittenTTS）是一个开源系列，专为设备端应用设计的小巧而富有表现力的文本转语音模型。去年我们在此有过讨论：https://news.ycombinator.com/item?id=44807868。今天我们发布了三款新模型，分别拥有8000万、4000万和1400万参数。最大模型（8000万参数）质量最高。1400万参数版本在同等规模模型中实现了表达力的新突破，尽管体积小于25MB。本次发布是前代产品的重大升级，支持英语文本转语音应用，提供八种音色：四男四女。简短演示：https://www.youtube.com/watch?v=ge3u5qblqZA。多数模型采用int8+fp16量化，运行时使用ONNX。我们的模型设计可在任何设备运行，例如树莓派、低端智能手机、可穿戴设备、浏览器等。无需GPU！本次发布旨在弥合设备端与云端TTS应用之间的差距。多语言模型即将推出。设备端AI的瓶颈在于一点：缺乏真正实用的小型模型。我们的目标是开源更多模型，让生产级语音助手和应用完全在设备端运行。期待您的反馈！

AI智能体
Web应用
内容创作

Mar 19, 2026访问官网

✨ AI 摘要

Kitten TTS提供一系列开源、设备端文本转语音模型，最小变体小于25MB，并在其规模上实现了顶尖的表现力。这些模型专为低资源环境设计，支持八种英语语音。

适合谁

设备端AI应用开发者, 移动应用开发者, 嵌入式系统开发者（如树莓派）

为什么值得关注

Kitten TTS提供高效且富有表现力的文本转语音功能，完全可在设备端运行，无需GPU支持。

核心特性

提供三种参数规模分别为80M、40M和14M的文本转语音模型。
最小模型小于25MB，在其规模下实现了顶尖的表达能力。
支持英语文本转语音，提供八种不同音色（四种男声、四种女声）。
采用int8 + fp16量化以提高效率。

使用场景

一家移动游戏开发商将1400万参数的Kitten TTS模型集成到游戏中，为游戏角色提供完全在用户设备上运行的对话功能，确保低延迟和离线可玩性，同时不会过度消耗电池电量。
一家可穿戴设备制造商使用量化版Kitten TTS模型为其智能手表实现语音指令和语音通知功能，让用户无需双手操作设备，也无需保持持续的网络连接。
一位独立作者使用8000万参数的Kitten TTS模型制作有声书，为其故事实现高质量旁白，最终生成体积小巧、易于下载的音频文件，适合带宽有限的听众。

三款全新Kitten TTS模型发布——最小模型不足25MB

✨ AI 摘要

核心特性

使用场景

原始来源