三款全新Kitten TTS模型发布——最小模型不足25MB
Kitten TTS(https://github.com/KittenML/KittenTTS)是一个开源系列,专为设备端应用设计的小巧而富有表现力的文本转语音模型。去年我们在此有过讨论:https://news.ycombinator.com/item?id=44807868。今天我们发布了三款新模型,分别拥有8000万、4000万和1400万参数。最大模型(8000万参数)质量最高。1400万参数版本在同等规模模型中实现了表达力的新突破,尽管体积小于25MB。本次发布是前代产品的重大升级,支持英语文本转语音应用,提供八种音色:四男四女。简短演示:https://www.youtube.com/watch?v=ge3u5qblqZA。多数模型采用int8+fp16量化,运行时使用ONNX。我们的模型设计可在任何设备运行,例如树莓派、低端智能手机、可穿戴设备、浏览器等。无需GPU!本次发布旨在弥合设备端与云端TTS应用之间的差距。多语言模型即将推出。设备端AI的瓶颈在于一点:缺乏真正实用的小型模型。我们的目标是开源更多模型,让生产级语音助手和应用完全在设备端运行。期待您的反馈!
- AI智能体
- Web应用
- 内容创作
✨ AI 摘要
Kitten TTS提供一系列开源、设备端文本转语音模型,最小变体小于25MB,并在其规模上实现了顶尖的表现力。这些模型专为低资源环境设计,支持八种英语语音。
适合谁
设备端AI应用开发者, 移动应用开发者, 嵌入式系统开发者(如树莓派)
为什么值得关注
Kitten TTS提供高效且富有表现力的文本转语音功能,完全可在设备端运行,无需GPU支持。
核心特性
- 提供三种参数规模分别为80M、40M和14M的文本转语音模型。
- 最小模型小于25MB,在其规模下实现了顶尖的表达能力。
- 支持英语文本转语音,提供八种不同音色(四种男声、四种女声)。
- 采用int8 + fp16量化以提高效率。
使用场景
- 一家移动游戏开发商将1400万参数的Kitten TTS模型集成到游戏中,为游戏角色提供完全在用户设备上运行的对话功能,确保低延迟和离线可玩性,同时不会过度消耗电池电量。
- 一家可穿戴设备制造商使用量化版Kitten TTS模型为其智能手表实现语音指令和语音通知功能,让用户无需双手操作设备,也无需保持持续的网络连接。
- 一位独立作者使用8000万参数的Kitten TTS模型制作有声书,为其故事实现高质量旁白,最终生成体积小巧、易于下载的音频文件,适合带宽有限的听众。