搜索

三款全新Kitten TTS模型发布——最小模型不足25MB

Kitten TTS(https://github.com/KittenML/KittenTTS)是一个开源系列,专为设备端应用设计的小巧而富有表现力的文本转语音模型。去年我们在此有过讨论:https://news.ycombinator.com/item?id=44807868。今天我们发布了三款新模型,分别拥有8000万、4000万和1400万参数。最大模型(8000万参数)质量最高。1400万参数版本在同等规模模型中实现了表达力的新突破,尽管体积小于25MB。本次发布是前代产品的重大升级,支持英语文本转语音应用,提供八种音色:四男四女。简短演示:https://www.youtube.com/watch?v=ge3u5qblqZA。多数模型采用int8+fp16量化,运行时使用ONNX。我们的模型设计可在任何设备运行,例如树莓派、低端智能手机、可穿戴设备、浏览器等。无需GPU!本次发布旨在弥合设备端与云端TTS应用之间的差距。多语言模型即将推出。设备端AI的瓶颈在于一点:缺乏真正实用的小型模型。我们的目标是开源更多模型,让生产级语音助手和应用完全在设备端运行。期待您的反馈!

  • AI智能体
  • Web应用
  • 内容创作
Mar 19, 2026访问官网

AI 摘要

Kitten TTS提供一系列开源、设备端文本转语音模型,最小变体小于25MB,并在其规模上实现了顶尖的表现力。这些模型专为低资源环境设计,支持八种英语语音。

适合谁

设备端AI应用开发者, 移动应用开发者, 嵌入式系统开发者(如树莓派)

为什么值得关注

Kitten TTS提供高效且富有表现力的文本转语音功能,完全可在设备端运行,无需GPU支持。

核心特性

  • 提供三种参数规模分别为80M、40M和14M的文本转语音模型。
  • 最小模型小于25MB,在其规模下实现了顶尖的表达能力。
  • 支持英语文本转语音,提供八种不同音色(四种男声、四种女声)。
  • 采用int8 + fp16量化以提高效率。

使用场景

  • 一家移动游戏开发商将1400万参数的Kitten TTS模型集成到游戏中,为游戏角色提供完全在用户设备上运行的对话功能,确保低延迟和离线可玩性,同时不会过度消耗电池电量。
  • 一家可穿戴设备制造商使用量化版Kitten TTS模型为其智能手表实现语音指令和语音通知功能,让用户无需双手操作设备,也无需保持持续的网络连接。
  • 一位独立作者使用8000万参数的Kitten TTS模型制作有声书,为其故事实现高质量旁白,最终生成体积小巧、易于下载的音频文件,适合带宽有限的听众。