リアルタイムローカルTTS(3100万パラメータ、5.6倍CPU、音声クローニング、ONNX)
皆さん、私の大幅にアップグレードしたVITSベースを基に、外部話者埋め込み(Resemble AIのResemblyzer)で条件付けしたTTSモデルを作りました。約3100万パラメータ(ONNX)のこのモデルは、レイテンシとローカル推論に最適化されており、既にエクスポート済みです。小型で高速なモデルでどこまでできるか限界に挑戦してみました。サーバーCPUで5.6倍のリアルタイム速度で動作し、音声クローニング、音声ブレンディング(2人以上の話者を混ぜて新しい声を作成)をサポートしています。ライセンスはApache 2.0で、音素化にはDeepPhonemizer(MIT)を使用しているため、ライセンス問題はありません。リポジトリにはチェックポイント、実行方法、ColabとHuggingFaceデモへのリンクが含まれています。ただし、小型モデルのため音質は最高ではなく、LibriTTS-R + VCTK(両方とも完全オープンデータセット)で学習しているため、話者類似性も完璧ではありません。それでも、お役に立てれば幸いです。
- AIエージェント
- Webアプリ
- オープンソース
✨ AI サマリー
ローカルCPU推論に最適化された軽量なリアルタイムテキスト読み上げモデルで、音声クローン作成と合成機能を提供します。最高の音質や発話者類似性よりも速度と低リソース使用を優先しています。
おすすめ対象
アプリケーションに高速でローカルなTTSを必要とする開発者, 限られたハードウェアで音声合成を試す趣味人, Apache 2.0ライセンスの緩やかな条件が必要なプロジェクト
重要な理由
音声操作機能を備えた高速でローカル実行可能なTTSソリューションを提供し、CPUデプロイメントに適した小さなモデルサイズで機能性とバランスを取っています。
主な機能
- サーバーCPUでリアルタイムの5.6倍高速なリアルタイムテキスト読み上げ
- Resemblyzerの外部話者埋め込みを用いた音声クローニング
- 複数の話者を混合して新しい声を作成する音声ブレンディング
- 事前エクスポートされたONNXモデルによる低遅延に最適化されたローカル推論
ユースケース
- Raspberry Piでオフラインアクセシビリティツールを開発するエンジニアが、GPUアクセラレーションなしで動作し、ユーザー提供のテキストからリアルタイムで音声を生成できる軽量TTSエンジンを必要としています。
- インディーゲーム開発者が、クラウドAPIや高額なライセンスに依存せず、友人の声をクローンしてキャラクターの台詞に動的なボイスナレーションを追加したいと考えています。
- 限られた予算のサーバーでパーソナライズされた言語学習アプリのプロトタイプを作成する研究者が、2つのアクセントサンプルをブレンドして発音練習用の独自の講師音声を生成する必要があり、すべてのコンポーネントがオープンソースであることを保証しています。