실시간 로컬 TTS (3천1백만 파라미터, 5.6배 CPU, 음성 복제, ONNX)
안녕하세요 여러분, 제가 크게 업그레이드한 VITS 베이스를 기반으로 외부 화자 임베딩(Resemble AI의 Resemblyzer)을 조건으로 한 TTS 모델을 만들었습니다. 약 3천1백만 파라미터(ONNX)를 가진 이 모델은 지연 시간과 로컬 추론에 맞춰 튜닝되었으며, 이미 익스포트된 상태로 제공됩니다. 저는 작고 빠른 모델로 할 수 있는 것의 한계를 뛰어넘으려고 노력했습니다. 서버 CPU에서 실시간의 5.6배 속도로 실행됩니다. 음성 복제, 음성 블렌딩(두 명 이상의 화자를 혼합해 새로운 음성 만들기)을 지원하며, 라이선스는 Apache 2.0이고 음소 변환에는 DeepPhonemizer(MIT)를 사용하므로 라이선스 문제가 없습니다. 저장소에는 체크포인트, 실행 방법, Colab 및 HuggingFace 데모 링크가 포함되어 있습니다. 이 모델은 매우 작기 때문에 음질이 최상은 아니며, LibriTTS-R + VCTK(둘 다 완전 오픈 데이터셋)로 학습되어 화자 유사도가 그렇게 좋지 않습니다. 그럼에도 불구하고 유용하게 쓰이길 바랍니다.
- AI 에이전트
- 다국어
- 오픈 소스
✨ AI 요약
로컬 CPU 추론에 최적화된 가벼운 실시간 텍스트-음성 변환 모델로, 음성 복제 및 혼합 기능을 제공합니다. 최고의 음질과 화자 유사성보다 속도와 낮은 리소스 사용을 우선시합니다.
추천 대상
애플리케이션에 빠른 로컬 TTS가 필요한 개발자, 제한된 하드웨어에서 음성 합성을 실험하는 취미 개발자, 관대한 Apache 2.0 라이선스가 필요한 프로젝트
중요한 이유
음성 조작 기능을 갖춘 빠르고 로컬에서 실행 가능한 TTS 솔루션을 제공하며, CPU 배포에 적합한 작은 모델 크기로 성능과 효율성을 균형 있게 맞춥니다.
주요 기능
- 서버 CPU에서 실시간보다 5.6배 빠른 실시간 텍스트 음성 변환
- Resemblyzer의 외부 화자 임베딩을 사용한 음성 복제
- 여러 화자를 혼합하여 새로운 음성을 생성하는 음성 블렌딩
- 사전 내보낸 ONNX 모델로 저지연 최적화된 로컬 추론
사용 사례
- 라즈베리 파이용 오프라인 접근성 도구를 개발하는 개발자는 GPU 가속 없이도 실행 가능하고 사용자가 제공한 텍스트를 실시간으로 음성으로 변환할 수 있는 경량 TTS 엔진이 필요합니다.
- 인디 게임 제작자는 클라우드 API나 고가의 라이선스에 의존하지 않고 친구의 목소리를 복제하여 캐릭터 대사에 동적 음성 내레이션을 저사양 PC 게임에 추가하려고 합니다.
- 예산이 제한된 서버에서 맞춤형 언어 학습 앱 프로토타입을 개발하는 연구원은 발음 연습을 위한 독특한 튜터 목소리를 만들기 위해 두 가지 억양 샘플을 혼합해야 하며, 모든 구성 요소가 오픈소스인지 확인해야 합니다.