这是一个文本转语音(TTS)的客户端软件。 计划支持各种AI。(目前仅支持GPT-SoVITS)
- 支持的AI
- GPT-SoVITS
- 敬请期待...
demo2.mp4
请从Hugging Face的仓库下载。
- win_std版:适用于Windows的版本,运行在CPU上。虽然比cuda版慢,但在现代规格较高的CPU上也可以运行。
- win_cuda版:适用于Windows的版本,运行在NVIDIA的GPU上。利用GPU硬件加速,可以快速运行。
- mac版:适用于Mac(Apple silicon(M1, M2, M3, etc))的版本。
- 解压缩文件后,运行
start_http.bat
。在浏览器中访问显示的URL。 - 使用
start_https.bat
可以从远程访问。 - (高级用户)使用
start_http_with_ngrok.bat
可以通过ngrok隧道进行访问。
注意:mac版请将.bat替换为.command。
有关模型的详细信息,请参考GPT-SoVITS的官方仓库。
在GPT-SoVITS中,选择模型、参考音频和参考文本后,进行语音生成。在TTSClient中,有参考说话人的概念,可以给参考说话人设置多个参考音频和参考文本。
- 选择模型和参考说话人((1), (2))。
- 从参考说话人已注册的参考音频和参考文本中选择(3)。
- 输入想要生成的文本并生成语音(4)。
请通过编辑按钮从模型选择区域进行注册。
请通过编辑按钮从参考说话人注册区域进行注册。
在参考音频选择区域选择未注册的插槽进行注册。
$ git clone https://github.com/w-okada/ttsclient.git
$ cd ttsclient/
$ poetry install
$ poetry run main cui
如果需要从远程访问,请添加 --https true
。
$ poetry run main cui --https true
请替换模块。
$ poetry add onnxruntime-gpu==1.19.2
$ poetry remove torch
$ poetry add torch==2.3.1 --source torch_cuda12
请替换模块。
$ poetry add onnxruntime-directml==1.19.2