VoxCPM:开源文本转语音模型在Windows WSL下的完整使用指南
我的软硬件环境
在开始之前,先介绍一下我的测试环境:
硬件配置:
- 内存:32GB
- CPU:16核
- 显卡:移动版NVIDIA GeForce RTX 4060(8GB显存)
软件环境:
- 操作系统:Windows 11
- WSL2:Ubuntu 22.04
- Python版本:3.12
- 虚拟环境:conda
关于WSL的安装和环境配置,可以参考我之前写的文章《windows下基于wsl开发环境的配置》。
安装下载过程
1. 项目获取
VoxCPM是一个开源的文本转语音模型,个人感觉相比之前介绍的GLM TTS表现更优。
GitHub项目地址: https://github.com/OpenBMB/VoxCPM
获取项目代码时,如果直接在WSL下clone速度较慢,建议在Windows下通过GitHub Desktop下载,然后复制到WSL环境中。
2. 环境配置
首先创建Python虚拟环境:
1 | conda create -n voxcpm python=3.12 |
3. 依赖安装
VoxCPM项目没有提供requirements.txt文件,我们可以直接安装其命令行工具:
1 | pip install voxcpm |
还需要安装ffmpeg用于音频处理:
1 | sudo apt install ffmpeg |
运行过程中如果遇到torchcodec找不到的错误,需要额外安装:
1 | pip install torchcodec |
4. 模型下载
VoxCPM提供0.5B和1.5两个版本的模型。对于8GB显存的显卡,1.5版本完全可以流畅运行。国内用户建议从魔搭社区下载,速度更有保证。
魔搭社区模型下载命令:
1 | # 安装魔搭社区工具包 |
下载完成后,需要修改项目目录下的app.py文件中的模型路径配置,指向下载的模型目录。
1 | self.default_local_model_dir = "/to/directory/of/VoxCPM/VoxCPM1.5" |
运行测试过程
启动Web界面
VoxCPM提供了基于Gradio的WebUI界面,启动命令很简单:
1 | python app.py |
运行成功后,控制台会打印出一个URL地址,在浏览器中打开即可使用。
界面使用
Web界面设计得非常直观,即使没有快速入门指南也能轻松上手。主要功能区域包括:
- 文本输入框:输入需要转换的文本内容
- 参数调整区域:CFG值和推理时间步设置
- 生成按钮:开始语音生成
- 播放区域:生成的语音播放和下载
参数调优建议
为了获得最佳效果,建议关注以下两个关键参数:
CFG值(Classifier-Free Guidance):
- 如果语音听起来不自然或过于夸张,或者长文本输入出现稳定性问题,可以适当调低
- 为更好地贴合提示音频的风格或输入文本,或者极短文本输入出现稳定性问题,可以适当调高
推理时间步(Inference Steps):
- 值越小,推理速度越快,但相对质量会差些
- 值越大,质量更高,但生成速度会变慢
效果总结
经过实际测试,VoxCPM表现出色:
性能优势明显
与GLM TTS相比,VoxCPM在速度上有显著提升:
- 同样一个句子,GLM TTS需要2分钟左右
- VoxCPM只需要15秒左右即可完成
语音质量优秀
VoxCPM生成的语音具有以下特点:
- 语速更加自然流畅
- 没有生硬的音素拼接感
- 整体听感更加顺滑
值得一提的是,本文中提到的所有语音示例都是由VoxCPM模型生成的,实际效果令人满意。
使用建议
- 硬件要求: 8GB显存即可流畅运行1.5B版本
- 参数调整: 根据具体需求灵活调整CFG值和推理时间步
- 文本长度: 支持长文本输入,但建议分段处理以获得更好效果
结语
VoxCPM作为一款优秀的开源文本转语音模型,在性能和效果上都表现出色。通过本文的完整配置指南,相信大家都能在自己的环境中成功运行这个模型。
如果在使用过程中遇到任何问题,欢迎在评论区留言交流。后续我还会继续为大家介绍更多优秀的TTS模型,敬请期待!