VoxCPM:开源文本转语音模型在Windows WSL下的完整使用指南

VoxCPM:开源文本转语音模型在Windows WSL下的完整使用指南

我的软硬件环境

在开始之前,先介绍一下我的测试环境:

硬件配置:

  • 内存:32GB
  • CPU:16核
  • 显卡:移动版NVIDIA GeForce RTX 4060(8GB显存)

软件环境:

  • 操作系统:Windows 11
  • WSL2:Ubuntu 22.04
  • Python版本:3.12
  • 虚拟环境:conda

关于WSL的安装和环境配置,可以参考我之前写的文章《windows下基于wsl开发环境的配置》。

安装下载过程

1. 项目获取

VoxCPM是一个开源的文本转语音模型,个人感觉相比之前介绍的GLM TTS表现更优。

GitHub项目地址: https://github.com/OpenBMB/VoxCPM

获取项目代码时,如果直接在WSL下clone速度较慢,建议在Windows下通过GitHub Desktop下载,然后复制到WSL环境中。

2. 环境配置

首先创建Python虚拟环境:

1
2
conda create -n voxcpm python=3.12
conda activate voxcpm

3. 依赖安装

VoxCPM项目没有提供requirements.txt文件,我们可以直接安装其命令行工具:

1
pip install voxcpm

还需要安装ffmpeg用于音频处理:

1
sudo apt install ffmpeg

运行过程中如果遇到torchcodec找不到的错误,需要额外安装:

1
pip install torchcodec

4. 模型下载

VoxCPM提供0.5B和1.5两个版本的模型。对于8GB显存的显卡,1.5版本完全可以流畅运行。国内用户建议从魔搭社区下载,速度更有保证。

魔搭社区模型下载命令:

1
2
3
4
5
6
7
8
# 安装魔搭社区工具包
pip install modelscope

# 下载1.5B版本模型(推荐)
python -c "from modelscope import snapshot_download; snapshot_download('OpenBMB/VoxCPM1.5', cache_dir='./models')"

# 或者下载0.5B版本模型
# python -c "from modelscope import snapshot_download; snapshot_download('OpenBMB/VoxCPM-0.5B', cache_dir='./models')"

下载完成后,需要修改项目目录下的app.py文件中的模型路径配置,指向下载的模型目录。

1
2
self.default_local_model_dir = "/to/directory/of/VoxCPM/VoxCPM1.5"

运行测试过程

启动Web界面

VoxCPM提供了基于Gradio的WebUI界面,启动命令很简单:

1
python app.py

运行成功后,控制台会打印出一个URL地址,在浏览器中打开即可使用。

界面使用

Web界面设计得非常直观,即使没有快速入门指南也能轻松上手。主要功能区域包括:

  • 文本输入框:输入需要转换的文本内容
  • 参数调整区域:CFG值和推理时间步设置
  • 生成按钮:开始语音生成
  • 播放区域:生成的语音播放和下载

参数调优建议

为了获得最佳效果,建议关注以下两个关键参数:

CFG值(Classifier-Free Guidance):

  • 如果语音听起来不自然或过于夸张,或者长文本输入出现稳定性问题,可以适当调低
  • 为更好地贴合提示音频的风格或输入文本,或者极短文本输入出现稳定性问题,可以适当调高

推理时间步(Inference Steps):

  • 值越小,推理速度越快,但相对质量会差些
  • 值越大,质量更高,但生成速度会变慢

效果总结

经过实际测试,VoxCPM表现出色:

性能优势明显

与GLM TTS相比,VoxCPM在速度上有显著提升:

  • 同样一个句子,GLM TTS需要2分钟左右
  • VoxCPM只需要15秒左右即可完成

语音质量优秀

VoxCPM生成的语音具有以下特点:

  • 语速更加自然流畅
  • 没有生硬的音素拼接感
  • 整体听感更加顺滑

值得一提的是,本文中提到的所有语音示例都是由VoxCPM模型生成的,实际效果令人满意。

使用建议

  1. 硬件要求: 8GB显存即可流畅运行1.5B版本
  2. 参数调整: 根据具体需求灵活调整CFG值和推理时间步
  3. 文本长度: 支持长文本输入,但建议分段处理以获得更好效果

结语

VoxCPM作为一款优秀的开源文本转语音模型,在性能和效果上都表现出色。通过本文的完整配置指南,相信大家都能在自己的环境中成功运行这个模型。

如果在使用过程中遇到任何问题,欢迎在评论区留言交流。后续我还会继续为大家介绍更多优秀的TTS模型,敬请期待!