2025-12-25

VoxCPM：开源文本转语音模型在Windows WSL下的完整使用指南

VoxCPM：开源文本转语音模型在Windows WSL下的完整使用指南

VoxCPM：开源文本转语音模型在Windows WSL下的完整使用指南

我的软硬件环境

在开始之前，先介绍一下我的测试环境：

硬件配置：

内存：32GB
CPU：16核
显卡：移动版NVIDIA GeForce RTX 4060（8GB显存）

软件环境：

操作系统：Windows 11
WSL2：Ubuntu 22.04
Python版本：3.12
虚拟环境：conda

关于WSL的安装和环境配置，可以参考我之前写的文章《windows下基于wsl开发环境的配置》。

安装下载过程

1. 项目获取

VoxCPM是一个开源的文本转语音模型，个人感觉相比之前介绍的GLM TTS表现更优。

GitHub项目地址： https://github.com/OpenBMB/VoxCPM

获取项目代码时，如果直接在WSL下clone速度较慢，建议在Windows下通过GitHub Desktop下载，然后复制到WSL环境中。

2. 环境配置

首先创建Python虚拟环境：

1 2	conda create -n voxcpm python=3.12 conda activate voxcpm

3. 依赖安装

VoxCPM项目没有提供requirements.txt文件，我们可以直接安装其命令行工具：

1	pip install voxcpm

还需要安装ffmpeg用于音频处理：

1	sudo apt install ffmpeg

运行过程中如果遇到torchcodec找不到的错误，需要额外安装：

1	pip install torchcodec

4. 模型下载

VoxCPM提供0.5B和1.5两个版本的模型。对于8GB显存的显卡，1.5版本完全可以流畅运行。国内用户建议从魔搭社区下载，速度更有保证。

魔搭社区模型下载命令：

# 安装魔搭社区工具包
pip install modelscope

# 下载1.5B版本模型（推荐）
python -c "from modelscope import snapshot_download; snapshot_download('OpenBMB/VoxCPM1.5', cache_dir='./models')"

# 或者下载0.5B版本模型
# python -c "from modelscope import snapshot_download; snapshot_download('OpenBMB/VoxCPM-0.5B', cache_dir='./models')"

下载完成后，需要修改项目目录下的app.py文件中的模型路径配置，指向下载的模型目录。

1 2	self.default_local_model_dir = "/to/directory/of/VoxCPM/VoxCPM1.5"

运行测试过程

启动Web界面

VoxCPM提供了基于Gradio的WebUI界面，启动命令很简单：

1	python app.py

运行成功后，控制台会打印出一个URL地址，在浏览器中打开即可使用。

界面使用

Web界面设计得非常直观，即使没有快速入门指南也能轻松上手。主要功能区域包括：

文本输入框：输入需要转换的文本内容
参数调整区域：CFG值和推理时间步设置
生成按钮：开始语音生成
播放区域：生成的语音播放和下载

参数调优建议

为了获得最佳效果，建议关注以下两个关键参数：

CFG值（Classifier-Free Guidance）：

如果语音听起来不自然或过于夸张，或者长文本输入出现稳定性问题，可以适当调低
为更好地贴合提示音频的风格或输入文本，或者极短文本输入出现稳定性问题，可以适当调高

推理时间步（Inference Steps）：

值越小，推理速度越快，但相对质量会差些
值越大，质量更高，但生成速度会变慢

效果总结

经过实际测试，VoxCPM表现出色：

性能优势明显

与GLM TTS相比，VoxCPM在速度上有显著提升：

同样一个句子，GLM TTS需要2分钟左右
VoxCPM只需要15秒左右即可完成

语音质量优秀

VoxCPM生成的语音具有以下特点：

语速更加自然流畅
没有生硬的音素拼接感
整体听感更加顺滑

值得一提的是，本文中提到的所有语音示例都是由VoxCPM模型生成的，实际效果令人满意。

使用建议

硬件要求： 8GB显存即可流畅运行1.5B版本
参数调整： 根据具体需求灵活调整CFG值和推理时间步
文本长度： 支持长文本输入，但建议分段处理以获得更好效果

结语

VoxCPM作为一款优秀的开源文本转语音模型，在性能和效果上都表现出色。通过本文的完整配置指南，相信大家都能在自己的环境中成功运行这个模型。

如果在使用过程中遇到任何问题，欢迎在评论区留言交流。后续我还会继续为大家介绍更多优秀的TTS模型，敬请期待！

心如止水

念念不忘，终有回响

VoxCPM：开源文本转语音模型在Windows WSL下的完整使用指南

VoxCPM：开源文本转语音模型在Windows WSL下的完整使用指南

我的软硬件环境

安装下载过程

1. 项目获取

2. 环境配置

3. 依赖安装

4. 模型下载

运行测试过程

启动Web界面

界面使用

参数调优建议

效果总结

性能优势明显

语音质量优秀

使用建议

结语