Voicebox:19K星的开源语音合成神器,本地跑声音克隆+多引擎TTS全攻略
做短视频配音,还在花钱买ElevenLabs? 你做短视频、做播客、做有声书,需要一个自然的、像真人的AI配音。你试过ElevenLabs——效果确实好,但一个月几十美元,声音数据还得上传到海外服务器。你试过一些免费的在线TTS工具——那个机械味,一听就知道是AI。你想过自己搭一个本地方案—
做短视频配音,还在花钱买ElevenLabs?
你做短视频、做播客、做有声书,需要一个自然的、像真人的AI配音。你试过ElevenLabs——效果确实好,但一个月几十美元,声音数据还得上传到海外服务器。你试过一些免费的在线TTS工具——那个机械味,一听就知道是AI。你想过自己搭一个本地方案——但命令行配置一堆依赖,劝退率99%。
Voicebox就是来填这个坑的。它是一个完全开源、本地运行、GUI界面友好的语音合成工作室,集成了5种TTS引擎(最新0.4.0版已达7种),支持23种语言,内置8种音效后处理,还能做多角色时间线编辑。最关键的是——所有数据留在你自己的电脑上。
Voicebox是什么?
一句话说清楚:Voicebox是ElevenLabs的开源替代品,一个本地优先的语音克隆+语音合成工作室。
- GitHub星标:19.1K+,单日增长880星
- 许可证:MIT(完全免费商用)
- 官网:https://voicebox.sh
- 桌面应用(Tauri/Rust构建)+ Web界面 + Docker部署
- Python 3.11+ / React / TypeScript / FastAPI
- 支持 macOS(Apple Silicon + Intel)、Windows、Docker
核心功能一览
1. 多引擎语音克隆与合成
Voicebox集成了7种TTS引擎(v0.4.0),各有特长,按需切换:
| 引擎 | 支持语言 | 特点 |
|---|---|---|
| Qwen3-TTS(0.6B/1.7B) | 10种 | 高质量多语言克隆,支持"说得慢一点"、"低声说"等语气指令 |
| LuxTTS | 英语 | 轻量级(约1GB显存),48kHz输出,CPU上150倍实时速度 |
| Chatterbox Multilingual | 23种 | 语言覆盖最广——阿拉伯语、丹麦语、芬兰语、希腊语、希伯来语、印地语、马来语、挪威语、波兰语、斯瓦希里语、瑞典语、土耳其语等 |
| Chatterbox Turbo | 英语 | 350M参数快速模型,支持副语言表情标签 |
| TADA(1B/3B) | 10种 | HumeAI的语音语言模型,可生成700秒以上连贯音频,文本-声学对齐 |
| Kokoro 82M | 英语等 | 极轻量(82M参数),适合快速合成 |
| Qwen CustomVoice | 10种 | 基于Qwen3-TTS的预设声音,无需克隆样本 |
2. 表情标签(Paralinguistic Tags)
在文本中输入 / 即可插入表情标签,模型会将这些标签与语音融合在一起合成:
[laugh] [chuckle] [gasp] [cough] [sigh] [groan] [sniff] [shush] [clear throat]比如你可以写:"听说你考试考了满分![laugh] 那真是太棒了。",生成的语音会真的插入一声笑。
3. 8种后处理音效
基于Spotify的pedalboard库,生成后实时预览:
| 音效 | 说明 |
|---|---|
| Pitch Shift | 上下移调,最多±12个半音 |
| Reverb | 可调房间大小、阻尼、干湿比 |
| Delay | 延迟回声,可调时间、反馈、比例 |
| Chorus/Flanger | 金属感或丰满质感的调制延迟 |
| Compressor | 动态范围压缩 |
| Gain | 音量调节(-40到+40 dB) |
| High-Pass Filter | 切除低频 |
| Low-Pass Filter | 切除高频 |
内置4种预设(机器人、电台、回声室、低沉嗓音),还支持自定义预设,可以给每个声音档案绑定默认效果链。
4. 无限长度生成
文本自动按句子边界分块,每块独立生成后交叉淡入淡出(crossfade)拼接,最多支持50,000字符。可配置分块大小(100–5000字)和交叉淡入时长(0–200ms)。智能分块还能识别缩写词、CJK标点和表情标签。
5. 多版本管理
每次生成支持多个版本(Version):
- Original:原始TTS输出,始终保留
- Effects Version:对任意源版本施加不同效果链
- Takes:用新种子重新生成,获得不同变体
- Source Tracking:追踪每个版本的来源
- Favorites:收藏常用生成,一键调用
6. Stories编辑器(多轨道时间线)
这是一个强大的多角色编辑器:
- 多轨道拖放排列
- 音频内联裁剪和分割
- 同步播放指针自动播放
- 每个片段可单独锁定版本
适合做对话场景、播客、有声书的多角色编排。
7. 录音与转录
内置录音功能,带波形可视化。支持系统音频捕获(macOS和Windows)。自动用Whisper(含Whisper Turbo)转录语音为文字。录音可多格式导出。
8. 异步生成队列
生成是非阻塞的,提交后立刻可以输入下一条文本。串行执行队列防止GPU争用,支持SSE实时状态流,失败的生成可重试,崩溃后的残留任务启动时自动恢复。
安装步骤
方式一:桌面应用安装(推荐,最简单)
macOS(Apple Silicon,M1/M2/M3/M4芯片):
- 前往 https://voicebox.sh/download/mac-arm 下载DMG文件
- 双击打开DMG,将Voicebox拖入Applications文件夹
- 首次打开时,右键点击应用选择"打开"(macOS安全验证)
macOS(Intel芯片):
- 前往 https://voicebox.sh/download/mac-intel 下载DMG文件
- 同上安装步骤
Windows:
- 前往 https://voicebox.sh/download/windows 下载MSI安装包
- 双击运行安装程序
- 如果Windows Defender弹出警告,点击"更多信息"→"仍要运行"
Linux用户暂无预编译包,需从源码构建。详见 https://voicebox.sh/linux-install
桌面应用用的是Tauri(Rust框架),不是Electron,所以内存占用小、启动快、运行流畅。
方式二:Docker部署(适合服务器)
适合有服务器、需要API服务或者Linux用户:
# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
# 启动Docker容器
docker compose up -dDocker配置要点(在docker-compose.yml中):
- 端口映射:
127.0.0.1:17493:17493(默认只监听本地) - 生成的音频保存在
./output/目录 - 模型数据持久化在Docker Volume中
- HuggingFace模型缓存也有独立Volume,重建容器不会重新下载
- 限制:4核CPU、8GB内存
如果你需要GPU加速(NVIDIA),需要额外配置nvidia-container-toolkit,在docker-compose.yml中添加GPU设备。
打开浏览器访问 http://localhost:17493 即可使用WebUI。
方式三:从源码构建(开发者)
适合想二次开发或贡献代码的用户:
依赖安装:
# 安装just命令运行器
# macOS
brew install just
# Linux
cargo install just
# Windows
winget install Casey.Just
# 安装其他依赖
# Bun(前端包管理)
curl -fsSL https://bun.sh/install | bash
# Rust(Tauri框架需要)
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# Python 3.11+
python --version # 确保版本>=3.11
# macOS需要Xcode Command Line Tools
xcode-select --install构建和运行:
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
# 一键安装所有依赖(创建Python虚拟环境、安装依赖)
just setup
# 启动开发模式(后端+桌面应用同时运行)
just dev其他常用命令:
just dev-web # 后端+Web界面(不需要编译Tauri)
just dev-backend # 只启动后端
just dev-frontend # 只启动Tauri前端(后端需要已经在跑)
just build # 构建生产版本
just --list # 查看所有可用命令自定义模型目录:
如果你模型文件太大想放到别的盘,可以设置环境变量:
export VOICEBOX_MODELS_DIR=/path/to/your/models使用方法
基础用法:声音克隆+语音合成
第一步:创建声音档案(Voice Profile)
- 打开Voicebox,进入"Voices"页面
- 点击"New Profile"
- 上传几秒到几分钟的参考音频(.wav/.mp3/.flac等格式),或者直接在应用内录音
- 填写档案名称、描述,选择语言标签
- 多样本克隆效果更好,建议上传3-5段不同语气的参考音频
第二步:生成语音
- 在主界面选择刚创建的声音档案
- 选择TTS引擎(推荐第一次用Chatterbox Multilingual,语言覆盖最广)
- 输入你想合成的文字
- 点击生成,等待音频处理完成(首次使用会自动下载模型,约2-4GB)
- 试听、下载、或者继续添加音效
进阶用法:表情标签让语音更自然
Chatterbox Turbo引擎支持副语言标签,用法:
今天天气真不错[chuckle],要不我们出去走走?[sigh] 不过我有点累...支持的标签:[laugh] [chuckle] [gasp] [cough] [sigh] [groan] [sniff] [shush] [clear throat]
在文本输入框中输入 / 即可弹出标签选择菜单。
进阶用法:REST API集成到你的应用
Voicebox启动后暴露完整的REST API(默认端口17493),可以直接用curl或任何HTTP客户端调用:
# 查看所有声音档案
curl http://localhost:17493/profiles
# 创建新的声音档案
curl -X POST http://localhost:17493/profiles \
-H "Content-Type: application/json" \
-d '{"name": "我的声音", "language": "zh"}'
# 生成语音
curl -X POST http://localhost:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好世界", "profile_id": "你的档案ID", "language": "zh"}'完整的API文档访问 http://localhost:17493/docs 可查看Swagger UI。
Python示例:
import requests
BASE_URL = "http://localhost:17493"
# 列出声音档案
profiles = requests.get(f"{BASE_URL}/profiles").json()
# 生成语音
response = requests.post(f"{BASE_URL}/generate", json={
"text": "这是一段测试语音合成内容",
"profile_id": profiles[0]["id"],
"language": "zh"
})
print(response.json())适用集成场景: 游戏NPC对话、播客生产、无障碍辅助工具、语音助手、内容自动化流水线。
进阶用法:Stories编辑器做多人对话
- 创建多个声音档案(比如"旁白"、"角色A"、"角色B")
- 进入"Stories"编辑器
- 添加多个轨道,每个轨道指定不同声音档案
- 在时间线上拖放排列音频片段
- 内联裁剪、分割、交叉淡入淡出
- 导出完整项目
进阶用法:音效预设
Voicebox内置4种音效预设:
| 预设名 | 效果 |
|---|---|
| Robotic | 机器人声——压缩+高通+低通 |
| Radio | 广播声——压缩+高通+轻微失真 |
| Echo Chamber | 回声室——大量延迟+混响 |
| Deep Voice | 低沉嗓音——Pitch Shift下移+压缩 |
你也可以自定义效果链,保存为预设,绑定到特定声音档案作为默认效果。
进阶用法:声音档案导入导出与样本管理
- 支持从音频文件创建档案,也可以在应用内直接录音
- 档案可以导出为ZIP格式,方便分享给同事或备份
- 支持多样本克隆(上传多段不同语气的参考音频,克隆质量更好)
- 每个档案可以设置默认语言标签和默认效果链
- 在档案管理界面可以给档案添加描述,方便组织
实际场景举例
| 场景 | 怎么用Voicebox |
|---|---|
| 短视频配音 | 录制自己声音创建档案,输入文案直接生成,选Chatterbox Multilingual支持中文 |
| 播客制作 | 用Stories编辑器编排多角色对话,导出混音 |
| 有声书/小说连载 | 50,000字符上限+自动分块,一次粘贴整章内容 |
| 游戏开发 | 通过REST API批量生成NPC对话,搭配音效预设 |
| 英语学习材料 | 用Chatterbox Turbo生成带表情标签的情景对话 |
| 无障碍辅助 | 帮视障用户将文字转语音,本地运行保护隐私 |
| 企业客服 | Docker部署到内网服务器,API调用生成标准化客服语音 |
| 多语言内容 | Qwen3-TTS+Chatterbox Multilingual支持23种语言 |
跟同类工具对比
| 对比维度 | Voicebox | ElevenLabs | OpenTTS | Coqui TTS |
|---|---|---|---|---|
| 开源 | ✅ MIT协议 | ❌ 闭源 | ✅ 开源 | ✅ 开源 |
| 本地运行 | ✅ 全部本地 | ❌ 云端API | ✅ 本地 | ✅ 本地 |
| 声音克隆 | ✅ 几秒音频即可 | ✅ 支持 | ❌ 有限 | ✅ 支持 |
| TTS引擎数量 | 7种 | 自有引擎 | 5种(主要基于Coqui) | 1种 |
| 多语言 | 23种 | 29种 | 有限 | 16种 |
| 表情标签 | ✅ 9种标签 | ✅ 支持 | ❌ | ❌ |
| 音效后处理 | ✅ 8种+预设 | ✅ 高级编辑 | ❌ | ❌ |
| 时间线编辑 | ✅ Stories | ✅ Projects | ❌ | ❌ |
| 桌面应用 | ✅ Tauri原生 | ✅ | ❌ WebUI | ❌ CLI/Web |
| 无限长度 | ✅ 50K字符自动分块 | ✅ | ❌ 有限 | ❌ 有限 |
| REST API | ✅ 完整 | ✅ | ✅ | ✅ |
| GPU加速 | ✅ CUDA/mlX/DirectML/XPU | N/A | ✅ | ✅ |
| 价格 | 免费 | 起步$5/月 | 免费 | 免费 |
| 数据隐私 | ✅ 全部本地 | ❌ 数据上云 | ✅ 本地 | ✅ 本地 |
核心差异: Voicebox是目前唯一一个同时提供"桌面级GUI体验 + 多引擎 + 声音克隆 + 音效后处理 + 时间线编辑 + 完整API"的开源项目。OpenTTS和Coqui TTS偏技术向,没有直观界面;ElevenLabs功能强但全在云上、要付费。Voicebox填补了这个空白。
GPU支持情况
Voicebox对硬件的兼容性非常广:
| 平台 | 后端 | 说明 |
|---|---|---|
| macOS(Apple Silicon) | MLX (Metal) | Neural Engine加速,4-5x速度提升 |
| Windows/Linux(NVIDIA) | PyTorch (CUDA) | 自动下载CUDA二进制 |
| Linux(AMD) | PyTorch (ROCm) | 自动配置HSAOVERRIDEGFX_VERSION |
| Windows(任意GPU) | DirectML | 通用Windows GPU支持 |
| Intel Arc | IPEX/XPU | Intel独立显卡加速 |
| 任意平台 | CPU | 都能跑,就是慢一点 |
v0.4.0新增了对NVIDIA Blackwell架构(RTX 50系列)和Intel Arc的支持,GPU不兼容时会在界面上直接提示,不再出现"no kernel image"的静默崩溃。
技术栈一览
Voicebox的技术选型也很讲究:
| 层级 | 技术 |
|---|---|
| 桌面应用 | Tauri (Rust) —— 不是Electron,性能好 |
| 前端 | React + TypeScript + Tailwind CSS |
| 状态管理 | Zustand + React Query |
| 后端 | FastAPI (Python) |
| TTS引擎 | Qwen3-TTS, LuxTTS, Chatterbox, Chatterbox Turbo, TADA, Kokoro |
| 音效 | Pedalboard (Spotify开源) |
| 转录 | Whisper / Whisper Turbo |
| 推理 | MLX (Apple Silicon) / PyTorch (CUDA/ROCm/XPU/CPU) |
| 数据库 | SQLite |
| 音频可视化 | WaveSurfer.js + librosa |
选择Tauri而不是Electron是一个明智的决定——Tauri构建的桌面应用安装包更小、内存占用更低、启动更快,同时还能调用原生系统API。
小结
Voicebox是目前最完整的开源语音合成工作站——7种TTS引擎覆盖23种语言、支持声音克隆、表情标签、8种音效、无限长度分块、多轨道时间线编辑、完整REST API,全部本地运行,MIT许可证免费商用。无论你是做短视频的博主、独立游戏开发者、播客创作者,还是想在内网搭建语音服务的企业,Voicebox都值得一试。
项目地址: https://github.com/jamiepine/voicebox 官网: https://voicebox.sh 文档: https://docs.voicebox.sh
读者评论
0 条暂无评论,来分享你的看法吧
相关推荐
结合当前内容、你的浏览习惯和搜索偏好推荐。
Gemma 4实战:Google首个Apache 2.0开源模型怎么跑
Google在4月2日发布了Gemma 4——这是Gemma系列迄今为止最强的开源模型家族,也是Google首次采用Apache 2.0许可发布模型。对开发者来说,这意味着你可以真正自由地在商业产品中使用、修改和分发它,不再有之前Gemma许可的各种限制条款。 四个尺寸,四种定位 Gemm
微软Agent Framework 1.0:AutoGen与SK合体,企业Agent终局
2026年4月3日,微软发布了Agent Framework 1.0——这不是又一个实验性SDK,而是AutoGen(50,400+ Stars)和Semantic Kernel(26,000+ Stars)两大框架正式合并后的生产级产物。两家合计7.5万星的开发力量,汇聚到一个统一的开源仓库:gi

