文章

开源生态

Voicebox：19K星的开源语音合成神器，本地跑声音克隆+多引擎TTS全攻略

做短视频配音，还在花钱买ElevenLabs？你做短视频、做播客、做有声书，需要一个自然的、像真人的AI配音。你试过ElevenLabs——效果确实好，但一个月几十美元，声音数据还得上传到海外服务器。你试过一些免费的在线TTS工具——那个机械味，一听就知道是AI。你想过自己搭一个本地方案—

9 阅读0 评论

做短视频配音，还在花钱买ElevenLabs？

你做短视频、做播客、做有声书，需要一个自然的、像真人的AI配音。你试过ElevenLabs——效果确实好，但一个月几十美元，声音数据还得上传到海外服务器。你试过一些免费的在线TTS工具——那个机械味，一听就知道是AI。你想过自己搭一个本地方案——但命令行配置一堆依赖，劝退率99%。

Voicebox就是来填这个坑的。它是一个完全开源、本地运行、GUI界面友好的语音合成工作室，集成了5种TTS引擎（最新0.4.0版已达7种），支持23种语言，内置8种音效后处理，还能做多角色时间线编辑。最关键的是——所有数据留在你自己的电脑上。

Voicebox是什么？

一句话说清楚：Voicebox是ElevenLabs的开源替代品，一个本地优先的语音克隆+语音合成工作室。

GitHub星标：19.1K+，单日增长880星
许可证：MIT（完全免费商用）
官网：https://voicebox.sh
桌面应用（Tauri/Rust构建）+ Web界面 + Docker部署
Python 3.11+ / React / TypeScript / FastAPI
支持 macOS（Apple Silicon + Intel）、Windows、Docker

核心功能一览

1. 多引擎语音克隆与合成

Voicebox集成了7种TTS引擎（v0.4.0），各有特长，按需切换：

引擎	支持语言	特点
Qwen3-TTS（0.6B/1.7B）	10种	高质量多语言克隆，支持"说得慢一点"、"低声说"等语气指令
LuxTTS	英语	轻量级（约1GB显存），48kHz输出，CPU上150倍实时速度
Chatterbox Multilingual	23种	语言覆盖最广——阿拉伯语、丹麦语、芬兰语、希腊语、希伯来语、印地语、马来语、挪威语、波兰语、斯瓦希里语、瑞典语、土耳其语等
Chatterbox Turbo	英语	350M参数快速模型，支持副语言表情标签
TADA（1B/3B）	10种	HumeAI的语音语言模型，可生成700秒以上连贯音频，文本-声学对齐
Kokoro 82M	英语等	极轻量（82M参数），适合快速合成
Qwen CustomVoice	10种	基于Qwen3-TTS的预设声音，无需克隆样本

2. 表情标签（Paralinguistic Tags）

在文本中输入 / 即可插入表情标签，模型会将这些标签与语音融合在一起合成：

[laugh]  [chuckle]  [gasp]  [cough]  [sigh]  [groan]  [sniff]  [shush]  [clear throat]

比如你可以写："听说你考试考了满分！[laugh] 那真是太棒了。"，生成的语音会真的插入一声笑。

3. 8种后处理音效

基于Spotify的pedalboard库，生成后实时预览：

音效	说明
Pitch Shift	上下移调，最多±12个半音
Reverb	可调房间大小、阻尼、干湿比
Delay	延迟回声，可调时间、反馈、比例
Chorus/Flanger	金属感或丰满质感的调制延迟
Compressor	动态范围压缩
Gain	音量调节（-40到+40 dB）
High-Pass Filter	切除低频
Low-Pass Filter	切除高频

内置4种预设（机器人、电台、回声室、低沉嗓音），还支持自定义预设，可以给每个声音档案绑定默认效果链。

4. 无限长度生成

文本自动按句子边界分块，每块独立生成后交叉淡入淡出（crossfade）拼接，最多支持50,000字符。可配置分块大小（100–5000字）和交叉淡入时长（0–200ms）。智能分块还能识别缩写词、CJK标点和表情标签。

5. 多版本管理

每次生成支持多个版本（Version）：

Original：原始TTS输出，始终保留
Effects Version：对任意源版本施加不同效果链
Takes：用新种子重新生成，获得不同变体
Source Tracking：追踪每个版本的来源
Favorites：收藏常用生成，一键调用

6. Stories编辑器（多轨道时间线）

这是一个强大的多角色编辑器：

多轨道拖放排列
音频内联裁剪和分割
同步播放指针自动播放
每个片段可单独锁定版本

适合做对话场景、播客、有声书的多角色编排。

7. 录音与转录

内置录音功能，带波形可视化。支持系统音频捕获（macOS和Windows）。自动用Whisper（含Whisper Turbo）转录语音为文字。录音可多格式导出。

8. 异步生成队列

生成是非阻塞的，提交后立刻可以输入下一条文本。串行执行队列防止GPU争用，支持SSE实时状态流，失败的生成可重试，崩溃后的残留任务启动时自动恢复。

安装步骤

方式一：桌面应用安装（推荐，最简单）

macOS（Apple Silicon，M1/M2/M3/M4芯片）：

前往 https://voicebox.sh/download/mac-arm 下载DMG文件
双击打开DMG，将Voicebox拖入Applications文件夹
首次打开时，右键点击应用选择"打开"（macOS安全验证）

macOS（Intel芯片）：

前往 https://voicebox.sh/download/mac-intel 下载DMG文件
同上安装步骤

Windows：

前往 https://voicebox.sh/download/windows 下载MSI安装包
双击运行安装程序
如果Windows Defender弹出警告，点击"更多信息"→"仍要运行"

Linux用户暂无预编译包，需从源码构建。详见 https://voicebox.sh/linux-install

桌面应用用的是Tauri（Rust框架），不是Electron，所以内存占用小、启动快、运行流畅。

方式二：Docker部署（适合服务器）

适合有服务器、需要API服务或者Linux用户：

# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 启动Docker容器
docker compose up -d

Docker配置要点（在docker-compose.yml中）：

端口映射：127.0.0.1:17493:17493（默认只监听本地）
生成的音频保存在./output/目录
模型数据持久化在Docker Volume中
HuggingFace模型缓存也有独立Volume，重建容器不会重新下载
限制：4核CPU、8GB内存

如果你需要GPU加速（NVIDIA），需要额外配置nvidia-container-toolkit，在docker-compose.yml中添加GPU设备。

打开浏览器访问 http://localhost:17493 即可使用WebUI。

方式三：从源码构建（开发者）

适合想二次开发或贡献代码的用户：

依赖安装：

# 安装just命令运行器
# macOS
brew install just
# Linux
cargo install just
# Windows
winget install Casey.Just

# 安装其他依赖
# Bun（前端包管理）
curl -fsSL https://bun.sh/install | bash
# Rust（Tauri框架需要）
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# Python 3.11+
python --version  # 确保版本>=3.11
# macOS需要Xcode Command Line Tools
xcode-select --install

构建和运行：

git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 一键安装所有依赖（创建Python虚拟环境、安装依赖）
just setup

# 启动开发模式（后端+桌面应用同时运行）
just dev

其他常用命令：

just dev-web       # 后端+Web界面（不需要编译Tauri）
just dev-backend   # 只启动后端
just dev-frontend  # 只启动Tauri前端（后端需要已经在跑）
just build         # 构建生产版本
just --list        # 查看所有可用命令

自定义模型目录：

如果你模型文件太大想放到别的盘，可以设置环境变量：

export VOICEBOX_MODELS_DIR=/path/to/your/models

使用方法

基础用法：声音克隆+语音合成

第一步：创建声音档案（Voice Profile）

打开Voicebox，进入"Voices"页面
点击"New Profile"
上传几秒到几分钟的参考音频（.wav/.mp3/.flac等格式），或者直接在应用内录音
填写档案名称、描述，选择语言标签
多样本克隆效果更好，建议上传3-5段不同语气的参考音频

第二步：生成语音

在主界面选择刚创建的声音档案
选择TTS引擎（推荐第一次用Chatterbox Multilingual，语言覆盖最广）
输入你想合成的文字
点击生成，等待音频处理完成（首次使用会自动下载模型，约2-4GB）
试听、下载、或者继续添加音效

进阶用法：表情标签让语音更自然

Chatterbox Turbo引擎支持副语言标签，用法：

今天天气真不错[chuckle]，要不我们出去走走？[sigh] 不过我有点累...

支持的标签：[laugh] [chuckle] [gasp] [cough] [sigh] [groan] [sniff] [shush] [clear throat]

在文本输入框中输入 / 即可弹出标签选择菜单。

进阶用法：REST API集成到你的应用

Voicebox启动后暴露完整的REST API（默认端口17493），可以直接用curl或任何HTTP客户端调用：

# 查看所有声音档案
curl http://localhost:17493/profiles

# 创建新的声音档案
curl -X POST http://localhost:17493/profiles \
  -H "Content-Type: application/json" \
  -d '{"name": "我的声音", "language": "zh"}'

# 生成语音
curl -X POST http://localhost:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "你好世界", "profile_id": "你的档案ID", "language": "zh"}'

完整的API文档访问 http://localhost:17493/docs 可查看Swagger UI。

Python示例：

import requests

BASE_URL = "http://localhost:17493"

# 列出声音档案
profiles = requests.get(f"{BASE_URL}/profiles").json()

# 生成语音
response = requests.post(f"{BASE_URL}/generate", json={
    "text": "这是一段测试语音合成内容",
    "profile_id": profiles[0]["id"],
    "language": "zh"
})
print(response.json())

适用集成场景： 游戏NPC对话、播客生产、无障碍辅助工具、语音助手、内容自动化流水线。

进阶用法：Stories编辑器做多人对话

创建多个声音档案（比如"旁白"、"角色A"、"角色B"）
进入"Stories"编辑器
添加多个轨道，每个轨道指定不同声音档案
在时间线上拖放排列音频片段
内联裁剪、分割、交叉淡入淡出
导出完整项目

进阶用法：音效预设

Voicebox内置4种音效预设：

预设名	效果
Robotic	机器人声——压缩+高通+低通
Radio	广播声——压缩+高通+轻微失真
Echo Chamber	回声室——大量延迟+混响
Deep Voice	低沉嗓音——Pitch Shift下移+压缩

你也可以自定义效果链，保存为预设，绑定到特定声音档案作为默认效果。

进阶用法：声音档案导入导出与样本管理

支持从音频文件创建档案，也可以在应用内直接录音
档案可以导出为ZIP格式，方便分享给同事或备份
支持多样本克隆（上传多段不同语气的参考音频，克隆质量更好）
每个档案可以设置默认语言标签和默认效果链
在档案管理界面可以给档案添加描述，方便组织

实际场景举例

场景	怎么用Voicebox
短视频配音	录制自己声音创建档案，输入文案直接生成，选Chatterbox Multilingual支持中文
播客制作	用Stories编辑器编排多角色对话，导出混音
有声书/小说连载	50,000字符上限+自动分块，一次粘贴整章内容
游戏开发	通过REST API批量生成NPC对话，搭配音效预设
英语学习材料	用Chatterbox Turbo生成带表情标签的情景对话
无障碍辅助	帮视障用户将文字转语音，本地运行保护隐私
企业客服	Docker部署到内网服务器，API调用生成标准化客服语音
多语言内容	Qwen3-TTS+Chatterbox Multilingual支持23种语言

跟同类工具对比

对比维度	Voicebox	ElevenLabs	OpenTTS	Coqui TTS
开源	✅ MIT协议	❌ 闭源	✅ 开源	✅ 开源
本地运行	✅ 全部本地	❌ 云端API	✅ 本地	✅ 本地
声音克隆	✅ 几秒音频即可	✅ 支持	❌ 有限	✅ 支持
TTS引擎数量	7种	自有引擎	5种（主要基于Coqui）	1种
多语言	23种	29种	有限	16种
表情标签	✅ 9种标签	✅ 支持	❌	❌
音效后处理	✅ 8种+预设	✅ 高级编辑	❌	❌
时间线编辑	✅ Stories	✅ Projects	❌	❌
桌面应用	✅ Tauri原生	✅	❌ WebUI	❌ CLI/Web
无限长度	✅ 50K字符自动分块	✅	❌ 有限	❌ 有限
REST API	✅ 完整	✅	✅	✅
GPU加速	✅ CUDA/mlX/DirectML/XPU	N/A	✅	✅
价格	免费	起步$5/月	免费	免费
数据隐私	✅ 全部本地	❌ 数据上云	✅ 本地	✅ 本地

核心差异： Voicebox是目前唯一一个同时提供"桌面级GUI体验 + 多引擎 + 声音克隆 + 音效后处理 + 时间线编辑 + 完整API"的开源项目。OpenTTS和Coqui TTS偏技术向，没有直观界面；ElevenLabs功能强但全在云上、要付费。Voicebox填补了这个空白。

GPU支持情况

Voicebox对硬件的兼容性非常广：

平台	后端	说明
macOS（Apple Silicon）	MLX (Metal)	Neural Engine加速，4-5x速度提升
Windows/Linux（NVIDIA）	PyTorch (CUDA)	自动下载CUDA二进制
Linux（AMD）	PyTorch (ROCm)	自动配置HSAOVERRIDEGFX_VERSION
Windows（任意GPU）	DirectML	通用Windows GPU支持
Intel Arc	IPEX/XPU	Intel独立显卡加速
任意平台	CPU	都能跑，就是慢一点

v0.4.0新增了对NVIDIA Blackwell架构（RTX 50系列）和Intel Arc的支持，GPU不兼容时会在界面上直接提示，不再出现"no kernel image"的静默崩溃。

技术栈一览

Voicebox的技术选型也很讲究：

层级	技术
桌面应用	Tauri (Rust) —— 不是Electron，性能好
前端	React + TypeScript + Tailwind CSS
状态管理	Zustand + React Query
后端	FastAPI (Python)
TTS引擎	Qwen3-TTS, LuxTTS, Chatterbox, Chatterbox Turbo, TADA, Kokoro
音效	Pedalboard (Spotify开源)
转录	Whisper / Whisper Turbo
推理	MLX (Apple Silicon) / PyTorch (CUDA/ROCm/XPU/CPU)
数据库	SQLite
音频可视化	WaveSurfer.js + librosa

选择Tauri而不是Electron是一个明智的决定——Tauri构建的桌面应用安装包更小、内存占用更低、启动更快，同时还能调用原生系统API。

小结

Voicebox是目前最完整的开源语音合成工作站——7种TTS引擎覆盖23种语言、支持声音克隆、表情标签、8种音效、无限长度分块、多轨道时间线编辑、完整REST API，全部本地运行，MIT许可证免费商用。无论你是做短视频的博主、独立游戏开发者、播客创作者，还是想在内网搭建语音服务的企业，Voicebox都值得一试。

项目地址： https://github.com/jamiepine/voicebox 官网： https://voicebox.sh 文档： https://docs.voicebox.sh

写评论

读者评论

0 条

登录后参与

暂无评论，来分享你的看法吧