返回广场

Voicebox:19K星的开源语音合成神器,本地跑声音克隆+多引擎TTS全攻略

做短视频配音,还在花钱买ElevenLabs? 你做短视频、做播客、做有声书,需要一个自然的、像真人的AI配音。你试过ElevenLabs——效果确实好,但一个月几十美元,声音数据还得上传到海外服务器。你试过一些免费的在线TTS工具——那个机械味,一听就知道是AI。你想过自己搭一个本地方案—

做短视频配音,还在花钱买ElevenLabs?

你做短视频、做播客、做有声书,需要一个自然的、像真人的AI配音。你试过ElevenLabs——效果确实好,但一个月几十美元,声音数据还得上传到海外服务器。你试过一些免费的在线TTS工具——那个机械味,一听就知道是AI。你想过自己搭一个本地方案——但命令行配置一堆依赖,劝退率99%。

Voicebox就是来填这个坑的。它是一个完全开源、本地运行、GUI界面友好的语音合成工作室,集成了5种TTS引擎(最新0.4.0版已达7种),支持23种语言,内置8种音效后处理,还能做多角色时间线编辑。最关键的是——所有数据留在你自己的电脑上


Voicebox是什么?

一句话说清楚:Voicebox是ElevenLabs的开源替代品,一个本地优先的语音克隆+语音合成工作室。

  • GitHub星标:19.1K+,单日增长880星
  • 许可证:MIT(完全免费商用)
  • 官网:https://voicebox.sh
  • 桌面应用(Tauri/Rust构建)+ Web界面 + Docker部署
  • Python 3.11+ / React / TypeScript / FastAPI
  • 支持 macOS(Apple Silicon + Intel)、Windows、Docker

核心功能一览

1. 多引擎语音克隆与合成

Voicebox集成了7种TTS引擎(v0.4.0),各有特长,按需切换:

引擎支持语言特点
Qwen3-TTS(0.6B/1.7B)10种高质量多语言克隆,支持"说得慢一点"、"低声说"等语气指令
LuxTTS英语轻量级(约1GB显存),48kHz输出,CPU上150倍实时速度
Chatterbox Multilingual23种语言覆盖最广——阿拉伯语、丹麦语、芬兰语、希腊语、希伯来语、印地语、马来语、挪威语、波兰语、斯瓦希里语、瑞典语、土耳其语等
Chatterbox Turbo英语350M参数快速模型,支持副语言表情标签
TADA(1B/3B)10种HumeAI的语音语言模型,可生成700秒以上连贯音频,文本-声学对齐
Kokoro 82M英语等极轻量(82M参数),适合快速合成
Qwen CustomVoice10种基于Qwen3-TTS的预设声音,无需克隆样本

2. 表情标签(Paralinguistic Tags)

在文本中输入 / 即可插入表情标签,模型会将这些标签与语音融合在一起合成:

[laugh]  [chuckle]  [gasp]  [cough]  [sigh]  [groan]  [sniff]  [shush]  [clear throat]

比如你可以写:"听说你考试考了满分![laugh] 那真是太棒了。",生成的语音会真的插入一声笑。

3. 8种后处理音效

基于Spotify的pedalboard库,生成后实时预览:

音效说明
Pitch Shift上下移调,最多±12个半音
Reverb可调房间大小、阻尼、干湿比
Delay延迟回声,可调时间、反馈、比例
Chorus/Flanger金属感或丰满质感的调制延迟
Compressor动态范围压缩
Gain音量调节(-40到+40 dB)
High-Pass Filter切除低频
Low-Pass Filter切除高频

内置4种预设(机器人、电台、回声室、低沉嗓音),还支持自定义预设,可以给每个声音档案绑定默认效果链。

4. 无限长度生成

文本自动按句子边界分块,每块独立生成后交叉淡入淡出(crossfade)拼接,最多支持50,000字符。可配置分块大小(100–5000字)和交叉淡入时长(0–200ms)。智能分块还能识别缩写词、CJK标点和表情标签。

5. 多版本管理

每次生成支持多个版本(Version):

  • Original:原始TTS输出,始终保留
  • Effects Version:对任意源版本施加不同效果链
  • Takes:用新种子重新生成,获得不同变体
  • Source Tracking:追踪每个版本的来源
  • Favorites:收藏常用生成,一键调用

6. Stories编辑器(多轨道时间线)

这是一个强大的多角色编辑器:

  • 多轨道拖放排列
  • 音频内联裁剪和分割
  • 同步播放指针自动播放
  • 每个片段可单独锁定版本

适合做对话场景、播客、有声书的多角色编排。

7. 录音与转录

内置录音功能,带波形可视化。支持系统音频捕获(macOS和Windows)。自动用Whisper(含Whisper Turbo)转录语音为文字。录音可多格式导出。

8. 异步生成队列

生成是非阻塞的,提交后立刻可以输入下一条文本。串行执行队列防止GPU争用,支持SSE实时状态流,失败的生成可重试,崩溃后的残留任务启动时自动恢复。


安装步骤

方式一:桌面应用安装(推荐,最简单)

macOS(Apple Silicon,M1/M2/M3/M4芯片):

  1. 前往 https://voicebox.sh/download/mac-arm 下载DMG文件
  2. 双击打开DMG,将Voicebox拖入Applications文件夹
  3. 首次打开时,右键点击应用选择"打开"(macOS安全验证)

macOS(Intel芯片):

  1. 前往 https://voicebox.sh/download/mac-intel 下载DMG文件
  2. 同上安装步骤

Windows:

  1. 前往 https://voicebox.sh/download/windows 下载MSI安装包
  2. 双击运行安装程序
  3. 如果Windows Defender弹出警告,点击"更多信息"→"仍要运行"

Linux用户暂无预编译包,需从源码构建。详见 https://voicebox.sh/linux-install

桌面应用用的是Tauri(Rust框架),不是Electron,所以内存占用小、启动快、运行流畅。

方式二:Docker部署(适合服务器)

适合有服务器、需要API服务或者Linux用户:

# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 启动Docker容器
docker compose up -d

Docker配置要点(在docker-compose.yml中):

  • 端口映射:127.0.0.1:17493:17493(默认只监听本地)
  • 生成的音频保存在./output/目录
  • 模型数据持久化在Docker Volume中
  • HuggingFace模型缓存也有独立Volume,重建容器不会重新下载
  • 限制:4核CPU、8GB内存

如果你需要GPU加速(NVIDIA),需要额外配置nvidia-container-toolkit,在docker-compose.yml中添加GPU设备。

打开浏览器访问 http://localhost:17493 即可使用WebUI。

方式三:从源码构建(开发者)

适合想二次开发或贡献代码的用户:

依赖安装:

# 安装just命令运行器
# macOS
brew install just
# Linux
cargo install just
# Windows
winget install Casey.Just

# 安装其他依赖
# Bun(前端包管理)
curl -fsSL https://bun.sh/install | bash
# Rust(Tauri框架需要)
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# Python 3.11+
python --version  # 确保版本>=3.11
# macOS需要Xcode Command Line Tools
xcode-select --install

构建和运行:

git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 一键安装所有依赖(创建Python虚拟环境、安装依赖)
just setup

# 启动开发模式(后端+桌面应用同时运行)
just dev

其他常用命令:

just dev-web       # 后端+Web界面(不需要编译Tauri)
just dev-backend   # 只启动后端
just dev-frontend  # 只启动Tauri前端(后端需要已经在跑)
just build         # 构建生产版本
just --list        # 查看所有可用命令

自定义模型目录:

如果你模型文件太大想放到别的盘,可以设置环境变量:

export VOICEBOX_MODELS_DIR=/path/to/your/models

使用方法

基础用法:声音克隆+语音合成

第一步:创建声音档案(Voice Profile)

  1. 打开Voicebox,进入"Voices"页面
  2. 点击"New Profile"
  3. 上传几秒到几分钟的参考音频(.wav/.mp3/.flac等格式),或者直接在应用内录音
  4. 填写档案名称、描述,选择语言标签
  5. 多样本克隆效果更好,建议上传3-5段不同语气的参考音频

第二步:生成语音

  1. 在主界面选择刚创建的声音档案
  2. 选择TTS引擎(推荐第一次用Chatterbox Multilingual,语言覆盖最广)
  3. 输入你想合成的文字
  4. 点击生成,等待音频处理完成(首次使用会自动下载模型,约2-4GB)
  5. 试听、下载、或者继续添加音效

进阶用法:表情标签让语音更自然

Chatterbox Turbo引擎支持副语言标签,用法:

今天天气真不错[chuckle],要不我们出去走走?[sigh] 不过我有点累...

支持的标签:[laugh] [chuckle] [gasp] [cough] [sigh] [groan] [sniff] [shush] [clear throat]

在文本输入框中输入 / 即可弹出标签选择菜单。

进阶用法:REST API集成到你的应用

Voicebox启动后暴露完整的REST API(默认端口17493),可以直接用curl或任何HTTP客户端调用:

# 查看所有声音档案
curl http://localhost:17493/profiles

# 创建新的声音档案
curl -X POST http://localhost:17493/profiles \
  -H "Content-Type: application/json" \
  -d '{"name": "我的声音", "language": "zh"}'

# 生成语音
curl -X POST http://localhost:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "你好世界", "profile_id": "你的档案ID", "language": "zh"}'

完整的API文档访问 http://localhost:17493/docs 可查看Swagger UI。

Python示例:

import requests

BASE_URL = "http://localhost:17493"

# 列出声音档案
profiles = requests.get(f"{BASE_URL}/profiles").json()

# 生成语音
response = requests.post(f"{BASE_URL}/generate", json={
    "text": "这是一段测试语音合成内容",
    "profile_id": profiles[0]["id"],
    "language": "zh"
})
print(response.json())

适用集成场景: 游戏NPC对话、播客生产、无障碍辅助工具、语音助手、内容自动化流水线。

进阶用法:Stories编辑器做多人对话

  1. 创建多个声音档案(比如"旁白"、"角色A"、"角色B")
  2. 进入"Stories"编辑器
  3. 添加多个轨道,每个轨道指定不同声音档案
  4. 在时间线上拖放排列音频片段
  5. 内联裁剪、分割、交叉淡入淡出
  6. 导出完整项目

进阶用法:音效预设

Voicebox内置4种音效预设:

预设名效果
Robotic机器人声——压缩+高通+低通
Radio广播声——压缩+高通+轻微失真
Echo Chamber回声室——大量延迟+混响
Deep Voice低沉嗓音——Pitch Shift下移+压缩

你也可以自定义效果链,保存为预设,绑定到特定声音档案作为默认效果。

进阶用法:声音档案导入导出与样本管理

  • 支持从音频文件创建档案,也可以在应用内直接录音
  • 档案可以导出为ZIP格式,方便分享给同事或备份
  • 支持多样本克隆(上传多段不同语气的参考音频,克隆质量更好)
  • 每个档案可以设置默认语言标签和默认效果链
  • 在档案管理界面可以给档案添加描述,方便组织

实际场景举例

场景怎么用Voicebox
短视频配音录制自己声音创建档案,输入文案直接生成,选Chatterbox Multilingual支持中文
播客制作用Stories编辑器编排多角色对话,导出混音
有声书/小说连载50,000字符上限+自动分块,一次粘贴整章内容
游戏开发通过REST API批量生成NPC对话,搭配音效预设
英语学习材料用Chatterbox Turbo生成带表情标签的情景对话
无障碍辅助帮视障用户将文字转语音,本地运行保护隐私
企业客服Docker部署到内网服务器,API调用生成标准化客服语音
多语言内容Qwen3-TTS+Chatterbox Multilingual支持23种语言

跟同类工具对比

对比维度VoiceboxElevenLabsOpenTTSCoqui TTS
开源✅ MIT协议❌ 闭源✅ 开源✅ 开源
本地运行✅ 全部本地❌ 云端API✅ 本地✅ 本地
声音克隆✅ 几秒音频即可✅ 支持❌ 有限✅ 支持
TTS引擎数量7种自有引擎5种(主要基于Coqui)1种
多语言23种29种有限16种
表情标签✅ 9种标签✅ 支持
音效后处理✅ 8种+预设✅ 高级编辑
时间线编辑✅ Stories✅ Projects
桌面应用✅ Tauri原生❌ WebUI❌ CLI/Web
无限长度✅ 50K字符自动分块❌ 有限❌ 有限
REST API✅ 完整
GPU加速✅ CUDA/mlX/DirectML/XPUN/A
价格免费起步$5/月免费免费
数据隐私✅ 全部本地❌ 数据上云✅ 本地✅ 本地

核心差异: Voicebox是目前唯一一个同时提供"桌面级GUI体验 + 多引擎 + 声音克隆 + 音效后处理 + 时间线编辑 + 完整API"的开源项目。OpenTTS和Coqui TTS偏技术向,没有直观界面;ElevenLabs功能强但全在云上、要付费。Voicebox填补了这个空白。


GPU支持情况

Voicebox对硬件的兼容性非常广:

平台后端说明
macOS(Apple Silicon)MLX (Metal)Neural Engine加速,4-5x速度提升
Windows/Linux(NVIDIA)PyTorch (CUDA)自动下载CUDA二进制
Linux(AMD)PyTorch (ROCm)自动配置HSAOVERRIDEGFX_VERSION
Windows(任意GPU)DirectML通用Windows GPU支持
Intel ArcIPEX/XPUIntel独立显卡加速
任意平台CPU都能跑,就是慢一点

v0.4.0新增了对NVIDIA Blackwell架构(RTX 50系列)和Intel Arc的支持,GPU不兼容时会在界面上直接提示,不再出现"no kernel image"的静默崩溃。


技术栈一览

Voicebox的技术选型也很讲究:

层级技术
桌面应用Tauri (Rust) —— 不是Electron,性能好
前端React + TypeScript + Tailwind CSS
状态管理Zustand + React Query
后端FastAPI (Python)
TTS引擎Qwen3-TTS, LuxTTS, Chatterbox, Chatterbox Turbo, TADA, Kokoro
音效Pedalboard (Spotify开源)
转录Whisper / Whisper Turbo
推理MLX (Apple Silicon) / PyTorch (CUDA/ROCm/XPU/CPU)
数据库SQLite
音频可视化WaveSurfer.js + librosa

选择Tauri而不是Electron是一个明智的决定——Tauri构建的桌面应用安装包更小、内存占用更低、启动更快,同时还能调用原生系统API。


小结

Voicebox是目前最完整的开源语音合成工作站——7种TTS引擎覆盖23种语言、支持声音克隆、表情标签、8种音效、无限长度分块、多轨道时间线编辑、完整REST API,全部本地运行,MIT许可证免费商用。无论你是做短视频的博主、独立游戏开发者、播客创作者,还是想在内网搭建语音服务的企业,Voicebox都值得一试。

项目地址: https://github.com/jamiepine/voicebox 官网: https://voicebox.sh 文档: https://docs.voicebox.sh

写评论

读者评论

0

暂无评论,来分享你的看法吧

相关推荐

结合当前内容、你的浏览习惯和搜索偏好推荐。