文章

开源生态

#Pixelle-Video #AI短视频 #开源工具 #ComfyUI #AI视频生成

Pixelle-Video：万星AI短视频引擎，输入主题自动出片，小白手把手教程

你是不是也有这样的烦恼？刷短视频的时候，你一定见过这类内容——画面精美、配音专业、节奏流畅的知识科普或情感故事视频。你想："要是我也做一个该多好。" 然后你打开剪映，发现： - 🤯 写脚本就卡住了 ——不知道怎么组织内容，一句话憋半天 - 🤯 找素材找到头秃 ——免费图

20 阅读0 评论

你是不是也有这样的烦恼？

刷短视频的时候，你一定见过这类内容——画面精美、配音专业、节奏流畅的知识科普或情感故事视频。你想："要是我也做一个该多好。"

然后你打开剪映，发现：

🤯 写脚本就卡住了——不知道怎么组织内容，一句话憋半天
🤯 找素材找到头秃——免费图库翻了个遍，还是和文案对不上
🤯 配音太假太机器——文字转语音效果差，自己录音又社恐
🤯 剪辑学不会——关键帧、转场、蒙版……光看教程就劝退
🤯 BGM不知道选啥——配乐一加，版权问题先不说，节奏也对不上

一个2分钟的短视频，从构思到成片，新手做下来可能要一整天甚至更久。

如果我告诉你，有个开源工具，你只需要输入一个主题（比如"为什么要养成阅读习惯"），它就能自动帮你：写文案 → 生成配图 → 合成配音 → 加背景音乐 → 一键成片，你会不会觉得这是黑科技？

今天要介绍的主角——Pixelle-Video，就是干这件事的。

Pixelle-Video 是什么？

Pixelle-Video 是一个AI全自动短视频引擎，目前在GitHub上已经收获了超过10,000颗星，采用Apache 2.0开源协议，用Python编写。

简单来说，它的核心流程是这样的：

输入一个主题 → AI写文案 → AI给每句话配图/视频 → AI生成语音解说 → 自动添加背景音乐 → 输出完整视频

你不需要写脚本、不需要找图片、不需要录声音、不需要学剪辑。整个视频生产流程，AI全部帮你干了。

这就像是请了一个"AI视频制作团队"，编剧、美术、配音、剪辑全都有，而你只需要当"甲方"，告诉它们你想做什么主题就行。

它适合谁？

自媒体新手——想出内容但不会剪辑、不会写脚本的
知识科普博主——有知识但没视频制作能力的
情感/鸡汤号运营——批量生产同类风格视频的
想用AI做副业的人——低成本高频出片的
技术爱好者——想研究ComfyUI工作流和AI视频工作流的

核心功能一览

在教大家安装之前，先看看它到底能做什么，这样你才知道值不值得折腾。

1. 全自动生成——输入主题，一键出片

这是核心中的核心。你只需输入一个主题，比如"为什么早起的人更容易成功"，Pixelle-Video就会：

调用大语言模型（LLM，即Large Language Model，大型语言模型）自动撰写视频解说词
把解说词拆成句子，每句配一张AI生成的插图
用TTS（Text-to-Speech，文字转语音）技术给每句话生成配音
自动添加背景音乐
把图片、语音、音乐合成最终视频

整个过程中，你只需要点一下"生成视频"按钮。

2. AI智能文案——不写脚本也能有内容

Pixelle-Video支持多种大语言模型来写文案：通义千问、GPT-4o、DeepSeek、Ollama等。

如果你有自己的文案，也可以用"固定文案内容模式"，直接粘贴你写好的文本，跳过AI创作环节。

3. AI生成配图——每句话都有精美插图

基于ComfyUI架构（一个可视化的AI工作流平台，可以理解为"AI工具的乐高积木"），Pixelle-Video可以为每一句解说词自动生成配图。你还可以通过"提示词前缀"来控制图像风格，比如"水彩画风格""赛博朋克风格""中国传统水墨画风格"等。

支持多种图像生成模型，包括FLUX等主流模型，可以灵活替换。

4. AI生成视频——静态图片也能动起来

除了静态配图，Pixelle-Video还支持使用AI视频生成模型（如WAN 2.1）将图片变成动态视频片段，让你的短视频更加生动。

5. AI语音解说——多种TTS方案可选

支持主流的TTS方案：

Edge-TTS：微软的免费TTS服务，中文效果好，零成本
Index-TTS：开源TTS方案，支持声音克隆（上传一段参考音频，AI就能模仿那个声音）

你不需要自己录音，AI帮你配好专业的解说音频。

6. 背景音乐——三种方案

无BGM：不要背景音乐
内置音乐：Pixelle-Video自带几首背景音乐
自定义音乐：把你自己的MP3文件放到 bgm/ 文件夹，就能用了

7. 多种视觉模板和视频尺寸

静态模板（static_*.html）：图片+配音+字幕的传统风格
图片模板（image_*.html）：图片为主的展示风格
视频模板（video_*.html）：动态视频风格

尺寸方面，竖屏（9:16，抖音/快手）、横屏（16:9，B站/YouTube）都支持。

8. 扩展模块：数字人口播、图生视频、动作迁移

这是最近新增的高级功能：

数字人口播：AI生成的虚拟人物在画面中"念"你的文案，就像新闻主播一样
图生视频：把一张静态图片变成动态视频片段
动作迁移：把一个动作（比如跳舞）应用到AI生成的人物上

安装教程——手把手教你装

接下来是重头戏，我会分两种方式教你安装：Windows一键整合包（最简单）和从源码安装（macOS/Linux用户用这个）。

方式一：Windows一键整合包（推荐Windows用户）

这是最简单的方式，不需要装Python、不需要装Git、不需要敲命令行。

第1步：下载整合包

去GitHub的Releases页面（项目主页右侧栏），找到最新的Windows整合包，下载并解压。文件可能比较大（包含了所有依赖），耐心等待下载完成。

第2步：启动程序

解压后，双击运行 start.bat 文件。

如果Windows弹出"是否允许此应用对设备进行更改"的安全提示，点"是"。

第3步：打开Web界面

启动后，浏览器会自动打开本地地址。如果没有自动打开，手动在浏览器地址栏输入 localhost:8501 就行。

第4步：配置API（必须做）

第一次使用需要配置LLM（大语言模型）的API。具体操作见下面的"使用方法"部分。

💡 小贴士：整合包已经内置了ComfyUI，所以图像生成部分开箱即用，不需要额外配置。

方式二：从源码安装（macOS/Linux）

macOS和Linux用户用这种方式。

第1步：安装uv（Python包管理器）

uv是一个超级快的Python包管理器，类似于pip但快得多的存在。

安装方法见官方文档：https://docs.astral.sh/uv/getting-started/installation/

macOS用户可以在终端运行：

curl -LsSf https://astral.sh/uv/install.sh | sh

安装完成后验证：

uv --version

看到版本号就说明安装成功了。

第2步：安装ffmpeg（音视频处理工具）

ffmpeg是处理音频和视频的"万能瑞士军刀"，Pixelle-Video需要它来合成最终的视频。

不同系统的安装方式：

macOS（用Homebrew）：

``bash brew install ffmpeg ``

Ubuntu/Debian：

``bash sudo apt update && sudo apt install ffmpeg ``

Windows：去 https://ffmpeg.org/download.html 下载，解压后把bin目录添加到系统PATH环境变量

安装后验证：

ffmpeg -version

第3步：下载项目并启动

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

这里解释一下每行命令做什么：

git clone：从GitHub下载项目代码
cd：进入项目目录
uv run streamlit run web/app.py：uv会自动创建虚拟环境、安装所有依赖（第一次比较慢），然后启动Streamlit Web界面

启动后浏览器自动打开本地地址。

⚠️ 注意：第一次运行 uv run 时会自动安装所有Python依赖，可能需要几分钟，耐心等待。后续启动就快了。

使用方法——从零开始生成你的第一个视频

安装好之后，我们来看看怎么用。我会一步步带你走，保证你跟着做完就能出片。

第一步：配置大语言模型（LLM）

这是首次使用必须做的一步，Pixelle-Video需要LLM来写文案。

在Web界面的左侧，展开"⚙️系统配置"面板：

选择模型：在LLM配置区域，有快速选择的预设模型（通义千问、GPT-4o、DeepSeek等），选一个你有的。
获取API Key：点击界面上的"🔑获取API Key"链接，去注册并获取密钥。
填写密钥：把API Key粘贴进去。

💡 省钱建议：如果你是新手，强烈推荐用通义千问。注册就送免费额度，而且中文文案质量很好，价格极低。如果追求零成本，可以用Ollama在本地跑模型，但需要你的电脑配置够（至少8GB显存的显卡）。

第二步：配置图像生成服务

同样在"⚙️系统配置"面板中：

本地部署（推荐有显卡的用户）：填写ComfyUI的URL，默认是本地8188端口。如果你用的是Windows一键整合包，ComfyUI已经内置，直接保持默认即可。
云端部署（没有显卡的用户）：使用RunningHub服务，填写API Key即可。RunningHub提供云端GPU，按量计费。

第三步：输入内容

在左侧栏的"内容输入"区域：

AI生成内容模式：输入你想要的视频主题，比如"为什么要养成阅读习惯""中国高铁有多厉害""量子计算是什么"。AI会根据这个主题自动创作文案。
固定文案内容模式：如果你已经有写好的文案，直接粘贴进去，AI就不创作了，直接用你的文案。

我建议新手先用AI生成内容模式，简单省事。

第四步：语音设置

在中间栏找到"语音设置"：

选择TTS工作流，推荐默认的Edge-TTS（免费、中文效果好）
如果你想克隆某个人的声音，可以上传参考音频（Index-TTS支持）
可以先点"预览"试听效果

第五步：视觉设置

在中间栏找到"视觉设置"：

图像生成：选择ComfyUI工作流（保持默认即可）、设置图像尺寸（竖屏选9:16，横屏选16:9）
提示词前缀：这个很重要！它控制AI生图的风格。比如输入 watercolor painting, 可以让图片是水彩画风格；输入 Chinese ink painting, 是水墨画风格；输入 photorealistic, 是写实风格
视频模板：根据你的需求选择，新手建议先用static模板

第六步：生成视频！

在右侧栏，点击"🎬生成视频"按钮。

然后你就能看到实时进度：

✅ 生成文案——AI在写解说词
✅ 生成配图——AI在画每一句话的插图
✅ 合成语音——AI在读你的文案
✅ 合成视频——所有素材合体

整个过程可能需要几分钟到十几分钟（取决于视频长度和你的硬件配置），耐心等待。

生成完成后，视频会自动在页面上预览，你也可以下载保存。

场景举例——用Pixelle-Video能做什么内容？

光说不练假把式，我来给你举几个实际的内容方向：

场景1：知识科普类

主题："量子纠缠到底是什么"

这类视频特别适合知识科普博主。你不需要是物理学家，AI会帮你组织通俗易懂的解说词，配上抽象但美观的AI插图，用TTS读出来，就是一个像模像样的科普短视频。

适配平台：抖音、快手、小红书（竖屏）、B站、YouTube（横屏）

场景2：个人成长/鸡汤类

主题："为什么早起的人更容易成功"

这是短视频平台上流量最大的品类之一。AI写出来的鸡汤文案其实质量不错，配上温暖的插画和舒缓的背景音乐，发布就是一条成品。

适配平台：抖音、快手、视频号

场景3：历史文化类

主题："秦始皇统一六国到底有多难"

历史类内容天然适合这种形式——每句话配一张历史场景的AI插图，加上厚重的配音，效果非常好。

适配平台：B站、西瓜视频、抖音

场景4：小说/影视解说类

主题：《三体》故事梗概

用固定文案模式粘贴小说剧情简介，AI为每个情节节点生成配图，加上悬念式的配音，就是一个完整的小说解说视频。

适配平台：B站、抖音

场景5：深度思考/社会观察类

主题："为什么越忙碌的人越需要独处"

这类"思辨型"内容在B站和公众号很受欢迎。Pixelle-Video可以把你的深度思考变成一条有画面、有声音、有节奏的视频，远比纯文字更有传播力。

费用分析——做视频到底要花多少钱？

这是大家最关心的问题之一。我给你算了三档方案：

方案一：完全免费 💰 0元

LLM：Ollama本地运行（需要显卡至少8GB显存）
图像生成：ComfyUI本地部署（需要显卡至少12GB显存）
TTS：Edge-TTS（微软免费服务）
背景音乐：内置或不要

适合：有高配电脑的技术爱好者。缺点是本地跑模型速度慢，生成一张图可能要2-5分钟。

方案二：低成本方案 💰 约5-10元/条

LLM：通义千问API（注册送额度，后续极低，几毛钱一条）
图像生成：ComfyUI本地部署
TTS：Edge-TTS

适合：有中等配置电脑（12GB+显卡）的用户，这是最推荐的方案，性价比极高。

方案三：全云端方案 💰 约2-5元/条甚至更高

LLM：OpenAI API
图像生成：RunningHub云端
TTS：Edge-TTS

适合：没有显卡的用户。费用取决于视频长度和图像数量，但最大的好处是完全不需要本地GPU。

Pixelle-Video vs 其他工具——为什么要选它？

市面上做AI视频的工具有不少，我来对比一下：

vs 剪映/CapCut

剪映是传统的剪辑工具，需要你手动找素材、配音、剪辑。Pixelle-Video是AI全自动生成，输入主题就出片。区别就是：手动挡 vs 自动挡。

vs Sora/可灵等文生视频模型

Sora和可灵是"文生视频"模型——你输入一段文字描述，它直接生成一段视频。但目前这类模型生成的视频时长短（几秒到十几秒）、内容不可控、无法添加语音解说。Pixelle-Video是"工作流"思路，虽然单张图片不如文生视频炫酷，但能做完整的、带解说的、可控的短视频。

vs 各种"AI写作+配图"的半自动工具

很多工具只做其中一个环节（比如只写文案、只做配图），你需要自己在多个工具之间搬砖。Pixelle-Video把所有环节串在一起，是真正的"一键出片"。

Pixelle-Video的独特优势

完全开源免费——Apache 2.0协议，商用都没问题
灵活组合——基于ComfyUI架构，每个环节都可以替换：不想用FLUX生图？换成SDXL。不想用Edge-TTS？换成ChatTTS。就像搭积木一样
社区活跃——10,000+星，持续更新，最近还加了数字人口播和动作迁移
本地运行——数据不出你的电脑，隐私安全

常见问题（FAQ）

Q：我电脑没有显卡，能用吗？

可以，但需要使用云端方案：LLM用云端API（通义千问、OpenAI等），图像生成用RunningHub云端服务。完全不需要本地GPU。

Q：生成一条视频需要多长时间？

取决于视频长度和你的硬件。用本地ComfyUI生成，一条1-2分钟的视频大约需要10-20分钟（主要是图片生成耗时）。用云端服务会更快。

Q：生成的视频画质怎么样？

取决于你选择的图像生成模型和参数。用FLUX等高质量模型，配图效果相当好。模板也支持多种风格，整体成片质量在短视频平台上完全够用。

Q：视频有中文配音吗？

有的。Edge-TTS本身支持多种中文语音（普通话），效果听起来很自然，不是那种"机器人味"很重的TTS。

Q：可以在服务器上部署吗？

可以。Pixelle-Video基于Streamlit，在任何能跑Python的服务器上都能部署。如果你有GPU服务器，效果更好。官方也提供了RunningHub 48G显存机器的支持文档。

Q：不会写代码的人能用吗？

完全可以！Windows一键整合包双击就能启动，操作界面全是网页按钮和下拉菜单，跟填表一样简单。源码安装方式虽然需要敲几行命令，但也就是复制粘贴的事，我已经把每一步都写清楚了。

小结

Pixelle-Video做了一件很好的事：把AI视频制作的门槛，从"需要学剪辑+写脚本+找素材+录声音"降到了"输入一个主题"。

对于想做短视频但不会传统剪辑的新手来说，它是一个非常好的起步工具。对于已经有内容但想把文字内容视频化的创作者来说，它是一个效率神器。对于技术爱好者来说，它的ComfyUI架构提供了无限的组合可能性。

最关键的是——它是开源的、免费的。你不需要花钱买任何SaaS服务，一台有显卡的电脑就能跑起来。就算没显卡，云端方案也花不了多少钱。

项目地址：https://github.com/AIDC-AI/Pixelle-Video

去试试吧，从"为什么要养成阅读习惯"这个主题开始，5分钟内你就能看到自己的第一条AI生成视频。

写评论

读者评论

0 条

登录后参与

暂无评论，来分享你的看法吧