Pixelle-Video:万星AI短视频引擎,输入主题自动出片,小白手把手教程
你是不是也有这样的烦恼? 刷短视频的时候,你一定见过这类内容——画面精美、配音专业、节奏流畅的知识科普或情感故事视频。你想:"要是我也做一个该多好。" 然后你打开剪映,发现: - 🤯 写脚本就卡住了 ——不知道怎么组织内容,一句话憋半天 - 🤯 找素材找到头秃 ——免费图
你是不是也有这样的烦恼?
刷短视频的时候,你一定见过这类内容——画面精美、配音专业、节奏流畅的知识科普或情感故事视频。你想:"要是我也做一个该多好。"
然后你打开剪映,发现:
- 🤯 写脚本就卡住了——不知道怎么组织内容,一句话憋半天
- 🤯 找素材找到头秃——免费图库翻了个遍,还是和文案对不上
- 🤯 配音太假太机器——文字转语音效果差,自己录音又社恐
- 🤯 剪辑学不会——关键帧、转场、蒙版……光看教程就劝退
- 🤯 BGM不知道选啥——配乐一加,版权问题先不说,节奏也对不上
一个2分钟的短视频,从构思到成片,新手做下来可能要一整天甚至更久。
如果我告诉你,有个开源工具,你只需要输入一个主题(比如"为什么要养成阅读习惯"),它就能自动帮你:写文案 → 生成配图 → 合成配音 → 加背景音乐 → 一键成片,你会不会觉得这是黑科技?
今天要介绍的主角——Pixelle-Video,就是干这件事的。
Pixelle-Video 是什么?
Pixelle-Video 是一个AI全自动短视频引擎,目前在GitHub上已经收获了超过10,000颗星,采用Apache 2.0开源协议,用Python编写。
简单来说,它的核心流程是这样的:
输入一个主题 → AI写文案 → AI给每句话配图/视频 → AI生成语音解说 → 自动添加背景音乐 → 输出完整视频
你不需要写脚本、不需要找图片、不需要录声音、不需要学剪辑。整个视频生产流程,AI全部帮你干了。
这就像是请了一个"AI视频制作团队",编剧、美术、配音、剪辑全都有,而你只需要当"甲方",告诉它们你想做什么主题就行。
它适合谁?
- 自媒体新手——想出内容但不会剪辑、不会写脚本的
- 知识科普博主——有知识但没视频制作能力的
- 情感/鸡汤号运营——批量生产同类风格视频的
- 想用AI做副业的人——低成本高频出片的
- 技术爱好者——想研究ComfyUI工作流和AI视频工作流的
核心功能一览
在教大家安装之前,先看看它到底能做什么,这样你才知道值不值得折腾。
1. 全自动生成——输入主题,一键出片
这是核心中的核心。你只需输入一个主题,比如"为什么早起的人更容易成功",Pixelle-Video就会:
- 调用大语言模型(LLM,即Large Language Model,大型语言模型)自动撰写视频解说词
- 把解说词拆成句子,每句配一张AI生成的插图
- 用TTS(Text-to-Speech,文字转语音)技术给每句话生成配音
- 自动添加背景音乐
- 把图片、语音、音乐合成最终视频
整个过程中,你只需要点一下"生成视频"按钮。
2. AI智能文案——不写脚本也能有内容
Pixelle-Video支持多种大语言模型来写文案:通义千问、GPT-4o、DeepSeek、Ollama等。
如果你有自己的文案,也可以用"固定文案内容模式",直接粘贴你写好的文本,跳过AI创作环节。
3. AI生成配图——每句话都有精美插图
基于ComfyUI架构(一个可视化的AI工作流平台,可以理解为"AI工具的乐高积木"),Pixelle-Video可以为每一句解说词自动生成配图。你还可以通过"提示词前缀"来控制图像风格,比如"水彩画风格""赛博朋克风格""中国传统水墨画风格"等。
支持多种图像生成模型,包括FLUX等主流模型,可以灵活替换。
4. AI生成视频——静态图片也能动起来
除了静态配图,Pixelle-Video还支持使用AI视频生成模型(如WAN 2.1)将图片变成动态视频片段,让你的短视频更加生动。
5. AI语音解说——多种TTS方案可选
支持主流的TTS方案:
- Edge-TTS:微软的免费TTS服务,中文效果好,零成本
- Index-TTS:开源TTS方案,支持声音克隆(上传一段参考音频,AI就能模仿那个声音)
你不需要自己录音,AI帮你配好专业的解说音频。
6. 背景音乐——三种方案
- 无BGM:不要背景音乐
- 内置音乐:Pixelle-Video自带几首背景音乐
- 自定义音乐:把你自己的MP3文件放到
bgm/文件夹,就能用了
7. 多种视觉模板和视频尺寸
- 静态模板(static_*.html):图片+配音+字幕的传统风格
- 图片模板(image_*.html):图片为主的展示风格
- 视频模板(video_*.html):动态视频风格
尺寸方面,竖屏(9:16,抖音/快手)、横屏(16:9,B站/YouTube)都支持。
8. 扩展模块:数字人口播、图生视频、动作迁移
这是最近新增的高级功能:
- 数字人口播:AI生成的虚拟人物在画面中"念"你的文案,就像新闻主播一样
- 图生视频:把一张静态图片变成动态视频片段
- 动作迁移:把一个动作(比如跳舞)应用到AI生成的人物上
安装教程——手把手教你装
接下来是重头戏,我会分两种方式教你安装:Windows一键整合包(最简单)和从源码安装(macOS/Linux用户用这个)。
方式一:Windows一键整合包(推荐Windows用户)
这是最简单的方式,不需要装Python、不需要装Git、不需要敲命令行。
第1步:下载整合包
去GitHub的Releases页面(项目主页右侧栏),找到最新的Windows整合包,下载并解压。文件可能比较大(包含了所有依赖),耐心等待下载完成。
第2步:启动程序
解压后,双击运行 start.bat 文件。
如果Windows弹出"是否允许此应用对设备进行更改"的安全提示,点"是"。
第3步:打开Web界面
启动后,浏览器会自动打开本地地址。如果没有自动打开,手动在浏览器地址栏输入 localhost:8501 就行。
第4步:配置API(必须做)
第一次使用需要配置LLM(大语言模型)的API。具体操作见下面的"使用方法"部分。
💡 小贴士:整合包已经内置了ComfyUI,所以图像生成部分开箱即用,不需要额外配置。
方式二:从源码安装(macOS/Linux)
macOS和Linux用户用这种方式。
第1步:安装uv(Python包管理器)
uv是一个超级快的Python包管理器,类似于pip但快得多的存在。
安装方法见官方文档:https://docs.astral.sh/uv/getting-started/installation/
macOS用户可以在终端运行:
curl -LsSf https://astral.sh/uv/install.sh | sh安装完成后验证:
uv --version看到版本号就说明安装成功了。
第2步:安装ffmpeg(音视频处理工具)
ffmpeg是处理音频和视频的"万能瑞士军刀",Pixelle-Video需要它来合成最终的视频。
不同系统的安装方式:
- macOS(用Homebrew):
``bash brew install ffmpeg ``
- Ubuntu/Debian:
``bash sudo apt update && sudo apt install ffmpeg ``
- Windows:去 https://ffmpeg.org/download.html 下载,解压后把bin目录添加到系统PATH环境变量
安装后验证:
ffmpeg -version第3步:下载项目并启动
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py这里解释一下每行命令做什么:
git clone:从GitHub下载项目代码cd:进入项目目录uv run streamlit run web/app.py:uv会自动创建虚拟环境、安装所有依赖(第一次比较慢),然后启动Streamlit Web界面
启动后浏览器自动打开本地地址。
⚠️ 注意:第一次运行
uv run时会自动安装所有Python依赖,可能需要几分钟,耐心等待。后续启动就快了。
使用方法——从零开始生成你的第一个视频
安装好之后,我们来看看怎么用。我会一步步带你走,保证你跟着做完就能出片。
第一步:配置大语言模型(LLM)
这是首次使用必须做的一步,Pixelle-Video需要LLM来写文案。
在Web界面的左侧,展开"⚙️系统配置"面板:
- 选择模型:在LLM配置区域,有快速选择的预设模型(通义千问、GPT-4o、DeepSeek等),选一个你有的。
- 获取API Key:点击界面上的"🔑获取API Key"链接,去注册并获取密钥。
- 填写密钥:把API Key粘贴进去。
💡 省钱建议:如果你是新手,强烈推荐用通义千问。注册就送免费额度,而且中文文案质量很好,价格极低。如果追求零成本,可以用Ollama在本地跑模型,但需要你的电脑配置够(至少8GB显存的显卡)。
第二步:配置图像生成服务
同样在"⚙️系统配置"面板中:
- 本地部署(推荐有显卡的用户):填写ComfyUI的URL,默认是本地8188端口。如果你用的是Windows一键整合包,ComfyUI已经内置,直接保持默认即可。
- 云端部署(没有显卡的用户):使用RunningHub服务,填写API Key即可。RunningHub提供云端GPU,按量计费。
第三步:输入内容
在左侧栏的"内容输入"区域:
- AI生成内容模式:输入你想要的视频主题,比如"为什么要养成阅读习惯""中国高铁有多厉害""量子计算是什么"。AI会根据这个主题自动创作文案。
- 固定文案内容模式:如果你已经有写好的文案,直接粘贴进去,AI就不创作了,直接用你的文案。
我建议新手先用AI生成内容模式,简单省事。
第四步:语音设置
在中间栏找到"语音设置":
- 选择TTS工作流,推荐默认的Edge-TTS(免费、中文效果好)
- 如果你想克隆某个人的声音,可以上传参考音频(Index-TTS支持)
- 可以先点"预览"试听效果
第五步:视觉设置
在中间栏找到"视觉设置":
- 图像生成:选择ComfyUI工作流(保持默认即可)、设置图像尺寸(竖屏选9:16,横屏选16:9)
- 提示词前缀:这个很重要!它控制AI生图的风格。比如输入
watercolor painting,可以让图片是水彩画风格;输入Chinese ink painting,是水墨画风格;输入photorealistic,是写实风格 - 视频模板:根据你的需求选择,新手建议先用static模板
第六步:生成视频!
在右侧栏,点击"🎬生成视频"按钮。
然后你就能看到实时进度:
- ✅ 生成文案——AI在写解说词
- ✅ 生成配图——AI在画每一句话的插图
- ✅ 合成语音——AI在读你的文案
- ✅ 合成视频——所有素材合体
整个过程可能需要几分钟到十几分钟(取决于视频长度和你的硬件配置),耐心等待。
生成完成后,视频会自动在页面上预览,你也可以下载保存。
场景举例——用Pixelle-Video能做什么内容?
光说不练假把式,我来给你举几个实际的内容方向:
场景1:知识科普类
主题:"量子纠缠到底是什么"
这类视频特别适合知识科普博主。你不需要是物理学家,AI会帮你组织通俗易懂的解说词,配上抽象但美观的AI插图,用TTS读出来,就是一个像模像样的科普短视频。
适配平台:抖音、快手、小红书(竖屏)、B站、YouTube(横屏)
场景2:个人成长/鸡汤类
主题:"为什么早起的人更容易成功"
这是短视频平台上流量最大的品类之一。AI写出来的鸡汤文案其实质量不错,配上温暖的插画和舒缓的背景音乐,发布就是一条成品。
适配平台:抖音、快手、视频号
场景3:历史文化类
主题:"秦始皇统一六国到底有多难"
历史类内容天然适合这种形式——每句话配一张历史场景的AI插图,加上厚重的配音,效果非常好。
适配平台:B站、西瓜视频、抖音
场景4:小说/影视解说类
主题:《三体》故事梗概
用固定文案模式粘贴小说剧情简介,AI为每个情节节点生成配图,加上悬念式的配音,就是一个完整的小说解说视频。
适配平台:B站、抖音
场景5:深度思考/社会观察类
主题:"为什么越忙碌的人越需要独处"
这类"思辨型"内容在B站和公众号很受欢迎。Pixelle-Video可以把你的深度思考变成一条有画面、有声音、有节奏的视频,远比纯文字更有传播力。
费用分析——做视频到底要花多少钱?
这是大家最关心的问题之一。我给你算了三档方案:
方案一:完全免费 💰 0元
- LLM:Ollama本地运行(需要显卡至少8GB显存)
- 图像生成:ComfyUI本地部署(需要显卡至少12GB显存)
- TTS:Edge-TTS(微软免费服务)
- 背景音乐:内置或不要
适合:有高配电脑的技术爱好者。缺点是本地跑模型速度慢,生成一张图可能要2-5分钟。
方案二:低成本方案 💰 约5-10元/条
- LLM:通义千问API(注册送额度,后续极低,几毛钱一条)
- 图像生成:ComfyUI本地部署
- TTS:Edge-TTS
适合:有中等配置电脑(12GB+显卡)的用户,这是最推荐的方案,性价比极高。
方案三:全云端方案 💰 约2-5元/条甚至更高
- LLM:OpenAI API
- 图像生成:RunningHub云端
- TTS:Edge-TTS
适合:没有显卡的用户。费用取决于视频长度和图像数量,但最大的好处是完全不需要本地GPU。
Pixelle-Video vs 其他工具——为什么要选它?
市面上做AI视频的工具有不少,我来对比一下:
vs 剪映/CapCut
剪映是传统的剪辑工具,需要你手动找素材、配音、剪辑。Pixelle-Video是AI全自动生成,输入主题就出片。区别就是:手动挡 vs 自动挡。
vs Sora/可灵等文生视频模型
Sora和可灵是"文生视频"模型——你输入一段文字描述,它直接生成一段视频。但目前这类模型生成的视频时长短(几秒到十几秒)、内容不可控、无法添加语音解说。Pixelle-Video是"工作流"思路,虽然单张图片不如文生视频炫酷,但能做完整的、带解说的、可控的短视频。
vs 各种"AI写作+配图"的半自动工具
很多工具只做其中一个环节(比如只写文案、只做配图),你需要自己在多个工具之间搬砖。Pixelle-Video把所有环节串在一起,是真正的"一键出片"。
Pixelle-Video的独特优势
- 完全开源免费——Apache 2.0协议,商用都没问题
- 灵活组合——基于ComfyUI架构,每个环节都可以替换:不想用FLUX生图?换成SDXL。不想用Edge-TTS?换成ChatTTS。就像搭积木一样
- 社区活跃——10,000+星,持续更新,最近还加了数字人口播和动作迁移
- 本地运行——数据不出你的电脑,隐私安全
常见问题(FAQ)
Q:我电脑没有显卡,能用吗?
可以,但需要使用云端方案:LLM用云端API(通义千问、OpenAI等),图像生成用RunningHub云端服务。完全不需要本地GPU。
Q:生成一条视频需要多长时间?
取决于视频长度和你的硬件。用本地ComfyUI生成,一条1-2分钟的视频大约需要10-20分钟(主要是图片生成耗时)。用云端服务会更快。
Q:生成的视频画质怎么样?
取决于你选择的图像生成模型和参数。用FLUX等高质量模型,配图效果相当好。模板也支持多种风格,整体成片质量在短视频平台上完全够用。
Q:视频有中文配音吗?
有的。Edge-TTS本身支持多种中文语音(普通话),效果听起来很自然,不是那种"机器人味"很重的TTS。
Q:可以在服务器上部署吗?
可以。Pixelle-Video基于Streamlit,在任何能跑Python的服务器上都能部署。如果你有GPU服务器,效果更好。官方也提供了RunningHub 48G显存机器的支持文档。
Q:不会写代码的人能用吗?
完全可以!Windows一键整合包双击就能启动,操作界面全是网页按钮和下拉菜单,跟填表一样简单。源码安装方式虽然需要敲几行命令,但也就是复制粘贴的事,我已经把每一步都写清楚了。
小结
Pixelle-Video做了一件很好的事:把AI视频制作的门槛,从"需要学剪辑+写脚本+找素材+录声音"降到了"输入一个主题"。
对于想做短视频但不会传统剪辑的新手来说,它是一个非常好的起步工具。对于已经有内容但想把文字内容视频化的创作者来说,它是一个效率神器。对于技术爱好者来说,它的ComfyUI架构提供了无限的组合可能性。
最关键的是——它是开源的、免费的。你不需要花钱买任何SaaS服务,一台有显卡的电脑就能跑起来。就算没显卡,云端方案也花不了多少钱。
项目地址:https://github.com/AIDC-AI/Pixelle-Video
去试试吧,从"为什么要养成阅读习惯"这个主题开始,5分钟内你就能看到自己的第一条AI生成视频。
读者评论
0 条暂无评论,来分享你的看法吧
相关推荐
结合当前内容、你的浏览习惯和搜索偏好推荐。
Harbor:一键跑通本地AI全家桶,Ollama+Open WebUI+50个服务全配好
想在家里跑大模型,你是不是也被折腾过?装Ollama、配Open WebUI、接搜索引擎、搞语音对话、弄图片生成……光是让这些服务互相认识就能让人崩溃。每次配置一堆环境变量、端口映射,搞完一个忘了另一个,到最后AI工具没怎么用,光配环境就累了。 Harbor 就是为了解决这个问题而生的——一
VibeVoice:微软46K星开源语音AI,60分钟长音频一次性转文字,小白也能跑
你是不是也遇到过这些头疼事? 开会一小时的录音,转文字软件只能5分钟5分钟地切,切完还不知道谁说的哪句话。做播客的想合成多人对话,结果AI语音工具不是不支持长音频,就是只能单人说。想给AI Agent加个实时语音能力,发现开源方案要么延迟高到离谱,要么根本不支持流式输入。 现在,微软开源了

