← 返回项目列表
Pixelle-Video 是 AIDC-AI 开源的 AI 全自动短视频引擎,定位是“输入一个主题,自动完成文案、配图/视频、语音、BGM、模板合成”。它最适合用来给客户演示低门槛内容生产流水线,尤其是知识科普、营销短视频、数字人口播、图生视频等场景。售前上可以把它讲成一个“可替换模型和工作流的 AIGC 视频工厂原型”,但生产级落地仍要重点评估素材版权、生成质量、审核合规、成本和批量稳定性。

1. 项目概览

维度信息
项目AIDC-AI/Pixelle-Video
定位AI 全自动短视频引擎
主要语言Python
开源协议Apache-2.0
创建时间2025-11-07
最近推送2026-06-14
GitHub 热度2026-06-30 查询:约 23.9k stars、3.4k forks、140 open issues
运行入口Windows 整合包或 uv run streamlit run web/app.py
默认界面Streamlit Web UI,默认 http://localhost:8501

Pixelle-Video 的核心不是单一模型,而是一条短视频生产流水线。官方 README 将流程概括为“文案生成 -> 配图规划 -> 逐帧处理 -> 视频合成”,并在 WebUI 中把 LLM、图像/视频生成、TTS、BGM、模板、尺寸等能力拆成可配置模块。

关键示意图:

2. 它主要能做什么

能力说明售前价值
主题到视频输入主题后自动生成解说词、分镜、配图/视频、语音和成片快速证明“内容生产自动化”可行
固定文案生成使用已有文案跳过 AI 写稿,直接进入配音与画面生成适合企业已有内容库、课程稿、营销稿
图像/视频生成支持 ComfyUI、RunningHub,以及 DashScope、OpenAI、ARK、Kling 等直连 API可按客户已有模型供应商替换底层能力
TTS/音色支持 Edge-TTS、Index-TTS 等工作流,部分模式支持参考音频可演示品牌口播、讲解音频、声音克隆
模板系统static_.htmlimage_.htmlvideo_*.html 等模板可以定制企业品牌视频样式
多尺寸输出竖屏、横屏、方形等覆盖抖音/视频号/小红书/官网/大屏等渠道
扩展模块数字人口播、图生视频、动作迁移、自定义素材适合做“AI 内容中台”的扩展 demo

3. 适用场景

场景适配度典型客户
企业短视频批量生产市场部、新媒体团队、电商运营
知识科普/培训视频教育、企业培训、政企宣传
数字人口播 demo中高品牌宣传、客服培训、出海内容
本地 AIGC 工作流演示有私有化、模型替换、工作流编排需求的客户
严肃广告片/影视级制作中低对镜头语言、审美一致性、版权审核要求极高的团队
高并发 SaaS 生产平台需要二次开发任务队列、计费、审查、权限、监控

售前最推荐的切入方式是:先不把它包装成“成熟剪辑 SaaS”,而是包装成“可快速落地的 AIGC 视频流水线参考实现”。客户如果问“我们能不能把企业知识库、商品库、营销文案自动变成短视频”,Pixelle-Video 很适合做可视化 PoC。

4. 不太适合的场景

不适合点原因
对成片审美有强导演控制项目更偏自动化流水线,精细镜头调度和人工后期仍需要专业工具
对合规审核要求极高生成内容需要额外接入敏感词、版权、肖像权、素材来源和内容审核
大规模商用并发官方重点是 WebUI/本地工作流,生产队列、弹性资源、失败补偿需要自建
客户完全无模型预算虽然可用本地 Ollama + ComfyUI,但实际效果与速度取决于本地硬件和模型能力

5. 架构与集成理解

Pixelle-Video 可以拆成五层:

  1. 内容策划层:LLM 根据主题或固定文案生成脚本、分镜、提示词。
  2. 媒体生成层:调用 ComfyUI/RunningHub 或直连图像、视频模型。
  3. 语音层:TTS 工作流生成旁白,支持参考音频和多语言音色能力。
  4. 模板渲染层:HTML 模板决定画面布局、字幕、背景、媒体呈现。
  5. 视频合成层:依赖 ffmpeg 等工具生成最终视频文件。

对客户讲解时,重点强调“每一层都可以替换”:企业可以用自己的大模型、自己的云厂商媒体模型、自己的模板系统、自己的审核系统。这也是它相比封闭式短视频工具更有售前价值的地方。

6. 怎么用

Windows 用户可以直接下载官方 release 的一键整合包,解压后运行 start.bat,浏览器打开 http://localhost:8501

源码方式:

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

首次使用需要在 WebUI 配置:

配置项作用
LLM API生成文案、分镜、提示词
ComfyUI / RunningHub通过工作流生成图像、视频或语音
API 媒体模型直连 OpenAI、DashScope、Seedream、Seedance、Kling 等
TTS 工作流选择 Edge-TTS、Index-TTS 或自定义语音流程
模板与尺寸选择竖屏/横屏/方形模板,确定输出样式

7. 售前可以怎么讲

一句话定位:

“Pixelle-Video 是一个开源的 AI 短视频生产流水线,可以把主题、脚本或企业素材自动转成带画面、旁白、BGM 和模板包装的视频。”

客户价值话术:

客户痛点Pixelle-Video 对应价值
短视频制作依赖剪辑人力自动拆解文案、配图、配音、合成,降低第一版成片成本
多平台内容更新频率高适合快速生成多版本、多尺寸、多主题内容
企业希望复用已有模型资产支持多模型供应商和 ComfyUI 工作流,利于接入现有 AI 基座
品牌视觉要统一模板机制可做企业固定版式、字幕和视觉风格
希望私有化或本地演示Python + Streamlit + ffmpeg 结构清晰,便于 PoC 和二开

8. Demo/PoC 建议

PoC 项验收方式
主题到视频给 5 个真实业务主题,生成竖屏视频,评估文案可用率和生成时长
固定文案转视频使用客户已有培训/营销文案,测试画面匹配度和字幕准确性
品牌模板制作一个企业模板,验证 Logo、色彩、字幕规范是否可控
模型替换分别接入本地 ComfyUI 与云端媒体 API,比较成本、速度、质量
审核流程接入人工确认或内容审核节点,评估发布前风控闭环

建议指标:

指标说明
单条视频生成耗时按 30 秒、60 秒、90 秒视频分别统计
成片一次通过率不需要人工重生成即可使用的比例
单条成本LLM、图像/视频、TTS、云算力成本拆开算
模板复用效率新主题套用企业模板的速度
人工节省与传统剪辑流程对比首版制作时间

9. 常见客户问题

问题回答建议
它能直接商用吗?代码是 Apache-2.0,但商用还要看接入模型、TTS 音色、素材和生成内容的授权与合规。
能私有化吗?可以,本地 ComfyUI/Ollama/ffmpeg 路线适合���有化 PoC;生产化需补队列、权限、日志、审查。
效果是否稳定?流水线稳定性取决于模型服务、网络、提示词、模板和重试机制,需要用真实业务样本压测。
能做数字人吗?官方已有数字人口播扩展展示,但具体口型、形象一致性和版权授权要单独验证。
和 MoneyPrinterTurbo 区别?两者都可做短视频自动化。Pixelle-Video 更强调 ComfyUI/RunningHub/直连媒体 API 的原子能力组合和 WebUI 配置。

10. 风险和注意事项

  1. 内容合规:AI 文案、图片、视频、配音都可能产生事实错误、敏感内容或版权争议。
  2. 模型依赖:项目本身是编排工具,最终质量高度依赖 LLM、图像模型、视频模型和 TTS。
  3. 成本不可忽略:视频生成模型成本和时延可能远高于文本生成。
  4. 生产工程能力不足:大客户落地通常需要任务队列、用户权限、素材库、审核流、失败重试和监控。
  5. 开源项目更新快:2025-12 到 2026-06 更新频繁,二开时要固定版本并管理依赖。

11. 我的售前判断

Pixelle-Video 非常适合做“AI 内容生产自动化”的客户演示,尤其当客户已经对短视频运营、知识科普、教育培训、营销素材批量生产有明确需求时,它能快速把抽象的 AIGC 能力变成可看的成片。

它的最大价值在于“流水线拼装能力”,而不是某个单点模型效果。售前推进时建议把它作为 PoC 原型:用客户真实主题生成 3-5 条视频,让客户看到流程、成本和人效提升,再讨论是否要二开成企业级系统。不要一开始就承诺影视级质量或大规模自动发布。

12. 参考资料

  • GitHub: https://github.com/AIDC-AI/Pixelle-Video
  • 官方文档: https://aidc-ai.github.io/Pixelle-Video/zh
  • Releases: https://github.com/AIDC-AI/Pixelle-Video/releases
  • 许可证: https://github.com/AIDC-AI/Pixelle-Video/blob/main/LICENSE