1. 项目概览
| 维度 | 信息 |
|---|---|
| 项目 | HKUDS/ViMax |
| 官方标题 | ViMax: Agentic Video Generation |
| 官方描述 | Director, Screenwriter, Producer, and Video Generator All-in-One |
| 论文 | arXiv:2606.07649 ViMax: Agentic Video Generation |
| 核心问题 | 现有视频生成工具多只能生成短片段,缺少叙事结构、角色一致性、场景连续性和音画协同 |
| 核心能力 | 多智能体长视频生成、RAG 长剧本设计、分镜/镜头规划、参考图选择、一致性校验、多镜头并行生成 |
| 主要流程 | Idea2Video、Novel2Video、Script2Video、AutoCameo |
| 交互方式 | Python 脚本入口 + Agent Loop + TUI |
| 环境 | Python 3.12,uv 管理,Linux/Windows |
| 主要依赖 | LangChain、OpenAI SDK、Google GenAI、FAISS、MoviePy、OpenCV、PySceneDetect、Pillow 等 |
| License | MIT |
| 信息检查时间 | 2026-06-30 |
论文摘要里把问题说得很清楚:长视频生成需要系统性的叙事规划和视觉一致性,而当前短片段生成方法通常只能生成孤立序列,缺少跨场景的角色/环境一致性机制。ViMax 的设计就是用多智能体协作来协商叙事决策、视觉连续性和生产质量。
2. 项目自带示意图和 Demo
2.1 项目主图

2.2 README 中的官方视频 Demo
README 中嵌入了多个 github.com/user-attachments 视频,覆盖从零生成的不同题材片段,例如水下、动物、天空城客串、猫咪客串等。Obsidian 对远程 video 的渲染不一定稳定,建议演示时打开 GitHub README 页面播放:
2.3 多智能体视频生成流水线
README 中的架构示意是 HTML 表格形式,核心可以整理为:
创意 / 剧本 / 小说 / Prompt / 参考图 / 风格 / 配置"] --> B["中央调度
Agent Scheduling / Stage Transitions / Resource Management / Retry"] B --> C["剧本理解
角色与环境提取 / 场景边界 / 风格意图"] B --> D["场景与镜头规划
Storyboard / Shot List / Key Frames / Beats"] C --> E["视觉资产规划
参考图选择 / 风格引导 / Prompt Conditioning"] D --> E E --> F["资产索引
Frames & Refs Catalog / Embeddings / Retrieval"] E --> G["一致性与连续性
角色追踪 / 环境追踪 / Ref Matching / Temporal Coherence"] F --> H["视觉合成与组装
Image Generation / Best Frame Selection / First-Last Frame to Video / Timeline Assembly"] G --> H H --> I["输出层
Frames / Clips / Final Videos / Logs / Working Directory Artifacts"]
3. 它主要能做什么
3.1 从“创意”生成视频:Idea2Video
Idea2Video 面向一句话或一段创意输入。用户描述一个想法、目标受众和风格,ViMax 自动完成:
- 创意理解
- 故事结构生成
- 角色设计
- 场景划分
- 分镜规划
- 图像生成 prompt
- 视频生成调用
- 片段组装
示例:
idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"
售前理解:这适合“营销短片概念验证”“儿童教育故事”“品牌小剧场”“产品创意片”的低成本样片生成。
3.2 从“小说/长文本”改编视频:Novel2Video
Novel2Video 是 ViMax 比普通视频生成工具更值得关注的地方。它不是只把一句 prompt 变成几秒视频,而是试图把完整小说或长叙事压缩成分集视频内容。
它会处理:
- 长文本理解
- 叙事压缩
- 关键剧情保留
- 角色追踪
- 场景拆分
- 分镜级视觉改编
论文和 README 都强调 RAG-based long script design engine:通过 RAG 分析小说级长文本,并自动切分为多场景脚本格式,尽量保留关键剧情和角色对话。
售前价值:
- 网文/短剧/教育故事自动改编。
- IP 内容快速可视化。
- 长文本内容变成视频样片。
- 帮内容团队降低前期分镜和脚本改编成本。
3.3 从“剧本”生成视频:Script2Video
Script2Video 面向已经有剧本的客户。它允许用户提供 screenplay,并设定风格、节奏、镜头数量等要求。
示例输入是类似影视剧本格式:
EXT. SCHOOL GYM - DAY
A group of students are practicing basketball in the gym...
John: I'm going to score a basket!
Jane: Good job, John!
同时用户可以加要求:
Fast-paced with no more than 20 shots.
售前价值:
- 客户已有脚本或文案时,可以快速生成视觉化样片。
- 适合广告脚本、培训脚本、短剧脚本、品牌故事。
- 能让客户在拍摄前预览叙事节奏和镜头感觉。
3.4 用照片生成客串视频:AutoCameo
AutoCameo 的概念是上传自己或宠物的照片,让这个角色出现在创意剧本和电影级镜头中。它本质上瞄准的是个性化互动视频:
- 个人客串
- 宠物客串
- 品牌代言人/数字分身
- 粉丝互动内容
售前上可用于娱乐营销、活动传播、教育互动和短剧个性化。但这里也必须提醒客户:肖像权、授权、换脸/身份滥用、内容合规要重点审查。
3.5 多智能体生产流程
ViMax 的重点不是某个模型,而是多智能体生产流程:
| 阶段 | 做什么 | 为什么重要 |
|---|---|---|
| Script Understanding | 提取角色、环境、场景边界、风格意图 | 让系统知道故事里“谁在哪里做什么” |
| Scene & Shot Planning | 生成分镜、镜头列表、关键帧、节奏点 | 把文本叙事转为可拍摄的镜头语言 |
| Visual Asset Planning | 选择参考图、生成视觉 prompt | 提高角色/环境一致性 |
| Asset Indexing | 维护帧、参考图、embedding、可复用素材 | 长视频跨场景复用视觉资产 |
| Consistency & Continuity | 跟踪角色、环境和时间连续性 | 解决 AI 视频常见的“人变了、场景乱了” |
| Visual Synthesis & Assembly | 图像生成、最佳帧选择、首尾帧转视频、时间线组装 | 从素材走向最终视频 |
3.6 用 VLM/MLLM 做一致性检查
README 提到:ViMax 会并行生成多张图像,并通过 MLLM/VLM 选择最一致的图像作为视频首帧,以模仿人类创作者的工作流。
这对长视频非常关键,因为只靠 prompt 很难保持:
- 同一角色长相一致。
- 同一场景环境一致。
- 多角色空间位置合理。
- 前后镜头不突兀。
售前��达:
ViMax 的思路不是让模型一次生成完整长视频,而是把长视频拆成镜头、参考图和一致性检查的生产流水线,降低长视频失控风险。
4. 适用场景
4.1 短剧/网文/小说 IP 可视化
客户:
- 短剧公司
- 网文平台
- IP 运营团队
- MCN/内容工作室
痛点:
- 小说到短剧需要编剧、分镜、导演和美术前期投入。
- 投拍前很难快速看到视觉效果。
- IP 多,但试错成本高。
ViMax 切入:
- Novel2Video 做剧情压缩和分镜。
- Script2Video 做指定剧本样片。
- 用一致性机制维护角色和环境。
PoC 方式:
- 选 1 个短章节。
- 生成 3-5 个场景的视频样片。
- 对比人工脚本/分镜成本。
4.2 品牌营销和广告创意样片
客户:
- 品牌市场部
- 广告代理公司
- 内容创意团队
痛点:
- 创意提案需要样片,但拍摄成本高。
- 客户往往要看“感觉”,只看文字不够。
- 多版本创意需要快速试错。
ViMax 切入:
- Idea2Video 从创意生成故事片段。
- Script2Video 把广告脚本视觉化。
- AutoCameo 做互动传播玩法。
适合产出:
- 产品故事短片。
- 活动预热视频。
- 品牌概念片。
- 社媒互动视频。
4.3 教育/儿童故事视频
客户:
- 教育内容公司
- 绘本/儿童故事平台
- 家庭教育产品
痛点:
- 大量故事需要视频化。
- 要保持角色稳定、风格统一、场景简单。
- 内容生产预算有限。
ViMax 切入:
- Idea2Video 生成儿童故事。
- Novel2Video 改编绘本/章节。
- 控制场景数、风格和镜头数量。
4.4 游戏/动画前期概念验证
客户:
- 游戏公司
- 动画工作室
- 虚拟人/数字内容团队
痛点:
- 世界观、角色、剧情需要早期可视化。
- 分镜和概念预览成本高。
- 想快速测试不同镜头节奏。
ViMax 切入:
- 用脚本和角色设定生成概念视频。
- 用参考图和一致性检查维持角色形象。
- 作为 previsualization 工具,而不是最终生产工具。
4.5 个人化互动视频/活动传播
客户:
- 文旅活动
- 品牌 Campaign
- 粉丝互动平台
- 宠物/亲子内容产品
痛点:
- 用户希望把自己放进故事里。
- 个性化视频人工制作成本高。
ViMax 切入:
- AutoCameo 用用户照片生成客串视频。
- 可做活动海报/短视频扩散。
必须提醒:
- 肖像授权。
- 未成年人保护。
- 内容安全审查。
- 深度伪造风险。
5. 不太适合的场景
| 场景 | 原因 |
|---|---|
| 直接生产影视级成片 | 当前更像研究/PoC 框架,最终成片仍需专业后期和人工审片 |
| 对人物一致性要求极高的商业广告 | 虽然有一致性机制,但生成模型仍可能漂移 |
| 严格合规内容,如医疗、金融、政务宣传 | AI 生成视频事实、形象和表达都需严格审核 |
| 没有 API key 或生成模型资源的团队 | ViMax 依赖 LLM、图像生成器、视频生成器 API/模型 |
| 想要普通剪辑软件 UI 的业务人员 | 当前主要是代码和 TUI,不是成熟 SaaS 产品 |
| 长篇连续剧直接自动化量产 | 长视频连续性仍是难题,适合分段 PoC,不宜直接承诺量产 |
6. 核心能力清单
| 能力 | 说明 | 售前价值 |
|---|---|---|
| Idea2Video | 从创意到完整视频故事 | 适合快速创意样片 |
| Novel2Video | 小说/长文本到分集视频 | 适合 IP 可视化和短剧前期 |
| Script2Video | 剧本到视频 | 适合广告脚本、培训脚本、短剧脚本 |
| AutoCameo | 用照片生成客串视频 | 适合互动营销和个性化内容 |
| RAG 长剧本生成 | 长文本分析和多场景剧本切分 | 解决长文本改编问题 |
| 分镜设计 | 用电影语言规划镜头级 storyboard | 降低分镜门槛 |
| 多机位模拟 | 模拟多机位拍摄 | 提升观看体验和镜头多样性 |
| 参考图选择 | 选择当前视频首帧和历史时间线参考图 | 提升角色/环境一致性 |
| 一致性检查 | 并行生成多图,用 VLM/MLLM 选最佳一致图 | 降低失控画面 |
| 并行镜头生成 | 同机位连续镜头并行处理 | 提升生产效率 |
| TUI / Agent Loop | 交互式规划、修订、渲染控制、session reuse | 更适合人工参与创作过程 |
| 配置化 Provider | LLM、image、video、embedding、reranker 可配置 | 便于接不同模型服务 |
7. 架构/部署/集成方式
7.1 安装
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync
要求:
- Python >= 3.12
- uv
- Linux 或 Windows
- LLM API
- Image generation API
- Video generation API
7.2 Agent TUI 配置
configs/agent.local.yaml:
llm:
model_provider: openai
model:
base_url:
api_key: ''
image:
model:
base_url:
api_key: ''
video:
model:
base_url:
api_key: ''
embedding:
model_provider: openai
model:
base_url:
api_key: ''
reranker:
model:
base_url:
api_key: ''
启动:
vimax tui
vimax tui new
vimax tui resume
vimax tui resume
也可以通过环境变量传入 key,例如 VIMAX_LLM_API_KEY、VIMAX_IMAGE_API_KEY、VIMAX_VIDEO_API_KEY。
7.3 直接 pipeline 入口
Idea2Video:
python main_idea2video.py
Script2Video:
python main_script2video.py
对应配置文件:
configs/idea2video.yamlconfigs/script2video.yaml
README 示例里使用 OpenRouter / Gemini、Google 图像生成和 Veo 视频生成路径。实际 PoC 时,需要根据客户可用 API 和预算替换。
8. 售前可以怎么讲
面向业务方
现在大多数 AI 视频工具适合做几秒片段,但真正的品牌片、短剧、小说改编、培训故事需要剧本、角色、分镜、镜头和连续性。ViMax 的价值在于把这些制作环节拆成多智能体流程,让 AI 不只是“生成一段视频”,而是像小型制作团队一样先规划故事,再设计镜头,最后生成和组装画面。
业务价值:
- 缩短从创意到样片的周期。
- 降低短剧/广告/教育内容前期试错成本。
- 让非专业团队也能生成较完整的视觉叙事草案。
- 为内容生产团队提供自动分镜和视频预演能力。
面向技术方
ViMax 是多 Agent 视频生成框架。上层有 Idea2Video、Novel2Video、Script2Video、AutoCameo;中间做脚本理解、分镜规划、参考图选择、一致性追踪;底层接 LLM、图像生成器、视频生成器、embedding/reranker 和视频处理工具。它适合评估“长叙事视频生成”技术路线,而不是直接替代单一视频模型。
技术价值:
- 框架化解决长视频生成问题。
- 不是绑定单一模型,Provider 可配置。
- 用 RAG 和 asset indexing 支撑长文本/长时间线。
- 用 VLM 一致性检查减少画面漂移。
9. 常见客户问题
| 问题 | 回答建议 |
|---|---|
| ViMax 和 Runway/Kling/Veo 有什么区别? | Runway/Kling/Veo 更像底层视频生成模型;ViMax 是多 Agent 生产框架,可以调用图像/视频生成器完成脚本、分镜、一致性、组装等流程。 |
| 能直接生成几分钟长视频吗? | 目标是面向长叙事和多镜头,但实际质量取决于底层模型、API、脚本复杂度和人工干预。售前应先做短章节 PoC。 |
| 能保持角色一致吗? | ViMax 有参考图选择、角色/环境追踪和 VLM 一致性检查机制,但不能保证商业级百分百一致,需要人工审片。 |
| 是否适合中文短剧? | 有中文 README,理论上可处理中文输入,但中文���本质量、角色抽取、提示词和底层模型支持需要用中文样本验证。 |
| 成本会不会很高? | 会。长视频会调用多轮 LLM、图像生成和视频生成 API,必须按场景数、镜头数、重试次数估算成本。 |
| 现在是成熟产品吗? | 更像研究型开源框架和 PoC 工具,有 TUI 和 pipeline,但不是面向业务人员的成熟 SaaS。 |
10. PoC 建议
PoC 1:小说章节转短视频
输入:
- 一段 1000-3000 字小说章节。
- 目标风格:国风、动漫、写实、儿童绘本等。
- 限制:3-5 个场景,10-20 个镜头。
验证:
- 是否保留关键剧情。
- 角色是否前后一致。
- 场景和镜头是否合理。
- 视频片段是否能表达故事。
成功指标:
- 人工改写脚本时间减少。
- 生成分镜可被内容团队采用。
- 至少 60%-70% 镜头可进入后续精修。
PoC 2:广告脚本可视化
输入:
- 30 秒产品广告脚本。
- 品牌调性和目标人群。
- 产品图或参考图。
验证:
- 是否能生成符合品牌调性的 storyboard。
- 是否能维持产品/角色形象。
- 是否能输出可用于提案的样片。
PoC 3:互动客串视频
输入:
- 用户照片或宠物照片。
- 一个短故事脚本。
- 风格:动漫/奇幻/城市/校园。
验证:
- 客串角色是否可识别。
- 是否存在肖像误用风险。
- 内容安全审查流程是否可接入。
11. 风险和注意事项
| 风险 | 说明 | 应对建议 |
|---|---|---|
| 底层模型依赖 | ViMax 依赖 LLM、图像生成、视频生成 API | PoC 前确认可用模型、价格、速率限制 |
| 成本不可忽视 | 多镜头会触发大量图片/视频生成和重试 | 设置镜头数上限和预算 |
| 一致性仍不确定 | 框架有一致性机制,但视频模型仍可能漂移 | 人工审片 + 参考图锁定 + 多次采样 |
| 版权和肖像风险 | AutoCameo 和 IP 改编涉及授权 | 建立授权、内容安全、合规流程 |
| 非成熟 SaaS | 目前主要是代码/TUI/脚本 | 需要技术团队二次封装 |
| 生产质量不稳定 | AI 视频可能有物理错误、画面畸变、风格跳变 | 定位为样片/预演/辅助创作,而不是最终成片 |
| 中文内容效果待验证 | 中文剧本、中文文化语境取决于模型能力 | 用中文真实样本评估 |
12. 我的售前判断
ViMax 很适合用来讲“AI 视频的下一阶段”:从短 prompt 生成几秒片段,走向具备剧本、分镜、角色连续性和多镜头调度的 Agentic Video Production。
它最适合的售前定位是:
长叙事视频生成 PoC 框架,而不是成熟视频 SaaS。
推荐重点客户:
- 短剧/网文/小说平台:验证 IP 内容自动可视化。
- 广告/品牌团队:快速生成广告脚本样片。
- 教育内容团队:把故事和课程内容视频化。
- AI 视频平台团队:参考其多 Agent 架构做产品化。
不建议对客户说“ViMax 可以直接替代导演、编剧、剪辑和后期”。更稳妥的话术是:
ViMax 可以把前期创意、脚本、分镜和样片生成速度大幅提前,让人类创作者把精力放在选择、审美和最终质量控制上。