ViMax

← 返回项目列表

ViMax 是一个面向“长叙事、多镜头、一致性”的 Agentic Video Generation 框架，目标是把导演、编剧、制片和视频生成器整合成一个多智能体视频创作系统。它不是单一的视频生成模型，而是围绕 Idea2Video、Novel2Video、Script2Video、AutoCameo 等流程，对脚本理解、分镜设计、参考图选择、角色/环境一致性检查、图像/视频生成和最终组装进行自动化编排。售前上，它适合用于“AI 视频从短片段走向完整故事/营销片/小说改编”的方案讨论，但当前更适合 PoC 和研究型验证，不宜直接承诺生产级内容平台。

1. 项目概览

维度	信息
项目	HKUDS/ViMax
官方标题	ViMax: Agentic Video Generation
官方描述	Director, Screenwriter, Producer, and Video Generator All-in-One
论文	arXiv:2606.07649 ViMax: Agentic Video Generation
核心问题	现有视频生成工具多只能生成短片段，缺少叙事结构、角色一致性、场景连续性和音画协同
核心能力	多智能体长视频生成、RAG 长剧本设计、分镜/镜头规划、参考图选择、一致性校验、多镜头并行生成
主要流程	Idea2Video、Novel2Video、Script2Video、AutoCameo
交互方式	Python 脚本入口 + Agent Loop + TUI
环境	Python 3.12，uv 管理，Linux/Windows
主要依赖	LangChain、OpenAI SDK、Google GenAI、FAISS、MoviePy、OpenCV、PySceneDetect、Pillow 等
License	MIT
信息检查时间	2026-06-30

论文摘要里把问题说得很清楚：长视频生成需要系统性的叙事规划和视觉一致性，而当前短片段生成方法通常只能生成孤立序列，缺少跨场景的角色/环境一致性机制。ViMax 的设计就是用多智能体协作来协商叙事决策、视觉连续性和生产质量。

2. 项目自带示意图和 Demo

2.1 项目主图

2.2 README 中的官方视频 Demo

README 中嵌入了多个 github.com/user-attachments 视频，覆盖从零生成的不同题材片段，例如水下、动物、天空城客串、猫咪客串等。Obsidian 对远程 video 的渲染不一定稳定，建议演示时打开 GitHub README 页面播放：

2.3 多智能体视频生成流水线

README 中的架构示意是 HTML 表格形式，核心可以整理为：

flowchart TD A["输入层
创意 / 剧本 / 小说 / Prompt / 参考图 / 风格 / 配置"] --> B["中央调度
Agent Scheduling / Stage Transitions / Resource Management / Retry"] B --> C["剧本理解
角色与环境提取 / 场景边界 / 风格意图"] B --> D["场景与镜头规划
Storyboard / Shot List / Key Frames / Beats"] C --> E["视觉资产规划
参考图选择 / 风格引导 / Prompt Conditioning"] D --> E E --> F["资产索引
Frames & Refs Catalog / Embeddings / Retrieval"] E --> G["一致性与连续性
角色追踪 / 环境追踪 / Ref Matching / Temporal Coherence"] F --> H["视觉合成与组装
Image Generation / Best Frame Selection / First-Last Frame to Video / Timeline Assembly"] G --> H H --> I["输出层
Frames / Clips / Final Videos / Logs / Working Directory Artifacts"]

3. 它主要能做什么

3.1 从“创意”生成视频：Idea2Video

Idea2Video 面向一句话或一段创意输入。用户描述一个想法、目标受众和风格，ViMax 自动完成：

创意理解
故事结构生成
角色设计
场景划分
分镜规划
图像生成 prompt
视频生成调用
片段组装

示例：

idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"

售前理解：这适合“营销短片概念验证”“儿童教育故事”“品牌小剧场”“产品创意片”的低成本样片生成。

3.2 从“小说/长文本”改编视频：Novel2Video

Novel2Video 是 ViMax 比普通视频生成工具更值得关注的地方。它不是只把一句 prompt 变成几秒视频，而是试图把完整小说或长叙事压缩成分集视频内容。

它会处理：

长文本理解
叙事压缩
关键剧情保留
角色追踪
场景拆分
分镜级视觉改编

论文和 README 都强调 RAG-based long script design engine：通过 RAG 分析小说级长文本，并自动切分为多场景脚本格式，尽量保留关键剧情和角色对话。

售前价值：

网文/短剧/教育故事自动改编。
IP 内容快速可视化。
长文本内容变成视频样片。
帮内容团队降低前期分镜和脚本改编成本。

3.3 从“剧本”生成视频：Script2Video

Script2Video 面向已经有剧本的客户。它允许用户提供 screenplay，并设定风格、节奏、镜头数量等要求。

示例输入是类似影视剧本格式：

EXT. SCHOOL GYM - DAY
A group of students are practicing basketball in the gym...
John: I'm going to score a basket!
Jane: Good job, John!

同时用户可以加要求：

Fast-paced with no more than 20 shots.

售前价值：

客户已有脚本或文案时，可以快速生成视觉化样片。
适合广告脚本、培训脚本、短剧脚本、品牌故事。
能让客户在拍摄前预览叙事节奏和镜头感觉。

3.4 用照片生成客串视频：AutoCameo

AutoCameo 的概念是上传自己或宠物的照片，让这个角色出现在创意剧本和电影级镜头中。它本质上瞄准的是个性化互动视频：

个人客串
宠物客串
品牌代言人/数字分身
粉丝互动内容

售前上可用于娱乐营销、活动传播、教育互动和短剧个性化。但这里也必须提醒客户：肖像权、授权、换脸/身份滥用、内容合规要重点审查。

3.5 多智能体生产流程

ViMax 的重点不是某个模型，而是多智能体生产流程：

阶段	做什么	为什么重要
Script Understanding	提取角色、环境、场景边界、风格意图	让系统知道故事里“谁在哪里做什么”
Scene & Shot Planning	生成分镜、镜头列表、关键帧、节奏点	把文本叙事转为可拍摄的镜头语言
Visual Asset Planning	选择参考图、生成视觉 prompt	提高角色/环境一致性
Asset Indexing	维护帧、参考图、embedding、可复用素材	长视频跨场景复用视觉资产
Consistency & Continuity	跟踪角色、环境和时间连续性	解决 AI 视频常见的“人变了、场景乱了”
Visual Synthesis & Assembly	图像生成、最佳帧选择、首尾帧转视频、时间线组装	从素材走向最终视频

3.6 用 VLM/MLLM 做一致性检查

README 提到：ViMax 会并行生成多张图像，并通过 MLLM/VLM 选择最一致的图像作为视频首帧，以模仿人类创作者的工作流。

这对长视频非常关键，因为只靠 prompt 很难保持：

同一角色长相一致。
同一场景环境一致。
多角色空间位置合理。
前后镜头不突兀。

售前��达：

ViMax 的思路不是让模型一次生成完整长视频，而是把长视频拆成镜头、参考图和一致性检查的生产流水线，降低长视频失控风险。

4. 适用场景

4.1 短剧/网文/小说 IP 可视化

客户：

短剧公司
网文平台
IP 运营团队
MCN/内容工作室

痛点：

小说到短剧需要编剧、分镜、导演和美术前期投入。
投拍前很难快速看到视觉效果。
IP 多，但试错成本高。

ViMax 切入：

Novel2Video 做剧情压缩和分镜。
Script2Video 做指定剧本样片。
用一致性机制维护角色和环境。

PoC 方式：

选 1 个短章节。
生成 3-5 个场景的视频样片。
对比人工脚本/分镜成本。

4.2 品牌营销和广告创意样片

客户：

品牌市场部
广告代理公司
内容创意团队

痛点：

创意提案需要样片，但拍摄成本高。
客户往往要看“感觉”，只看文字不够。
多版本创意需要快速试错。

ViMax 切入：

Idea2Video 从创意生成故事片段。
Script2Video 把广告脚本视觉化。
AutoCameo 做互动传播玩法。

适合产出：

产品故事短片。
活动预热视频。
品牌概念片。
社媒互动视频。

4.3 教育/儿童故事视频

客户：

教育内容公司
绘本/儿童故事平台
家庭教育产品

痛点：

大量故事需要视频化。
要保持角色稳定、风格统一、场景简单。
内容生产预算有限。

ViMax 切入：

Idea2Video 生成儿童故事。
Novel2Video 改编绘本/章节。
控制场景数、风格和镜头数量。

4.4 游戏/动画前期概念验证

客户：

游戏公司
动画工作室
虚拟人/数字内容团队

痛点：

世界观、角色、剧情需要早期可视化。
分镜和概念预览成本高。
想快速测试不同镜头节奏。

ViMax 切入：

用脚本和角色设定生成概念视频。
用参考图和一致性检查维持角色形象。
作为 previsualization 工具，而不是最终生产工具。

4.5 个人化互动视频/活动传播

客户：

文旅活动
品牌 Campaign
粉丝互动平台
宠物/亲子内容产品

痛点：

用户希望把自己放进故事里。
个性化视频人工制作成本高。

ViMax 切入：

AutoCameo 用用户照片生成客串视频。
可做活动海报/短视频扩散。

必须提醒：

肖像授权。
未成年人保护。
内容安全审查。
深度伪造风险。

5. 不太适合的场景

场景	原因
直接生产影视级成片	当前更像研究/PoC 框架，最终成片仍需专业后期和人工审片
对人物一致性要求极高的商业广告	虽然有一致性机制，但生成模型仍可能漂移
严格合规内容，如医疗、金融、政务宣传	AI 生成视频事实、形象和表达都需严格审核
没有 API key 或生成模型资源的团队	ViMax 依赖 LLM、图像生成器、视频生成器 API/模型
想要普通剪辑软件 UI 的业务人员	当前主要是代码和 TUI，不是成熟 SaaS 产品
长篇连续剧直接自动化量产	长视频连续性仍是难题，适合分段 PoC，不宜直接承诺量产

6. 核心能力清单

能力	说明	售前价值
Idea2Video	从创意到完整视频故事	适合快速创意样片
Novel2Video	小说/长文本到分集视频	适合 IP 可视化和短剧前期
Script2Video	剧本到视频	适合广告脚本、培训脚本、短剧脚本
AutoCameo	用照片生成客串视频	适合互动营销和个性化内容
RAG 长剧本生成	长文本分析和多场景剧本切分	解决长文本改编问题
分镜设计	用电影语言规划镜头级 storyboard	降低分镜门槛
多机位模拟	模拟多机位拍摄	提升观看体验和镜头多样性
参考图选择	选择当前视频首帧和历史时间线参考图	提升角色/环境一致性
一致性检查	并行生成多图，用 VLM/MLLM 选最佳一致图	降低失控画面
并行镜头生成	同机位连续镜头并行处理	提升生产效率
TUI / Agent Loop	交互式规划、修订、渲染控制、session reuse	更适合人工参与创作过程
配置化 Provider	LLM、image、video、embedding、reranker 可配置	便于接不同模型服务

7. 架构/部署/集成方式

7.1 安装

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

要求：

Python >= 3.12
uv
Linux 或 Windows
LLM API
Image generation API
Video generation API

7.2 Agent TUI 配置

configs/agent.local.yaml：

llm:
  model_provider: openai
  model: 
  base_url: 
  api_key: ''

image:
  model: 
  base_url: 
  api_key: ''

video:
  model: 
  base_url: 
  api_key: ''

embedding:
  model_provider: openai
  model: 
  base_url: 
  api_key: ''

reranker:
  model: 
  base_url: 
  api_key: ''

启动：

vimax tui
vimax tui new
vimax tui resume
vimax tui resume

也可以通过环境变量传入 key，例如 VIMAX_LLM_API_KEY、VIMAX_IMAGE_API_KEY、VIMAX_VIDEO_API_KEY。

7.3 直接 pipeline 入口

Idea2Video：

python main_idea2video.py

Script2Video：

python main_script2video.py

对应配置文件：

configs/idea2video.yaml
configs/script2video.yaml

README 示例里使用 OpenRouter / Gemini、Google 图像生成和 Veo 视频生成路径。实际 PoC 时，需要根据客户可用 API 和预算替换。

8. 售前可以怎么讲

面向业务方

现在大多数 AI 视频工具适合做几秒片段，但真正的品牌片、短剧、小说改编、培训故事需要剧本、角色、分镜、镜头和连续性。ViMax 的价值在于把这些制作环节拆成多智能体流程，让 AI 不只是“生成一段视频”，而是像小型制作团队一样先规划故事，再设计镜头，最后生成和组装画面。

业务价值：

缩短从创意到样片的周期。
降低短剧/广告/教育内容前期试错成本。
让非专业团队也能生成较完整的视觉叙事草案。
为内容生产团队提供自动分镜和视频预演能力。

面向技术方

ViMax 是多 Agent 视频生成框架。上层有 Idea2Video、Novel2Video、Script2Video、AutoCameo；中间做脚本理解、分镜规划、参考图选择、一致性追踪；底层接 LLM、图像生成器、视频生成器、embedding/reranker 和视频处理工具。它适合评估“长叙事视频生成”技术路线，而不是直接替代单一视频模型。

技术价值：

框架化解决长视频生成问题。
不是绑定单一模型，Provider 可配置。
用 RAG 和 asset indexing 支撑长文本/长时间线。
用 VLM 一致性检查减少画面漂移。

9. 常见客户问题

问题	回答建议
ViMax 和 Runway/Kling/Veo 有什么区别？	Runway/Kling/Veo 更像底层视频生成模型；ViMax 是多 Agent 生产框架，可以调用图像/视频生成器完成脚本、分镜、一致性、组装等流程。
能直接生成几分钟长视频吗？	目标是面向长叙事和多镜头，但实际质量取决于底层模型、API、脚本复杂度和人工干预。售前应先做短章节 PoC。
能保持角色一致吗？	ViMax 有参考图选择、角色/环境追踪和 VLM 一致性检查机制，但不能保证商业级百分百一致，需要人工审片。
是否适合中文短剧？	有中文 README，理论上可处理中文输入，但中文��本质量、角色抽取、提示词和底层模型支持需要用中文样本验证。
成本会不会很高？	会。长视频会调用多轮 LLM、图像生成和视频生成 API，必须按场景数、镜头数、重试次数估算成本。
现在是成熟产品吗？	更像研究型开源框架和 PoC 工具，有 TUI 和 pipeline，但不是面向业务人员的成熟 SaaS。

10. PoC 建议

PoC 1：小说章节转短视频

输入：

一段 1000-3000 字小说章节。
目标风格：国风、动漫、写实、儿童绘本等。
限制：3-5 个场景，10-20 个镜头。

验证：

是否保留关键剧情。
角色是否前后一致。
场景和镜头是否合理。
视频片段是否能表达故事。

成功指标：

人工改写脚本时间减少。
生成分镜可被内容团队采用。
至少 60%-70% 镜头可进入后续精修。

PoC 2：广告脚本可视化

输入：

30 秒产品广告脚本。
品牌调性和目标人群。
产品图或参考图。

验证：

是否能生成符合品牌调性的 storyboard。
是否能维持产品/角色形象。
是否能输出可用于提案的样片。

PoC 3：互动客串视频

输入：

用户照片或宠物照片。
一个短故事脚本。
风格：动漫/奇幻/城市/校园。

验证：

客串角色是否可识别。
是否存在肖像误用风险。
内容安全审查流程是否可接入。

11. 风险和注意事项

风险	说明	应对建议
底层模型依赖	ViMax 依赖 LLM、图像生成、视频生成 API	PoC 前确认可用模型、价格、速率限制
成本不可忽视	多镜头会触发大量图片/视频生成和重试	设置镜头数上限和预算
一致性仍不确定	框架有一致性机制，但视频模型仍可能漂移	人工审片 + 参考图锁定 + 多次采样
版权和肖像风险	AutoCameo 和 IP 改编涉及授权	建立授权、内容安全、合规流程
非成熟 SaaS	目前主要是代码/TUI/脚本	需要技术团队二次封装
生产质量不稳定	AI 视频可能有物理错误、画面畸变、风格跳变	定位为样片/预演/辅助创作，而不是最终成片
中文内容效果待验证	中文剧本、中文文化语境取决于模型能力	用中文真实样本评估

12. 我的售前判断

ViMax 很适合用来讲“AI 视频的下一阶段”：从短 prompt 生成几秒片段，走向具备剧本、分镜、角色连续性和多镜头调度的 Agentic Video Production。

它最适合的售前定位是：

长叙事视频生成 PoC 框架，而不是成熟视频 SaaS。

推荐重点客户：

短剧/网文/小说平台：验证 IP 内容自动可视化。
广告/品牌团队：快速生成广告脚本样片。
教育内容团队：把故事和课程内容视频化。
AI 视频平台团队：参考其多 Agent 架构做产品化。

不建议对客户说“ViMax 可以直接替代导演、编剧、剪辑和后期”。更稳妥的话术是：

ViMax 可以把前期创意、脚本、分镜和样片生成速度大幅提前，让人类创作者把精力放在选择、审美和最终质量控制上。

1. 项目概览

2. 项目自带示意图和 Demo

2.1 项目主图

2.2 README 中的官方视频 Demo

2.3 多智能体视频生成流水线

3. 它主要能做什么

3.1 从“创意”生成视频：Idea2Video

3.2 从“小说/长文本”改编视频：Novel2Video

3.3 从“剧本”生成视频：Script2Video

3.4 用照片生成客串视频：AutoCameo

3.5 多智能体生产流程

3.6 用 VLM/MLLM 做一致性检查

4. 适用场景

4.1 短剧/网文/小说 IP 可视化

4.2 品牌营销和广告创意样片

4.3 教育/儿童故事视频

4.4 游戏/动画前期概念验证

4.5 个人化互动视频/活动传播

5. 不太适合的场景

6. 核心能力清单

7. 架构/部署/集成方式

7.1 安装

7.2 Agent TUI 配置

7.3 直接 pipeline 入口

8. 售前可以怎么讲

面向业务方

面向技术方

9. 常见客户问题

10. PoC 建议

PoC 1：小说章节转短视频

PoC 2：广告脚本可视化

PoC 3：互动客串视频

11. 风险和注意事项

12. 我的售前判断

13. 参考资料