← 返回项目列表
ViMax 是一个面向“长叙事、多镜头、一致性”的 Agentic Video Generation 框架,目标是把导演、编剧、制片和视频生成器整合成一个多智能体视频创作系统。它不是单一的视频生成模型,而是围绕 Idea2Video、Novel2Video、Script2Video、AutoCameo 等流程,对脚本理解、分镜设计、参考图选择、角色/环境一致性检查、图像/视频生成和最终组装进行自动化编排。售前上,它适合用于“AI 视频从短片段走向完整故事/营销片/小说改编”的方案讨论,但当前更适合 PoC 和研究型验证,不宜直接承诺生产级内容平台。

1. 项目概览

维度信息
项目HKUDS/ViMax
官方标题ViMax: Agentic Video Generation
官方描述Director, Screenwriter, Producer, and Video Generator All-in-One
论文arXiv:2606.07649 ViMax: Agentic Video Generation
核心问题现有视频生成工具多只能生成短片段,缺少叙事结构、角色一致性、场景连续性和音画协同
核心能力多智能体长视频生成、RAG 长剧本设计、分镜/镜头规划、参考图选择、一致性校验、多镜头并行生成
主要流程Idea2Video、Novel2Video、Script2Video、AutoCameo
交互方式Python 脚本入口 + Agent Loop + TUI
环境Python 3.12,uv 管理,Linux/Windows
主要依赖LangChain、OpenAI SDK、Google GenAI、FAISS、MoviePy、OpenCV、PySceneDetect、Pillow 等
LicenseMIT
信息检查时间2026-06-30

论文摘要里把问题说得很清楚:长视频生成需要系统性的叙事规划和视觉一致性,而当前短片段生成方法通常只能生成孤立序列,缺少跨场景的角色/环境一致性机制。ViMax 的设计就是用多智能体协作来协商叙事决策、视觉连续性和生产质量。

2. 项目自带示意图和 Demo

2.1 项目主图

2.2 README 中的官方视频 Demo

README 中嵌入了多个 github.com/user-attachments 视频,覆盖从零生成的不同题材片段,例如水下、动物、天空城客串、猫咪客串等。Obsidian 对远程 video 的渲染不一定稳定,建议演示时打开 GitHub README 页面播放:

2.3 多智能体视频生成流水线

README 中的架构示意是 HTML 表格形式,核心可以整理为:

flowchart TD A["输入层
创意 / 剧本 / 小说 / Prompt / 参考图 / 风格 / 配置"] --> B["中央调度
Agent Scheduling / Stage Transitions / Resource Management / Retry"] B --> C["剧本理解
角色与环境提取 / 场景边界 / 风格意图"] B --> D["场景与镜头规划
Storyboard / Shot List / Key Frames / Beats"] C --> E["视觉资产规划
参考图选择 / 风格引导 / Prompt Conditioning"] D --> E E --> F["资产索引
Frames & Refs Catalog / Embeddings / Retrieval"] E --> G["一致性与连续性
角色追踪 / 环境追踪 / Ref Matching / Temporal Coherence"] F --> H["视觉合成与组装
Image Generation / Best Frame Selection / First-Last Frame to Video / Timeline Assembly"] G --> H H --> I["输出层
Frames / Clips / Final Videos / Logs / Working Directory Artifacts"]

3. 它主要能做什么

3.1 从“创意”生成视频:Idea2Video

Idea2Video 面向一句话或一段创意输入。用户描述一个想法、目标受众和风格,ViMax 自动完成:

  • 创意理解
  • 故事结构生成
  • 角色设计
  • 场景划分
  • 分镜规划
  • 图像生成 prompt
  • 视频生成调用
  • 片段组装

示例:

idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"

售前理解:这适合“营销短片概念验证”“儿童教育故事”“品牌小剧场”“产品创意片”的低成本样片生成。

3.2 从“小说/长文本”改编视频:Novel2Video

Novel2Video 是 ViMax 比普通视频生成工具更值得关注的地方。它不是只把一句 prompt 变成几秒视频,而是试图把完整小说或长叙事压缩成分集视频内容。

它会处理:

  • 长文本理解
  • 叙事压缩
  • 关键剧情保留
  • 角色追踪
  • 场景拆分
  • 分镜级视觉改编

论文和 README 都强调 RAG-based long script design engine:通过 RAG 分析小说级长文本,并自动切分为多场景脚本格式,尽量保留关键剧情和角色对话。

售前价值:

  • 网文/短剧/教育故事自动改编。
  • IP 内容快速可视化。
  • 长文本内容变成视频样片。
  • 帮内容团队降低前期分镜和脚本改编成本。

3.3 从“剧本”生成视频:Script2Video

Script2Video 面向已经有剧本的客户。它允许用户提供 screenplay,并设定风格、节奏、镜头数量等要求。

示例输入是类似影视剧本格式:

EXT. SCHOOL GYM - DAY
A group of students are practicing basketball in the gym...
John: I'm going to score a basket!
Jane: Good job, John!

同时用户可以加要求:

Fast-paced with no more than 20 shots.

售前价值:

  • 客户已有脚本或文案时,可以快速生成视觉化样片。
  • 适合广告脚本、培训脚本、短剧脚本、品牌故事。
  • 能让客户在拍摄前预览叙事节奏和镜头感觉。

3.4 用照片生成客串视频:AutoCameo

AutoCameo 的概念是上传自己或宠物的照片,让这个角色出现在创意剧本和电影级镜头中。它本质上瞄准的是个性化互动视频:

  • 个人客串
  • 宠物客串
  • 品牌代言人/数字分身
  • 粉丝互动内容

售前上可用于娱乐营销、活动传播、教育互动和短剧个性化。但这里也必须提醒客户:肖像权、授权、换脸/身份滥用、内容合规要重点审查。

3.5 多智能体生产流程

ViMax 的重点不是某个模型,而是多智能体生产流程:

阶段做什么为什么重要
Script Understanding提取角色、环境、场景边界、风格意图让系统知道故事里“谁在哪里做什么”
Scene & Shot Planning生成分镜、镜头列表、关键帧、节奏点把文本叙事转为可拍摄的镜头语言
Visual Asset Planning选择参考图、生成视觉 prompt提高角色/环境一致性
Asset Indexing维护帧、参考图、embedding、可复用素材长视频跨场景复用视觉资产
Consistency & Continuity跟踪角色、环境和时间连续性解决 AI 视频常见的“人变了、场景乱了”
Visual Synthesis & Assembly图像生成、最佳帧选择、首尾帧转视频、时间线组装从素材走向最终视频

3.6 用 VLM/MLLM 做一致性检查

README 提到:ViMax 会并行生成多张图像,并通过 MLLM/VLM 选择最一致的图像作为视频首帧,以模仿人类创作者的工作流。

这对长视频非常关键,因为只靠 prompt 很难保持:

  • 同一角色长相一致。
  • 同一场景环境一致。
  • 多角色空间位置合理。
  • 前后镜头不突兀。

售前��达:

ViMax 的思路不是让模型一次生成完整长视频,而是把长视频拆成镜头、参考图和一致性检查的生产流水线,降低长视频失控风险。

4. 适用场景

4.1 短剧/网文/小说 IP 可视化

客户:

  • 短剧公司
  • 网文平台
  • IP 运营团队
  • MCN/内容工作室

痛点:

  • 小说到短剧需要编剧、分镜、导演和美术前期投入。
  • 投拍前很难快速看到视觉效果。
  • IP 多,但试错成本高。

ViMax 切入:

  • Novel2Video 做剧情压缩和分镜。
  • Script2Video 做指定剧本样片。
  • 用一致性机制维护角色和环境。

PoC 方式:

  • 选 1 个短章节。
  • 生成 3-5 个场景的视频样片。
  • 对比人工脚本/分镜成本。

4.2 品牌营销和广告创意样片

客户:

  • 品牌市场部
  • 广告代理公司
  • 内容创意团队

痛点:

  • 创意提案需要样片,但拍摄成本高。
  • 客户往往要看“感觉”,只看文字不够。
  • 多版本创意需要快速试错。

ViMax 切入:

  • Idea2Video 从创意生成故事片段。
  • Script2Video 把广告脚本视觉化。
  • AutoCameo 做互动传播玩法。

适合产出:

  • 产品故事短片。
  • 活动预热视频。
  • 品牌概念片。
  • 社媒互动视频。

4.3 教育/儿童故事视频

客户:

  • 教育内容公司
  • 绘本/儿童故事平台
  • 家庭教育产品

痛点:

  • 大量故事需要视频化。
  • 要保持角色稳定、风格统一、场景简单。
  • 内容生产预算有限。

ViMax 切入:

  • Idea2Video 生成儿童故事。
  • Novel2Video 改编绘本/章节。
  • 控制场景数、风格和镜头数量。

4.4 游戏/动画前期概念验证

客户:

  • 游戏公司
  • 动画工作室
  • 虚拟人/数字内容团队

痛点:

  • 世界观、角色、剧情需要早期可视化。
  • 分镜和概念预览成本高。
  • 想快速测试不同镜头节奏。

ViMax 切入:

  • 用脚本和角色设定生成概念视频。
  • 用参考图和一致性检查维持角色形象。
  • 作为 previsualization 工具,而不是最终生产工具。

4.5 个人化互动视频/活动传播

客户:

  • 文旅活动
  • 品牌 Campaign
  • 粉丝互动平台
  • 宠物/亲子内容产品

痛点:

  • 用户希望把自己放进故事里。
  • 个性化视频人工制作成本高。

ViMax 切入:

  • AutoCameo 用用户照片生成客串视频。
  • 可做活动海报/短视频扩散。

必须提醒:

  • 肖像授权。
  • 未成年人保护。
  • 内容安全审查。
  • 深度伪造风险。

5. 不太适合的场景

场景原因
直接生产影视级成片当前更像研究/PoC 框架,最终成片仍需专业后期和人工审片
对人物一致性要求极高的商业广告虽然有一致性机制,但生成模型仍可能漂移
严格合规内容,如医疗、金融、政务宣传AI 生成视频事实、形象和表达都需严格审核
没有 API key 或生成模型资源的团队ViMax 依赖 LLM、图像生成器、视频生成器 API/模型
想要普通剪辑软件 UI 的业务人员当前主要是代码和 TUI,不是成熟 SaaS 产品
长篇连续剧直接自动化量产长视频连续性仍是难题,适合分段 PoC,不宜直接承诺量产

6. 核心能力清单

能力说明售前价值
Idea2Video从创意到完整视频故事适合快速创意样片
Novel2Video小说/长文本到分集视频适合 IP 可视化和短剧前期
Script2Video剧本到视频适合广告脚本、培训脚本、短剧脚本
AutoCameo用照片生成客串视频适合互动营销和个性化内容
RAG 长剧本生成长文本分析和多场景剧本切分解决长文本改编问题
分镜设计用电影语言规划镜头级 storyboard降低分镜门槛
多机位模拟模拟多机位拍摄提升观看体验和镜头多样性
参考图选择选择当前视频首帧和历史时间线参考图提升角色/环境一致性
一致性检查并行生成多图,用 VLM/MLLM 选最佳一致图降低失控画面
并行镜头生成同机位连续镜头并行处理提升生产效率
TUI / Agent Loop交互式规划、修订、渲染控制、session reuse更适合人工参与创作过程
配置化 ProviderLLM、image、video、embedding、reranker 可配置便于接不同模型服务

7. 架构/部署/集成方式

7.1 安装

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

要求:

  • Python >= 3.12
  • uv
  • Linux 或 Windows
  • LLM API
  • Image generation API
  • Video generation API

7.2 Agent TUI 配置

configs/agent.local.yaml

llm:
  model_provider: openai
  model: 
  base_url: 
  api_key: ''

image:
  model: 
  base_url: 
  api_key: ''

video:
  model: 
  base_url: 
  api_key: ''

embedding:
  model_provider: openai
  model: 
  base_url: 
  api_key: ''

reranker:
  model: 
  base_url: 
  api_key: ''

启动:

vimax tui
vimax tui new
vimax tui resume
vimax tui resume 

也可以通过环境变量传入 key,例如 VIMAX_LLM_API_KEYVIMAX_IMAGE_API_KEYVIMAX_VIDEO_API_KEY

7.3 直接 pipeline 入口

Idea2Video:

python main_idea2video.py

Script2Video:

python main_script2video.py

对应配置文件:

  • configs/idea2video.yaml
  • configs/script2video.yaml

README 示例里使用 OpenRouter / Gemini、Google 图像生成和 Veo 视频生成路径。实际 PoC 时,需要根据客户可用 API 和预算替换。

8. 售前可以怎么讲

面向业务方

现在大多数 AI 视频工具适合做几秒片段,但真正的品牌片、短剧、小说改编、培训故事需要剧本、角色、分镜、镜头和连续性。ViMax 的价值在于把这些制作环节拆成多智能体流程,让 AI 不只是“生成一段视频”,而是像小型制作团队一样先规划故事,再设计镜头,最后生成和组装画面。

业务价值:

  • 缩短从创意到样片的周期。
  • 降低短剧/广告/教育内容前期试错成本。
  • 让非专业团队也能生成较完整的视觉叙事草案。
  • 为内容生产团队提供自动分镜和视频预演能力。

面向技术方

ViMax 是多 Agent 视频生成框架。上层有 Idea2Video、Novel2Video、Script2Video、AutoCameo;中间做脚本理解、分镜规划、参考图选择、一致性追踪;底层接 LLM、图像生成器、视频生成器、embedding/reranker 和视频处理工具。它适合评估“长叙事视频生成”技术路线,而不是直接替代单一视频模型。

技术价值:

  • 框架化解决长视频生成问题。
  • 不是绑定单一模型,Provider 可配置。
  • 用 RAG 和 asset indexing 支撑长文本/长时间线。
  • 用 VLM 一致性检查减少画面漂移。

9. 常见客户问题

问题回答建议
ViMax 和 Runway/Kling/Veo 有什么区别?Runway/Kling/Veo 更像底层视频生成模型;ViMax 是多 Agent 生产框架,可以调用图像/视频生成器完成脚本、分镜、一致性、组装等流程。
能直接生成几分钟长视频吗?目标是面向长叙事和多镜头,但实际质量取决于底层模型、API、脚本复杂度和人工干预。售前应先做短章节 PoC。
能保持角色一致吗?ViMax 有参考图选择、角色/环境追踪和 VLM 一致性检查机制,但不能保证商业级百分百一致,需要人工审片。
是否适合中文短剧?有中文 README,理论上可处理中文输入,但中文���本质量、角色抽取、提示词和底层模型支持需要用中文样本验证。
成本会不会很高?会。长视频会调用多轮 LLM、图像生成和视频生成 API,必须按场景数、镜头数、重试次数估算成本。
现在是成熟产品吗?更像研究型开源框架和 PoC 工具,有 TUI 和 pipeline,但不是面向业务人员的成熟 SaaS。

10. PoC 建议

PoC 1:小说章节转短视频

输入:

  • 一段 1000-3000 字小说章节。
  • 目标风格:国风、动漫、写实、儿童绘本等。
  • 限制:3-5 个场景,10-20 个镜头。

验证:

  • 是否保留关键剧情。
  • 角色是否前后一致。
  • 场景和镜头是否合理。
  • 视频片段是否能表达故事。

成功指标:

  • 人工改写脚本时间减少。
  • 生成分镜可被内容团队采用。
  • 至少 60%-70% 镜头可进入后续精修。

PoC 2:广告脚本可视化

输入:

  • 30 秒产品广告脚本。
  • 品牌调性和目标人群。
  • 产品图或参考图。

验证:

  • 是否能生成符合品牌调性的 storyboard。
  • 是否能维持产品/角色形象。
  • 是否能输出可用于提案的样片。

PoC 3:互动客串视频

输入:

  • 用户照片或宠物照片。
  • 一个短故事脚本。
  • 风格:动漫/奇幻/城市/校园。

验证:

  • 客串角色是否可识别。
  • 是否存在肖像误用风险。
  • 内容安全审查流程是否可接入。

11. 风险和注意事项

风险说明应对建议
底层模型依赖ViMax 依赖 LLM、图像生成、视频生成 APIPoC 前确认可用模型、价格、速率限制
成本不可忽视多镜头会触发大量图片/视频生成和重试设置镜头数上限和预算
一致性仍不确定框架有一致性机制,但视频模型仍可能漂移人工审片 + 参考图锁定 + 多次采样
版权和肖像风险AutoCameo 和 IP 改编涉及授权建立授权、内容安全、合规流程
非成熟 SaaS目前主要是代码/TUI/脚本需要技术团队二次封装
生产质量不稳定AI 视频可能有物理错误、画面畸变、风格跳变定位为样片/预演/辅助创作,而不是最终成片
中文内容效果待验证中文剧本、中文文化语境取决于模型能力用中文真实样本评估

12. 我的售前判断

ViMax 很适合用来讲“AI 视频的下一阶段”:从短 prompt 生成几秒片段,走向具备剧本、分镜、角色连续性和多镜头调度的 Agentic Video Production。

它最适合的售前定位是:

长叙事视频生成 PoC 框架,而不是成熟视频 SaaS。

推荐重点客户:

  1. 短剧/网文/小说平台:验证 IP 内容自动可视化。
  2. 广告/品牌团队:快速生成广告脚本样片。
  3. 教育内容团队:把故事和课程内容视频化。
  4. AI 视频平台团队:参考其多 Agent 架构做产品化。

不建议对客户说“ViMax 可以直接替代导演、编剧、剪辑和后期”。更稳妥的话术是:

ViMax 可以把前期创意、脚本、分镜和样片生成速度大幅提前,让人类创作者把精力放在选择、审美和最终质量控制上。