← 返回项目列表
RAG-Anything 是 HKUDS 开源的 All-in-One 多模态 RAG 框架,基于 LightRAG 扩展到 PDF、Office、图片、表格、公式等混合内容。它适合用来解决企业知识库中“文档不是纯文本”的问题,比如财报、研报、产品手册、论文、合同附件、图表型资料。售前上可以把它讲成“面向复杂文档的多模态知识库引擎”,但落地要重点验证解析质量、图表理解、检索准确率、权限隔离和成本。

1. 项目概览

维度信息
项目HKUDS/RAG-Anything
定位All-in-One Multimodal Document Processing RAG system
技术基础基于 LightRAG,集成 MinerU / Docling / PaddleOCR 等解析能力
主要语言Python
开源协议MIT
创建时间2025-06-06
最近推送2026-06-15
GitHub 热度2026-06-30 查询:约 21.7k stars、2.5k forks、106 open issues
包安装pip install raganything

RAG-Anything 试图解决传统 RAG 的一个关键短板:现实企业文档通常不是单纯文本,而是混合了段落、图片、图表、表格、公式和复杂版式。传统“抽文本 -> 切 chunk -> 向量检索”的方案会丢失大量结构关系。RAG-Anything 则把文档拆成不同模态,并用多模态知识图谱和混合检索来组织这些内容。

官方架构示意图:

2. 它主要能做什么

能力说明对客户的价值
多格式文档解析支持 PDF、Office、图片、文本等企业历史资料不用先人工转成干净文本
多模态内容处理分别处理文本、图片、表格、公式、通用内容能回答图表、公式、表格里的信息
多模态知识图谱抽取实体和跨模态关系,保留文档层级比单纯向量库更能表达“图表属于哪个章节”
混合检索结合向量检索和图结构关系对复杂问题更容易召回相关上下文
直接插入 content_list可接外部解析器产物,跳过内置解析适合和客户现有 OCR/版面解析系统集成
可配置解析器MinerU、Docling、PaddleOCR 等不同文档类型可选择更合适的解析路线
VLM 增强查询文档含图片时可引入视觉模型分析适合图纸、截图、流程图、报表解读

3. 适用场景

场景适配度示例
企业复杂文档问答产品手册、规章制度、投标文档、操作指南
金融/咨询报告分析年报、研报、表格、图表、附录混合资料
科研论文助手论文中的公式、实验表、图示、引用关系
工业知识库中高设备手册、维修图、流程图、参数表
法务/合同知识库合同正文 + 附表 + 扫描件,需额外重视权限与准确率
单纯 FAQ 问答中低纯文本 FAQ 用普通 RAG 更轻量

售前上最好的切入话术是:“客户真正难的不是问答,而是把复杂文档可靠地变成可检索、可追溯、可引用的知识结构。”

4. 不太适合的场景

不适合点原因
只处理纯文本 Markdown/FAQ普通 RAG 更简单、成本更低
对实时低延迟要求极高多模态解析、VLM 分析、知识图谱构建会增加耗时
文档权限非常复杂但无权限体系项目本身是框架,企业级权限隔离需要应用层补齐
对答案 100% 合规可审计仍要做引用、人工复核、评测集和防幻觉策略
文档扫描质量极差OCR/版面分析质量会成为瓶颈

5. 架构与工作流

RAG-Anything 的典型链路可以概括为:

  1. 文档解析:使用 MinerU、Docling 或 PaddleOCR 等将 PDF/Office/图片拆解为结构化内容。
  2. 内容分类:把内容分为 text、image、table、equation、generic content 等类型。
  3. 模态处理:图片走视觉分析,表格走结构化解释,公式保留 LaTeX 和语义描述。
  4. 图谱构建:抽取实体,建立文本与图表、章节与元素、表格与指标之间的关系。
  5. 混合检索:查询时结合向量相似度和图关系,返回更完整的上下文。
  6. LLM 生成:用召回上下文生成答案,可结合多模态信息。

这套架构的售前亮点是:它不是简单把图片 OCR 成文字,而是试图保留“元素之间的关系”。对于客户的复杂文档,这个点非常关键。

6. 怎么用

安装:

pip install raganything
pip install 'raganything[all]'

Office 文档需要额外安装 LibreOffice:

brew install --cask libreoffice

源码安装:

git clone https://github.com/HKUDS/RAG-Anything.git
cd RAG-Anything
uv sync
uv run python examples/raganything_example.py --help

最小使用思路:

from raganything import RAGAnything, RAGAnythingConfig

config = RAGAnythingConfig(
    working_dir="./rag_storage",
    parser="mineru",
    parse_method="auto",
    enable_image_processing=True,
    enable_table_processing=True,
    enable_equation_processing=True,
)

官方示例需要配置 LLM、视觉模型和 embedding 函数,然后调用 process_document_complete 或直接插入 content_listcontent_list 对系统集成很有价值,因为企业可以先用自己的 OCR/解析服务得到结构化内容,再交给 RAG-Anything 做多模态 RAG。

7. 售前可以怎么讲

一句话定位:

“RAG-Anything 是面向复杂企业文档的多模态 RAG 框架,能把 PDF、Office、图片、表格和公式统一纳入知识库检索与问答。”

价值映射:

客户痛点讲法
文档里大量表格和图片,普通知识库答不出来RAG-Anything 将表格、图片、公式作为一等内容处理
传统 OCR 后结构丢失它保留章节层级、元素关系和跨模态关联
多种文档格式混杂支持 PDF、Office、图片、TXT/MD 等格式路线
已有文档解析系统可通过 content_list 直接接入,不必完全推翻现有架构
希望提升问答可解释性图谱和 page_idx 等元数据有助于引用原文位置

8. Demo/PoC 建议

建议用客户真实文档,而不是公开 demo 文档。PoC 分三类材料:

材料测试问题
带图表的财报/研报“某指标趋势是什么?图中哪一年变化最大?”
产品手册/设备手册“出现某错误码时该怎么处理?相关图示在哪页?”
带公式论文/技术白皮书“公式中的变量含义是什么?实验表说明了什么?”

PoC 指标:

指标说明
解析成功率文档是否能完整拆出文本、表格、图片、公式
图表问答准确率针对图表/表格问题是否答对
引用可追溯性是否能定位到页码、章节、元素
构建耗时每百页文档解析 + 入库时间
查询延迟hybrid 查询平均响应时间
人工修正量表格/公式/OCR 需要人工修正的比例

9. 常见客户问题

问题回答建议
它和普通向量数据库有什么区别?向量数据库主要负责相似度检索;RAG-Anything 更关注复杂文档解析、多模态内容理解和图关系组织。
能处理扫描 PDF 吗?可通过 OCR 路线处理,但效果取决于扫描质量、语言、版式和解析器能力。
是否必须用 OpenAI?官方示例使用 OpenAI 风格函数,但框架可传入自定义 LLM、视觉模型和 embedding 函数。
能私有化部署吗?可以,但需要准备本地模型、OCR/解析环境、存储、队列、权限和服务化封装。
是否能保证答案不幻觉?不能仅靠框架保证。需要引用、置信度、评测集、拒答策略和人工复核流程。

10. 风险和注意事项

  1. 解析质量决定上限:复杂表格、跨页表、扫描件、手写内容会显著影响效果。
  2. 多模态成本较高:VLM 分析图片、图表可能带来额外费用和延迟。
  3. 工程集成仍需投入:权限、审计、租户隔离、增量更新、失败重试不是开箱即用的企业系统。
  4. 评测很关键:必须为客户业务构建标准问题集,否则很难判断是否真正比普通 RAG 好。
  5. 许可证较友好:MIT 对商业集成友好,但仍要确认所接模型、解析器和数据的授权。

11. 我的售前判断

RAG-Anything 是本批项目里非常值得售前长期关注的一个方向。它切中企业知识库的真实痛点:文档不是干净文本,而是复杂版式和多模态信息混在一起。普通 RAG 在这类场景下容易“看不到表格和图片”,RAG-Anything 的价值就在于提供了一条更完整的处理链。

建议把它用于“复杂文档智能问答”“多模态知识库”“研发/金融/制造文档助手”的方案讲解和 PoC。不要只演示纯文本问答,那样体现不出差异。真正能打动客户的是:拿一份带图表、公式和附录的真实文档,让系统回答普通 RAG 答不好的问题。

12. 参考资料

  • GitHub: https://github.com/HKUDS/RAG-Anything
  • 论文: https://arxiv.org/abs/2510.12323
  • PyPI: https://pypi.org/project/raganything/
  • LightRAG: https://github.com/HKUDS/LightRAG
  • MinerU: https://github.com/opendatalab/MinerU