RAG-Anything - AI Navigation

← 返回项目列表

RAG-Anything 是 HKUDS 开源的 All-in-One 多模态 RAG 框架，基于 LightRAG 扩展到 PDF、Office、图片、表格、公式等混合内容。它适合用来解决企业知识库中“文档不是纯文本”的问题，比如财报、研报、产品手册、论文、合同附件、图表型资料。售前上可以把它讲成“面向复杂文档的多模态知识库引擎”，但落地要重点验证解析质量、图表理解、检索准确率、权限隔离和成本。

1. 项目概览

维度	信息
项目	HKUDS/RAG-Anything
定位	All-in-One Multimodal Document Processing RAG system
技术基础	基于 LightRAG，集成 MinerU / Docling / PaddleOCR 等解析能力
主要语言	Python
开源协议	MIT
创建时间	2025-06-06
最近推送	2026-06-15
GitHub 热度	2026-06-30 查询：约 21.7k stars、2.5k forks、106 open issues
包安装	`pip install raganything`

RAG-Anything 试图解决传统 RAG 的一个关键短板：现实企业文档通常不是单纯文本，而是混合了段落、图片、图表、表格、公式和复杂版式。传统“抽文本 -> 切 chunk -> 向量检索”的方案会丢失大量结构关系。RAG-Anything 则把文档拆成不同模态，并用多模态知识图谱和混合检索来组织这些内容。

官方架构示意图：

2. 它主要能做什么

能力	说明	对客户的价值
多格式文档解析	支持 PDF、Office、图片、文本等	企业历史资料不用先人工转成干净文本
多模态内容处理	分别处理文本、图片、表格、公式、通用内容	能回答图表、公式、表格里的信息
多模态知识图谱	抽取实体和跨模态关系，保留文档层级	比单纯向量库更能表达“图表属于哪个章节”
混合检索	结合向量检索和图结构关系	对复杂问题更容易召回相关上下文
直接插入 content_list	可接外部解析器产物，跳过内置解析	适合和客户现有 OCR/版面解析系统集成
可配置解析器	MinerU、Docling、PaddleOCR 等	不同文档类型可选择更合适的解析路线
VLM 增强查询	文档含图片时可引入视觉模型分析	适合图纸、截图、流程图、报表解读

3. 适用场景

场景	适配度	示例
企业复杂文档问答	高	产品手册、规章制度、投标文档、操作指南
金融/咨询报告分析	高	年报、研报、表格、图表、附录混合资料
科研论文助手	高	论文中的公式、实验表、图示、引用关系
工业知识库	中高	设备手册、维修图、流程图、参数表
法务/合同知识库	中	合同正文 + 附表 + 扫描件，需额外重视权限与准确率
单纯 FAQ 问答	中低	纯文本 FAQ 用普通 RAG 更轻量

售前上最好的切入话术是：“客户真正难的不是问答，而是把复杂文档可靠地变成可检索、可追溯、可引用的知识结构。”

4. 不太适合的场景

不适合点	原因
只处理纯文本 Markdown/FAQ	普通 RAG 更简单、成本更低
对实时低延迟要求极高	多模态解析、VLM 分析、知识图谱构建会增加耗时
文档权限非常复杂但无权限体系	项目本身是框架，企业级权限隔离需要应用层补齐
对答案 100% 合规可审计	仍要做引用、人工复核、评测集和防幻觉策略
文档扫描质量极差	OCR/版面分析质量会成为瓶颈

5. 架构与工作流

RAG-Anything 的典型链路可以概括为：

文档解析：使用 MinerU、Docling 或 PaddleOCR 等将 PDF/Office/图片拆解为结构化内容。
内容分类：把内容分为 text、image、table、equation、generic content 等类型。
模态处理：图片走视觉分析，表格走结构化解释，公式保留 LaTeX 和语义描述。
图谱构建：抽取实体，建立文本与图表、章节与元素、表格与指标之间的关系。
混合检索：查询时结合向量相似度和图关系，返回更完整的上下文。
LLM 生成：用召回上下文生成答案，可结合多模态信息。

这套架构的售前亮点是：它不是简单把图片 OCR 成文字，而是试图保留“元素之间的关系”。对于客户的复杂文档，这个点非常关键。

6. 怎么用

安装：

pip install raganything
pip install 'raganything[all]'

Office 文档需要额外安装 LibreOffice：

brew install --cask libreoffice

源码安装：

git clone https://github.com/HKUDS/RAG-Anything.git
cd RAG-Anything
uv sync
uv run python examples/raganything_example.py --help

最小使用思路：

from raganything import RAGAnything, RAGAnythingConfig

config = RAGAnythingConfig(
    working_dir="./rag_storage",
    parser="mineru",
    parse_method="auto",
    enable_image_processing=True,
    enable_table_processing=True,
    enable_equation_processing=True,
)

官方示例需要配置 LLM、视觉模型和 embedding 函数，然后调用 process_document_complete 或直接插入 content_list。content_list 对系统集成很有价值，因为企业可以先用自己的 OCR/解析服务得到结构化内容，再交给 RAG-Anything 做多模态 RAG。

7. 售前可以怎么讲

一句话定位：

“RAG-Anything 是面向复杂企业文档的多模态 RAG 框架，能把 PDF、Office、图片、表格和公式统一纳入知识库检索与问答。”

价值映射：

客户痛点	讲法
文档里大量表格和图片，普通知识库答不出来	RAG-Anything 将表格、图片、公式作为一等内容处理
传统 OCR 后结构丢失	它保留章节层级、元素关系和跨模态关联
多种文档格式混杂	支持 PDF、Office、图片、TXT/MD 等格式路线
已有文档解析系统	可通过 content_list 直接接入，不必完全推翻现有架构
希望提升问答可解释性	图谱和 page_idx 等元数据有助于引用原文位置

8. Demo/PoC 建议

建议用客户真实文档，而不是公开 demo 文档。PoC 分三类材料：

材料	测试问题
带图表的财报/研报	“某指标趋势是什么？图中哪一年变化最大？”
产品手册/设备手册	“出现某错误码时该怎么处理？相关图示在哪页？”
带公式论文/技术白皮书	“公式中的变量含义是什么？实验表说明了什么？”

PoC 指标：

指标	说明
解析成功率	文档是否能完整拆出文本、表格、图片、公式
图表问答准确率	针对图表/表格问题是否答对
引用可追溯性	是否能定位到页码、章节、元素
构建耗时	每百页文档解析 + 入库时间
查询延迟	hybrid 查询平均响应时间
人工修正量	表格/公式/OCR 需要人工修正的比例

9. 常见客户问题

问题	回答建议
它和普通向量数据库有什么区别？	向量数据库主要负责相似度检索；RAG-Anything 更关注复杂文档解析、多模态内容理解和图关系组织。
能处理扫描 PDF 吗？	可通过 OCR 路线处理，但效果取决于扫描质量、语言、版式和解析器能力。
是否必须用 OpenAI？	官方示例使用 OpenAI 风格函数，但框架可传入自定义 LLM、视觉模型和 embedding 函数。
能私有化部署吗？	可以，但需要准备本地模型、OCR/解析环境、存储、队列、权限和服务化封装。
是否能保证答案不幻觉？	不能仅靠框架保证。需要引用、置信度、评测集、拒答策略和人工复核流程。

10. 风险和注意事项

解析质量决定上限：复杂表格、跨页表、扫描件、手写内容会显著影响效果。
多模态成本较高：VLM 分析图片、图表可能带来额外费用和延迟。
工程集成仍需投入：权限、审计、租户隔离、增量更新、失败重试不是开箱即用的企业系统。
评测很关键：必须为客户业务构建标准问题集，否则很难判断是否真正比普通 RAG 好。
许可证较友好：MIT 对商业集成友好，但仍要确认所接模型、解析器和数据的授权。

11. 我的售前判断

RAG-Anything 是本批项目里非常值得售前长期关注的一个方向。它切中企业知识库的真实痛点：文档不是干净文本，而是复杂版式和多模态信息混在一起。普通 RAG 在这类场景下容易“看不到表格和图片”，RAG-Anything 的价值就在于提供了一条更完整的处理链。

建议把它用于“复杂文档智能问答”“多模态知识库”“研发/金融/制造文档助手”的方案讲解和 PoC。不要只演示纯文本问答，那样体现不出差异。真正能打动客户的是：拿一份带图表、公式和附录的真实文档，让系统回答普通 RAG 答不好的问题。

12. 参考资料

GitHub: https://github.com/HKUDS/RAG-Anything
论文: https://arxiv.org/abs/2510.12323
PyPI: https://pypi.org/project/raganything/
LightRAG: https://github.com/HKUDS/LightRAG
MinerU: https://github.com/opendatalab/MinerU