← 返回项目列表
RAGFlow 是当前 GitHub 上 Star 数最高的 RAG 开源项目(Apache-2.0,84,059 Stars,9,767 Forks),由 infiniflow 团队开发,是全球 RAG 赛道的绝对标杆。其核心武器是自研的 DeepDoc 深度文档理解引擎——基于视觉模型的布局分析、表格结构识别(TSR)、OCR 三合一能力,能将 PDF/Word/PPT/扫描件等复杂格式中的表格、图表、公式、段落精确还原为结构化知识单元,复杂表格 F1 超过 95%。v0.26.0 已实现 Agent + Workflow 统一编排、MCP 全功能支持、GraphRAG 知识图谱、多渠道接入、代码沙箱等企业级能力。支持 Docker 一键部署或 SaaS 云版,中文文档完善,是国内企业构建 RAG/知识库系统的首选开源方案。

1. 项目/产品概览

维度信息
项目名RAGFlow
开发者infiniflow(中国团队)
开源协议Apache-2.0
主要语言Go + Python(Web 前端用 TypeScript)
GitHub Stars84,059(2026-07-02 查询,全球 RAG 项目第一)
Forks9,767
Commits7,081
开放 Issues2,608
创建时间2023-12-12(约 2.5 年历史)
最近更新2026-07-01(每日活跃)
最新版本v0.26.2(2026-06-29),共 58 个 Tag
官网https://ragflow.io
云服务https://cloud.ragflow.io(Free / Starter $29/mo / Pro $129/mo / Enterprise)
文档https://ragflow.io/docs/dev/
社区Discord、GitHub Issues / Discussions
Topicsrag, retrieval-augmented-generation, agentic-ai, ai-agents, context-engine, llm-apps, agentic-search, context-management, agentic-retrieval

2. 它主要能做什么

RAGFlow 的核心定位是 "RAG + Agent 融合的上下文引擎"——不仅做文档检索,更提供一整套从文档理解到智能 Agent 的全链路能力。

核心架构(六大模块)

用户/API 层  →  Chat / Agent / 搜索界面 / REST API
     ↓
Agent 编排层 →  Workflow(人工编排) + Agentic Workflow(LLM 自主规划)
     ↓
检索层     →  多路召回(向量 + 关键词 + 知识图谱) + 融合重排序
     ↓
索引层     →  Elasticsearch / Infinity(全文 + 向量混合索引)
     ↓
知识提取层  →  DeepDoc 引擎 / MinerU / Docling / OpenDataLoader
     ↓
数据源层    →  文件上传 / 数据源连接器(Confluence、S3、SharePoint、飞书等)

主要功能模块

模块能力说明
DeepDoc 引擎深度文档理解:OCR + 表格结构识别(TSR)+ 文档布局识别(DLR),三合一视觉模型
模板化分块9 种分块策略:General、Manual、Q&A、Table、Paper、Book、Laws、Presentation、One
多 PDF 解析器DeepDoc(默认)/ Naive / MinerU / Docling / OpenDataLoader / 第三方 VLM
多路混合检索向量检索 + BM25 关键词检索 + Tensor 检索 + 知识图谱检索,融合重排序
Agent + Workflow 统一编排可视化画布上同时支持人工 Workflow 和 LLM 自主 Agentic Workflow,含迭代、条件分支、Switch、代码执行器
MCP 全功能支持导入 MCP Server、Agent 作为 MCP Client、RAGFlow 自身作为 MCP Server 对外暴露
GraphRAG数据集级别的动态知识图谱构建,支持实体提取和社区分析
Long-Context RAG自动生成文档目录(TOC)结构,缓解上下文丢失
RAPTOR跨文档的层级摘要树构建
可编排摄取管道可视化数据摄取流水线,支持自定义数据清洗流程
多渠道接入飞书、Discord、Telegram、Line、Slack、Microsoft Teams 等
数据源连接器Confluence、S3/OSS、Notion、Google Drive、JIRA、SharePoint、Salesforce、Outlook、OneDrive、Azure Blob
Memory(记忆)Agent 对话记忆管理,支持多轮上下文保持
代码执行沙箱Python/JavaScript 代码执行器(基于 gVisor 隔离)
Admin CLI命令行管理工具,监控服务状态
Python SDKragflow-sdk,Python 编程接口,支持程序化管理知识库

3. 适用场景

场景说明典型客户
复杂文档知识库PDF/扫描件/表格/公式密集的文档问答,DeepDoc 引擎最核心场景律所、金融机构、会计师事务所
企业级 RAG 系统多格式文档解析 + 高精度检索 + 溯源引用,适合生产级部署中大型企业数字化部门
智能客服/FAQ多渠道接入(飞书/Discord/Slack)+ 知识库问答互联网公司、电商
多 Agent 协作系统Agent + Workflow 统一编排 + MCP 工具集成需复杂业务自动化的企业
GraphRAG 多跳推理法律案例关联分析、药物研发文献挖掘等需要实体关系推理的场景法律科技、生物医药
投资研究/研报生成内置"公司研究报告深度分析"Agent 模板券商、投资机构
法律检索/案例分析内置"法律先例分析"Agent 模板,结构化相似案例分析律所、法院、法务部门
制造业维护支持内置"制造维护支持"模板,从内部手册精确检索 + 外部参考补充制造业、设备管理

4. 不太适合的场景

场景原因替代建议
纯文本快速原型(只需几行代码)RAGFlow 是平台级方案,需 Docker 部署,轻量场景杀鸡用牛刀LlamaIndex / 直接用 LangChain
依赖现有 Elasticsearch 基础设施RAGFlow 默认使用自研 Infinity 引擎,ES 仅作可选后端Haystack(ES 深度集成)
需要极细粒度的 Pipeline 代码控制RAGFlow 侧重 WebUI + 可视化编排,代码级灵活性不如 HaystackHaystack
低预算小团队、简单 FAQRAGFlow 资源消耗较高(建议 16GB+ RAM),轻量场景成本高MaxKB / FastGPT
海外模型生态优先RAGFlow 对中国模型(通义千问、DeepSeek 等)支持优于部分海外模型Dify(56 个模型提供商)
需要极强 Workflow 编排能力RAGFlow 的 Workflow 没有 Dify 成熟,分支/循环/变量管理不及 DifyDify
ARM64 平台部署官方不提供 ARM64 Docker 镜像,需自行构建Dify(支持 ARM64)

5. 核心能力清单

5.1 文档解析能力(DeepDoc 引擎)

能力说明
布局分析(DLR)基于 Transformer 的视觉模型,识别标题、段落、表格、图片、公式、页眉页脚、多栏布局
表格结构识别(TSR)识别表头、数据区、合计行、行列合并、多级表头,F1 > 95%
OCR 文字识别自研深度学习 OCR,识别扫描件、手写文档、低质量图片中的文字
公式识别数学公式转 LaTeX 格式,保留完整数学语义
图文混排识别图片与文字的位置关系,关联图注与图片
多模态理解v0.19+ 支持多模态模型理解 PDF/DOCX 中的图片内容
文档目录(TOC)提取自动识别文档大纲结构,用于 Long-Context RAG

5.2 分块策略

策略适用场景
General通用文档,基于版面结构自动分块
Manual手动指定分隔符和块大小
Q&A问答对格式的文档
Table表格密集型文档(财务报表等)
Paper学术论文,识别摘要、章节、参考文献结构
Book书籍,识别章、节、段层级
Laws法律法规,识别条、款、项结构
PresentationPPT 文档,按幻灯片分块
One整个文档作为单个块,不切割
Knowledge Graph实体/关系提取,用于 GraphRAG
TOC Extraction目录结构提取,用于 Long-Context RAG

5.3 Agent / Workflow 能力

能力说明
Workflow(人工编排)可视化画布,Begin → Categorize → Retrieval → Agent → Message 等组件串联
Agentic Workflow(LLM 自主)LLM 自主规划与反思(Planning + Reflection),工具调用
多 Agent 配置同一画布上编排多个 Agent,支持子 Agent 嵌套
代码执行器Python / JavaScript 代码执行(基于 gVisor 沙箱)
结构化输出Agent 输出 JSON / Markdown / Word 格式
条件分支Switch 组件,按分类结果走不同分支
迭代Iteration 组件,数组遍历处理
变量聚合Variable Aggregator,跨步骤数据传递
Await Response暂停流程,主动收集用户输入
工具集成21 个内置工具 + MCP Server 导入 + 学术搜索
Web SearchAgent 自主搜索互联网
运行时日志Agent 执行路径可视化和输入/输出检查

5.4 模型与基础设施

类别支持范围
LLM 提供商44 个:OpenAI、Anthropic、DeepSeek、阿里通义千问、百度文心一言、Google Gemini、火山引擎、Ollama、vLLM、Xinference、LM Studio、OpenRouter、MiniMax、Moonshot、ZhipuAI、百川、LocalAI、LiteLLM 等
嵌入模型OpenAI、BGE、Jina、Cohere、Voyage 4、HuggingFace 等,支持内置和外部
重排序模型Cross-encoder, BGE-Reranker 等
向量/检索引擎Infinity(默认,自研)、Elasticsearch(可选)、Qdrant(可选)、Redis(外部缓存)
VLM(视觉语言模型)DeepDoc 内置 / 第三方 VLM(Qwen-VL、GPT-4V 等)
TTS(语音合成)Fish Audio
推理优化支持推理模型的 文本缓冲

5.5 企业级特性

能力说明
多工作区多 Team 管理,Admin/Member 角色,项目级数据隔离
API 令牌Beta 令牌体系,接入企业应用
OpenAI 兼容 APIChat Completions API,兼容 OpenAI 生态
Admin 管理面Web UI 管理面板,图形化用户管理和服务监控
Docker 部署docker-compose 一键启动,支持 GPU 加速
Helm ChartK8s 部署支持
反向代理支持 HTTPS + Nginx 反向代理
Prometheus 监控指标暴露,接入现有监控体系
多语言 UI中文、英文、韩文、意大利文、日文、法文、阿拉伯文等 10+ 语言

6. 架构/部署/集成方式

部署模式

模式说明最低要求
Docker Compose(自托管)git clone && docker compose up -d,最常用方式CPU ≥ 4 核,RAM ≥ 16 GB,Disk ≥ 50 GB
GPU 加速部署DEVICE=gpu,DeepDoc 解析速度提升 5-20 倍NVIDIA GPU(推荐 8GB+ VRAM)
SaaS 云版cloud.ragflow.io,即开即用无需服务器
K8s / Helm企业级集群部署K8s 集群
源码开发启动从源码构建和运行,适合二次开发Python ≥ 3.13

部署步骤(Docker)

# 1. 确保 vm.max_map_count >= 262144
sudo sysctl -w vm.max_map_count=262144

# 2. 克隆仓库
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker

# 3. CPU 模式启动
docker compose -f docker-compose.yml up -d

# 4. GPU 模式启动(需 NVIDIA GPU)
# sed -i '1i DEVICE=gpu' .env
# docker compose -f docker-compose.yml up -d

# 5. 检查状态
docker logs -f docker-ragflow-cpu-1

# 6. 浏览器访问 http://<服务器IP>

LLM 集成示例(在 WebUI 中配置)

支持通过 OpenAI 兼容 API 接入任何模型:

  • Ollamahttp://host.docker.internal:11434/v1(本地模型)
  • vLLMhttp://vllm-server:8000/v1
  • 阿里云通义千问:通过 DashScope API Key
  • DeepSeek:通过 DeepSeek API Key
  • 百川 / ZhipuAI / MiniMax / Moonshot:各自的 API Key 接入

7. 怎么用

Docker 部署 + WebUI 使用(推荐入门方式)

# 1. 部署(见上节)
git clone https://github.com/infiniflow/ragflow.git && cd ragflow/docker
docker compose -f docker-compose.yml up -d

# 2. 浏览器登录 http://localhost 或 http://<服务器IP>
#    首次登录需注册管理员账号

WebUI 使用流程:

  1. 配置模型提供商:进入"模型提供商"页面,添加 LLM(如通义千问 qwen-plus)、嵌入模型(如 BGE)、重排序模型
  2. 创建知识库:点击"知识库"→"新建",命名后配置分块策略(如 General)和 PDF 解析器(DeepDoc)
  3. 上传文档:拖拽或选择 PDF/Word/PPT/Excel/图片文件,RAGFlow 自动解析并索引
  4. 配置检索:选择混合检索模式(向量 + 关键词),设置 Top-K 和相似度阈值
  5. 开始对话:切换到"对话"标签页,输入问题即可获得带引用溯源的回答
  6. 构建 Agent:进入"Agent"页面,使用预置模板或从空白画布构建,拖拽组件编排流程
  7. 发布渠道:将 Agent 发布为飞书/Discord/Slack 等渠道的 Bot,或通过 API 嵌入自有系统

Python SDK 用法

from ragflow_sdk import RAGFlow

# 连接 RAGFlow
rag = RAGFlow(
    api_key="your_api_key",
    base_url="http://localhost/v1"
)

# 创建/获取知识库
dataset = rag.create_dataset(name="企业规章制度")

# 上传文档
dataset.upload_documents(["员工手册.pdf", "薪酬制度.docx"])

# 检索
chunks = dataset.retrieve(
    question="年假怎么请?",
    top_k=5
)

# chat
for ans in dataset.chat_stream("年假怎么请?"):
    print(ans, end="")

REST API 调用

curl -X POST http://localhost/v1/api/chats \
  -H "Authorization: Bearer " \
  -H "Content-Type: application/json" \
  -d '{
    "dataset_ids": [""],
    "question": "请说明年假申请流程",
    "stream": true
  }'

8. 售前可以怎么讲

8.1 一句话定位

"RAGFlow 是全球 GitHub 上最受欢迎的 RAG 开源引擎——84,000 Stars,DeepDoc 深度文档理解能力业界最强,让 AI 真正 '读懂' 你的 PDF、合同、报告。"

8.2 客户痛点 → 解决方案

客户痛点RAGFlow 解法
"导入 PDF 后 AI 答非所问,表格数据全错"DeepDoc 引擎:视觉模型精确解析表格/图表/扫描件,复杂表格识别 F1 > 95%,远超传统 OCR
"文档里有扫描件、图片、公式,RAG 系统根本看不懂"DeepDoc 三合一:OCR + TSR(表格结构识别)+ DLR(布局分析)并行处理,一次解析全部还原
"选了开源的 RAG 框架但不会用,需要写一堆代码"WebUI 可视化:所见即所得,上传文档 → 配置分块 → 对话测试,非技术人员也能用
"需要 Agent 自动化处理业务流程不只是问答"Agent + Workflow 统一编排:低代码画布拖拽组件,支持多 Agent 协作 + MCP 工具 + 代码执行
"数据不能上云,必须本地私有化部署"Docker 一键部署:完全本地化,数据不出企业机房,Apache-2.0 开源无商业限制
"大老板问有没有权威背书,凭什么信你"84K Stars 全球 RAG 第一,阿里云官方推荐,活跃开发 7,000+ Commits
"自有系统怎么集成?员工习惯用飞书/钉钉"多渠道接入:飞书/Slack/Teams + OpenAI 兼容 API + Python SDK + REST API
"知识图谱也想用,但不知道怎么搭配 RAG"内置 GraphRAG:数据集级动态知识图谱,自动构建实体关系,多跳推理

8.3 差异化卖点

vs MaxKB(1Panel产品):

对比维度RAGFlowMaxKB
Stars84,059~14,000
文档解析DeepDoc 视觉模型,表格/扫描件精确解析基础 OCR,格式支持有限
检索能力多路混合检索 + 融合重排序 + GraphRAG基础 RAG 检索
AgentAgent + Workflow 统一编排 + MCP + 代码沙箱基础 Agent(功能较简单)
企业级多工作区、角色管理、Admin CLI、K8s单租户、简单权限
定位专业 RAG 引擎,深挖文档理解轻量级 FAQ 系统
中文⭐⭐⭐⭐⭐⭐
部署复杂度中等(Docker 一键)简单(轻量)

vs Haystack(deepset产品):

对比维度RAGFlowHaystack
Stars84,059~25,800
定位平台级 RAG 引擎 + Agent代码级 RAG 框架
文档理解DeepDoc 自研视觉模型,开箱即用需自行组合组件,依赖第三方
使用方式WebUI 可视化为主 + API纯代码 Pipeline + Hayhooks 部署
低代码⭐⭐⭐⭐⭐ 完全可视化⭐ 纯代码
代码级控制⭐⭐⭐ SDK⭐⭐⭐⭐⭐ Pipeline 可任意定制
Agent 能力⭐⭐⭐⭐ 可视化编排 + MCP⭐⭐⭐ Tool Calling / ReAct
海外企业信任⭐⭐⭐ 主要是中国社区⭐⭐⭐⭐⭐ Apple/Meta/NVIDIA 在用
中文支持⭐⭐⭐⭐⭐ 中文文档、中文社区⭐⭐⭐ 英文为主

vs LlamaIndex:

对比维度RAGFlowLlamaIndex
定位完整的 RAG 产品平台Python RAG 框架库
上手难度WebUI 零代码需 Python 代码
文档解析DeepDoc 引擎(内置强)依赖 LlamaParse(付费)
灵活性⭐⭐⭐ WebUI + 模板⭐⭐⭐⭐⭐ 完全代码控制
产品化开箱即用,有 SaaS需自行构建前端和运维
Stars84,059~40,000

vs Dify:

对比维度RAGFlowDify
Stars84,059~110,000
核心优势文档理解 + RAG 精度Workflow 编排 + 插件生态
文档解析⭐⭐⭐⭐⭐ DeepDoc 最强⭐⭐ 基础格式,复杂文档弱
Workflow 编排⭐⭐⭐ 基础分支/迭代⭐⭐⭐⭐⭐ 40+ 工具,复杂逻辑
模型生态44 个提供商56 个提供商 + 插件
适用场景复杂文档知识库通用 AI 应用构建
部署复杂度Docker ComposeDocker Compose

核心差异一句话:

  • 你要建文档知识库、处理 PDF/合同/扫描件 → RAGFlow(文档理解无敌)
  • 你要构建复杂 AI 应用、Workflow → Dify(编排更成熟)
  • 你要代码级完全可控 → Haystack / LlamaIndex
  • 你要简单 FAQ 轻量 → MaxKB

8.4 客户价值故事线

  1. 切入(引起痛感):"你们是不是试过用 RAG 系统处理合同/研报,结果 AI 把表格数据全搞混了?"
  2. 拆解(定位根因):"根本原因不是 LLM 不行,是文档解析不行——传统 RAG 把 PDF 当纯文本切,表格被切成碎片,自然检索不到。"
  3. 演示(秀肌肉):当场上传一份复杂的 PDF(含表格+图表+扫描页)→ DeepDoc 解析 → 精确问答 → 溯源定位到原文位置。这是最有力的 demo。
  4. 扩展(从 RAG 到 Agent):"不只能问答。你可以拖拽组件搭 Agent——自动读合同→提取关键条款→对比历史案例→生成分析报告。"
  5. 落地(打消顾虑):"Docker 一键部署到你内网,数据不出门。API 对接现有系统。飞书/钉钉机器人,员工直接用。"
  6. 收尾(信任佐证):"全球 84,000 开发者 Star 了 RAGFlow。阿里云官方推荐。开源免费,Apache-2.0 协议,没有风险。"

9. 常见客户问题

问题回答
RAGFlow 和 Dify 有什么区别?该选哪个?RAGFlow 强在文档理解和 RAG 检索精度,DeepDoc 引擎处理 PDF/扫描件/表格远超 Dify;Dify 强在 Workflow 编排和插件生态。如果核心需求是"文档知识库",选 RAGFlow;如果核心需求是"搭复杂的 AI 应用工作流",选 Dify。二者可以组合使用。
社区版和企业版有什么区别?开源社区版一直是主力版本,Apache-2.0 协议,功能完整(DeepDoc、Agent、GraphRAG、MCP 全部包含)。企业版(SaaS 云版 / Enterprise)提供托管部署、专属支持、定制 SLA、BYOC 部署。对于私有化部署客户,社区版完全够用。
数据安全怎么保证?数据会传到外面吗?完全私有化部署时,所有数据(文档、向量、对话记录)全部存储在本地服务器上。调用 LLM 时,RAGFlow 只是客户端——它发送的是检索到的文本片段,不传原始文档。如果连 LLM 都不想出网,可以配 Ollama/vLLM 本地模型,全程离线运行
部署需要什么硬件?GPU 是必须的吗?CPU 最低:4 核 + 16GB RAM + 50GB 磁盘。GPU 不是必须的,但强烈推荐——DeepDoc 的 OCR/表格识别/布局分析在 GPU 上快 5-20 倍。处理扫描件多的场景,建议配一张 NVIDIA GPU(8GB+ VRAM)。
支持国产化环境吗?(信创/麒麟/昇腾)?支持麒麟 OS 和昇腾芯片。RAGFlow 支持通过 vLLM/Xinference 等本地推理框架接入国产模型,如 DeepSeek、通义千问、百川等。在信创环境下可以全链路国产化。
知识库规模能到多大?性能如何?使用 Infinity 引擎(自研高性能向量/全文数据库),支持百万级文档。检索性能:多路召回 + 融合重排,毫秒级响应。对于超大规模场景,建议上 Elasticsearch 后端 + GPU 加速。
能对接我们现有的 OA/CRM 系统吗?可以通过三种方式:1)REST API(OpenAI 兼容格式);2)Python SDK(ragflow-sdk);3)Agent 中的 HTTP/API 组件直连业务系统。数据源连接器支持 Confluence、SharePoint、Salesforce 等常见系统同步。
部署和运维复杂吗?Docker Compose 一条命令启动:docker compose up -d。日常运维主要是升级镜像(docker compose pull && docker compose up -d)和监控磁盘/内存。提供 Prometheus 指标接入和 Admin CLI 管理工具。
可以处理哪些文件格式?扫描件支持吗?Word、PPT、Excel、PDF、TXT、图片(PNG/JPG/JPEG)、网页、Markdown、视频文件等。扫描件通过 DeepDoc 自研 OCR 完美支持——这是 RAGFlow 最强的能力之一。
开源协议是什么?可以商用吗?收费吗?Apache-2.0,完全免费商用,无任何限制。SaaS 云版按用量收费(Free / Starter $29/月 / Pro $129/月),是托管服务的费用,不开源的代码本身不收费。

10. PoC 建议

推荐 PoC 方向:复杂文档知识库 RAG 系统

阶段内容时间产出
1. 环境搭建Docker 部署 RAGFlow(含 GPU 配置),配置 LLM(如通义千问)和嵌入模型0.5 天可运行环境
2. 文档导入选取客户真实复杂文档(PDF 合同/扫描件/含表格报告)50-200 份,配置 General 分块 + DeepDoc 解析0.5 天已索引的知识库
3. 检索验证使用典型业务问题测试:混合检索(向量 + 关键词 + Tensor)+ 重排序0.5 天验证检索准确率
4. Agent 构建基于客户场景构建 Agent(如"合同关键条款提取 + 风险标注")1 天可演示的 Agent
5. 对接集成通过 API 对接客户前端或飞书/钉钉渠道1 天可内测的完整系统
6. 评估报告定量评估:召回率、准确率、响应时间;定性评估:用户满意度0.5 天PoC 评估报告

合计:约 4 个工作日

验证指标建议:

  • 检索召回率(含表格/图片内容)> 85%
  • 复杂表格数据问答准确率 > 90%
  • 带溯源引用答案比例 > 95%
  • 端到端平均响应时间 < 5 秒
  • 扫描件 OCR 准确率 > 95%

PoC 成功关键:

  • 必须用客户真实复杂文档——DeepDoc 处理这些文档的能力就是核心卖点
  • 重点演示表格问答和扫描件解析,这是最能拉开差距的地方
  • 溯源功能一定要展示——点一下答案就能跳到原始文档位置
  • GPU 加速要配好,否则 DeepDoc 解析速度慢会影响演示体验

11. 风险和注意事项

风险级别说明缓解措施
资源消耗高最低 16GB RAM + 推荐 GPU,比 MaxKB/轻量方案的硬件成本高 3-5 倍提前明确硬件要求;SaaS 云版可免去硬件投入
ARM64 不支持官方不提供 ARM64 Docker 镜像(如 Apple Silicon Mac 服务器)x86 部署 or 自行构建镜像(官方有构建指南)
社区版迭代快、不稳定每 1-2 月一个大版本,偶尔有 Breaking Changes(如 v0.22 移除 full 镜像)使用稳定版本(tag),升级前先测试
依赖外部 LLM APIRAGFlow 本身不带 LLM,需额外配置 LLM 服务(API 或本地部署)配 Ollama/vLLM 本地模型实现全部离线
Agent 能力不及 DifyWorkflow 编排、工具生态、插件市场不如 Dify 丰富纯 RAG/文档场景足够;复杂 Workflow 考虑 Dify 联动
团队为创业公司infiniflow 是创业团队,商业化路径仍在探索Apache-2.0 协议,社区版不会消失;阿里云等大厂已在集成推广
社区支持以中文为主英文社区相对较小,跨国企业可能担心中文客户反而是优势;社区活跃,Discord + GitHub Issues 响应快
开源竞争激烈Dify、MaxKB 等项目也在快速发展RAGFlow 在文档理解这个最核心的赛道上壁垒最高

12. 我的售前判断

推荐度:最强烈推荐(对于需要文档知识库 / 复杂文档 RAG 的客户,RAGFlow 是首选)

理由:

  1. 文档理解壁垒最高:DeepDoc 引擎的 OCR + TSR + DLR 三合一视觉模型,复杂表格 F1 > 95%,这是 RAGFlow 最硬核的护城河。其他框架(Dify、MaxKB、Haystack)在这方面差距明显,短期内难以追赶。
  2. 全球社区第一:84,059 Stars 不仅代表认可度,更意味着丰富的社区资源——问题快速解决、最佳实践沉淀、第三方集成丰富。
  3. 平台化完整:从文档解析 → 分块 → 检索 → 重排序 → 生成 → Agent → 渠道发布,全链路覆盖且可通过 WebUI 操作。不是框架,是产品。
  4. 企业友好:Apache-2.0 完全免费商用 + Docker 一键部署 + 数据不出门 + 多渠道接入 + Admin 管理面。针对中国企业客户(尤其是信创/国产化需求)非常友好。
  5. 迭代速度快:7,000+ Commits,每 1-2 个月一个大版本。MCP、GraphRAG、Agent、Memory 等前沿能力快速跟进。
  6. 阿里云背书:已被阿里云 SAE 官方集成推荐,可通过 SAE 一键部署高可用实例。

推荐客户画像:

  • 有大量复杂文档需要 RAG 处理(PDF 合同、扫描件、含表格/图表报告)
  • 需要通过私有化部署保障数据安全
  • 中文场景为主
  • 需要低代码 / 可视化操作(非纯代码框架)
  • 预算有限但追求 RAG 效果(开源免费)
  • 有信创 / 国产化合规要求
  • 需要多 Agent 协作 + MCP 工具集成

不推荐的情况:

  • 需要极强 Workflow 编排能力(分支/循环/变量管理)→ Dify
  • 纯代码框架、需要极致灵活性的 Python 开发者 → Haystack / LlamaIndex
  • 预算充裕且需要国际大厂企业版支持 → Haystack Enterprise
  • 简单 FAQ、轻量需求、低硬件预算 → MaxKB / FastGPT
  • ARM64 平台且无法自行构建镜像
  • 海外模型生态是核心需求(Dify 的 56 个提供商更丰富)

13. 参考资料

  • GitHub 仓库:https://github.com/infiniflow/ragflow
  • 官方文档:https://ragflow.io/docs/dev/
  • 官网:https://ragflow.io
  • SaaS 云版:https://cloud.ragflow.io
  • 发布说明(Release Notes):https://ragflow.io/docs/dev/release_notes
  • DeepDoc 技术详解:https://github.com/infiniflow/ragflow/tree/main/deepdoc
  • Roadmap:https://github.com/infiniflow/ragflow/issues/12241
  • Discord 社区:https://discord.gg/NjYzJD3GM3
  • Python SDK:https://pypi.org/project/ragflow-sdk/
  • Helm Chart:https://github.com/infiniflow/ragflow/tree/main/helm
  • Agentic Workflow 详解:https://www.ragflow.io/blog/agentic-workflow-whats-inside-ragflow-v0.20.0
  • 阿里云 SAE 部署:Alibaba Cloud SAE 支持一键部署 RAGFlow 高可用实例
  • CSDN DeepDoc 技术分析:https://blog.csdn.net/wayle123/article/details/159760654

分析日期:2026-07-02 | 数据时效:GitHub 元数据实时拉取,产品功能基于 v0.26.2 官方文档和 Release Notes