RAGFlow - AI Navigation

← 返回项目列表

RAGFlow 是当前 GitHub 上 Star 数最高的 RAG 开源项目（Apache-2.0，84,059 Stars，9,767 Forks），由 infiniflow 团队开发，是全球 RAG 赛道的绝对标杆。其核心武器是自研的 DeepDoc 深度文档理解引擎——基于视觉模型的布局分析、表格结构识别（TSR）、OCR 三合一能力，能将 PDF/Word/PPT/扫描件等复杂格式中的表格、图表、公式、段落精确还原为结构化知识单元，复杂表格 F1 超过 95%。v0.26.0 已实现 Agent + Workflow 统一编排、MCP 全功能支持、GraphRAG 知识图谱、多渠道接入、代码沙箱等企业级能力。支持 Docker 一键部署或 SaaS 云版，中文文档完善，是国内企业构建 RAG/知识库系统的首选开源方案。

1. 项目/产品概览

维度	信息
项目名	RAGFlow
开发者	infiniflow（中国团队）
开源协议	Apache-2.0
主要语言	Go + Python（Web 前端用 TypeScript）
GitHub Stars	84,059（2026-07-02 查询，全球 RAG 项目第一）
Forks	9,767
Commits	7,081
开放 Issues	2,608
创建时间	2023-12-12（约 2.5 年历史）
最近更新	2026-07-01（每日活跃）
最新版本	v0.26.2（2026-06-29），共 58 个 Tag
官网	https://ragflow.io
云服务	https://cloud.ragflow.io（Free / Starter $29/mo / Pro $129/mo / Enterprise）
文档	https://ragflow.io/docs/dev/
社区	Discord、GitHub Issues / Discussions
Topics	rag, retrieval-augmented-generation, agentic-ai, ai-agents, context-engine, llm-apps, agentic-search, context-management, agentic-retrieval

2. 它主要能做什么

RAGFlow 的核心定位是 "RAG + Agent 融合的上下文引擎"——不仅做文档检索，更提供一整套从文档理解到智能 Agent 的全链路能力。

核心架构（六大模块）

用户/API 层  →  Chat / Agent / 搜索界面 / REST API
     ↓
Agent 编排层 →  Workflow（人工编排） + Agentic Workflow（LLM 自主规划）
     ↓
检索层     →  多路召回（向量 + 关键词 + 知识图谱） + 融合重排序
     ↓
索引层     →  Elasticsearch / Infinity（全文 + 向量混合索引）
     ↓
知识提取层  →  DeepDoc 引擎 / MinerU / Docling / OpenDataLoader
     ↓
数据源层    →  文件上传 / 数据源连接器（Confluence、S3、SharePoint、飞书等）

主要功能模块

模块	能力说明
DeepDoc 引擎	深度文档理解：OCR + 表格结构识别（TSR）+ 文档布局识别（DLR），三合一视觉模型
模板化分块	9 种分块策略：General、Manual、Q&A、Table、Paper、Book、Laws、Presentation、One
多 PDF 解析器	DeepDoc（默认）/ Naive / MinerU / Docling / OpenDataLoader / 第三方 VLM
多路混合检索	向量检索 + BM25 关键词检索 + Tensor 检索 + 知识图谱检索，融合重排序
Agent + Workflow 统一编排	可视化画布上同时支持人工 Workflow 和 LLM 自主 Agentic Workflow，含迭代、条件分支、Switch、代码执行器
MCP 全功能支持	导入 MCP Server、Agent 作为 MCP Client、RAGFlow 自身作为 MCP Server 对外暴露
GraphRAG	数据集级别的动态知识图谱构建，支持实体提取和社区分析
Long-Context RAG	自动生成文档目录（TOC）结构，缓解上下文丢失
RAPTOR	跨文档的层级摘要树构建
可编排摄取管道	可视化数据摄取流水线，支持自定义数据清洗流程
多渠道接入	飞书、Discord、Telegram、Line、Slack、Microsoft Teams 等
数据源连接器	Confluence、S3/OSS、Notion、Google Drive、JIRA、SharePoint、Salesforce、Outlook、OneDrive、Azure Blob
Memory（记忆）	Agent 对话记忆管理，支持多轮上下文保持
代码执行沙箱	Python/JavaScript 代码执行器（基于 gVisor 隔离）
Admin CLI	命令行管理工具，监控服务状态
Python SDK	`ragflow-sdk`，Python 编程接口，支持程序化管理知识库

3. 适用场景

场景	说明	典型客户
复杂文档知识库	PDF/扫描件/表格/公式密集的文档问答，DeepDoc 引擎最核心场景	律所、金融机构、会计师事务所
企业级 RAG 系统	多格式文档解析 + 高精度检索 + 溯源引用，适合生产级部署	中大型企业数字化部门
智能客服/FAQ	多渠道接入（飞书/Discord/Slack）+ 知识库问答	互联网公司、电商
多 Agent 协作系统	Agent + Workflow 统一编排 + MCP 工具集成	需复杂业务自动化的企业
GraphRAG 多跳推理	法律案例关联分析、药物研发文献挖掘等需要实体关系推理的场景	法律科技、生物医药
投资研究/研报生成	内置"公司研究报告深度分析"Agent 模板	券商、投资机构
法律检索/案例分析	内置"法律先例分析"Agent 模板，结构化相似案例分析	律所、法院、法务部门
制造业维护支持	内置"制造维护支持"模板，从内部手册精确检索 + 外部参考补充	制造业、设备管理

4. 不太适合的场景

场景	原因	替代建议
纯文本快速原型（只需几行代码）	RAGFlow 是平台级方案，需 Docker 部署，轻量场景杀鸡用牛刀	LlamaIndex / 直接用 LangChain
依赖现有 Elasticsearch 基础设施	RAGFlow 默认使用自研 Infinity 引擎，ES 仅作可选后端	Haystack（ES 深度集成）
需要极细粒度的 Pipeline 代码控制	RAGFlow 侧重 WebUI + 可视化编排，代码级灵活性不如 Haystack	Haystack
低预算小团队、简单 FAQ	RAGFlow 资源消耗较高（建议 16GB+ RAM），轻量场景成本高	MaxKB / FastGPT
海外模型生态优先	RAGFlow 对中国模型（通义千问、DeepSeek 等）支持优于部分海外模型	Dify（56 个模型提供商）
需要极强 Workflow 编排能力	RAGFlow 的 Workflow 没有 Dify 成熟，分支/循环/变量管理不及 Dify	Dify
ARM64 平台部署	官方不提供 ARM64 Docker 镜像，需自行构建	Dify（支持 ARM64）

5. 核心能力清单

5.1 文档解析能力（DeepDoc 引擎）

能力	说明
布局分析（DLR）	基于 Transformer 的视觉模型，识别标题、段落、表格、图片、公式、页眉页脚、多栏布局
表格结构识别（TSR）	识别表头、数据区、合计行、行列合并、多级表头，F1 > 95%
OCR 文字识别	自研深度学习 OCR，识别扫描件、手写文档、低质量图片中的文字
公式识别	数学公式转 LaTeX 格式，保留完整数学语义
图文混排	识别图片与文字的位置关系，关联图注与图片
多模态理解	v0.19+ 支持多模态模型理解 PDF/DOCX 中的图片内容
文档目录（TOC）提取	自动识别文档大纲结构，用于 Long-Context RAG

5.2 分块策略

策略	适用场景
General	通用文档，基于版面结构自动分块
Manual	手动指定分隔符和块大小
Q&A	问答对格式的文档
Table	表格密集型文档（财务报表等）
Paper	学术论文，识别摘要、章节、参考文献结构
Book	书籍，识别章、节、段层级
Laws	法律法规，识别条、款、项结构
Presentation	PPT 文档，按幻灯片分块
One	整个文档作为单个块，不切割
Knowledge Graph	实体/关系提取，用于 GraphRAG
TOC Extraction	目录结构提取，用于 Long-Context RAG

5.3 Agent / Workflow 能力

能力	说明
Workflow（人工编排）	可视化画布，Begin → Categorize → Retrieval → Agent → Message 等组件串联
Agentic Workflow（LLM 自主）	LLM 自主规划与反思（Planning + Reflection），工具调用
多 Agent 配置	同一画布上编排多个 Agent，支持子 Agent 嵌套
代码执行器	Python / JavaScript 代码执行（基于 gVisor 沙箱）
结构化输出	Agent 输出 JSON / Markdown / Word 格式
条件分支	Switch 组件，按分类结果走不同分支
迭代	Iteration 组件，数组遍历处理
变量聚合	Variable Aggregator，跨步骤数据传递
Await Response	暂停流程，主动收集用户输入
工具集成	21 个内置工具 + MCP Server 导入 + 学术搜索
Web Search	Agent 自主搜索互联网
运行时日志	Agent 执行路径可视化和输入/输出检查

5.4 模型与基础设施

类别	支持范围
LLM 提供商	44 个：OpenAI、Anthropic、DeepSeek、阿里通义千问、百度文心一言、Google Gemini、火山引擎、Ollama、vLLM、Xinference、LM Studio、OpenRouter、MiniMax、Moonshot、ZhipuAI、百川、LocalAI、LiteLLM 等
嵌入模型	OpenAI、BGE、Jina、Cohere、Voyage 4、HuggingFace 等，支持内置和外部
重排序模型	Cross-encoder, BGE-Reranker 等
向量/检索引擎	Infinity（默认，自研）、Elasticsearch（可选）、Qdrant（可选）、Redis（外部缓存）
VLM（视觉语言模型）	DeepDoc 内置 / 第三方 VLM（Qwen-VL、GPT-4V 等）
TTS（语音合成）	Fish Audio
推理优化	支持推理模型的文本缓冲

5.5 企业级特性

能力	说明
多工作区	多 Team 管理，Admin/Member 角色，项目级数据隔离
API 令牌	Beta 令牌体系，接入企业应用
OpenAI 兼容 API	Chat Completions API，兼容 OpenAI 生态
Admin 管理面	Web UI 管理面板，图形化用户管理和服务监控
Docker 部署	docker-compose 一键启动，支持 GPU 加速
Helm Chart	K8s 部署支持
反向代理	支持 HTTPS + Nginx 反向代理
Prometheus 监控	指标暴露，接入现有监控体系
多语言 UI	中文、英文、韩文、意大利文、日文、法文、阿拉伯文等 10+ 语言

6. 架构/部署/集成方式

部署模式

模式	说明	最低要求
Docker Compose（自托管）	`git clone && docker compose up -d`，最常用方式	CPU ≥ 4 核，RAM ≥ 16 GB，Disk ≥ 50 GB
GPU 加速部署	`DEVICE=gpu`，DeepDoc 解析速度提升 5-20 倍	NVIDIA GPU（推荐 8GB+ VRAM）
SaaS 云版	`cloud.ragflow.io`，即开即用	无需服务器
K8s / Helm	企业级集群部署	K8s 集群
源码开发启动	从源码构建和运行，适合二次开发	Python ≥ 3.13

部署步骤（Docker）

# 1. 确保 vm.max_map_count >= 262144
sudo sysctl -w vm.max_map_count=262144

# 2. 克隆仓库
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker

# 3. CPU 模式启动
docker compose -f docker-compose.yml up -d

# 4. GPU 模式启动（需 NVIDIA GPU）
# sed -i '1i DEVICE=gpu' .env
# docker compose -f docker-compose.yml up -d

# 5. 检查状态
docker logs -f docker-ragflow-cpu-1

# 6. 浏览器访问 http://<服务器IP>

LLM 集成示例（在 WebUI 中配置）

支持通过 OpenAI 兼容 API 接入任何模型：

Ollama：http://host.docker.internal:11434/v1（本地模型）
vLLM：http://vllm-server:8000/v1
阿里云通义千问：通过 DashScope API Key
DeepSeek：通过 DeepSeek API Key
百川 / ZhipuAI / MiniMax / Moonshot：各自的 API Key 接入

7. 怎么用

Docker 部署 + WebUI 使用（推荐入门方式）

# 1. 部署（见上节）
git clone https://github.com/infiniflow/ragflow.git && cd ragflow/docker
docker compose -f docker-compose.yml up -d

# 2. 浏览器登录 http://localhost 或 http://<服务器IP>
#    首次登录需注册管理员账号

WebUI 使用流程：

配置模型提供商：进入"模型提供商"页面，添加 LLM（如通义千问 qwen-plus）、嵌入模型（如 BGE）、重排序模型
创建知识库：点击"知识库"→"新建"，命名后配置分块策略（如 General）和 PDF 解析器（DeepDoc）
上传文档：拖拽或选择 PDF/Word/PPT/Excel/图片文件，RAGFlow 自动解析并索引
配置检索：选择混合检索模式（向量 + 关键词），设置 Top-K 和相似度阈值
开始对话：切换到"对话"标签页，输入问题即可获得带引用溯源的回答
构建 Agent：进入"Agent"页面，使用预置模板或从空白画布构建，拖拽组件编排流程
发布渠道：将 Agent 发布为飞书/Discord/Slack 等渠道的 Bot，或通过 API 嵌入自有系统

Python SDK 用法

from ragflow_sdk import RAGFlow

# 连接 RAGFlow
rag = RAGFlow(
    api_key="your_api_key",
    base_url="http://localhost/v1"
)

# 创建/获取知识库
dataset = rag.create_dataset(name="企业规章制度")

# 上传文档
dataset.upload_documents(["员工手册.pdf", "薪酬制度.docx"])

# 检索
chunks = dataset.retrieve(
    question="年假怎么请？",
    top_k=5
)

# chat
for ans in dataset.chat_stream("年假怎么请？"):
    print(ans, end="")

REST API 调用

curl -X POST http://localhost/v1/api/chats \
  -H "Authorization: Bearer " \
  -H "Content-Type: application/json" \
  -d '{
    "dataset_ids": [""],
    "question": "请说明年假申请流程",
    "stream": true
  }'

8. 售前可以怎么讲

8.1 一句话定位

"RAGFlow 是全球 GitHub 上最受欢迎的 RAG 开源引擎——84,000 Stars，DeepDoc 深度文档理解能力业界最强，让 AI 真正 '读懂' 你的 PDF、合同、报告。"

8.2 客户痛点 → 解决方案

客户痛点	RAGFlow 解法
"导入 PDF 后 AI 答非所问，表格数据全错"	DeepDoc 引擎：视觉模型精确解析表格/图表/扫描件，复杂表格识别 F1 > 95%，远超传统 OCR
"文档里有扫描件、图片、公式，RAG 系统根本看不懂"	DeepDoc 三合一：OCR + TSR（表格结构识别）+ DLR（布局分析）并行处理，一次解析全部还原
"选了开源的 RAG 框架但不会用，需要写一堆代码"	WebUI 可视化：所见即所得，上传文档 → 配置分块 → 对话测试，非技术人员也能用
"需要 Agent 自动化处理业务流程不只是问答"	Agent + Workflow 统一编排：低代码画布拖拽组件，支持多 Agent 协作 + MCP 工具 + 代码执行
"数据不能上云，必须本地私有化部署"	Docker 一键部署：完全本地化，数据不出企业机房，Apache-2.0 开源无商业限制
"大老板问有没有权威背书，凭什么信你"	84K Stars 全球 RAG 第一，阿里云官方推荐，活跃开发 7,000+ Commits
"自有系统怎么集成？员工习惯用飞书/钉钉"	多渠道接入：飞书/Slack/Teams + OpenAI 兼容 API + Python SDK + REST API
"知识图谱也想用，但不知道怎么搭配 RAG"	内置 GraphRAG：数据集级动态知识图谱，自动构建实体关系，多跳推理

8.3 差异化卖点

vs MaxKB（1Panel产品）：

对比维度	RAGFlow	MaxKB
Stars	84,059	~14,000
文档解析	DeepDoc 视觉模型，表格/扫描件精确解析	基础 OCR，格式支持有限
检索能力	多路混合检索 + 融合重排序 + GraphRAG	基础 RAG 检索
Agent	Agent + Workflow 统一编排 + MCP + 代码沙箱	基础 Agent（功能较简单）
企业级	多工作区、角色管理、Admin CLI、K8s	单租户、简单权限
定位	专业 RAG 引擎，深挖文档理解	轻量级 FAQ 系统
中文	⭐⭐⭐⭐	⭐⭐
部署复杂度	中等（Docker 一键）	简单（轻量）

vs Haystack（deepset产品）：

对比维度	RAGFlow	Haystack
Stars	84,059	~25,800
定位	平台级 RAG 引擎 + Agent	代码级 RAG 框架
文档理解	DeepDoc 自研视觉模型，开箱即用	需自行组合组件，依赖第三方
使用方式	WebUI 可视化为主 + API	纯代码 Pipeline + Hayhooks 部署
低代码	⭐⭐⭐⭐⭐ 完全可视化	⭐ 纯代码
代码级控制	⭐⭐⭐ SDK	⭐⭐⭐⭐⭐ Pipeline 可任意定制
Agent 能力	⭐⭐⭐⭐ 可视化编排 + MCP	⭐⭐⭐ Tool Calling / ReAct
海外企业信任	⭐⭐⭐ 主要是中国社区	⭐⭐⭐⭐⭐ Apple/Meta/NVIDIA 在用
中文支持	⭐⭐⭐⭐⭐ 中文文档、中文社区	⭐⭐⭐ 英文为主

vs LlamaIndex：

对比维度	RAGFlow	LlamaIndex
定位	完整的 RAG 产品平台	Python RAG 框架库
上手难度	WebUI 零代码	需 Python 代码
文档解析	DeepDoc 引擎（内置强）	依赖 LlamaParse（付费）
灵活性	⭐⭐⭐ WebUI + 模板	⭐⭐⭐⭐⭐ 完全代码控制
产品化	开箱即用，有 SaaS	需自行构建前端和运维
Stars	84,059	~40,000

vs Dify：

对比维度	RAGFlow	Dify
Stars	84,059	~110,000
核心优势	文档理解 + RAG 精度	Workflow 编排 + 插件生态
文档解析	⭐⭐⭐⭐⭐ DeepDoc 最强	⭐⭐ 基础格式，复杂文档弱
Workflow 编排	⭐⭐⭐ 基础分支/迭代	⭐⭐⭐⭐⭐ 40+ 工具，复杂逻辑
模型生态	44 个提供商	56 个提供商 + 插件
适用场景	复杂文档知识库	通用 AI 应用构建
部署复杂度	Docker Compose	Docker Compose

核心差异一句话：

你要建文档知识库、处理 PDF/合同/扫描件 → RAGFlow（文档理解无敌）
你要构建复杂 AI 应用、Workflow → Dify（编排更成熟）
你要代码级完全可控 → Haystack / LlamaIndex
你要简单 FAQ 轻量 → MaxKB

8.4 客户价值故事线

切入（引起痛感）："你们是不是试过用 RAG 系统处理合同/研报，结果 AI 把表格数据全搞混了？"
拆解（定位根因）："根本原因不是 LLM 不行，是文档解析不行——传统 RAG 把 PDF 当纯文本切，表格被切成碎片，自然检索不到。"
演示（秀肌肉）：当场上传一份复杂的 PDF（含表格+图表+扫描页）→ DeepDoc 解析 → 精确问答 → 溯源定位到原文位置。这是最有力的 demo。
扩展（从 RAG 到 Agent）："不只能问答。你可以拖拽组件搭 Agent——自动读合同→提取关键条款→对比历史案例→生成分析报告。"
落地（打消顾虑）："Docker 一键部署到你内网，数据不出门。API 对接现有系统。飞书/钉钉机器人，员工直接用。"
收尾（信任佐证）："全球 84,000 开发者 Star 了 RAGFlow。阿里云官方推荐。开源免费，Apache-2.0 协议，没有风险。"

9. 常见客户问题

问题	回答
RAGFlow 和 Dify 有什么区别？该选哪个？	RAGFlow 强在文档理解和 RAG 检索精度，DeepDoc 引擎处理 PDF/扫描件/表格远超 Dify；Dify 强在 Workflow 编排和插件生态。如果核心需求是"文档知识库"，选 RAGFlow；如果核心需求是"搭复杂的 AI 应用工作流"，选 Dify。二者可以组合使用。
社区版和企业版有什么区别？	开源社区版一直是主力版本，Apache-2.0 协议，功能完整（DeepDoc、Agent、GraphRAG、MCP 全部包含）。企业版（SaaS 云版 / Enterprise）提供托管部署、专属支持、定制 SLA、BYOC 部署。对于私有化部署客户，社区版完全够用。
数据安全怎么保证？数据会传到外面吗？	完全私有化部署时，所有数据（文档、向量、对话记录）全部存储在本地服务器上。调用 LLM 时，RAGFlow 只是客户端——它发送的是检索到的文本片段，不传原始文档。如果连 LLM 都不想出网，可以配 Ollama/vLLM 本地模型，全程离线运行。
部署需要什么硬件？GPU 是必须的吗？	CPU 最低：4 核 + 16GB RAM + 50GB 磁盘。GPU 不是必须的，但强烈推荐——DeepDoc 的 OCR/表格识别/布局分析在 GPU 上快 5-20 倍。处理扫描件多的场景，建议配一张 NVIDIA GPU（8GB+ VRAM）。
支持国产化环境吗？（信创/麒麟/昇腾）？	支持麒麟 OS 和昇腾芯片。RAGFlow 支持通过 vLLM/Xinference 等本地推理框架接入国产模型，如 DeepSeek、通义千问、百川等。在信创环境下可以全链路国产化。
知识库规模能到多大？性能如何？	使用 Infinity 引擎（自研高性能向量/全文数据库），支持百万级文档。检索性能：多路召回 + 融合重排，毫秒级响应。对于超大规模场景，建议上 Elasticsearch 后端 + GPU 加速。
能对接我们现有的 OA/CRM 系统吗？	可以通过三种方式：1）REST API（OpenAI 兼容格式）；2）Python SDK（`ragflow-sdk`）；3）Agent 中的 HTTP/API 组件直连业务系统。数据源连接器支持 Confluence、SharePoint、Salesforce 等常见系统同步。
部署和运维复杂吗？	Docker Compose 一条命令启动：`docker compose up -d`。日常运维主要是升级镜像（`docker compose pull && docker compose up -d`）和监控磁盘/内存。提供 Prometheus 指标接入和 Admin CLI 管理工具。
可以处理哪些文件格式？扫描件支持吗？	Word、PPT、Excel、PDF、TXT、图片（PNG/JPG/JPEG）、网页、Markdown、视频文件等。扫描件通过 DeepDoc 自研 OCR 完美支持——这是 RAGFlow 最强的能力之一。
开源协议是什么？可以商用吗？收费吗？	Apache-2.0，完全免费商用，无任何限制。SaaS 云版按用量收费（Free / Starter $29/月 / Pro $129/月），是托管服务的费用，不开源的代码本身不收费。

10. PoC 建议

推荐 PoC 方向：复杂文档知识库 RAG 系统

阶段	内容	时间	产出
1. 环境搭建	Docker 部署 RAGFlow（含 GPU 配置），配置 LLM（如通义千问）和嵌入模型	0.5 天	可运行环境
2. 文档导入	选取客户真实复杂文档（PDF 合同/扫描件/含表格报告）50-200 份，配置 General 分块 + DeepDoc 解析	0.5 天	已索引的知识库
3. 检索验证	使用典型业务问题测试：混合检索（向量 + 关键词 + Tensor）+ 重排序	0.5 天	验证检索准确率
4. Agent 构建	基于客户场景构建 Agent（如"合同关键条款提取 + 风险标注"）	1 天	可演示的 Agent
5. 对接集成	通过 API 对接客户前端或飞书/钉钉渠道	1 天	可内测的完整系统
6. 评估报告	定量评估：召回率、准确率、响应时间；定性评估：用户满意度	0.5 天	PoC 评估报告

合计：约 4 个工作日

验证指标建议：

检索召回率（含表格/图片内容）> 85%
复杂表格数据问答准确率 > 90%
带溯源引用答案比例 > 95%
端到端平均响应时间 < 5 秒
扫描件 OCR 准确率 > 95%

PoC 成功关键：

必须用客户真实复杂文档——DeepDoc 处理这些文档的能力就是核心卖点
重点演示表格问答和扫描件解析，这是最能拉开差距的地方
溯源功能一定要展示——点一下答案就能跳到原始文档位置
GPU 加速要配好，否则 DeepDoc 解析速度慢会影响演示体验

11. 风险和注意事项

风险	级别	说明	缓解措施
资源消耗高	高	最低 16GB RAM + 推荐 GPU，比 MaxKB/轻量方案的硬件成本高 3-5 倍	提前明确硬件要求；SaaS 云版可免去硬件投入
ARM64 不支持	中	官方不提供 ARM64 Docker 镜像（如 Apple Silicon Mac 服务器）	x86 部署 or 自行构建镜像（官方有构建指南）
社区版迭代快、不稳定	中	每 1-2 月一个大版本，偶尔有 Breaking Changes（如 v0.22 移除 full 镜像）	使用稳定版本（tag），升级前先测试
依赖外部 LLM API	中	RAGFlow 本身不带 LLM，需额外配置 LLM 服务（API 或本地部署）	配 Ollama/vLLM 本地模型实现全部离线
Agent 能力不及 Dify	低	Workflow 编排、工具生态、插件市场不如 Dify 丰富	纯 RAG/文档场景足够；复杂 Workflow 考虑 Dify 联动
团队为创业公司	低	infiniflow 是创业团队，商业化路径仍在探索	Apache-2.0 协议，社区版不会消失；阿里云等大厂已在集成推广
社区支持以中文为主	低	英文社区相对较小，跨国企业可能担心	中文客户反而是优势；社区活跃，Discord + GitHub Issues 响应快
开源竞争激烈	低	Dify、MaxKB 等项目也在快速发展	RAGFlow 在文档理解这个最核心的赛道上壁垒最高

12. 我的售前判断

推荐度：最强烈推荐（对于需要文档知识库 / 复杂文档 RAG 的客户，RAGFlow 是首选）

理由：

文档理解壁垒最高：DeepDoc 引擎的 OCR + TSR + DLR 三合一视觉模型，复杂表格 F1 > 95%，这是 RAGFlow 最硬核的护城河。其他框架（Dify、MaxKB、Haystack）在这方面差距明显，短期内难以追赶。
全球社区第一：84,059 Stars 不仅代表认可度，更意味着丰富的社区资源——问题快速解决、最佳实践沉淀、第三方集成丰富。
平台化完整：从文档解析 → 分块 → 检索 → 重排序 → 生成 → Agent → 渠道发布，全链路覆盖且可通过 WebUI 操作。不是框架，是产品。
企业友好：Apache-2.0 完全免费商用 + Docker 一键部署 + 数据不出门 + 多渠道接入 + Admin 管理面。针对中国企业客户（尤其是信创/国产化需求）非常友好。
迭代速度快：7,000+ Commits，每 1-2 个月一个大版本。MCP、GraphRAG、Agent、Memory 等前沿能力快速跟进。
阿里云背书：已被阿里云 SAE 官方集成推荐，可通过 SAE 一键部署高可用实例。

推荐客户画像：

有大量复杂文档需要 RAG 处理（PDF 合同、扫描件、含表格/图表报告）
需要通过私有化部署保障数据安全
中文场景为主
需要低代码 / 可视化操作（非纯代码框架）
预算有限但追求 RAG 效果（开源免费）
有信创 / 国产化合规要求
需要多 Agent 协作 + MCP 工具集成

不推荐的情况：

需要极强 Workflow 编排能力（分支/循环/变量管理）→ Dify
纯代码框架、需要极致灵活性的 Python 开发者 → Haystack / LlamaIndex
预算充裕且需要国际大厂企业版支持 → Haystack Enterprise
简单 FAQ、轻量需求、低硬件预算 → MaxKB / FastGPT
ARM64 平台且无法自行构建镜像
海外模型生态是核心需求（Dify 的 56 个提供商更丰富）

13. 参考资料

GitHub 仓库：https://github.com/infiniflow/ragflow
官方文档：https://ragflow.io/docs/dev/
官网：https://ragflow.io
SaaS 云版：https://cloud.ragflow.io
发布说明（Release Notes）：https://ragflow.io/docs/dev/release_notes
DeepDoc 技术详解：https://github.com/infiniflow/ragflow/tree/main/deepdoc
Roadmap：https://github.com/infiniflow/ragflow/issues/12241
Discord 社区：https://discord.gg/NjYzJD3GM3
Python SDK：https://pypi.org/project/ragflow-sdk/
Helm Chart：https://github.com/infiniflow/ragflow/tree/main/helm
Agentic Workflow 详解：https://www.ragflow.io/blog/agentic-workflow-whats-inside-ragflow-v0.20.0
阿里云 SAE 部署：Alibaba Cloud SAE 支持一键部署 RAGFlow 高可用实例
CSDN DeepDoc 技术分析：https://blog.csdn.net/wayle123/article/details/159760654

分析日期：2026-07-02 | 数据时效：GitHub 元数据实时拉取，产品功能基于 v0.26.2 官方文档和 Release Notes