QAnything - AI Navigation

← 返回项目列表

QAnything 是网易有道开源的本地知识库问答系统（AGPL-3.0，14,025 Stars），2024 年 1 月发布，定位"扔任意文件进去就能准确问答"。核心亮点在于有道自研的 BCEmbedding 检索模型（双语跨语种 SOTA）和深厚的 OCR/文档解析积累——中文扫描件 PDF、表格识别、跨页布局处理能力在国产开源方案中独树一帜。v2.0（2024-08）完成了从 GPU 到纯 CPU 的架构迁移，Docker 一键部署，镜像从 18.94GB 瘦身至 4.88GB。然而项目自 2025 年 3 月后代码更新基本停滞，403 个 Open Issues 未处理，AGPL-3.0 协议对商用部署构成法律风险。如果客户场景恰好是"大量中文扫描件→结构化解析→本地问答"，且能接受 AGPL 协议或购买企业版授权，QAnything 仍是最佳选择之一。

1. 项目/产品概览

维度	信息
项目名	QAnything（Question and Answer based on Anything）
开发者	网易有道（NetEase Youdao）
开源协议	AGPL-3.0（⚠️ 强 Copyleft，商用需特别注意）
主要语言	Python
GitHub Stars	14,025
Forks	1,347
Commits	754
创建时间	2024-01-03（约 2.5 年）
最近代码推送	2025-03-24（⚠️ 距今已 15 个月无实质性代码更新）
最新 Release	v2.0.0（2024-08-23，距今约 22 个月）
Open Issues	403（大量未关闭问题，维护活跃度低）
默认分支	qanything-v2
官网	https://qanything.ai
在线体验	https://qanything.ai
企业版	QAnything 企业版（闭源，商业授权，提供 Turbo/Plus/Long/Max 多尺寸模型）
核心组件	BCEmbedding（Embedding + Rerank，独立开源项目 Apache-2.0）
社区	微信社群 3,000+ 人、HuggingFace 下载量 1,025,440
商务联系	010-82558901 / AIcloud_Business@corp.youdao.com

2. 它主要能做什么

QAnything 的核心是一条完整的 文档解析 → 向量索引 → 两阶段检索 → LLM 生成 流水线，用户只需上传文件即可获得基于文档内容的准确回答。

2.1 文档解析能力（有道核心积累）

解析维度	能力说明
支持格式	PDF、Word(docx)、PPT(pptx)、XLS(xlsx)、Markdown(md)、EML（邮件）、TXT、图片(jpg/jpeg/png)、CSV、HTML
PDF 表格解析	v2.0 重写逻辑，识别跨页表格结构、行列布局、自动提取表头；嵌入文本栏的表格也能正确识别而非当纯文本处理
分栏/多栏布局	识别双栏或多栏布局，按阅读习惯排序文本块；跨页文本确保归属同一 chunk
图片提取	PDF 中的图片完整保留，嵌入对应 chunk 中，支持"回答带图"
小标题归属	特定小标题下的文本优先分配到同一 chunk，过长时在新 chunk 前重复标题保持语义连贯
元数据嵌入	检索和问答阶段均嵌入 metadata 信息，提升检索准确率
Chunk 可视化	前端可在线预览和手动编辑每个 chunk 内容，实时生效

2.2 OCR 能力

有道翻译/OCR 的技术积累是 QAnything 区别于其他国产 RAG 方案的核心壁垒。对于中文扫描件 PDF（图片型 PDF），QAnything 的 OCR 识别准确率显著优于通用 OCR 引擎。v2.0 中 OCR 作为独立服务可单独调用（HTTP）。

2.3 两阶段检索（核心架构差异化）

QAnything 使用自研 BCEmbedding 模型（Apache-2.0 开源），包含两个组件：

一阶段 Embedding（bce-embedding-base_v1）：MTEB 评测综合得分 59.43，显著优于 BGE-large-zh-v1.5（54.21）、M3E-base（53.54），中文跨语种场景尤其突出
二阶段 Rerank（bce-reranker-base_v1）：Reranking 得分 60.06，优于 BGE-reranker-large（59.69）
组合效果 SOTA：在 LlamaIndex RAG 评测中，BCEmbedding + BCReranker 的组合达到当前最优

两阶段检索的核心价值：知识库数据量越大，一阶段 Embedding 检索会出现"检索退化"问题，Rerank 重排能逆转趋势，实现"数据越多、效果越好"。

2.4 混合检索 & 其他功能

功能	说明
混合检索	BM25（关键词）+ Embedding（语义）双路融合
联网检索	支持外网搜索补充知识库外的信息（需 VPN）
快速开始模式	类似 Kimi，无需创建知识库即可上传文件即传即问
无文件对话	不依赖知识库的纯 LLM 聊天模式
仅检索模式	只返回检索到的文档片段，不调用 LLM
自定义 Bot	可绑定知识库、自定义角色 prompt、配置模型参数、分享给他人
FAQ 问答	内置 FAQ 匹配引擎
文件溯源	答案可追溯到原文档具体位置，点击直接打开
Web UI	支持多对话窗口、问答记录保存为图片、前端配置 API Key/Base URL/分片大小等

3. 适用场景

场景	说明	典型客户
中文扫描件/图片 PDF 问答	有道 OCR 积累深厚，中文扫描件识别率业内领先	政府档案、法律合同、金融票据
企业内部知识库	员工手册、产品文档、技术规范等上传即问	中大型企业知识管理
离线/涉密环境部署	支持全程断网安装使用，数据不出局域网	军工、政务、金融
表格密集型文档处理	PDF 表格解析能力是差异化亮点	财报分析、研究报告、实验数据
跨语种文档问答	中英文混排文档中跨语言语义检索准确率高	外企中国分部、进出口贸易
企业数字员工	销售助手、客服机器人、技术顾问 7×24 服务	企业客服中心、IT 服务台
报告研读/投研	内容摘要、关键点提取、文档问答	投资机构、咨询公司

4. 不太适合的场景

场景	原因	替代建议
需要商业 License 安全	AGPL-3.0 要求对外提供服务时必须开源衍生代码，律师通常不建议在生产中直接使用	购买企业版授权 / 换用 Apache-2.0 协议的方案（如 MaxKB）
长期维护和生态重要	⚠️ 项目 2025 年 3 月后基本停滞，403 Open Issues，无新 Release 近 2 年	RAGFlow（更新非常活跃）/ MaxKB（20,000+ Stars）
复杂 Agent/工作流编排	QAnything 是"文档→问答"的直筒流水线，无可视化工作流编排	Dify / RAGFlow（v0.21+ 引入 Ingestion Pipeline）
非文档类知识管理	知识图谱、结构化数据库查询等非文档场景	GraphRAG / LlamaIndex
需要 GPU 加速	v2.0 完全迁移至纯 CPU，不再提供本地 GPU 推理	RAGFlow（支持 GPU）+ 自托管 LLM
大规模并发生产环境（开源版）	开源版上传文件时不能并行操作，文件数量和大小有限制	企业版 / RAGFlow / MaxKB

5. 核心能力清单

能力类别	能力项	详细说明
文档解析	PDF 解析（含表格）	自研解析器，识别表格结构/跨页表格/分栏布局/嵌入图片
	OCR 识别	有道 OCR 技术，扫描件 PDF 识别，中文场景优势明显
	多格式支持	PDF/Word/PPT/XLS/Markdown/EML/TXT/图片/CSV/HTML
	Chunk 可视化编辑	前端直接预览 chunk 内容，支持手动编辑，实时生效
	元数据嵌入	检索阶段和问答阶段均携带 metadata
检索	Embedding 检索	自研 BCEmbedding，MTEB 综合 59.43，中文场景 SOTA
	Rerank 重排序	自研 BCReranker，评分 60.06，解决大规模检索退化
	混合检索	BM25 关键词 + Embedding 语义双路融合
	片段融合排序	聚合单文档或双文档的 chunk 片段
LLM	多模型接入	支持 OpenAI API 兼容的所有模型（Ollama、通义千问 DashScope 等）
	前后端配置	API Key/Base URL/分片大小/输出 token 数/上下文消息数均可前端配置
	自定义 Bot	每 Bot 独立配置模型参数、角色 prompt、绑定知识库
问答	多轮对话	支持多对话窗口，同时保存多组历史记录
	文件溯源	答案可追溯到原文档位置并直接打开
	仅检索模式	只返回检索结果不调用 LLM
	无文件对话	纯 LLM 聊天模式
	联网检索	外网搜索补充知识
部署	Docker 一键部署	`docker compose up -d` 单行命令启动
	纯 CPU 运行	v2.0 完全迁移至 CPU，Mac/Linux/Win 三端统一
	离线使用	支持全程断网安装和运行
	镜像瘦身	从 18.94GB 压缩至 4.88GB（1/4）
	独立服务调用	Embed/Rerank/OCR/PDF 解析均可独立 HTTP 调用
企业版额外	大模型定制	Turbo/Plus/Long/Max 多种尺寸可选
	大规模支持	文件数量和大小是开源版 10-100 倍
	并行操作	上传文件与其他操作完全并行
	领域落地	精调 prompt 减少幻觉，多行业落地案例

6. 架构/部署/集成方式

整体架构

用户上传文档（PDF/Word/PPT/...）
    │
    ▼
文档解析层（PDF Parser / OCR / 格式转换器）
    │
    ▼
文本分块 + 元数据提取
    │
    ▼
向量化索引（Embedding 服务 + Elasticsearch/Milvus 等）
    │
    ▼
用户提问 → 一阶段 Embedding 检索（粗筛）
    │
    ▼
二阶段 Rerank 重排序（精排）
    │
    ▼
LLM 生成回答（OpenAI 兼容接口）
    │
    ▼
返回答案 + 溯源引用

部署模式

模式	说明
Docker Compose（推荐）	`docker compose up -d` 一键启动，支持 Linux/Mac/Windows（无需 WSL）
纯 Python	v1.4.2 支持 `pip install` 方式，但不推荐生产使用
离线部署	Docker 镜像可预先下载后离线导入，全程断网运行

硬件要求

环境	要求
CPU	v2.0 纯 CPU 运行，推荐 32GB+ 内存
存储	镜像 4.88GB + 知识库数据
网络	离线可运行，联网检索需外网

模型集成

LLM：所有兼容 OpenAI API 的模型（Ollama、通义千问 DashScope、DeepSeek、GLM 等）
Embedding + Rerank：默认 BCEmbedding（自研，可替换）
向量存储：Elasticsearch（内置中文分词器 IK）

API 支持

提供 RESTful API，可通过 API 进行文件上传、知识库管理、问答等全部操作。v2.0 版本中 Embed、Rerank、OCR、PDF 解析均支持独立 HTTP 调用。

7. 怎么用

Docker 一键部署（推荐）

# 克隆项目
git clone https://github.com/netease-youdao/QAnything.git
cd QAnything

# 启动服务（根据操作系统选择 compose 文件）
# Linux
docker compose -f docker-compose-linux.yaml up -d

# Mac
docker compose -f docker-compose-mac.yaml up -d

# Windows
docker compose -f docker-compose-win.yaml up -d

# 访问 Web UI
# 浏览器打开 http://localhost:5052

配置 LLM

在 Web UI 前端设置页面配置：

API_BASE：LLM 服务的 API 地址（如 https://api.openai.com/v1 或 Ollama 的 http://localhost:11434/v1）
API_KEY：API 密钥
MODEL：模型名称（如 gpt-4o、qwen-plus、deepseek-chat）

API 调用示例

import requests

# 上传文件到知识库
url = "http://localhost:5052/api/local_doc_qa/upload_files"
files = {"files": open("contract.pdf", "rb")}
data = {"kb_id": "KB123456", "user_id": "user001"}
resp = requests.post(url, files=files, data=data)

# 问答
url = "http://localhost:5052/api/local_doc_qa/local_doc_chat"
payload = {
    "question": "这份合同的关键条款是什么？",
    "kb_ids": ["KB123456"],
    "user_id": "user001"
}
resp = requests.post(url, json=payload)
print(resp.json()["response"])

使用 BCEmbedding 独立组件

# BCEmbedding 是 Apache-2.0 协议，可单独使用
from BCEmbedding import EmbeddingModel, RerankerModel

# Embedding
embed_model = EmbeddingModel(model_name_or_path="maidalun1020/bce-embedding-base_v1")
embeddings = embed_model.encode(["什么是RAG?", "RAG是检索增强生成"])

# Rerank
reranker = RerankerModel(model_name_or_path="maidalun1020/bce-reranker-base_v1")
scores = reranker.compute_score(["什么是RAG?"], ["RAG是检索增强生成技术"])

8. 售前可以怎么讲

8.1 一句话定位

"QAnything 是网易有道出品的文档智能问答系统——把中文扫描件扔进去，秒出准确答案。"

8.2 客户痛点 → 解决方案

客户痛点	QAnything 解法
"我们有大量扫描版 PDF，OCR 不准，问答效果差"	有道 OCR 技术积累深厚，中文扫描件识别率行业领先，是核心差异化优势
"公司数据不能上云，必须内网部署"	全程断网安装使用，Docker 一键部署，数据不出局域网
"知识库越大，检索越不准"	两阶段检索（Embedding + Rerank），数据越多效果越好，BCEmbedding 评测 SOTA
"PDF 里的表格识别不了"	v2.0 重写表格解析逻辑，跨页表格、嵌入表格、表头识别均已优化
"开源方案协议能不能商用？"	企业版提供商业授权，Turbo/Plus/Long/Max 多种模型可选
"不用 GPU 能跑吗？"	v2.0 完全迁移至纯 CPU 运行，Mac/Linux/Win 通吃
"部署太复杂，团队没 ML 工程师"	`docker compose up -d` 一行命令启动，开箱即用

8.3 差异化卖点

vs RAGFlow（InfiniFlow 开源）：

QAnything 优势：有道 OCR 积累 → 中文扫描件/表格 PDF 解析效果更好；BCEmbedding 双语跨语种 SOTA；纯 CPU 部署更轻量
RAGFlow 优势：DeepDoc 解析引擎更全面（支持布局识别 YOLOv8）；v0.21+ 引入 Ingestion Pipeline 可编排；更新非常活跃（2025-2026 持续高频迭代）；Apache-2.0 协议更友好
结论：如果客户核心需求是"海量多样格式的复杂文档深度解析 + 可编排 Pipeline"，选 RAGFlow；如果是"中文扫描件/表格 PDF 问答 + 简单部署"，QAnything 更精准

vs MaxKB（1Panel 开源）：

QAnything 优势：检索模型更强（BCEmbedding SOTA vs MaxKB 基础检索）、文档解析更深度（尤其 OCR/表格）、企业版有商业支持
MaxKB 优势：Stars 更多（20,600+）、协议友好（GPL-3.0 with MaxKB EULA）、有工作流编排和 MCP 工具调用、社区活跃度高很多、与 1Panel 运维生态深度整合
结论：MaxKB 更适合作为通用平台型 Agent 底座；QAnything 更聚焦"文档→问答"这一条路走到极致

vs Dify：

QAnything 是"文档问答专用工具"；Dify 是"AI 应用开发平台"
Dify 有可视化工作流编排、丰富的工具和插件生态，但文档解析深度不如 QAnything
QAnything 适合不需要复杂编排、只需文档问答的客户；Dify 适合需要自定义 AI 应用的企业

核心差异化总结：有道 OCR + BCEmbedding + 纯 CPU 部署 + 扫描件友好

8.4 客户价值故事线

切入："你们公司有很多扫描版的合同/档案/报告，想用 AI 问答但 OCR 效果不好？"
共鸣："通用 OCR 引擎对中文扫描件识别率低，表格跨页后内容断裂，分栏布局读错顺序——这些都是常见坑。"
演示：上传一份中文扫描版 PDF 合同（含表格），提问"违约责任条款是什么？"——QAnything 准确识别扫描文字、解析表格、定位答案、溯源原文
进阶：从单文档 → 批量上传建立企业知识库 → 自定义 Bot（销售助手/法务助手/技术顾问）→ API 集成到 OA 系统
收尾："网易有道 20 年 OCR 技术积累，14,000+ GitHub Stars，3000+ 微信社群用户——在这个细分赛道上没有更强的开源方案了。"

9. 常见客户问题

问题	回答
AGPL-3.0 协议能不能商用？	这可能是最关键的问题。AGPL-3.0 要求：如果你的系统对外提供网络服务（如 SaaS），你必须向用户提供衍生作品的完整源代码。仅内部使用不对外提供服务则无需开源。如果客户需要"对外提供文档问答服务"且修改了 QAnything 源码，必须开源。建议：纯内网使用问题不大；若对外服务或不想承担开源义务，购买企业版商业授权。
项目是不是不维护了？	客观说，项目自 2025 年 3 月以来代码仓库基本停滞（15 个月无新提交），最新 Release v2.0.0 距今近 2 年，403 个 Open Issues 未处理。但 v2.0 版本本身功能完整且稳定，对于"文档问答"这个相对成熟的需求，够用。若客户需要持续迭代的新功能，需谨慎评估。
和 RAGFlow 比哪个好？	看场景。QAnything 的 OCR/扫描件处理是强项，纯 CPU 部署更轻量；RAGFlow 的 DeepDoc 解析引擎更全面、更新更活跃（Ingestion Pipeline、Long-Context RAG 等新功能持续加入）。如果看重文档解析深度和检索精度，RAGFlow 生态目前更强。如果场景正好是"中文扫描件问答"，QAnything 更对路。
支持哪些大模型？	所有兼容 OpenAI API 的模型均可接入：OpenAI GPT 系列、通义千问（DashScope）、DeepSeek、GLM、Ollama 部署的本地模型等。前端直接配置 API Key 和 Base URL，无需改代码。
能处理多大的文件量？	开源版有限制（官方未明确上限，但企业版号称是开源版 10-100 倍）。实际使用中，数百份文档的知识库体验良好；数千份以上建议选企业版或评估性能。
支持 GPU 加速吗？	v2.0 版本已完全迁移至纯 CPU，不再支持 GPU 加速。这是有意为之的架构选择——降低部署门槛，但代价是处理大规模文档时速度不如 GPU 方案。
能不能导出 / 备份知识库？	知识库数据存储在 Elasticsearch 中，可通过 ES 的 snapshot API 备份。问答记录和 Bot 配置通过 API 可导出。
有移动端吗？	无官方移动 App。Web UI 是响应式的，可在手机浏览器中使用。需要移动端需自开发对接 API。

10. PoC 建议

推荐 PoC 方向：中文扫描件 PDF 问答

这是 QAnything 最核心的差异化场景，建议 PoC 聚焦于此以最大化展示其不可替代性。

阶段	内容	时间	产出
1. 环境准备	Docker 一键部署，配置 LLM API（如通义千问或 DeepSeek）	0.5 天	可运行的 QAnything 实例
2. 数据准备	收集客户 30-50 份真实文档（建议包含扫描件 PDF、含表格的 PDF、双栏排版文档）	0.5 天	测试文档集
3. 文档入库	批量上传文档，观察 OCR 解析效果，抽查 chunk 质量	1 天	已索引的知识库
4. 问答验证	设计 20-30 个测试问题（覆盖：扫描件文字识别、表格数据问答、跨页内容理解、原文溯源），逐条打分	1 天	准确率报告
5. 竞品对比	同样文档集用 RAGFlow/MaxKB 跑一遍，对比 OCR 识别率、表格解析、回答准确率	1 天	对比分析报告
6. 集成演示	通过 API 对接客户现有系统（OA/客服），演示实际业务流程	1 天	可演示的集成方案

验证指标：

OCR 文字识别准确率 > 95%（中文扫描件）
表格数据提取完整率 > 90%
端到端回答准确率 > 85%（基于文档事实性验证）
平均响应时间 < 5 秒（纯 CPU 环境）
答案溯源准确（引用的文档位置与答案匹配）

PoC 注意事项：

务必用客户自己的真实文档，不要用干净排版的测试文档
如果客户对 AGPL 协议有顾虑，PoC 阶段就应明确：开源版仅用于技术验证，商用需企业版授权
提前告知客户纯 CPU 模式下大规模文档的索引速度预期

11. 风险和注意事项

风险	级别	说明	缓解措施
AGPL-3.0 协议	🔴 高	强 Copyleft 协议，对外提供网络服务时必须开源衍生代码。大多数企业法务部门会反对在生产系统中直接使用 AGPL 开源版。	纯内网使用安全；对外服务购买企业版商业授权；或用 Apache-2.0 的 BCEmbedding 自建 RAG 系统
项目维护停滞	🔴 高	最后代码推送 2025-03-24（15 个月前），最新 Release 2024-08-23（近 2 年），403 个 Open Issues 未处理。项目实质上已进入维护休眠状态。	如果当前 v2.0 功能满足需求，可用；如果期望持续增加新功能，推荐 RAGFlow/MaxKB
企业版闭源依赖	🟡 中	开源版功能与性能有限制——文档解析效果一般、文件数量有限、不支持并行操作、不支持生产环境。真正的生产级能力在企业版。	PoC 阶段明确开源版 vs 企业版差异；预算中预留企业版授权费用
纯 CPU 性能	🟡 中	v2.0 放弃 GPU 加速，处理大量文档或高并发时性能可能成为瓶颈	评估实际文档量级；如有高并发需求考虑企业版或 GPU 方案
竞品生态压制	🟡 中	RAGFlow 更新极快（v0.21+ 引入 Ingestion Pipeline、Long-Context RAG），MaxKB 生态活跃（20,600+ Stars、工作流+MCP 工具调用），两者协议更友好	聚焦 QAnything 的 OCR/扫描件差异化优势，避免与竞品比"功能全面性"
网易战略转向风险	🟡 中	QAnything 可能是网易有道在 AI 热潮中的探索项目，核心精力可能已转向企业版商业化或其他产品线	关注开源版和企业版的关系；评估网易有道的长期投入意愿
安全漏洞响应	🟡 中	项目维护停滞意味着安全漏洞可能不会被及时修复	使用前进行安全审计；在内网隔离环境中运行；监控依赖组件（ES、Nginx 等）的安全公告

12. 我的售前判断

推荐度：谨慎推荐（极适合特定场景，但整体风险较高）

理由：

不可替代的差异化优势：有道 OCR + BCEmbedding 的组合，在处理中文扫描件 PDF 这个细分场景上，目前没有更好的开源方案。如果客户正好是这个场景，QAnything 就是最优选。
部署友好：Docker 一键启动、纯 CPU 运行、镜像 4.88GB，对没有 GPU 的中小企业极其友好。
功能完整且稳定：虽然不再更新，但 v2.0 已经是一个成熟可用、功能齐全的文档问答系统。
但是——AGPL 和维护停滞是两颗雷：法务风险 + 技术停滞 = 售前必须充分告知客户，不能回避。

推荐客户画像：

核心诉求精准命中"中文扫描件/表格 PDF → 本地问答"
纯内网部署，不对外提供文档问答服务（可规避 AGPL 风险）
对功能更新频率要求不高，v2.0 现有功能已能满足需求
预算有限但需要 OCR 优势（开源版即可满足）
或有预算购买企业版（商业授权 + 更强能力）

不推荐的情况：

客户法务明确禁止使用 AGPL 协议 → 直接排除开源版，推企业版或换 RAGFlow/MaxKB
需要长期持续的功能迭代和社区支持 → 推荐 RAGFlow（更新最活跃）
需要工作流编排、多 Agent、插件生态 → 推荐 Dify/MaxKB
文档以英文或非扫描件为主 → OCR 优势不明显，推荐 RAGFlow 或 Haystack
高并发对外服务（且不想付费） → AGPL 风险不可接受

售前策略建议：

先判断客户文档类型：有大量扫描件 → QAnything 为第一推荐
再确认 AGPL 立场：法务 OK 且内网使用 → 直接推开源版 PoC
法务不 OK 或需对外服务 → 推企业版或 BCEmbedding 自建方案（BCEmbedding 是 Apache-2.0！）

13. 参考资料

GitHub 仓库：https://github.com/netease-youdao/QAnything
官网 / 在线体验：https://qanything.ai
BCEmbedding（检索模型，Apache-2.0）：https://github.com/netease-youdao/BCEmbedding
有道速读（在线试用）：https://read.youdao.com
FAQ（中文）：https://github.com/netease-youdao/QAnything/blob/qanything-v2/FAQ_zh.md
需求反馈：https://qanything.canny.io/feature-requests
HuggingFace 模型：https://huggingface.co/maidalun1020
企业版商务联系：AIcloud_Business@corp.youdao.com / 010-8255-8901

分析日期：2026-07-02 | 数据时效：GitHub 信息实时拉取，官网内容来自 qanything.ai，竞品对比基于 2026 年最新数据