← 返回项目列表
Unlimited-OCR 是百度开源的长文档 OCR / 文档解析模型,口号是 “One-shot Long-horizon Parsing”。它面向的不只是单张图片文字识别,而是多页图片、PDF 页面、长上下文文档解析,支持 Hugging Face Transformers、vLLM、SGLang/OpenAI-compatible API 等推理方式。售前上适合放在票据、合同、报告、扫描档、档案数字化、RAG 知识库入库前处理等场景,但要提前验证 GPU 成本、版面复杂度、中文/英文/表格表现和结构化输出稳定性。

1. 项目定位

Unlimited-OCR 是一个面向“长视野文档解析”的 OCR 模型。README 明确写到它希望把 Deepseek-OCR 推进一步,欢迎进入 one-shot long-horizon parsing 时代。

传统 OCR 往往按页、按块、按行处理,再通过规则或后处理拼接结构。Unlimited-OCR 的卖点是用视觉语言模型方式一次性处理更长的文档上下文,尤其适合多页 PDF、扫描文档、复杂版面材料的语义化解析。

2. 它主要能做什么

能力官方材料依据售前理解
单图文档解析model.infer(... image_file=...)适合单页扫描件、截图、票据、表单
多页解析model.infer_multi(... image_files=[...])适合合同、报告、手册、标书等多页文档
PDF 解析README 用 PyMuPDF 转图片后走 multi-page parsing可接入文档管理、知识库、档案数字化流程
长上下文输出max_length=32768适合保留较长文档内容和结构
多推理后端Transformers、vLLM、SGLangPoC 到生产部署路径更灵活
OpenAI-compatible APISGLang 示例提供 /v1/chat/completions便于接企业已有模型网关/应用层

3. 适用场景

文档数字化和档案入库

适合政府、金融、制造、教育、医疗等行业的历史档案、扫描 PDF、合同、说明书入库。售前可以讲:先把非结构化扫描件转换成可检索文本,再进入 RAG、全文检索或业务审核流程。

合同/报告/标书解析

多页 PDF 常常存在页眉页脚、章节、表格和图片。Unlimited-OCR 的多页解析能力适合做第一阶段抽取,后续再接 LLM 做条款识别、风险摘要、章节索引。

知识库/RAG 前处理

很多 RAG 项目失败不是因为检索模型,而是源文档解析质量差。Unlimited-OCR 可作为“扫描件 -> Markdown/文本/结构化内容”的前置能力,提升知识库入库质量。

票据/表单/截图解析

单图 gundambase 配置可以用于票据、页面截图、表格图片。正式 PoC 应比较传统 OCR、PaddleOCR、DeepSeek-OCR、文档大模型之间的准确率和成本。

4. 不太适合的场景

场景原因
只需要低成本批量识别简单印刷文字传统 OCR 更便宜、更快
强实时移动端 OCR模型推理依赖 GPU,端侧部署压力大
需要 100% 结构化字段抽取OCR 只是第一步,还需字段 schema、校验和业务规则
极高保密文档但无法本地部署 GPU云端模型调用可能不满足合规

5. 部署和使用

Transformers

from transformers import AutoModel, AutoTokenizer

model_name = "baidu/Unlimited-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name,
    trust_remote_code=True,
    use_safetensors=True,
    torch_dtype="bfloat16",
).eval().cuda()

单图支持两种配置:

  • gundam: base_size=1024, image_size=640, crop_mode=True
  • base: base_size=1024, image_size=1024, crop_mode=False

多页/PDF 只使用 base,README 示例用 PyMuPDF 把 PDF 转成 300 DPI PNG 后调用 infer_multi

vLLM

项目已在 2026-06-28 宣布支持 vLLM inference,并提供镜像:

docker pull vllm/vllm-openai:unlimited-ocr
docker pull vllm/vllm-openai:unlimited-ocr-cu129

SGLang

SGLang 路线可启动 OpenAI-compatible 服务:

python -m sglang.launch_server \
  --model baidu/Unlimited-OCR \
  --served-model-name Unlimited-OCR \
  --context-length 32768 \
  --host 0.0.0.0 \
  --port 10000

适合把 OCR 服务接入现有应用平台。

6. 售前可以怎么讲

Unlimited-OCR 不是普通识别单行文字的 OCR,而是面向长文档解析的视觉语言模型。它适合解决企业扫描 PDF、报告、合同、档案入库时“页多、版面复杂、上下文长、后续要进知识库”的问题。PoC 不应只看几个截图,而要用客户真实 PDF 样本评估准确率、结构保真、吞吐和 GPU 成本。

7. PoC 建议

阶段工作指标
样本准备选 50-100 份真实扫描件,覆盖清晰/模糊/表格/长文档样本代表性
基线对比对比 PaddleOCR、传统 OCR、DeepSeek-OCR、人工标注字符准确率、结构保真
多页测试PDF 转图片后 multi-page parsing页顺序、章节、表格丢失率
成本评估Transformers/vLLM/SGLang 三路线测试单页耗时、显存、并发
业务闭环接 RAG 或字段抽取检索命中率、字段正确率

8. 风险和注意事项

  • README 依赖版本较新,如 Python 3.12、CUDA 12.9、torch 2.10 等,客户环境要提前核对。
  • trust_remote_code=True 对企业安全审查是敏感点,需要源码审计或隔离环境。
  • 文档 OCR 结果仍需人工抽样验收,不能把模型输出直接作为法律/财务最终结果。
  • PDF 转图片的 DPI、裁剪、页面方向会显著影响效果。
  • 多页输出很长,后续 LLM/检索链路要处理 chunk、页码、引用定位。

9. 我的售前判断

Unlimited-OCR 很适合作为“企业文档智能化”的前置能力来讲,而不是单独卖 OCR。最好的方案叙事是:

扫描 PDF / 图片 -> Unlimited-OCR 长文档解析 -> 结构化清洗 -> RAG / 审核 / 字段抽取 / 检索

如果客户有大量扫描件、档案、合同、报告,这个项目值得做 PoC;如果客户只是要普通发票/身份证/简单表单 OCR,传统 OCR 或成熟商业 OCR 可能更经济。

10. 参考资料

信息核查日期:2026-06-30。GitHub API 匿名访问触发限流,本笔记未写实时 stars/forks。