Skip to content

多模态 RAG 工具与项目清单

选型原则:先看你的核心难点是“解析复杂文档”,还是“检索视觉页面”,还是“统一管理多模态证据”。

文档解析

Docling

  • 链接:https://github.com/docling-project/docling
  • 适合:PDF、Office、HTML、图片、音频等多格式文档进入 GenAI/RAG 系统。
  • 亮点:支持 PDF 版面、阅读顺序、表格结构、OCR、Markdown/HTML/JSON 导出,并提供 LangChain、LlamaIndex、CrewAI、Haystack 等集成。
  • 适合项目:论文图表问答、企业知识库、财报解析。

MinerU

  • 链接:https://github.com/opendatalab/MinerU
  • 适合:复杂 PDF、Office 文档、扫描件、多语言 OCR。
  • 亮点:面向 LLM/RAG/Agent workflow,输出结构化 Markdown/JSON,支持版面可视化和 span 可视化。
  • 适合项目:中文文档知识库、扫描 PDF 解析、学术 PDF 批处理。

视觉文档检索

ColPali / ColQwen 系列

  • 论文:https://arxiv.org/abs/2407.01449
  • 适合:视觉丰富文档的页面级检索,例如论文、财报、海报、表格密集 PDF。
  • 亮点:把文档页面作为图像直接 embedding,用 late interaction 做匹配,减少传统 OCR + chunk 管线的脆弱性。
  • 注意:通常更适合“找到相关页面”,后续仍需要 VLM 或解析工具生成可引用答案。

ViDoRe

  • 链接:https://huggingface.co/vidore
  • 适合:评测视觉文档检索。
  • 亮点:覆盖不同领域、语言和页面级任务,可以用来比较 text-first 与 vision-first 检索。

一体化多模态 RAG

RAG-Anything

  • 链接:https://github.com/HKUDS/RAG-Anything
  • 适合:希望快速搭建文本、图片、表格、公式统一处理的多模态 RAG。
  • 亮点:基于 LightRAG 生态,使用 MinerU 做高保真解析,提供多模态知识图谱和混合检索。
  • 注意:一体化框架适合快速实验,但生产系统仍要理解每个阶段的中间数据和失败模式。

LightRAG

  • 链接:https://github.com/HKUDS/LightRAG
  • 适合:轻量级 RAG、图增强检索、多模态扩展基础。
  • 亮点:工程上容易上手,适合作为 RAG-Anything 生态背景阅读。

Agent 与工作流

LangGraph

  • 链接:https://github.com/langchain-ai/langgraph
  • 适合:多阶段文档处理、人工审核、失败恢复。
  • 用法:把 parsing、enrichment、indexing、retrieval、answering、review 拆成状态图节点。

OpenAI Agents SDK

选型建议

需求推荐组合
论文 PDF 问答Docling + text/table index + VLM caption
中文扫描件知识库MinerU + OCR + page/bbox 引用
视觉页面检索ColPali/ColQwen + VLM answerer
快速多模态 RAG demoRAG-Anything
生产级文档 AgentDocling/MinerU + LangGraph + eval harness

不建议的做法

  • 只用 OCR 文本,不保留页码和 bbox。
  • 把表格压成普通段落后直接 embedding。
  • 让 VLM 看完整 PDF,但不保存中间证据。
  • 只测“普通问答”,不测图表、表格和数值。
  • 对外输出没有引用,无法回到原文。

Released under the MIT License.