📚进度:0/670%

多模态 RAG 工具与项目清单

选型原则：先看你的核心难点是“解析复杂文档”，还是“检索视觉页面”，还是“统一管理多模态证据”。

文档解析

Docling

链接：https://github.com/docling-project/docling
适合：PDF、Office、HTML、图片、音频等多格式文档进入 GenAI/RAG 系统。
亮点：支持 PDF 版面、阅读顺序、表格结构、OCR、Markdown/HTML/JSON 导出，并提供 LangChain、LlamaIndex、CrewAI、Haystack 等集成。
适合项目：论文图表问答、企业知识库、财报解析。

MinerU

链接：https://github.com/opendatalab/MinerU
适合：复杂 PDF、Office 文档、扫描件、多语言 OCR。
亮点：面向 LLM/RAG/Agent workflow，输出结构化 Markdown/JSON，支持版面可视化和 span 可视化。
适合项目：中文文档知识库、扫描 PDF 解析、学术 PDF 批处理。

视觉文档检索

ColPali / ColQwen 系列

论文：https://arxiv.org/abs/2407.01449
适合：视觉丰富文档的页面级检索，例如论文、财报、海报、表格密集 PDF。
亮点：把文档页面作为图像直接 embedding，用 late interaction 做匹配，减少传统 OCR + chunk 管线的脆弱性。
注意：通常更适合“找到相关页面”，后续仍需要 VLM 或解析工具生成可引用答案。

ViDoRe

链接：https://huggingface.co/vidore
适合：评测视觉文档检索。
亮点：覆盖不同领域、语言和页面级任务，可以用来比较 text-first 与 vision-first 检索。

一体化多模态 RAG

RAG-Anything

链接：https://github.com/HKUDS/RAG-Anything
适合：希望快速搭建文本、图片、表格、公式统一处理的多模态 RAG。
亮点：基于 LightRAG 生态，使用 MinerU 做高保真解析，提供多模态知识图谱和混合检索。
注意：一体化框架适合快速实验，但生产系统仍要理解每个阶段的中间数据和失败模式。

LightRAG

链接：https://github.com/HKUDS/LightRAG
适合：轻量级 RAG、图增强检索、多模态扩展基础。
亮点：工程上容易上手，适合作为 RAG-Anything 生态背景阅读。

Agent 与工作流

LangGraph

链接：https://github.com/langchain-ai/langgraph
适合：多阶段文档处理、人工审核、失败恢复。
用法：把 parsing、enrichment、indexing、retrieval、answering、review 拆成状态图节点。

OpenAI Agents SDK

链接：https://platform.openai.com/docs/guides/agents-sdk/
适合：需要 handoff、guardrails、tracing、sandbox 和 server-managed state 的应用。
用法：让文档解析、视觉理解、检索和引用检查成为不同 specialist。

选型建议

需求	推荐组合
论文 PDF 问答	Docling + text/table index + VLM caption
中文扫描件知识库	MinerU + OCR + page/bbox 引用
视觉页面检索	ColPali/ColQwen + VLM answerer
快速多模态 RAG demo	RAG-Anything
生产级文档 Agent	Docling/MinerU + LangGraph + eval harness

不建议的做法

只用 OCR 文本，不保留页码和 bbox。
把表格压成普通段落后直接 embedding。
让 VLM 看完整 PDF，但不保存中间证据。
只测“普通问答”，不测图表、表格和数值。
对外输出没有引用，无法回到原文。