Skip to content

文档解析工具精选

只推荐生产环境验证的 5 个核心工具


1. 文档解析方案

文档解析分为 Pipeline 式(分步处理 OCR、布局分析等)、端到端微调大模型(直接输出结构化结果)和 通用多模态大模型(通用视觉-语言能力)。以下逐一分析。

1.1 Pipeline 式方案

Pipeline 式方案通常将文档解析分解为文本识别、布局分析、表格/公式解析等步骤,适合需要模块化控制的场景。

1.1.1 MinerU ⭐⭐⭐⭐⭐

  • 简介: MinerU 是一个开源的文档解析工具,基于多模块 Pipeline,支持 OCR、布局分析、表格识别等功能。

  • 核心优势:

    • ✅ 支持复杂 PDF(双栏、表格、公式)
    • ✅ 保留文档结构
    • ✅ 支持多模态(图片、表格同时提取)
    • ✅ 中文友好
  • 缺点:

    • 配置复杂,需要手动集成多个模块。
    • 对复杂排版的鲁棒性稍逊于端到端模型。
  • 适用场景:

    • 学术论文解析
    • 企业合同、报表
    • 多模态 RAG 系统
  • 使用示例:

    bash
    # 安装
    pip install magic-pdf
    
    # 解析 PDF
    magic-pdf -p document.pdf -o output/
  • 参考: MinerU GitHub

1.1.2 PPStructure

  • 简介: PaddlePaddle 提供的文档结构化分析工具,集成于 PaddleOCR 生态,基于深度学习模型。

  • 核心功能:

    • 布局分析(Layout Analysis)。

    • 表格识别(Table Recognition)。

    • 关键信息提取(KIE)。

    • 支持多语言 OCR。

  • 优点:

    • 与 PaddleOCR 无缝集成,生态完整。

    • 提供预训练模型,部署简单。

    • 性能在表格和版式分析上较强。

  • 缺点:

    • 对复杂公式解析支持有限。

    • 开源社区活跃度稍逊于其他框架。

  • 适用场景: 表格密集型文档(如财务报表)、多语言文档处理。

  • 参考: PPStructure 文档

1.2 端到端文档领域微调大模型

端到端模型通过微调专门的视觉-语言模型,直接从图像输入到结构化输出,适合追求高效和一体化的场景。

1.2.1 Marker

  • 简介: Marker 是一个开源工具,专注于将 PDF 转换为 Markdown,支持复杂文档的结构化解析。

  • 核心功能:

    • PDF 到 Markdown 的高效转换。

    • 支持表格、公式、标题等结构化元素。

    • 基于视觉-语言模型微调。

  • 优点:

    • 输出格式友好,适合学术和技术文档。

    • 开源,社区支持较好。

  • 缺点:

    • 对非标准格式文档(如手写或扫描件)支持有限。

    • 计算资源需求较高。

  • 适用场景: 学术论文、技术文档的结构化转换。

  • 参考: Marker GitHub

1.2.2 Unstructured ⭐⭐⭐⭐

  • 简介: Unstructured 是一个开源库,专注于从文档中提取结构化数据(如文本、表格)。

  • 核心优势:

    • ✅ 支持 20+ 种格式(PDF、Word、Excel、HTML等)
    • ✅ 统一 API
    • ✅ 结构化输出
    • 灵活性高,适合多种文档类型。
    • 提供预训练模型和云服务。
  • 缺点:

    • 对复杂公式支持较弱。
    • 部分功能需要商业授权。
  • 适用场景:

    • 多格式文档混合处理
    • 企业文档中心
    • 通用 RAG 系统
  • 使用示例:

    python
    from unstructured.partition.auto import partition
    
    # 自动识别格式并解析
    elements = partition(filename="document.pdf")
    text = "\n".join([str(el) for el in elements])
  • 参考: Unstructured GitHub

1.2.3 OpenParse

  • 简介: OpenParse 是一个轻量级文档解析工具,基于深度学习模型,专注于结构化输出。

  • 核心功能:

    • 支持文本、表格、标题等元素提取。

    • 提供简单易用的 API。

  • 优点:

    • 轻量,部署简单。

    • 开源,适合小型项目。

  • 缺点:

    • 功能覆盖不如 Unstructured 等工具全面。

    • 社区支持较弱。

  • 适用场景: 小型文档处理、快速原型开发。

  • 参考: OpenParse GitHub

1.2.4 Docling

  • 简介: Docling 是一个高效的文档解析框架,基于深度学习,专注于结构化数据提取。

  • 核心功能:

    • 支持多模态输入(图像、PDF)。

    • 提供表格、公式、布局解析。

    • 输出 JSON 或 Markdown 格式。

  • 优点:

    • 性能优异,尤其在表格解析上。

    • 提供预训练模型,易于微调。

  • 缺点:

    • 文档和社区支持较少。

    • 对非标准文档的鲁棒性有待验证。

  • 适用场景: 企业级文档处理、复杂表格提取。

  • 参考: Docling 官网

1.2.5 Mistral-OCR

  • 简介: Mistral AI 提供的 OCR 模型,基于多模态大模型微调,专注于文档解析。

  • 核心功能:

    • 支持复杂文档的文本和结构提取。

    • 集成 Mistral 大模型的语言理解能力。

  • 优点:

    • 高精度,尤其在多语言文档上。

    • 背靠 Mistral 生态,扩展性强。

  • 缺点:

    • 非完全开源,部分功能需付费。

    • 部署成本较高。

  • 适用场景: 高精度文档解析、多语言场景。

  • 参考: Mistral-OCR 新闻

1.2.6 GOT-OCR

  • 简介: GOT-OCR 是一个开源 OCR 模型,基于视觉-语言模型,支持端到端文档解析。

  • 核心功能:

    • 支持文本、表格、公式提取。

    • 提供高精度 OCR 和结构化输出。

  • 优点:

    • 开源,模型性能优异。

    • 支持复杂文档排版。

  • 缺点:

    • 计算资源需求较高。

    • 社区支持尚在发展中。

  • 适用场景: 学术文档、复杂排版文档处理。

  • 参考: GOT-OCR GitHub

1.2.7 Nougat

  • 简介: Meta AI 开发的文档解析模型,专注于学术文档的端到端解析。

  • 核心功能:

    • PDF 到 LaTeX 或 Markdown 转换。

    • 支持公式、表格、标题等元素。

  • 优点:

    • 在学术文档(尤其是数学公式)上表现优异。

    • 开源,易于微调。

  • 缺点:

    • 对非学术文档的泛化能力较弱。

    • 计算资源需求较高。

  • 适用场景: 学术论文、数学密集型文档。

  • 参考: Nougat GitHub

1.2.8 olmOCR

  • 简介: Allen AI 开发的 OCR 模型,专注于文档结构化解析。

  • 核心功能:

    • 支持文本、表格、布局分析。

    • 提供预训练模型和 API。

  • 优点:

    • 学术背景强,模型精度高。

    • 开源,适合研究场景。

  • 缺点:

    • 功能覆盖不如 Unstructured 等工具。

    • 社区支持有限。

  • 适用场景: 研究场景、学术文档处理。

  • 参考: olmOCR GitHub

1.2.9 SmolDocling

  • 简介: 一个轻量级文档解析模型,基于 Docling 框架,适合资源受限场景。

  • 核心功能:

    • 支持文本、表格提取。

    • 提供高效推理,模型体积小(256M)。

  • 优点:

    • 轻量,适合边缘设备部署。

    • 开源,易于集成。

  • 缺点:

    • 功能较为基础,复杂文档支持有限。
  • 适用场景: 资源受限场景、简单文档处理。

  • 参考: SmolDocling Hugging Face

1.2.10 LlamaParse ⭐⭐⭐⭐

  • 简介: LlamaIndex 官方提供的文档解析工具,深度集成于 LlamaIndex 生态。

  • 核心优势:

    • ✅ LlamaIndex 官方工具
    • ✅ 深度集成
    • ✅ 解析质量高
  • 适用场景:

    • LlamaIndex 项目
    • 复杂 PDF
  • 参考: LlamaParse GitHub

1.3 通用多模态大模型

通用多模态大模型在文档解析上具有强大潜力,但通常需要提示工程(Prompt Engineering)或微调以达到最佳效果。

1.3.1 GPT-4o

  • 简介: OpenAI 的多模态大模型,支持图像、文本输入,擅长复杂文档解析。

  • 核心功能:

    • 高精度 OCR 和结构化输出。

    • 支持表格、公式、布局分析。

    • 强大的语言理解能力。

  • 优点:

    • 精度高,泛化能力强。

    • 支持多语言和复杂场景。

  • 缺点:

    • 需付费 API,成本较高。

    • 非开源,定制化受限。

  • 适用场景: 高精度需求、复杂文档解析。

  • 参考: GPT-4o 官网

1.3.2 Gemini 2.0 Flash

  • 简介: Google DeepMind 的轻量级多模态模型,速度快,适合实时应用。

  • 核心功能:

    • 支持图像输入和文本输出。

    • 提供 OCR 和简单结构化解析。

  • 优点:

    • 推理速度快,成本较低。

    • 集成 Google 生态,易于扩展。

  • 缺点:

    • 精度不如 GPT-4o 或 Gemini Pro。

    • 复杂文档解析需额外提示优化。

  • 适用场景: 实时文档处理、成本敏感场景。

  • 参考: Gemini Flash

1.3.3 Gemini 2.5 Pro

  • 简介: Google 的高性能多模态模型,实验版本,精度更高。

  • 核心功能:

    • 支持复杂文档的 OCR 和结构化解析。

    • 强大的多模态理解能力。

  • 优点:

    • 精度接近 GPT-4o,泛化能力强。

    • 支持多语言和复杂排版。

  • 缺点:

    • 实验版本,稳定性待验证。

    • 需付费 API。

  • 适用场景: 高精度文档解析、复杂场景。

  • 参考: Gemini Pro

1.3.4 Qwen2-VL-72B

  • 简介: 阿里云 Qwen 团队开发的多模态视觉-语言模型,专注于视觉任务。

  • 核心功能:

    • 支持高分辨率图像输入。

    • 提供 OCR、表格、公式解析。

  • 优点:

    • 开源,模型性能优异。

    • 支持多语言和复杂文档。

  • 缺点:

    • 计算资源需求高。

    • 社区支持尚在发展。

  • 适用场景: 高精度文档解析、开源优先场景。

  • 参考: Qwen2-VL 博客

1.3.5 Qwen2.5-VL-72B

  • 简介: Qwen2-VL 的升级版本,进一步优化性能和精度。

  • 核心功能:

    • 增强的 OCR 和结构化输出。

    • 支持复杂排版和多语言。

  • 优点:

    • 性能优于 Qwen2-VL,精度更高。

    • 开源,易于微调。

  • 缺点:

    • 部署复杂,资源需求高。
  • 适用场景: 高精度需求、复杂文档处理。

  • 参考: Qwen2.5 GitHub

1.3.6 InternVL2-Llama3-76B

  • 简介: OpenGVLab 开发的多模态模型,基于 Llama3 微调,专注于视觉任务。

  • 核心功能:

    • 支持高分辨率图像输入。

    • 提供 OCR、表格、布局解析。

  • 优点:

    • 开源,性能强劲。

    • 社区支持较好。

  • 缺点:

    • 模型体积大,推理成本高。

    • 对复杂公式的支持需优化。

  • 适用场景: 学术研究、复杂文档解析。

  • 参考: InternVL2 GitHub


2. 文本识别(Text Recognition)

文本识别(OCR)是文档解析的核心模块,以下是主要工具的整理。

2.1 PaddleOCR

  • 简介: PaddlePaddle 开发的开源 OCR 框架,支持多语言文本识别。

  • 核心功能:

    • 支持 80+ 种语言。

    • 提供文本检测、识别、方向分类。

    • 集成 PPStructure 进行结构化解析。

  • 优点:

    • 高精度,多语言支持强。

    • 开源,生态完整。

  • 缺点:

    • 对低质量图像(如模糊扫描件)效果有限。

    • 配置和部署稍复杂。

  • 适用场景: 多语言文档、复杂排版文本识别。

  • 参考: PaddleOCR 官网

2.2 Tesseract

  • 简介: Google 支持的开源 OCR 引擎,历史悠久,广泛使用。

  • 核心功能:

    • 支持 100+ 种语言。

    • 提供命令行和 API 接口。

  • 优点:

    • 轻量,开源,易于集成。

    • 社区支持成熟。

  • 缺点:

    • 精度较低,尤其对复杂排版和低质量图像。

    • 需要预处理优化效果。

  • 适用场景: 简单文本提取、低资源场景。

  • 参考: Tesseract 文档

2.3 OpenOCR

  • 简介: 开源 OCR 工具,基于深度学习模型,专注于高精度文本识别。

  • 核心功能:

    • 支持多语言文本检测和识别。

    • 提供预训练模型。

  • 优点:

    • 开源,易于定制。

    • 性能优于 Tesseract。

  • 缺点:

    • 社区支持较弱。

    • 功能覆盖不如 PaddleOCR。

  • 适用场景: 中小型项目、开源优先场景。

  • 参考: OpenOCR GitHub

2.4 EasyOCR

  • 简介: 轻量级 OCR 工具,支持多语言,易于使用。

  • 核心功能:

    • 支持 80+ 种语言。

    • 提供 Python API,部署简单。

  • 优点:

    • 使用简单,适合快速开发。

    • 轻量,资源需求低。

  • 缺点:

    • 精度不如 PaddleOCR。

    • 对复杂排版支持有限。

  • 适用场景: 快速原型开发、简单文本提取。

  • 参考: EasyOCR 官网

2.5 Surya

  • 简介: VikParuchuri 开发的 OCR 工具,专注于高精度文本识别。

  • 核心功能:

    • 支持多语言文本检测和识别。

    • 集成布局分析功能。

  • 优点:

    • 精度高,适合复杂文档。

    • 开源,易于集成。

  • 缺点:

    • 社区支持较弱。

    • 部署需要一定技术背景。

  • 适用场景: 复杂文档文本识别、学术场景。

  • 参考: Surya GitHub


3. 版式布局分析(Layout Analysis)

布局分析用于识别文档中的区域(如标题、段落、表格等),是文档解析的重要步骤。

3.1 DiT-L

  • 简介: Meta AI 开发的文档图像转换器(Document Image Transformer),基于 Transformer 架构。

  • 核心功能:

    • 高效布局分析,识别文本、表格、图像区域。

    • 支持预训练和微调。

  • 优点:

    • 精度高,适合复杂文档。

    • 开源,学术支持强。

  • 缺点:

    • 计算资源需求高。

    • 部署复杂。

  • 适用场景: 学术研究、复杂排版文档。

  • 参考: DiT GitHub, Hugging Face

3.2 LayoutLMv3

  • 简介: Microsoft 开发的布局分析模型,结合文本和视觉特征。

  • 核心功能:

    • 支持布局分析和关键信息提取。

    • 提供预训练模型,易于微调。

  • 优点:

    • 精度高,尤其在表格和表单上。

    • 开源,社区支持好。

  • 缺点:

    • 对低质量图像的鲁棒性有限。

    • 推理速度较慢。

  • 适用场景: 企业文档、表单处理。

  • 参考: LayoutLMv3 GitHub, Hugging Face

3.3 DOCX-Chain

  • 简介: 阿里巴巴开发的文档布局分析工具,基于深度学习模型。

  • 核心功能:

    • 支持复杂文档的区域分割。

    • 提供预训练权重。

  • 优点:

    • 性能优异,适合企业场景。

    • 提供完整模型权重。

  • 缺点:

    • 文档和社区支持较少。

    • 部署需技术背景。

  • 适用场景: 企业文档处理、复杂排版。

  • 参考: DOCX-Chain GitHub

3.4 DocLayout-YOLO

  • 简介: 基于 YOLO 的文档布局分析模型,专注于高效区域检测。

  • 核心功能:

    • 快速识别文本、表格、图像区域。

    • 提供预训练模型和在线 Demo。

  • 优点:

    • 速度快,适合实时应用。

    • 开源,易于部署。

  • 缺点:

    • 精度略逊于 Transformer 模型。

    • 对复杂排版的支持需优化。

  • 适用场景: 实时布局分析、资源受限场景。

  • 参考: DocLayout-YOLO GitHub, Hugging Face

3.5 SwinDocSegmenter

  • 简介: 基于 Swin Transformer 的文档分割模型,专注于区域检测。

  • 核心功能:

    • 支持文本、表格、图像区域分割。

    • 提供预训练权重。

  • 优点:

    • 精度高,适合复杂文档。

    • 开源,易于微调。

  • 缺点:

    • 计算资源需求高。

    • 社区支持有限。

  • 适用场景: 学术研究、复杂文档分割。

  • 参考: SwinDocSegmenter GitHub

3.6 GraphKD

  • 简介: 基于图神经网络的布局分析模型,注重区域关系建模。

  • 核心功能:

    • 支持复杂文档的区域分割和关系提取。

    • 提供预训练权重。

  • 优点:

    • 创新性强,适合复杂排版。

    • 开源,学术支持好。

  • 缺点:

    • 部署复杂,计算成本高。

    • 社区支持较弱。

  • 适用场景: 学术研究、复杂文档分析。

  • 参考: GraphKD GitHub


4. 公式解析模型(Formula Parsing)

公式解析专注于识别和结构化数学表达式,通常需要高精度 OCR 和语义理解。

4.1 Mathpix

  • 简介: 商业化的公式解析工具,专注于数学和科学文档。

  • 核心功能:

    • 高精度公式 OCR,输出 LaTeX 格式。

    • 支持手写和印刷公式。

  • 优点:

    • 精度极高,业界领先。

    • 支持复杂公式和手写输入。

  • 缺点:

    • 需付费,成本较高。

    • 非开源,定制化受限。

  • 适用场景: 学术论文、数学教育。

  • 参考: Mathpix 官网

4.2 Pix2Tex

  • 简介: 开源的公式解析工具,基于深度学习,将公式图像转换为 LaTeX。

  • 核心功能:

    • 支持印刷公式识别。

    • 提供预训练模型。

  • 优点:

    • 开源,易于定制。

    • 精度较高,适合学术场景。

  • 缺点:

    • 对手写公式支持有限。

    • 需要预处理优化效果。

  • 适用场景: 学术文档、印刷公式解析。

  • 参考: Pix2Tex GitHub

4.3 UniMERNet-B

  • 简介: 开源公式解析模型,基于多模态网络,支持复杂公式。

  • 核心功能:

    • 支持印刷和手写公式。

    • 输出 LaTeX 或结构化格式。

  • 优点:

    • 开源,精度高。

    • 提供丰富数据集支持。

  • 缺点:

    • 部署复杂,资源需求高。

    • 社区支持尚在发展。

  • 适用场景: 学术研究、复杂公式解析。

  • 参考: UniMERNet GitHub, Hugging Face


5. 表格解析模型(Table Parsing)

表格解析需要识别表格结构和内容,输出结构化数据(如 JSON 或 CSV)。

5.1 PaddleOCR

  • 简介: PaddleOCR 集成的表格解析模块,支持复杂表格结构识别。

  • 核心功能:

    • 表格区域检测和内容提取。

    • 支持多语言表格。

    • 输出 JSON 或 Excel 格式。

  • 优点:

    • 精度高,生态完整。

    • 开源,易于集成。

  • 缺点:

    • 对复杂嵌套表格的支持需优化。

    • 部署稍复杂。

  • 适用场景: 财务报表、复杂表格处理。

  • 参考: PaddleOCR GitHub

5.2 RapidTable

  • 简介: RapidAI 开发的表格解析工具,专注于高效表格提取。

  • 核心功能:

    • 支持复杂表格结构识别。

    • 提供预训练模型和 API。

  • 优点:

    • 速度快,精度高。

    • 提供云服务,易于集成。

  • 缺点:

    • 部分功能需付费。

    • 开源社区支持有限。

  • 适用场景: 企业文档、实时表格处理。

  • 参考: RapidTable GitHub

5.3 StructEqTable

  • 简介: 开源表格解析模型,基于深度学习,支持复杂表格。

  • 核心功能:

    • 表格结构和内容提取。

    • 输出 JSON 或 CSV 格式。

  • 优点:

    • 开源,精度高。

    • 提供预训练模型。

  • 缺点:

    • 部署复杂,资源需求高。

    • 社区支持较弱。

  • 适用场景: 学术研究、复杂表格解析。

  • 参考: StructEqTable GitHub, Hugging Face


6. 选型参考与效果对比

根据 OmniDocBench相关论文,以下是选型建议:

  • Pipeline 式方案:

    • 推荐: PaddleOCR + PPStructure(高精度、多语言、生态完整)。

    • 适用场景: 需要模块化控制、表格密集型文档。

    • 注意: 配置复杂,需技术背景。

  • 端到端微调模型:

    • 推荐: Nougat(学术文档、公式解析强)、Docling(企业文档、表格解析优)。

    • 适用场景: 追求一体化、高效率的场景。

    • 注意: 计算资源需求高,需根据文档类型选择。

  • 通用多模态大模型:

    • 推荐: GPT-4o(高精度、复杂场景)、Qwen2.5-VL-72B(开源、高性能)。

    • 适用场景: 复杂文档、无需定制化场景。

    • 注意: 成本较高,需优化提示。

  • 文本识别:

    • 推荐: PaddleOCR(高精度、多语言)、EasyOCR(轻量、快速开发)。

    • 适用场景: 多语言文档、快速原型。

  • 布局分析:

    • 推荐: LayoutLMv3(高精度、企业场景)、DocLayout-YOLO(速度快、实时应用)。

    • 适用场景: 复杂排版、实时处理。

  • 公式解析:

    • 推荐: Mathpix(商业化、高精度)、UniMERNet-B(开源、学术研究)。

    • 适用场景: 数学密集型文档、学术论文。

  • 表格解析:

    • 推荐: PaddleOCR(生态完整)、RapidTable(速度快、企业场景)。

    • 适用场景: 财务报表、复杂表格。


7. 补充建议

  • 性能评估: 使用 OmniDocBench 提供的测试集评估模型在具体任务(如 OCR、表格解析)上的表现,关注 F1 分数、召回率等指标。

  • 部署考量: 优先选择开源模型(如 PaddleOCR、Nougat)以降低成本;若追求极致精度,可考虑 GPT-4o 或 Mathpix。

  • 数据预处理: 对低质量图像(如扫描件),建议使用图像增强技术(如去噪、锐化)提升效果。

  • 微调需求: 对于特定领域文档(如法律、医疗),建议基于开源模型(如 Qwen2.5-VL、LayoutLMv3)进行微调。

8. 快速选型表

工具Stars支持格式质量速度推荐场景推荐度
MinerU10k+PDF/Word/PPT⭐⭐⭐⭐⭐⭐⭐⭐复杂PDF、多模态RAG⭐⭐⭐⭐⭐
Unstructured8k+20+格式⭐⭐⭐⭐⭐⭐⭐⭐通用文档解析⭐⭐⭐⭐
LlamaParse-PDF⭐⭐⭐⭐⭐⭐⭐⭐LlamaIndex 生态⭐⭐⭐⭐
PyPDF28k+PDF⭐⭐⭐⭐⭐⭐⭐⭐简单PDF提取⭐⭐⭐
Docling3k+PDF/Word⭐⭐⭐⭐⭐⭐⭐⭐IBM 出品⭐⭐⭐

9. 如何选择?

决策树

你的文档类型?

├─ 简单 PDF(纯文本)
│   → PyPDF2(最快、最简单)

├─ 复杂 PDF(表格、公式、多栏)
│   ├─ 学术论文 → MinerU(最强)
│   └─ 通用文档 → Unstructured

├─ 多种格式混合
│   → Unstructured(支持最全)

└─ 用 LlamaIndex
    → LlamaParse(深度集成)

10. 解析优化技巧

常见问题与解决方案

问题1:表格解析不准

  • 解决:使用 MinerU + 后处理脚本
  • 或:Table Transformer 单独提取表格

问题2:解析速度慢

  • 解决:批处理 + 多进程
  • 或:先用 PyPDF2 快速提取,失败才用 MinerU

问题3:格式丢失

  • 解决:保留原始格式标记
  • 使用 Markdown 格式输出

11. 文档解析 Pipeline

标准流程

PDF文件

文档解析 (MinerU/Unstructured)

文本清洗 (去除噪声、格式规范化)

文档分块 (Chunking)

向量化 (Embedding)

向量库索引 (Milvus/FAISS)

12. 面试高频问题

Q: 如何处理复杂 PDF(表格、公式、多栏)?

标准答案

我使用 MinerU 处理复杂 PDF,流程是:

1. 【文档解析】
   - MinerU 识别文档结构(标题、段落、表格)
   - 保留布局信息
   
2. 【表格处理】
   - 单独提取表格
   - 转换为 Markdown 格式
   - 添加表格描述(Table Caption)
   
3. 【图片处理】
   - OCR 提取图片中的文字
   - 保存图片引用
   - 多模态 Embedding(CLIP)
   
4. 【质量保证】
   - 人工抽查 10% 样本
   - 自动化测试(提取完整度)

13. 相关文档

Released under the MIT License.