Skip to content

多模态 RAG 评测清单

多模态系统最容易“看起来答得像”,但细查发现页码错、表格错列、图表解释幻觉。评测要逼它回到证据。

Golden Case 设计

至少准备 40 条问题:

类型数量示例
文本事实10论文方法的核心假设是什么?
表格数值10表 2 中哪个方法在 X 指标最高?
图表解释10图 3 的趋势说明了什么?
跨模态推理5正文对图 4 的结论是否被实验表支持?
失败/安全5文档里没有的信息,系统是否会承认缺失?

每条 case 建议写成:

json
{
  "id": "mmrag-001",
  "question": "表 2 中哪个方法在 F1 指标最高?",
  "required_evidence": [
    {"doc_id": "paper-001", "page": 6, "type": "table", "label": "Table 2"}
  ],
  "answer_key": "Method X",
  "must_include": ["F1", "Table 2", "page 6"],
  "forbidden": ["没有引用", "把 Accuracy 当成 F1"]
}

指标

指标说明
answer_accuracy最终答案是否正确
evidence_recall是否找到了必要证据
citation_precision引用是否真的支持结论
table_cell_accuracy表格行列和单位是否正确
figure_grounding是否定位到正确图/页
hallucination_rate无证据断言占比
abstention_quality证据不足时是否拒绝胡编
latency文档解析、检索、生成耗时
costVLM、embedding、rerank 成本

人工抽检要看什么

  1. 答案里的每个数字能否在表格中找到。
  2. 引用页码是否正确。
  3. 图表解释是否来自图本身、caption 或正文,而不是模型猜测。
  4. 是否混淆相似表格或相邻页面。
  5. 对扫描件和低质量图片是否说明不确定性。

消融实验

建议至少做三组:

实验对比
Text-only vs Layout-aware普通 OCR/chunk 与 Docling/MinerU 结构化解析
Text retrieval vs Vision retrieval文本 embedding 与 ColPali 页面检索
No rerank vs Rerank只向量召回与二阶段 rerank
No citation check vs Citation check直接生成与引用一致性检查

失败归因模板

Case ID失败类型根因修复
mmrag-007表格错列HTML 表头解析失败保留原表格结构并加表头归一化
mmrag-012图表定位错caption 与图像分离建 figure-caption 关系索引
mmrag-021编造答案检索为空但仍生成evidence gate:无证据则拒答

最低通过标准

一个可写进简历的多模态 RAG 项目,建议至少达到:

  • 40 条 golden case。
  • 文本题准确率 > 80%。
  • 表格/图表题准确率 > 65%。
  • 引用准确率 > 85%。
  • 所有失败 case 都有 trace 和截图/页码证据。
  • 能解释至少 3 个失败类型和对应改进。

Released under the MIT License.