five

CiteVQA

收藏
arXiv2026-05-13 更新2026-05-15 收录
下载链接:
https://github.com/opendatalab/CiteVQA
下载链接
链接失效反馈
官方服务:
资源简介:
CiteVQA是由北京大学和上海人工智能实验室联合创建的一个专注于证据归因的文档视觉问答基准数据集。该数据集包含来自7个宏观领域、711份平均长达40.6页的PDF文档,共计构建了1,897个高质量问题,要求模型在给出答案的同时提供元素级别的边界框引用。数据集通过一个高度自动化的流水线构建,该流程整合了文档解析、智能代理探索、模板驱动的QA合成以及基于掩码消融的关键证据识别技术,确保了数据的精确性和可扩展性。CiteVQA旨在评估和推动可信文档智能的发展,核心解决现有文档VQA评估中仅关注最终答案而忽略证据溯源的问题,特别适用于法律、金融和医疗等高风险领域,要求模型的每一个结论都必须可追溯至具体的文档源区域。
提供机构:
北京大学; 上海人工智能实验室
创建时间:
2026-05-13
原始信息汇总

CiteVQA 数据集详情

数据集概述

CiteVQA 是一个面向可信证据归因的文档视觉问答基准数据集。与传统的 DocVQA 数据集仅对最终答案评分不同,CiteVQA 要求模型在回答问题时,必须在元素级别提供源文档中的证据。该基准旨在评估系统是否不仅能正确回答问题,还能在长篇幅、真实世界的 PDF 文档中引用正确的支持区域。

数据集规模与构成

  • 总问题数: 1,897 个
  • 源文档: 711 个 PDF 文件
  • 覆盖领域: 7 大领域、30 个子领域
  • 文档长度: 平均每份文档 40.6 页
  • 语言: 涵盖英文和中文
  • 文档设置: 包含单文档和多文档两种场景

评估场景

数据集支持三种评估类型:

类型 说明
Single-Doc 单文档问答
Multi (1-Gold) 多文档问答,恰好包含一个黄金文档
Multi (N-Gold) 多文档问答,包含多个黄金文档

主要特点

  • 联合答案与证据评估: 同时评估答案正确性和引用忠实度
  • 元素级证据: 结构化黄金证据包含边界框、页码和文档索引
  • 长文档设置: 聚焦多页 PDF,具有真实长度和复杂布局
  • 跨领域与双语: 覆盖 7 大领域、30 个子领域,支持英文和中文
  • 多文档推理: 包含需要证据聚合的跨文档问题
  • 三种评估设置: 支持 Single-Doc、Multi (1-Gold) 和 Multi (N-Gold)

评估指标

指标 含义
Recall 预测证据是否与关键真实证据重叠
Relevance (Rel.) 引用的证据在语义上是否支持答案
Answer Correctness (Ans.) 答案是否正确
SAA 严格归因准确率:答案和证据都必须有效
Page Recall 是否识别出正确的页码
Precision / F1 预测证据的精确度和重叠质量

SAA 是 CiteVQA 的核心评估指标。

现有模型评估结果

对 20 个前沿 MLLM 的评估表明,忠实证据归因仍远难于仅答案评分:

  • 最佳整体 SAA: Gemini-3.1-Pro-Preview 达到 76.0 SAA,答案得分为 86.1
  • 最佳答案准确率: GPT-5.4 达到 87.1 答案得分,但 SAA 降至 59.0
  • 最佳开源模型: Qwen3-VL-235B-A22B 达到 22.5 SAA,答案得分为 72.3
  • 关键发现: 各模型在 Ans. 和 SAA 之间均存在较大差距,凸显了“归因幻觉”挑战

部分模型评估结果

模型 类别 Rec. Rel. Ans. SAA
Gemini-3.1-Pro-Preview 闭源 MLLM 66.0 83.6 86.1 76.0
GPT-5.4 闭源 MLLM 31.0 67.5 87.1 59.0
Gemini-2.5-Pro 闭源 MLLM 27.4 59.8 82.2 47.0
Qwen3-VL-235B-A22B 开源大型 MLLM 11.3 35.3 72.3 22.5
Gemma-4-31B 开源大型 MLLM 11.6 35.0 69.8 20.2

数据集下载

数据集可通过以下平台获取:

  • Hugging Face: https://huggingface.co/datasets/opendatalab/CiteVQA
  • ModelScope: https://www.modelscope.cn/datasets/OpenDataLab/CiteVQA

许可协议

本项目采用 MIT 许可证。CiteVQA 仅供学术研究和非商业用途使用。

搜集汇总
数据集介绍
main_image_url
构建方式
CiteVQA的构建始于对超过1亿份原始PDF文档的多阶段自动化过滤,通过分层采样与多模态大语言模型的粗粒度领域识别及细粒度子类分类,精选出711篇涵盖7大领域与30个子类的高质量文档,平均页数达40.6页。其后,依托自动化标注流水线,通过语义对齐实现跨文档链接,借助高性能智能体在精细解析结果中提取完整证据包,并基于真实业务场景模板驱动问题-答案对的自动合成。最终,经由可答性验证、相关性过滤与消融式关键证据识别等全自动质量控制流程,确保了数据集的严谨性与科学性。
特点
CiteVQA的核心特质在于其严格的证据归因评估框架,要求模型在提供答案的同时,必须给出元素级边界框形式的精准引用,并采用联合评估指标Strict Attributed Accuracy进行评分。数据集包含1,897个高质量问题,每个任务平均需引用2.57个证据元素,其中近30%为非文本形式,且证据均匀分布于文档各位置并常跨越多页。通过对20个主流多模态大语言模型的审计,揭示了一个普遍的归因幻觉现象——模型频繁输出正确答案却依据错误证据,最强闭源模型SAA仅达76.0,而顶尖开源模型不足25.0,暴露了仅凭答案准确性评估所忽视的可靠性鸿沟。
使用方法
使用CiteVQA时,模型需接收按顺序排列的文档页面截图作为输入,输出应包含文本答案与对应的元素级边界框引用标签。评估体系涵盖Strict Attributed Accuracy、Recall、Relevance与Answer Correctness等多维指标,其中SAA作为样本级二元指标,仅在答案正确且引用证据满足质量阈值时给予认可。研究者可通过统一提示模板调用模型,并利用Qwen3-VL-235B等自动评判器进行评分,亦可参照论文中的单文档与多文档场景设置进行细粒度性能分析,以系统评估模型在复杂文档环境中证据归因的忠实度与可靠性。
背景与挑战
背景概述
CiteVQA是由北京大学与上海人工智能实验室的研究团队于近期联合提出的基准数据集,聚焦于可信文档智能中的证据归因问题。随着多模态大语言模型在文档理解领域取得突破性进展,传统的文档视觉问答评测仅关注最终答案的正确性,忽视了模型推导结论时所依赖的逻辑路径。在法律咨询、财务审计与循证医学等高 stakes 场景中,“证据”是决策的基石。该数据集旨在填补这一关键空白,通过要求模型同时返回答案及其对应的元素级边界框引用,推动评测范式从答案导向转向证据可信导向。
当前挑战
CiteVQA所解决的领域核心挑战在于现有Doc-VQA评测体系忽略了证据溯源——模型可能基于预训练背景知识“猜对”答案,却将其锚定在错误段落,这种“归因幻觉”在高风险领域尤为危险。在构建过程中,面对手动标注成本高昂且不一致的困境,研究团队开发了可扩展的自动化流水线,通过掩码消融识别关键证据并经专家验证以确保质量。然而,对20个先进MLLMs的审计揭示了一个普遍现象:即使顶级闭源模型,其严格归因准确率也仅为76.0,最强开源模型更只达到22.5,暴露出当前系统在逻辑溯源与视觉定位间的严重断裂。
常用场景
经典使用场景
在文档智能领域,CiteVQA被设计为一项用于评估多模态大语言模型在回答文档视觉问题时可溯源性的基准测试。其经典使用场景要求模型不仅输出正确答案,还必须以元素级边界框的形式提供支撑该答案的具体证据区域,从而实现答案与证据的联合验证。这一设定突破了传统Doc-VQA仅关注最终答案准确率的评价范式,尤其适用于处理跨页、多域、双语的长文档场景,涵盖学术、法律、金融、医疗等7大领域,平均文档长度达40.6页,能够全面检验模型在复杂视觉布局与跨模态推理中的证据归因能力。
解决学术问题
CiteVQA致力于解决当前文档视觉问答研究中一个根本性的学术缺陷:现有评估体系几乎完全忽略模型生成答案时所依赖的逻辑路径,导致即使模型答案正确,其所依据的证据区域可能完全错误,这种现象被称为“归因幻觉”。该基准通过引入严格归因准确率这一核心指标,要求模型只有在答案和所引用的证据区域均正确时才被视为成功,从而量化地揭示了主流MLLMs在逻辑一致性与证据忠实性上的严重断裂。该工作为学术界提供了一个系统性的评估工具,推动了从单纯追求回答能力向构建可解释、可追溯的可靠文档智能系统的重要转变。
衍生相关工作
CiteVQA的提出直接催生了一系列聚焦于证据归因与可解释性的后续工作,推动了文档智能评估范式的演进。其自动化标注流水线所展示的可扩展性,为后续构建大规模、细粒度证据标注数据集提供了技术原型。此外,该基准揭示出的“归因幻觉”现象激发了研究者对模型视觉定位能力的深入探讨,相关分析证明证据质量与答案正确性之间存在正向关联,从而引导出将证据检索作为性能提升手段的新研究路径。这些衍生工作共同丰富了可信文档智能的理论体系,使得构建兼具高准确率与强可追溯性的多模态系统成为可能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作