CiteVQA

github2026-05-14 更新2026-05-16 收录

下载链接：

https://github.com/opendatalab/CiteVQA

下载链接

链接失效反馈

官方服务：

资源简介：

CiteVQA是一个用于忠实证据归因的文档视觉问答基准数据集。与仅评分最终答案的传统DocVQA数据集不同，CiteVQA要求模型在元素级别基于源文档提供证据来回答问题。该数据集包含来自7个宏观领域和30个子领域的711个PDF文件构建的1,897个问题，平均每个文档40.6页，覆盖英文和中文文档，并包括单文档和多文档设置。

CiteVQA is a benchmark dataset for document visual question answering (DocVQA) focused on faithful evidence attribution. Unlike traditional DocVQA datasets that only score final answers, CiteVQA requires models to answer questions by providing evidence grounded in source documents at the element level. This dataset comprises 1,897 questions constructed from 711 PDF documents spanning 7 macro domains and 30 sub-domains, with an average of 40.6 pages per document. It covers both English and Chinese documents, and includes both single-document and multi-document settings.

创建时间：

2026-04-30

原始信息汇总

数据集概述：CiteVQA

CiteVQA 是一个用于文档视觉问答（DocVQA）的基准测试，专注于忠实证据归因。与仅对最终答案评分的传统 DocVQA 数据集不同，CiteVQA 要求模型回答问题时，必须在元素级别提供源自源文档的证据。该基准旨在评估系统是否不仅能正确回答，还能在长篇、真实的 PDF 文档中引用正确的支持区域。

核心特点与亮点

联合答案与证据评估：同时评估答案的正确性和引用的忠实度。
元素级证据：结构化黄金证据包含边界框、页码和文档索引。
长文档场景：专注于多页 PDF，具有真实的文档长度和复杂布局。
跨领域与双语：涵盖 7 个宏观领域、30 个子领域，以及英文和中文两种语言。
多文档推理：包含需要跨文档聚合证据的问题。
三种评估设置：支持 Single-Doc（单文档）、Multi (1-Gold)（多文档，仅一个黄金文档）和 Multi (N-Gold)（多文档，多个黄金文档）。

数据集规模

问题数量：1,897 个问题。
源文档：来自 711 份 PDF。
文档长度：平均每份文档 40.6 页。
数据集类型：包含 Single-Doc、Multi (1-Gold) 和 Multi (N-Gold) 三种类型。

数据获取与使用

数据集可从 Hugging Face 和 ModelScope 平台获取。使用提供的脚本可以下载源 PDF 文件。

从 Hugging Face 获取： bash pip install -U "huggingface_hub[cli]" hf download opendatalab/CiteVQA --repo-type dataset --local-dir . python data/download/download_pdfs.py --workers 16 --out data/pdf --csv data/download/pdf_source.csv

从 ModelScope 获取： bash pip install -U modelscope modelscope download --dataset OpenDataLab/CiteVQA --local_dir . python data/download/download_pdfs.py --workers 16 --out data/pdf --csv data/download/pdf_source.csv

评估流程

基准评估包含三个步骤：推理、评估和结果汇总。

推理 (Inference)：使用 infer/run.py 脚本让模型回答问题并生成引用。
评估 (Evaluation)：使用 eval/run.py 脚本评估模型输出的答案和证据。评估需要调用外部评判模型（如 GPT-4o）。
汇总 (Summary)：使用 eval/summarize.py 脚本生成结果汇总表。

运行示例脚本 run.sh 可进行完整演示。

评估指标

指标	含义
`Recall` (召回率)	预测的证据是否与关键的黄金证据重叠
`Relevance (Rel.)` (相关性)	引用的证据在语义上是否支持答案
`Answer Correctness (Ans.)` (答案正确性)	答案是否正确
`SAA` (严格归因准确率)	答案和证据必须同时有效。这是 CiteVQA 的核心指标。
`Page Recall` (页面召回率)	是否正确识别了页码
`Precision / F1` (精确率/ F1分数)	预测证据的精确度和重叠质量

主要评估结果 (部分)

在 CiteVQA 上对 20 个先进多模态大语言模型 (MLLMs) 的评估显示，忠实的证据归因比仅答案评分要困难得多。

模型	类别	Rec.	Rel.	Ans.	SAA
Gemini-3.1-Pro-Preview	闭源 MLLMs	66.0	83.6	86.1	76.0
GPT-5.4	闭源 MLLMs	31.0	67.5	87.1	59.0
Qwen3-VL-235B-A22B	开源大型 MLLMs	11.3	35.3	72.3	22.5
Qwen3-VL-8B	开源小型 MLLMs	1.0	14.7	61.2	7.5

关键发现：在所有模型中，答案正确率（Ans.）和严格归因准确率（SAA）之间存在巨大差距，这凸显了“归因幻觉”这一挑战。

许可证

该项目使用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

CiteVQA数据集旨在评估文档视觉问答中的忠实证据归因能力。其构建过程基于711篇来自7大宏观领域与30个子领域的真实PDF文档，精选1897个问答对。每个问题均配备元素级的黄金证据，这些证据以边界框、页码和文档索引的形式结构化标注。数据集覆盖中文与英文文档，并包含单文档及多文档两种设置，其中多文档设置又细分为仅含一个黄金文档与包含多个黄金文档的子类型，以全面模拟复杂文档推理场景。

特点

CiteVQA数据集的显著特征在于其联合评估机制，即正确答案与引证证据的忠实性缺一不可。它采用严格归因准确率（SAA）作为核心指标，要求模型预测的证据区域必须与黄金证据在空间位置和语义相关性上高度吻合。数据集聚焦于平均40.6页的长文档，挑战模型在真实、冗长PDF中的定位能力。此外，其跨领域、双语及多文档推理的设计，为评估现存多模态大语言模型在证据归因方面的能力鸿沟提供了严苛基准。

使用方法

使用CiteVQA需依次执行数据获取、推理与评估三个步骤。首先，通过Hugging Face或ModelScope下载基准文件及源PDF，运行提供的下载脚本将文档存储至本地目录。随后，配置API密钥及模型参数，利用推理脚本对模型进行预测，输出JSON格式的结果文件。最后，调用评估脚本，以GPT-4o等模型作为评判者，计算召回率、相关性、答案正确性及SAA等一系列指标，并通过总结脚本生成全面的性能摘要表格。

背景与挑战

背景概述

近年来，多模态大语言模型在文档视觉问答领域取得了显著进展，但现有基准往往仅关注答案的正确性，忽视了模型是否真正从文档中定位并引用可靠的证据。为弥合这一裂隙，由北京大学等单位学者于2026年提出的CiteVQA数据集应运而生。该数据集精心构建了1897个问题，源自711篇覆盖7大宏观领域与30个子领域的真实长PDF文档，平均篇幅达40.6页，并涵盖中英双语及单文档与多文档场景。其核心研究问题在于系统评估模型在给出正确答案的同时，能否在元素级别忠实引用源文档中的支撑区域，从而推动可信文档智能的发展。CiteVQA的发布为检验多模态大模型在证据归因方面的真实能力提供了关键基准，对提升模型在司法、金融等高风险领域的可解释性与可靠性具有深远影响。

当前挑战

CiteVQA直面现有文档视觉问答研究中的两大核心挑战。首先，在领域问题层面，传统方法仅以答案正确性为评价标准，严重忽视了证据归因这一关键维度，导致模型易产生“归因幻觉”——即答案正确但引用的支撑区域错误或缺失，这在长文档、多文档场景中尤为突出。其次，在数据集构建过程中，从711篇平均40余页的真实PDF中逐页标注元素级别的证据区域（包含边界框、页码与文档索引）极为耗时，且需确保跨领域、跨语言的标注一致性。此外，多文档设置要求模型能跨文档聚合证据，进一步增加了推理的复杂度。当前最先进的模型在严格归因准确率（SAA）上仍与纯答案准确率存在显著差距，表明忠实证据归因仍是亟需攻克的难题。

常用场景

经典使用场景

CiteVQA作为文档视觉问答领域的革新性基准，其核心使用场景在于评估多模态大语言模型在长文档理解任务中进行证据归因的能力。具体而言，该数据集要求模型不仅给出问题的正确答案，还必须在源文档中精确定位并引用支持该答案的细粒度元素级证据，包括边界框、页码及文档索引。这一设定覆盖了单文档与多文档场景，且文档平均页数达40.6页，跨越7大宏观领域与30个子领域，中英双语兼备，从而为构建具备可信赖性的文档智能系统提供了完备的评测平台。

实际应用

在实际应用层面，CiteVQA所倡导的证据归因范式直接服务于多个高可靠性需求的场景。在法律文档审查中，模型可精准定位法条依据，避免误判；在医疗报告分析中，确保诊断结论有明确的影像学或文本证据支撑；在金融研报解读与科研文献综述场景下，帮助用户快速验证论断的来源。该基准还支持跨语言、跨域的长文档检索，为构建企业级知识管理、智能合规审查及学术文献管理系统提供了算法评估基准，显著提升了人机协作的可回溯性与可信度。

衍生相关工作

CiteVQA的推出已衍生出一系列前沿研究工作。其开放的评测框架激励了针对长文档视觉理解的检索增强生成方法研究，以及面向细粒度空间定位的文档解析技术革新。此外，该数据集还催化了针对多文档场景下的证据聚合推理任务研究，包括跨文档信息冲突消解与联合证据链构建。在模型层面，后续工作探索了基于注意力机制的可视化证据映射与基于结构化提示的归因增强训练策略，进一步缩小了模型在答案正确性与归因忠实度之间的鸿沟，形成了从基准构建到方法优化的良性研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集