CiteVQA
收藏数据集概述:CiteVQA
CiteVQA 是一个用于文档视觉问答(DocVQA)的基准测试,专注于忠实证据归因。与仅对最终答案评分的传统 DocVQA 数据集不同,CiteVQA 要求模型回答问题时,必须在元素级别提供源自源文档的证据。该基准旨在评估系统是否不仅能正确回答,还能在长篇、真实的 PDF 文档中引用正确的支持区域。
核心特点与亮点
- 联合答案与证据评估:同时评估答案的正确性和引用的忠实度。
- 元素级证据:结构化黄金证据包含边界框、页码和文档索引。
- 长文档场景:专注于多页 PDF,具有真实的文档长度和复杂布局。
- 跨领域与双语:涵盖 7 个宏观领域、30 个子领域,以及英文和中文两种语言。
- 多文档推理:包含需要跨文档聚合证据的问题。
- 三种评估设置:支持
Single-Doc(单文档)、Multi (1-Gold)(多文档,仅一个黄金文档)和Multi (N-Gold)(多文档,多个黄金文档)。
数据集规模
- 问题数量:1,897 个问题。
- 源文档:来自 711 份 PDF。
- 文档长度:平均每份文档 40.6 页。
- 数据集类型:包含
Single-Doc、Multi (1-Gold)和Multi (N-Gold)三种类型。
数据获取与使用
数据集可从 Hugging Face 和 ModelScope 平台获取。使用提供的脚本可以下载源 PDF 文件。
从 Hugging Face 获取: bash pip install -U "huggingface_hub[cli]" hf download opendatalab/CiteVQA --repo-type dataset --local-dir . python data/download/download_pdfs.py --workers 16 --out data/pdf --csv data/download/pdf_source.csv
从 ModelScope 获取: bash pip install -U modelscope modelscope download --dataset OpenDataLab/CiteVQA --local_dir . python data/download/download_pdfs.py --workers 16 --out data/pdf --csv data/download/pdf_source.csv
评估流程
基准评估包含三个步骤:推理、评估和结果汇总。
- 推理 (Inference):使用
infer/run.py脚本让模型回答问题并生成引用。 - 评估 (Evaluation):使用
eval/run.py脚本评估模型输出的答案和证据。评估需要调用外部评判模型(如 GPT-4o)。 - 汇总 (Summary):使用
eval/summarize.py脚本生成结果汇总表。
运行示例脚本 run.sh 可进行完整演示。
评估指标
| 指标 | 含义 |
|---|---|
Recall (召回率) |
预测的证据是否与关键的黄金证据重叠 |
Relevance (Rel.) (相关性) |
引用的证据在语义上是否支持答案 |
Answer Correctness (Ans.) (答案正确性) |
答案是否正确 |
SAA (严格归因准确率) |
答案和证据必须同时有效。这是 CiteVQA 的核心指标。 |
Page Recall (页面召回率) |
是否正确识别了页码 |
Precision / F1 (精确率/ F1分数) |
预测证据的精确度和重叠质量 |
主要评估结果 (部分)
在 CiteVQA 上对 20 个先进多模态大语言模型 (MLLMs) 的评估显示,忠实的证据归因比仅答案评分要困难得多。
| 模型 | 类别 | Rec. | Rel. | Ans. | SAA |
|---|---|---|---|---|---|
| Gemini-3.1-Pro-Preview | 闭源 MLLMs | 66.0 | 83.6 | 86.1 | 76.0 |
| GPT-5.4 | 闭源 MLLMs | 31.0 | 67.5 | 87.1 | 59.0 |
| Qwen3-VL-235B-A22B | 开源大型 MLLMs | 11.3 | 35.3 | 72.3 | 22.5 |
| Qwen3-VL-8B | 开源小型 MLLMs | 1.0 | 14.7 | 61.2 | 7.5 |
关键发现:在所有模型中,答案正确率(Ans.)和严格归因准确率(SAA)之间存在巨大差距,这凸显了“归因幻觉”这一挑战。
许可证
该项目使用 MIT 许可证。




