DocVQA-2026

github2026-02-20 更新2026-02-24 收录

下载链接：

https://github.com/VLR-CVC/DocVQA2026

下载链接

链接失效反馈

官方服务：

资源简介：

基于之前的DocVQA基准，这个评估数据集引入了具有挑战性的推理问题，覆盖了八个不同领域的文档，包括商业报告、科学论文、幻灯片、海报、地图、漫画、信息图和工程图纸。通过扩展到新的文档领域并引入更丰富的问题类型，这个基准旨在推动多模态推理的边界，促进更通用、稳健的文档理解模型的发展。

Building upon the prior DocVQA benchmark, this evaluation dataset introduces challenging reasoning questions covering documents across eight distinct domains, including business reports, scientific papers, slides, posters, maps, cartoons, infographics, and engineering drawings. By expanding into new document domains and introducing more diverse question types, this benchmark aims to push the boundaries of multimodal reasoning and advance the development of more generalizable and robust document understanding models.

创建时间：

2026-02-20

原始信息汇总

DocVQA 2026 数据集概述

基本信息

数据集名称: DocVQA 2026 | ICDAR2026 Competition on Multimodal Reasoning over Documents in Multiple Domains
数据集地址: https://huggingface.co/datasets/VLR-CVC/DocVQA-2026
竞赛平台: Robust Reading Competition (RRC) 平台 (https://rrc.cvc.uab.es/?ch=34)
官方代码库: https://github.com/VLR-CVC/DocVQA2026

数据集目标

在先前DocVQA基准测试的基础上，引入具有挑战性的推理问题。
覆盖八个不同的文档领域，以推动多模态推理的边界，促进开发更通用、更稳健的文档理解模型。

文档领域

数据集包含以下八个文档领域：

商业报告
科学论文
幻灯片
海报
地图
漫画
信息图
工程图纸

数据状态与获取

测试集状态: 即将发布。目前请使用提供的验证集和评估代码。
加载方式: 可通过Hugging Face datasets库加载验证集。 python from datasets import load_dataset dataset = load_dataset("VLR-CVC/DocVQA-2026", split="val")

数据结构

样本结构

每个样本（文档）包含以下字段：

doc_id: 文档标识符。
doc_category: 文档类别（即所属领域）。
preview: 预览图像。
document: 包含文档各页PIL图像的列表。
questions: 包含question_id和question列表的字典。
answers: 包含question_id和answer列表的字典。

文件结构

数据集由两部分组成：

图像: 位于images/目录下的文档页面高分辨率PNG渲染图。
标注: 一个Parquet文件（val.parquet），包含问题、答案以及图像路径的引用。

评估与提交

评估代码

官方自动评估流程位于GitHub代码库中。
评估脚本处理模型答案的提取，并应用严格的格式检查（针对数字、日期和单位）以及宽松的文本匹配（ANLS）用于基于文本的答案。
代码库包含用于基线实验的精确提示结构（get_evaluation_prompt()）。

提交格式规则

为确保评估公平准确，模型输出必须严格遵守以下格式规则：

答案来源: 仅提供文档中直接找到的答案。如果根据提供的图像无法回答问题，则响应必须恰好为："Unknown"。
多个答案: 按出现顺序列出多个答案，用逗号和单个空格分隔。不要使用“and”一词。（示例：Answer A, Answer B）
数字与单位: 将单位转换为其标准化缩写（例如，使用kg而不是“kilograms”）。在数字和单位之间始终放置一个空格。（示例：50 kg, 10 USD）
百分比: 将%符号直接附加到数字上，不留空格。（示例：50%）
日期: 将所有日期转换为标准化的YYYY-MM-DD格式。（示例：“Jan 1st 24”变为2024-01-01）
小数: 使用单个句点（.）作为小数分隔符，切勿使用逗号。（示例：3.14）
千位分隔符: 不要使用逗号分隔大数字。（示例：1000，而不是1,000）
无填充文本: 输出仅请求的数据。不要用完整的句子来构建答案（例如，避免“The answer is...”）。
最终输出格式: 生成最终提取的数据时，系统必须用以下确切短语作为响应前缀：

FINAL ANSWER: [Your formatted answer]

基线模型结果

评估了多个基线模型在数据集上的表现，评估参数如下：

GPT模型: 启用“High thinking”，温度设置为1.0。
Gemini模型: 启用“High thinking”，温度设置为0.0。

总体准确率

模型	总体准确率
Gemini 3 Pro Preview	0.375
GPT-5.2	0.350
Gemini 3 Flash Preview	0.3375
GPT-5 Mini	0.225

分领域准确率

领域	Gemini 3 Pro Preview	GPT-5.2	Gemini 3 Flash Preview	GPT-5 Mini
商业报告	0.400	0.600	0.200	0.300
漫画	0.300	0.200	0.400	0.100
工程图纸	0.300	0.300	0.500	0.200
信息图	0.700	0.600	0.500	0.500
地图	0.000	0.200	0.000	0.100
科学论文	0.300	0.400	0.500	0.100
科学海报	0.300	0.000	0.200	0.000
幻灯片	0.700	0.500	0.400	0.500

API限制说明

模型均通过其各自的API进行评估。如果因输入文件过大导致样本失败，则结果计为失败。例如，OpenAI模型的文件输入限制为50MB，而数据集中有几个漫画超过了该阈值。

搜集汇总

数据集介绍

构建方式

在文档视觉问答领域，DocVQA-2026数据集作为一项前沿基准，其构建过程体现了对多模态推理能力的深度探索。该数据集精心选取了涵盖商业报告、科学论文、幻灯片、海报、地图、漫画、信息图表及工程图纸在内的八个专业领域文档，并针对每份文档设计了具有挑战性的推理问题。通过扩展文档类型的覆盖范围并引入更丰富的问题类型，该数据集旨在推动文档理解模型向更通用、更鲁棒的方向发展。其构建不仅依赖于高质量的文档图像采集，还涉及对问题与答案对的系统性标注，确保每个样本均能有效评估模型在复杂场景下的理解与推理能力。

特点

DocVQA-2026数据集的核心特点在于其广泛的领域覆盖与深度的推理挑战。数据集囊括了八种截然不同的文档类型，每种类型均呈现出独特的视觉与文本结构，要求模型具备跨领域的泛化能力。问题设计超越了简单的信息提取，涉及空间推理、逻辑推断及多步骤计算等复杂任务，例如在地图中规划路径或在工程图纸中解读尺寸标注。此外，数据集提供了严格的答案格式化规范，包括日期、数字、单位及多答案列表的统一表示，这进一步提升了评估的精确性与公平性，为模型性能提供了细致入微的衡量标准。

使用方法

该数据集的使用主要通过Hugging Face平台便捷加载，研究人员可利用`datasets`库直接获取验证集进行模型开发与测试。每个样本以结构化形式呈现，包含文档图像、问题列表及其对应答案，便于进行端到端的多模态模型训练。官方提供了完整的评估代码库，其中包含自动化评分脚本与精心设计的基础提示模板，确保模型输出符合严格的格式要求。用户可在本地运行评估流程，验证模型性能后再通过Robust Reading Competition平台提交结果，参与国际竞赛并对比在各类文档领域上的表现。

背景与挑战

背景概述

文档视觉问答（DocVQA）作为多模态人工智能的前沿领域，致力于推动机器对复杂文档内容的理解与推理能力。DocVQA-2026数据集由VLR-CVC团队主导构建，并作为ICDAR2026竞赛的核心基准，延续了该系列在文档智能领域的探索传统。该数据集聚焦于跨领域文档的多模态推理问题，涵盖了商业报告、科学论文、幻灯片、海报、地图、漫画、信息图表和工程图纸等八大专业领域，旨在通过引入更具挑战性的推理问题类型，检验模型在真实场景下的泛化与鲁棒性。其构建不仅反映了当前大语言模型与视觉理解技术融合的趋势，更为评估模型在异构文档结构中的语义提取与逻辑推理能力提供了标准化测试平台。

当前挑战

DocVQA-2026所应对的核心领域挑战在于实现跨文档类型的深度多模态推理，这要求模型能够协同理解视觉布局、文本语义及领域特定符号系统，以解答需要综合推理的复杂问题。例如，在地图类文档中，模型需解析图例、比例尺与空间关系；在工程图纸中，则需识别技术符号与尺寸标注。构建过程中的挑战同样显著：首先，数据收集需平衡八大领域的代表性与多样性，确保每个类别均包含足够且高质量的样本；其次，标注工作需要专家级领域知识，以设计兼具逻辑深度与答案明确性的问题，同时严格遵守答案格式标准化规范；此外，技术层面上面临着处理高分辨率多页文档的存储与计算效率问题，以及部分类别（如漫画）因文件体积过大而超出主流API输入限制的实践障碍。

常用场景

经典使用场景

在文档智能研究领域，DocVQA-2026数据集作为一项前沿基准，其经典使用场景聚焦于评估多模态大模型在跨域文档上的复杂推理能力。该数据集涵盖了商业报告、科学论文、地图、工程图等八种异构文档类型，并设计了需要综合视觉与文本信息进行逻辑推断的问答对。研究人员通常利用该数据集对模型进行端到端评估，通过其提供的标准化验证集和评估代码，系统性地测试模型在理解图表关系、解析布局结构以及提取隐含信息等方面的性能，从而推动文档理解技术向更通用、更鲁棒的方向演进。

解决学术问题

DocVQA-2026数据集旨在解决文档视觉问答领域长期存在的关键学术问题，即模型在多样化、真实世界文档上的泛化与推理能力不足。传统文档VQA模型往往局限于单一或少数文档类型，难以处理地图中的空间推理、工程图中的符号解读或漫画中的叙事理解等复杂任务。该数据集通过引入多领域文档和丰富的推理型问题，为学术界提供了一个衡量模型跨域迁移与深层理解能力的统一平台，其意义在于确立了新一代文档智能模型需具备的认知标准，显著影响了多模态推理研究的发展轨迹。

衍生相关工作

围绕DocVQA-2026数据集，已衍生出一系列探索多模态文档理解前沿的经典研究工作。这些工作主要集中于设计新型的视觉-语言融合架构，以应对跨域文档的语义鸿沟；开发专门的预训练策略，增强模型对图表、公式等非文本元素的表征能力；以及构建更精细的推理机制，如链式思维或程序生成，以处理数据集中的复杂多步问题。同时，该数据集也催生了针对其评估协议的模型输出标准化与后处理技术研究，这些成果共同构成了当前文档智能领域最为活跃的技术分支。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集