WildDoc

github2025-05-19 更新2025-05-20 收录

下载链接：

https://github.com/bytedance/WildDoc

下载链接

链接失效反馈

官方服务：

资源简介：

WildDoc是首个专门用于评估自然环境中文档理解的基准数据集。它包含了一组多样化的手动捕获的文档图像，反映了真实世界的条件，并利用来自现有基准的文档源，以便与数字或扫描文档进行全面比较。此外，为了严格评估模型的鲁棒性，每个文档在不同条件下被捕获四次。

WildDoc is the first benchmark dataset specifically designed for evaluating document understanding in naturalistic environments. It consists of a diverse set of manually captured document images that reflect real-world conditions, and leverages document sources from existing benchmarks to enable comprehensive comparisons with digital or scanned documents. Furthermore, to rigorously evaluate model robustness, each document is captured four times under varying conditions.

创建时间：

2025-05-16

原始信息汇总

WildDoc 数据集概述

数据集简介

WildDoc 是首个专门用于评估自然环境中文档理解能力的基准测试数据集。该数据集通过捕捉现实场景中的多样化文档图像，解决了现有基准测试（如DocVQA和ChartQA）在反映真实世界复杂挑战方面的不足。

数据集特点

多样性：包含手动捕捉的反映真实世界条件的文档图像
对比性：利用现有基准测试的文档来源，便于与数字或扫描文档进行综合比较
鲁棒性评估：每份文档在四种不同条件下被捕捉，用于严格评估模型鲁棒性

数据集用途

评估多模态大语言模型(MLLM)在真实世界文档理解中的表现
揭示模型在传统基准测试与真实场景之间的性能差距

数据获取

Huggingface数据集：https://huggingface.co/datasets/ByteDance/WildDoc
VLMEval数据集：https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval/dataset

数据加载

python from datasets import load_dataset dataset = load_dataset("ByteDance/WildDoc")

评估方法

推荐使用VLMEvalKit进行评估，或使用提供的calculate_metric.py脚本计算指标。

引用信息

BibTeX @misc{wang2025wilddoc, title={WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild?}, author={An-Lan Wang and Jingqun Tang and Liao Lei and Hao Feng and Qi Liu and Xiang Fei and Jinghui Lu and Han Wang and Weiwei Liu and Hao Liu and Yuliang Liu and Xiang Bai and Can Huang}, year={2025}, eprint={2505.11015}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.11015}, }

许可证

GPL3.0

免责声明

数据集按"原样"提供，不保证准确性。使用风险由使用者自行承担。

搜集汇总

数据集介绍

构建方式

在文档理解领域，WildDoc数据集的构建体现了对真实场景复杂性的深度考量。该数据集通过人工拍摄方式收集了多样化环境下的文档图像，涵盖不同光照条件和物理变形情况，每份文档均被刻意捕捉四次以构建多重环境样本。其文档来源融合了既有基准测试的素材与新采集的野外场景数据，形成包含数字文档、扫描文档与真实环境文档的三维对比体系。这种构建策略不仅确保了数据多样性，还为模型鲁棒性评估提供了严格测试基准。

使用方法

研究者可通过Hugging Face平台直接加载WildDoc数据集，使用标准数据加载接口实现快速接入。官方推荐采用VLMEvalKit评估工具进行模型测试，该工具已原生支持WildDoc的评估流程。对于自主评估方案，数据集提供了标准化的度量计算脚本，确保结果可比性。评估完成后，研究者可将结果提交至项目方以参与公开排行榜的竞争，这种设计既保证了评估流程的规范性，又促进了学术社区的共同进步。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）的快速发展，文档理解能力得到了显著提升。然而，现有的主流基准数据集如DocVQA和ChartQA主要包含扫描或数字文档，未能充分反映真实场景中因光照变化和物理变形等复杂因素带来的挑战。为此，字节跳动的研究团队于2025年推出了WildDoc数据集，这是首个专门用于评估自然环境下文档理解能力的基准数据集。WildDoc通过手动采集多样化真实场景下的文档图像，并结合现有基准的文档来源，旨在全面比较数字或扫描文档与真实场景文档的差异。该数据集的推出填补了文档理解领域在真实环境评估方面的空白，为相关研究提供了重要的数据支持。

当前挑战

WildDoc数据集面临的挑战主要体现在两个方面。在领域问题层面，真实环境中的文档理解需应对复杂多变的干扰因素，如不均匀光照、物理变形和背景噪声，这些因素导致现有模型性能显著下降，暴露出其在鲁棒性方面的不足。在构建过程中，数据采集需模拟多样化真实场景，每份文档需在四种不同条件下拍摄，以确保数据集的全面性和代表性，这一过程对数据采集的标准化和一致性提出了较高要求。此外，如何平衡数据多样性与评估的公平性，以及如何设计合理的评估指标以准确反映模型在真实场景中的表现，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

在文档理解领域，WildDoc数据集通过提供真实环境中捕获的多样化文档图像，为评估多模态大语言模型在复杂场景下的性能提供了基准。这些图像涵盖了不同光照条件和物理变形，使得该数据集成为研究模型在非理想环境下鲁棒性的理想选择。其经典使用场景包括模型在自然光照、阴影、褶皱等干扰下的文档理解能力测试，填补了传统基准测试在真实世界应用中的空白。

解决学术问题

WildDoc数据集有效解决了当前文档理解研究中模型在真实场景下性能评估不足的学术问题。传统基准如DocVQA和ChartQA主要依赖扫描或数字文档，难以反映现实环境中光照不均、物理变形等复杂因素。该数据集通过精心设计的多样化样本，为学术界提供了衡量模型在真实条件下泛化能力和鲁棒性的标准，推动了文档理解技术向实际应用场景的过渡。

实际应用

在实际应用层面，WildDoc数据集对提升移动文档扫描、户外广告识别、现场票据处理等场景下的自动化处理能力具有重要意义。金融机构可以利用该数据集优化移动端支票识别系统，零售行业可改进促销海报的自动解析技术。这些应用场景对光照变化和物理变形的鲁棒性要求极高，WildDoc为相关技术的研发和评估提供了关键支持。

数据集最近研究