WildDoc
收藏WildDoc 数据集概述
数据集简介
WildDoc 是首个专门用于评估自然环境中文档理解能力的基准测试数据集。该数据集通过捕捉现实场景中的多样化文档图像,解决了现有基准测试(如DocVQA和ChartQA)在反映真实世界复杂挑战方面的不足。
数据集特点
- 多样性:包含手动捕捉的反映真实世界条件的文档图像
- 对比性:利用现有基准测试的文档来源,便于与数字或扫描文档进行综合比较
- 鲁棒性评估:每份文档在四种不同条件下被捕捉,用于严格评估模型鲁棒性
数据集用途
- 评估多模态大语言模型(MLLM)在真实世界文档理解中的表现
- 揭示模型在传统基准测试与真实场景之间的性能差距
数据获取
- Huggingface数据集:https://huggingface.co/datasets/ByteDance/WildDoc
- VLMEval数据集:https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval/dataset
数据加载
python from datasets import load_dataset dataset = load_dataset("ByteDance/WildDoc")
评估方法
推荐使用VLMEvalKit进行评估,或使用提供的calculate_metric.py脚本计算指标。
引用信息
BibTeX @misc{wang2025wilddoc, title={WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild?}, author={An-Lan Wang and Jingqun Tang and Liao Lei and Hao Feng and Qi Liu and Xiang Fei and Jinghui Lu and Han Wang and Weiwei Liu and Hao Liu and Yuliang Liu and Xiang Bai and Can Huang}, year={2025}, eprint={2505.11015}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.11015}, }
许可证
免责声明
数据集按"原样"提供,不保证准确性。使用风险由使用者自行承担。




