Wild-OmniDocBench
收藏Wild-OmniDocBench 数据集概述
基本信息
- 数据集名称:Wild-OmniDocBench
- 数据集地址:https://github.com/VirtualLUOUCAS/Wild_OmniDocBench
- 数据集类型:真实世界拍摄文档解析基准,用于评估文档解析的鲁棒性
- 数据规模:总计 1,350 张图像
数据集来源与构建方式
- 基于 OmniDocBench 构建,将扫描/数字文档通过受控物理模拟转换为自然拍摄图像
- 当前版本对应 OmniDocBench v1.5,v1.6 扩展部分后续发布
采集方法
- 打印 + 物理形变 + 拍摄
- 屏幕显示 + 重新拍摄
人工引入的失真类型
- 几何畸变:透视变化、弯曲、褶皱
- 光照变化:定向光、不均匀光、弱光
- 屏幕拍摄伪影:摩尔纹、反光
- 环境干扰:背景叠加、阴影
文档类型
包括但不限于:书籍、教科书、论文、PPT、报纸、笔记、考试卷、杂志、财务报告等
数据格式
目录结构
Wild_OmniDocBench/ ├── README.md ├── README_ZH.md ├── wild_omnidocbench.zip # 1,350 张 JPG 图像 └── assets/ └── overview.png
图像命名规则
遵循 OmniDocBench 命名约定:
{doc_type}{language}{source}_{page}.jpg
示例:book_en_A.Concise.Introduction.to.Linear.Algebra_page_065.jpg
标注信息
继承自 OmniDocBench,包含完整的结构和阅读顺序标注
评估指标
- Overall Score(↑,综合得分)
- Text Edit Distance(↓,文本编辑距离)
- Formula CDM(↑,公式内容匹配度)
- Table TEDS(↑,表格编辑距离相似度)
- Reading Order Edit Distance(↓,阅读顺序编辑距离)
关键性能对比(OmniDocBench → Wild-OmniDocBench 性能下降)
| 模型 | 类型 | 原始得分 | 真实场景得分 | 退化程度 |
|---|---|---|---|---|
| DocHumming (1B) | 端到端 | 93.75 | 87.03 | −6.72 |
| dots.ocr (3B) | 端到端 | 88.41 | 78.01 | −10.40 |
| Qwen3-VL (235B) | 通用 | 89.15 | 79.69 | −9.46 |
| MinerU2.5 (1.2B) | 模块化 | 90.67 | 70.91 | −19.76 |
| PaddleOCR-VL (0.9B) | 模块化 | 91.93 | 72.19 | −19.74 |
引用信息
bibtex @misc{li2026towardsrealworlddocument, title={Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training}, author={Gengluo Li and Pengyuan Lyu and Chengquan Zhang and Huawen Shen and Liang Wu and Xingyu Wan and Gangyan Zeng and Han Hu and Can Ma and Yu Zhou}, year={2026}, journal={arXiv preprint arXiv:2603.23885}, url={https://arxiv.org/abs/2603.23885}, }
许可协议
本基准仅用于研究目的




