five

Wild-OmniDocBench

收藏
github2026-05-11 更新2026-05-16 收录
下载链接:
https://github.com/VirtualLUOUCAS/Wild_OmniDocBench
下载链接
链接失效反馈
官方服务:
资源简介:
Wild-OmniDocBench是一个用于评估真实世界捕获条件下文档解析鲁棒性的基准测试。它通过将扫描或数字文档转换为自然捕获的图像,包括在不同照明条件下的打印、变形和摄影,从而引入现实世界的伪影,如几何扭曲、光照变化、屏幕捕获伪影和环境干扰。

Wild-OmniDocBench is a benchmark for evaluating the robustness of document parsing under real-world capture conditions. It converts scanned or digital documents into naturally captured images, covering printed documents under varying lighting conditions, as well as distorted and photographically captured documents, thereby introducing real-world artifacts such as geometric distortions, illumination variations, screen capture artifacts and environmental disturbances.
创建时间:
2026-05-11
原始信息汇总

Wild-OmniDocBench 数据集概述

基本信息

  • 数据集名称:Wild-OmniDocBench
  • 数据集地址:https://github.com/VirtualLUOUCAS/Wild_OmniDocBench
  • 数据集类型:真实世界拍摄文档解析基准,用于评估文档解析的鲁棒性
  • 数据规模:总计 1,350 张图像

数据集来源与构建方式

  • 基于 OmniDocBench 构建,将扫描/数字文档通过受控物理模拟转换为自然拍摄图像
  • 当前版本对应 OmniDocBench v1.5,v1.6 扩展部分后续发布

采集方法

  1. 打印 + 物理形变 + 拍摄
  2. 屏幕显示 + 重新拍摄

人工引入的失真类型

  • 几何畸变:透视变化、弯曲、褶皱
  • 光照变化:定向光、不均匀光、弱光
  • 屏幕拍摄伪影:摩尔纹、反光
  • 环境干扰:背景叠加、阴影

文档类型

包括但不限于:书籍、教科书、论文、PPT、报纸、笔记、考试卷、杂志、财务报告等

数据格式

目录结构

Wild_OmniDocBench/ ├── README.md ├── README_ZH.md ├── wild_omnidocbench.zip # 1,350 张 JPG 图像 └── assets/ └── overview.png

图像命名规则

遵循 OmniDocBench 命名约定:

{doc_type}{language}{source}_{page}.jpg

示例:book_en_A.Concise.Introduction.to.Linear.Algebra_page_065.jpg

标注信息

继承自 OmniDocBench,包含完整的结构和阅读顺序标注

评估指标

  • Overall Score(↑,综合得分)
  • Text Edit Distance(↓,文本编辑距离)
  • Formula CDM(↑,公式内容匹配度)
  • Table TEDS(↑,表格编辑距离相似度)
  • Reading Order Edit Distance(↓,阅读顺序编辑距离)

关键性能对比(OmniDocBench → Wild-OmniDocBench 性能下降)

模型 类型 原始得分 真实场景得分 退化程度
DocHumming (1B) 端到端 93.75 87.03 −6.72
dots.ocr (3B) 端到端 88.41 78.01 −10.40
Qwen3-VL (235B) 通用 89.15 79.69 −9.46
MinerU2.5 (1.2B) 模块化 90.67 70.91 −19.76
PaddleOCR-VL (0.9B) 模块化 91.93 72.19 −19.74

引用信息

bibtex @misc{li2026towardsrealworlddocument, title={Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training}, author={Gengluo Li and Pengyuan Lyu and Chengquan Zhang and Huawen Shen and Liang Wu and Xingyu Wan and Gangyan Zeng and Han Hu and Can Ma and Yu Zhou}, year={2026}, journal={arXiv preprint arXiv:2603.23885}, url={https://arxiv.org/abs/2603.23885}, }

许可协议

本基准仅用于研究目的

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自OmniDocBench,通过将扫描或数字文档转化为自然捕获图像而构建,转化过程包括物理打印、变形处理及多样化光照条件下的摄影捕捉。构建方式分为两种:一是将文档打印后施加物理变形再拍摄,二是通过屏幕显示文档后进行二次拍摄。最终生成1350张图像,覆盖书籍、教材、论文、PPT、报纸、笔记、试卷、杂志及财务报告等多种文档类型。每个图像均继承了OmniDocBench的完整结构注释和阅读顺序注释,确保评估过程的标准化。
特点
区别于依赖纯净扫描或数字页面的传统基准,Wild-OmniDocBench引入了真实世界的复杂干扰因素,包括几何变形(透视偏移、弯曲、褶皱)、光照变化(定向、不均匀、弱光)、屏幕捕获伪影(莫尔条纹、反射)以及环境干扰(背景叠加、阴影)。这些特性使得该基准在评估文档解析模型时能更真实地反映实际应用中的鲁棒性挑战,特别适合用于衡量模型在非受控环境下的性能退化程度。
使用方法
使用Wild-OmniDocBench进行评估时,需从OmniDocBench官方仓库获取注释文件和评估脚本,将图像源替换为本基准的1350张JPG图像。评估遵循OmniDocBench的完整协议,涵盖总体得分、文本编辑距离、公式CDM、表格TEDS以及阅读顺序编辑距离等多项指标。图像按`{文档类型}_{语言}_{来源}_{页码}.jpg`格式命名,便于定位和筛选。当前版本对应OmniDocBench v1.5,扩展版本将在后续更新中发布。
背景与挑战
背景概述
伴随文档解析技术在金融、教育、医疗等领域的广泛应用,现有的评测基准多集中于干净扫描或数字原生文档,难以真实反映模型在自然场景中的表现。Wild-OmniDocBench 由中国科学院自动化研究所的研究团队于2026年创建,旨在填补这一空白。该基准源于 OmniDocBench,通过控制物理模拟流程,将扫描/数字文档转化为包含打印、形变及多种光照条件的实拍图像。核心研究问题在于评估文档解析模型在真实世界捕捉环境下的鲁棒性,从而推动端到端解析模型的实用化进程。其发布对文档智能领域产生了重要影响,促使研究者关注模型在复杂场景中的泛化能力。
当前挑战
Wild-OmniDocBench面对的核心挑战是真实世界文档解析的鲁棒性问题。具体而言,所解决的领域问题包括:几何畸变(如透视扭曲、褶皱)、光照变化(如方向性光源、不均匀照明)、屏幕摩尔纹与反射干扰,以及背景叠加与阴影等环境噪声,导致解析精度急剧下降。在构建过程中,团队需克服物理模拟的可重复性与多样性矛盾,确保打印、形变和拍摄参数覆盖足够广泛的真实分布;同时,从源基准继承的标注体系需与实拍图像精确对齐,避免几何变换引入的标注偏移。此外,光照环境的可控性及不同设备间色彩一致性的保持,也构成了工程实现上的显著壁垒。
常用场景
经典使用场景
在文档理解与光学字符识别领域,Wild-OmniDocBench作为首个聚焦真实拍摄环境下文档解析鲁棒性的基准数据集,其经典应用场景在于系统性地评估各类文档解析模型在面对现实世界物理采集偏差时的性能退化程度。该数据集通过受控的物理模拟手段,将整洁的扫描版或数字原生文档转化为包含几何形变、光照不均、摩尔纹伪影以及背景干扰等复合噪声的自然拍摄图像,从而为鲁棒性研究提供了标准化的测试平台。研究者可利用该基准精准度量从多模态大模型到传统级联管道在应对真实世界捕获噪声时的表现差异。
衍生相关工作
基于Wild-OmniDocBench,已衍生出多项具有代表性的研究工作。该基准与DocHumming论文共同发布,其中提出的“真实场景合成+文档感知训练”范式直接依托该基准验证了合成噪声训练的泛化有效性,启发了后续更多关于文档数据增强与域适应研究的涌现。此外,该基准的构建方法论——通过物理打印变形和屏幕重拍模拟真实噪声——已被多个研究组采纳为构建特定场景文档基准的标准流程。未来,该数据集预计还将催生针对级联系统中版面分析模块、文本识别模块与阅读顺序恢复模块的分离式鲁棒性评测研究,进一步推动文档解析各子任务在真实噪声条件下的协同优化。
数据集最近研究
最新研究方向
在现实场景文档解析领域,Wild-OmniDocBench的提出回应了业界对模型在野外观测条件下鲁棒性的迫切需求。该基准通过物理仿真复现了打印、形变及复杂光照下的文档图像,精准引入几何畸变、光照不均、摩尔纹及环境遮挡等真实噪声。其研究意义不仅在于揭示了端到端模型(如DocHumming)较模块化流水线方法更优异的抗退化能力——例如整体分数仅下降6.72%,远优于MinerU2.5的19.76%降幅,更在于为评估多模态大模型在非受控场景中的文档理解提供了标准化试验场。当前工作已引发对文档AI系统从实验室到部署场景的迁移效率讨论,推动着行业重新审视结构化感知与阅读顺序解析的理论边界,是连接合成数据训练与真实世界泛化的关键桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作