Real5-OmniDocBench

Name: Real5-OmniDocBench
Creator: 百度公司·PaddlePaddle团队; 香港科技大学·广州
Published: 2026-03-04 23:49:06
License: 暂无描述

arXiv2026-03-04 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/PaddlePaddle/Real5-OmniDoc

下载链接

链接失效反馈

官方服务：

资源简介：

Real5-OmniDocBench是由百度PaddlePaddle团队与香港科技大学（广州）联合创建的首个全尺度物理重建文档解析基准数据集，包含1,355份原始文档图像及其在五种现实场景（扫描、弯曲、屏幕摄影、光照、倾斜）下的物理变体，共计6,775个样本。数据集通过专业级打印和异构移动设备采集，严格保留原始OmniDocBench v1.5的标注信息，旨在量化分析视觉语言模型在真实物理扰动下的性能退化。其应用聚焦于提升文档智能系统在复杂现实环境中的鲁棒性，为几何畸变、光学伪影等干扰因素的诊断提供标准化工具。

Real5-OmniDocBench is the first full-scale physically reconstructed document parsing benchmark dataset jointly developed by the Baidu PaddlePaddle Team and The Hong Kong University of Science and Technology (Guangzhou). It contains 1,355 raw document images and their physical variants under five realistic scenarios (scanning, bending, screen photography, illumination, and tilting), totaling 6,775 samples. The dataset is collected through professional-grade printing and heterogeneous mobile devices, and strictly retains the annotation information of the original OmniDocBench v1.5. It aims to quantitatively analyze the performance degradation of vision-language models under real-world physical perturbations. Its applications focus on improving the robustness of document intelligence systems in complex real-world environments, and providing standardized tools for diagnosing interfering factors such as geometric distortions and optical artifacts.

提供机构：

百度公司·PaddlePaddle团队; 香港科技大学·广州

创建时间：

2026-03-04

搜集汇总

数据集介绍

构建方式

在文档解析领域，现有基准多聚焦于理想数字环境，而实际应用中物理干扰常导致模型性能显著下降。Real5-OmniDocBench通过全尺度物理重建填补了这一空白，其构建过程以OmniDocBench v1.5的1,355幅数字图像为蓝本，采用专业级打印设备以1200 dpi分辨率进行高保真输出，确保源数据质量。随后，研究团队设计了扫描、弯曲、屏幕摄影、光照和倾斜五大物理场景，利用异构移动设备进行多样化采集，每个数字样本均对应五种物理变体，总计生成6,775个测试样本。这一严格的一对一映射策略完整继承了原始标注，使得物理失真从不可控的混杂因素转变为可独立分析的变量，为模型鲁棒性提供了因果诊断的基础。

使用方法

使用Real5-OmniDocBench进行评估时，需遵循其与OmniDocBench完全兼容的评估框架。研究者在模型测试前，应首先在原始数字测试集上验证性能，确保与官方基准对齐，随后再将模型应用于物理重建样本集。评估采用多维指标体系，包括基于归一化编辑距离的文本与阅读顺序度量、字符检测匹配的公式解析指标以及基于树编辑距离的表格结构相似性评分，这些指标共同解耦了布局、内容与逻辑结构的解析质量。通过对比同一模型在数字样本与各物理场景下的表现，可以执行细粒度的归因分析，识别模型在特定失真类型下的脆弱环节。该数据集为社区提供了一个诊断工具，旨在推动面向真实世界复杂条件的文档解析模型向更具韧性的方向发展。

背景与挑战

背景概述

随着视觉语言模型在数字文档解析任务中取得接近完美的性能，其在物理世界复杂环境下的鲁棒性评估却长期缺失。Real5-OmniDocBench由百度PaddlePaddle团队与香港科技大学（广州）的研究人员于2026年提出，旨在填补这一关键空白。该数据集通过对OmniDocBench v1.5全部1,355幅图像进行全尺度物理重建，构建了扫描、卷曲、屏幕摄影、光照和倾斜五大现实场景，首次实现了数字原图与物理退化图像之间严格的一一对应。其核心研究问题聚焦于量化并诊断模型在真实物理扰动下的性能退化根源，为文档智能领域提供了首个可进行因果分析的鲁棒性评估基准，推动了从数字完美到现实可靠的研究范式转变。

当前挑战

Real5-OmniDocBench所应对的核心领域挑战在于弥合文档解析中的“现实鸿沟”。现有模型在理想数字文档上表现优异，却难以处理物理世界中普遍存在的非刚性形变、光学伪影和非均匀光照等复杂退化，导致实际部署时性能严重下降。在构建过程中，研究团队面临多重技术挑战：确保高保真度的物理重建需克服专业打印与异构移动设备采集带来的分辨率差异与传感器噪声；维持严格的数字-物理一一映射要求精密的流程控制与多轮质量审核；同时，需在保留代表性真实退化与过滤意外采集错误之间取得平衡，以构建既真实可靠又具备诊断价值的评估标准。

常用场景

经典使用场景

在文档智能领域，Real5-OmniDocBench作为首个全尺度物理重建基准，其经典使用场景在于系统评估视觉语言模型在真实物理环境下的鲁棒性。该数据集通过对OmniDocBench v1.5全部1355幅图像进行一对一的物理重建，覆盖扫描、卷曲、屏幕摄影、光照和倾斜五大关键场景，为研究者提供了从理想数字环境到复杂物理世界的可控对比平台。模型在此基准上的表现能够精确揭示其在面对非刚性形变、光学伪影和透视畸变时的解析能力，成为衡量文档理解技术从实验室走向实际部署的关键试金石。

解决学术问题

Real5-OmniDocBench致力于解决文档解析研究中长期存在的‘现实鸿沟’问题。传统基准如OmniDocBench虽在数字文档上表现优异，却无法反映模型在物理世界中的真实性能。该数据集通过严格的数字-物理对应关系，首次实现了性能退化的因子归因分析，使研究者能够精确辨别失败源于几何畸变、光学干扰还是模型固有局限。这为理解视觉语言模型在跨域迁移中的脆弱性提供了诊断工具，推动了鲁棒性评估从单纯精度度量向因果分析的范式转变。

实际应用

在实际应用层面，Real5-OmniDocBench直接对应着文档数字化流程中的各类现实挑战。例如在档案数字化中，扫描仪产生的纸张纹理和装订阴影；移动办公场景下，手持拍摄导致的页面卷曲和透视倾斜；屏幕翻拍时出现的莫尔条纹；以及不同光照条件造成的局部过曝或色彩偏差。该数据集的五个场景系统模拟了这些真实干扰，使得开发出的模型能够更好地服务于智能办公系统、移动文档扫描应用、无障碍阅读辅助以及文化遗产数字化等关键领域，提升技术在复杂环境下的实用性和可靠性。

数据集最近研究