DocPTBench

github2025-11-27 更新2025-11-28 收录

下载链接：

https://github.com/Topdu/DocPTBench

下载链接

链接失效反馈

官方服务：

资源简介：

DocPTBench是一个专门为真实世界拍摄文档设计的基准数据集，针对具有挑战性的现实环境中的文档解析和文档翻译。与之前基于干净原生数字文档的基准不同，DocPTBench让模型面临透视变形、光照变化/阴影、运动模糊、物理折叠和皱纹、噪声和相机伪影等挑战。该数据集包含1,381个现实拍摄文档（包括模拟和真实相机拍摄），支持8种语言对的翻译（英语↔中文/德语/法语/俄语和中文↔英语/德语/法语/俄语），所有翻译都经过人工验证。

DocPTBench is a benchmark dataset specifically designed for real-world captured documents, targeting document parsing and translation tasks in challenging real-world environments. Unlike previous benchmarks based on clean, native digital documents, DocPTBench exposes models to a range of realistic challenges including perspective distortion, lighting changes and shadows, motion blur, physical folding and wrinkles, noise, and camera artifacts. This dataset contains 1,381 real-world captured documents (including both simulated and real camera-captured samples), supports 8 language pairs for translation (English ↔ Chinese, German, French, Russian and Chinese ↔ English, German, French, Russian), and all translations have been manually verified.

创建时间：

2025-11-23

原始信息汇总

DocPTBench 数据集概述

数据集简介

DocPTBench是一个专门针对现实世界拍摄文档设计的基准测试，目标是在具有挑战性的现实环境中进行文档解析和文档翻译。

核心特征

数据规模

包含1,381个真实拍摄文档
同时包含模拟拍摄和真实相机拍摄的文档

语言支持

支持8种语言对的翻译任务
英语↔中文/德语/法语/俄语
中文↔英语/德语/法语/俄语
所有翻译结果均经过人工验证

文档条件

提供三种文档处理条件：

原生数字文档（原始）
拍摄文档
去扭曲处理文档

评估能力

支持模型类型

专用解析模型
统一端到端多模态大语言模型

评估指标

文档解析：编辑距离（Edit↓）
表格识别：TEDS分数（TEDS↑）
翻译质量：BLEU分数

主要发现

多模态大语言模型在拍摄文档上的平均解析性能下降18%
专业模型性能下降25%
翻译BLEU分数下降12%
去扭曲处理有助于提升性能，但不能完全恢复原始质量
思维链提示显著减少指令跟随失败

可用资源

论文地址：https://www.arxiv.org/abs/2511.18434
Hugging Face数据集：https://huggingface.co/datasets/topdu/DocPTBench
魔搭数据集：https://modelscope.cn/datasets/topdktu/DocPTBench

搜集汇总

数据集介绍

构建方式

在文档分析与多模态语言模型研究领域，DocPTBench通过精心设计的构建流程填补了真实拍摄文档评估的空白。该数据集以原始数字文档为基础，采用模拟拍摄和真实相机采集相结合的方式，系统性地引入了透视畸变、光照变化、运动模糊等现实场景干扰因素。构建过程遵循数字文档→拍摄文档→去扭曲处理的三阶段流程，确保数据在保持原始内容完整性的同时，充分反映实际应用环境的复杂性。所有翻译数据均经过人工验证，保证了标注质量的可靠性。

特点

DocPTBench的显著特征体现在其全面覆盖现实场景挑战的能力。数据集包含1381个真实拍摄文档，涵盖文本、公式和表格等多种文档元素，并支持英语与中文、德语、法语、俄语之间的八种语言对翻译任务。特别值得关注的是，该基准同时提供了原始数字文档、拍摄文档和去扭曲文档三种处理状态，使得研究者能够系统分析不同处理阶段对模型性能的影响。这种多层次的数据结构为评估文档解析模型和多模态大语言模型在真实环境下的鲁棒性提供了丰富的研究维度。

使用方法

该数据集为文档解析与翻译研究提供了标准化的评估框架。研究者可利用DocPTBench对专用文档解析模型和端到端多模态大语言模型进行综合性能测试。评估指标包括编辑距离和BLEU分数等量化标准，能够准确衡量模型在文本提取、公式识别、表格解析和阅读顺序理解等多个维度的表现。通过对比模型在原始文档与拍摄文档上的性能差异，可以深入分析现实环境干扰对模型效果的影响程度，为改进模型鲁棒性提供实证依据。

背景与挑战

背景概述

随着多模态大语言模型在文档智能领域的快速发展，现有基准测试主要基于数字原生文档构建，难以评估模型在真实拍摄场景下的性能表现。DocPTBench作为首个专门针对拍摄文档解析与翻译任务的基准数据集，由研究团队于2024年创建，通过包含1381份模拟拍摄和真实拍摄的文档样本，构建了涵盖八种语言对的多语言翻译任务。该数据集通过引入透视畸变、光照变化、运动模糊等真实场景干扰因素，为评估文档解析模型和多模态大语言模型在复杂环境下的鲁棒性提供了重要基准。

当前挑战

该数据集致力于解决拍摄文档解析与翻译任务中的核心挑战：模型对几何形变和光学退化的敏感性问题，实验数据显示专业模型在拍摄文档上的解析性能平均下降25%，翻译质量BLEU指标下降12%。在构建过程中面临多重技术挑战，包括如何模拟真实拍摄环境中的复杂退化因素，确保八种语言对翻译标注的准确性，以及建立涵盖文本、公式、表格等多元结构的细粒度评估体系。尽管纠偏预处理能部分恢复性能，但仍无法完全弥补拍摄文档与数字原生文档之间的质量差距。

常用场景

经典使用场景

在文档智能研究领域，DocPTBench作为首个专门针对真实拍摄文档的基准测试集，其经典使用场景主要聚焦于评估文档解析与翻译模型在复杂现实环境下的性能表现。该数据集通过模拟透视畸变、光照变化、运动模糊等真实拍摄场景的干扰因素，为研究社区提供了系统评估多模态大语言模型和专用文档解析模型鲁棒性的标准化平台。研究人员可借助该数据集深入分析模型在文本提取、公式识别、表格结构重建等核心任务上的表现差异。

衍生相关工作

基于DocPTBench的基准特性，研究社区已衍生出多个重要研究方向。在文档图像校正领域，该数据集推动了对几何畸变校正算法的深入研究；在多模态大语言模型优化方面，其提供的链式思维提示方法显著降低了指令遵循失败率；在专业文档解析模型改进上，该数据集催生了对PaddleOCR-VL、MinerU2.5等模型鲁棒性增强的新方法。这些工作共同推进了真实场景文档智能处理技术的前沿发展。

数据集最近研究