DocDewarpHV
收藏arXiv2025-07-11 更新2025-07-15 收录
下载链接:
https://github.com/xiaomore/DocDewarpHV
下载链接
链接失效反馈官方服务:
资源简介:
DocDewarpHV是一个用于文档图像去扭曲的大规模训练数据集,由哈尔滨工业大学(深圳)计算机科学与技术学院的研究团队创建。该数据集包含扭曲的文档图像及其对应的2D变形场,用于训练深度学习模型进行文档图像的去扭曲。数据集使用了公共文档纹理图像和自动渲染引擎进行自动细粒度标注,以提供更精确的水平和垂直线标注。数据集旨在解决现实场景中捕获的文档图像的扭曲问题,提高图像的可读性和信息提取的准确性。
DocDewarpHV is a large-scale training dataset for document image dewarping, created by the research team from the School of Computer Science and Technology, Harbin Institute of Technology (Shenzhen). This dataset includes distorted document images and their corresponding 2D deformation fields, which are used to train deep learning models for document image dewarping. The dataset utilizes public document texture images and an automatic rendering engine to perform automatic fine-grained annotation, providing more accurate horizontal and vertical line annotations. This dataset aims to solve the distortion problem of document images captured in real-world scenarios, and improve the readability of the images as well as the accuracy of information extraction.
提供机构:
哈尔滨工业大学(深圳)计算机科学与技术学院
创建时间:
2025-07-11
原始信息汇总
DocDewarpHV数据集概述
数据集描述
- 包含约11万张中英文扭曲文档图像,中英文文档数量比例接近1:1
- 每张图像分辨率为512*512
- 数据来源:cddod、CDLA、M6Doc和PubLayNet四个公开数据集
- 提供与输入图像扭曲趋势一致的水平线和垂直线标注
- 标注类型包括:3D世界坐标、UV图、2D反向映射(网格坐标)
数据文件结构
DocDewarpHV/ alb_h/ # 水平线标注 cddod_1/ CDLA_1/ M6Doc_test_1/ publaynet_train_1/ ... alb_v/ # 垂直线标注 cddod_1/ CDLA_1/ M6Doc_test_1/ publaynet_train_1/ ... bm/ # 2D反向映射 cddod_1/ CDLA_1/ M6Doc_test_1/ publaynet_train_1/ ... uvmat/ # UV图 cddod_1/ CDLA_1/ M6Doc_test_1/ publaynet_train_1/ ... warp_img/ # 扭曲图像 cddod_1/ CDLA_1/ M6Doc_test_1/ publaynet_train_1/ ... wc/ # 3D世界坐标 cddod_1/ CDLA_1/ M6Doc_test_1/ publaynet_train_1/ ... DocDewarpHV.txt # 数据集说明文件
数据集获取
- 通过百度网盘下载完整数据集(约600GB)
- 下载链接即将公布
数据集使用
- 执行Python文件
doc_dewarp_hv_read.py加载数据集 - 使用前需修改main函数中的数据集路径
许可协议
- 采用CC BY-NC-ND 4.0许可协议
- 仅限非商业研究用途
联系方式
- 联系人邮箱:hengli.lh@outlook.com
致谢
- 基于Doc3D的数据合成代码
- 感谢cddod、CDLA、M6Doc和PubLayNet提供的原始文档图像
搜集汇总
数据集介绍

构建方式
DocDewarpHV数据集的构建采用了自动化的细粒度标注方法,结合公开的文档纹理图像和自动渲染引擎。通过使用Blender渲染工具,合成了包含中英文文档的扭曲图像,其中英文文档来源于PubLayNet开发集,中文文档则来自CDLA、CDDOD和M6Doc测试集。这些文档数据集均具备布局标注信息,并利用PaddleOCR引擎检测文本坐标。通过合并文档页面边界、布局信息及文本行信息,分别生成了水平和垂直线条掩码。最终,数据集共合成了约11万张扭曲图像,每张图像均包含3D坐标、UV映射图以及水平和垂直线条掩码。
特点
DocDewarpHV数据集的特点在于其精细的双维度标注,即同时标注了文档图像中的水平线和垂直线。水平线包括文档前景、表格、图形和段落的上下边界以及段落内的文本行,而垂直线则涵盖这些类别的左右边界。此外,数据集还提供了3D坐标和UV映射图,为文档图像矫正任务提供了丰富的几何信息。数据集覆盖了中英文两种语言,且图像分辨率统一为512×512,确保了数据的多样性和一致性。
使用方法
DocDewarpHV数据集主要用于训练和评估文档图像矫正模型。在使用时,研究人员可以加载扭曲图像及其对应的标注(水平线、垂直线、3D坐标和UV映射图),通过这些标注信息训练模型以预测2D变形场。数据集支持多种评估指标,如MS-SSIM、LD、AD、ED和CER,可用于量化模型的矫正效果。此外,数据集还可用于研究文档布局分析和文本行检测等任务,为多模态文档理解提供支持。
背景与挑战
背景概述
DocDewarpHV数据集由哈尔滨工业大学(深圳)的李恒、陈清才和吴向平于2021年提出,旨在解决文档图像去扭曲领域的核心问题。随着移动电子设备的普及,人们越来越多地通过拍照方式获取电子文档,但由于设备放置、光照条件和纸张变形等因素,所捕获的文档图像常存在不同程度的扭曲。DocDewarpHV通过引入双维度(水平与垂直)几何表示学习方法,显著提升了文档图像的可视化与可读性。该数据集包含超过11万张合成扭曲图像,并提供了精细的水平与垂直线标注,填补了现有公共数据集中标注信息的不足。其在文档图像去扭曲任务中的表现优于现有方法,推动了相关领域的研究进展。
当前挑战
DocDewarpHV数据集面临的挑战主要体现在两个方面:领域问题与构建过程。在领域问题方面,文档图像去扭曲任务需解决复杂背景干扰、不规则图表边界模糊以及多语言文本行高度差异等问题,这些因素增加了模型对文档前景、图表和表格边界感知的难度。构建过程中的挑战包括:缺乏现成的水平与垂直线标注,需设计自动化细粒度标注方法;合成数据与真实场景图像的域差距可能影响模型泛化能力;多源文档数据(如中英文混合)的布局差异要求标注方法具备较强的适应性。此外,模型需平衡水平与垂直线特征间的互补性约束,这对特征融合模块的设计提出了较高要求。
常用场景
经典使用场景
DocDewarpHV数据集在文档图像校正领域具有广泛的应用场景,特别是在处理因拍摄角度、光照条件或纸张变形导致的文档图像扭曲问题时表现突出。该数据集通过提供带有水平和垂直线标注的大规模训练样本,为深度学习模型提供了丰富的几何变形特征学习基础。在学术研究中,该数据集常被用于评估和比较不同文档校正算法的性能,特别是在处理具有复杂背景和多语言文本的文档图像时。
实际应用
在实际应用中,DocDewarpHV数据集为文档数字化处理提供了重要支持。例如,在办公自动化场景中,该数据集训练的模型可以有效地校正通过手机拍摄的扭曲文档图像,提升后续OCR识别的准确性。在教育领域,该技术可用于数字化教材或手写笔记的校正,方便电子存档和分享。此外,在文化遗产保护方面,该数据集也可用于古籍文档的数字化和校正,帮助保存珍贵的文献资料。
衍生相关工作
DocDewarpHV数据集衍生了一系列经典的文档校正研究工作。基于该数据集提出的D2Dewarp模型引入了双维度几何表示学习方法,显著提升了文档校正的性能。此外,该数据集还启发了后续研究如DocTr、DocGeoNet等工作,这些研究进一步探索了文本线信息、布局信息等在文档校正中的应用。数据集的多语言特性也促进了跨语言文档校正算法的发展,如FTDR等模型通过引入跨语言注意力机制,提升了多语言文档的处理能力。
以上内容由遇见数据集搜集并总结生成



