five

DocBank 文档图像增强数据集

收藏
github2024-05-06 更新2024-05-31 收录
下载链接:
https://github.com/liuyifan6613/DocBank-Document-Enhancement-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
DocBank 文档图像增强数据集,此数据集用于文档图像增强,具体任务包括以下内容:Seal detection & Removal 印章检测 & 移除 ;Watermark detection & Removal 水印检测 & 移除;Document deblurring 文档去模糊;Document shadow removal 文档去阴影;Document super-resolution 文档超分;Document Low-Light Enhancement 文档低光增强

DocBank 文档图像增强数据集,该数据集旨在用于提升文档图像的质量,涵盖了诸如印章检测与移除、水印检测与移除、文档去模糊处理、文档阴影消除、文档超分辨率处理以及文档低光增强等系列具体任务。
创建时间:
2024-05-06
原始信息汇总

DocBank 文档图像增强数据集

数据集概述

DocBank 是一个专注于文档图像增强的数据集,涵盖以下任务:

  • 印章检测 & 移除
  • 水印检测 & 移除
  • 文档去模糊
  • 文档去阴影
  • 文档超分
  • 文档低光增强

数据集详情

GT

  • 名称: doc_img_10000
  • 说明: 10000张文档图(第一批,编号10000)
  • 链接: 百度网盘
  • 提取码: ibxf

Seal

  • 名称: seal-1-1

  • 说明: 10000张,混合数据,与GT10000对应,文件名-(x1, y1, x2, x3)分别表示印章位置左上和右下的坐标

  • 链接: 百度网盘

  • 提取码: hc6v

  • 名称: Seal-1-2

  • 说明: 10000张,混合数据,GT10000对应,文件名-(x1, y1, x2, x3)分别表示印章位置左上和右下的坐标

  • 链接: 百度网盘

  • 提取码: esc8

  • 名称: Seal-2

  • 说明: 20796张,混合数据,印章区域成对数据

  • 链接: 百度网盘

  • 提取码: 7t19

  • 名称: Seal-3

  • 说明: 25033张,纯印章图片,无背景信息。GT为自行创建纯白对应shape图片

  • 链接: 百度网盘

  • 提取码: 9qpf

  • 名称: Seal-4

  • 说明: 80000张,PNG带有透明通道纯印章,可置于自定义背景上,亦可转成jpg同Seal-3

  • 链接: 夸克网盘

  • 提取码: C4b8

数据集用途

本数据集仅用于学术用途,请勿用于其他领域。

搜集汇总
数据集介绍
main_image_url
构建方式
DocBank文档图像增强数据集通过精心设计的多任务数据合成方法构建,涵盖了印章检测与移除、水印检测与移除、文档去模糊、文档去阴影、文档超分辨率以及文档低光增强等多个任务。数据集的构建首先基于公开的文档图像资源,结合真实数据,通过人工处理和自动化工具生成高质量的合成数据。例如,印章和水印数据通过特定的生成算法与文档图像结合,形成具有挑战性的增强任务样本。
特点
DocBank数据集的显著特点在于其多任务导向和数据多样性。该数据集不仅包含了多种文档增强任务的训练样本,还提供了详细的标注信息,如印章和水印的位置坐标,便于精确的任务训练与评估。此外,数据集中的图像来源广泛,既有公开的互联网资源,也有真实场景中的文档图像,确保了数据的实用性和代表性。
使用方法
DocBank数据集适用于多种文档图像处理任务的研究与开发,用户可以根据需求选择不同的数据子集进行训练和测试。使用时,建议首先下载所需的GT数据和对应的增强任务数据,利用提供的标注信息进行模型训练。对于特定的任务,如印章检测,用户可以利用文件名中的坐标信息进行精确的定位训练。数据集的多样性和详细标注使其成为文档图像增强领域的理想研究资源。
背景与挑战
背景概述
DocBank文档图像增强数据集由Yifan Liu和Jiancheng Huang于2024年创建,旨在解决文档图像处理中的多种复杂问题。该数据集专注于文档图像的增强任务,包括印章检测与移除、水印检测与移除、文档去模糊、文档去阴影、文档超分以及文档低光增强等。这些任务在文档处理领域具有重要意义,尤其是在自动化文档处理和信息提取方面。DocBank的发布不仅为研究人员提供了一个标准化的测试平台,还推动了文档图像处理技术的发展,特别是在提高文档清晰度和可读性方面。
当前挑战
DocBank数据集面临的挑战主要集中在数据多样性和处理复杂性上。首先,印章和水印的多样性使得检测和移除任务变得复杂,尤其是当这些元素与文档内容高度融合时。其次,文档去模糊和去阴影任务需要高精度的图像处理技术,以确保处理后的文档保持原有的信息完整性。此外,文档超分和低光增强任务对算法的计算能力和效率提出了高要求,尤其是在处理大规模数据时。最后,数据集的构建过程中,如何确保数据的多样性和代表性,以及如何高效地合成和标注数据,也是一大挑战。
常用场景
经典使用场景
DocBank文档图像增强数据集在文档处理领域中具有广泛的应用前景,其经典使用场景主要集中在文档图像的增强与修复任务上。该数据集支持印章检测与移除、水印检测与移除、文档去模糊、文档去阴影、文档超分辨率以及文档低光增强等多项任务。通过这些任务,DocBank能够有效提升文档图像的质量,使其在后续的文本识别、信息提取等任务中表现更为出色。
解决学术问题
DocBank数据集解决了文档图像处理领域中多个关键的学术研究问题。首先,它为印章和水印的自动检测与移除提供了丰富的训练数据,解决了传统方法中依赖人工标注的瓶颈问题。其次,文档去模糊和去阴影任务的引入,有效提升了文档图像的清晰度和可读性,为后续的文档分析提供了更高质量的输入。此外,文档超分辨率和低光增强任务的实现,进一步推动了文档图像处理技术的发展,具有重要的学术意义和应用价值。
衍生相关工作
DocBank数据集的发布催生了一系列相关的经典工作。首先,基于该数据集的印章和水印检测与移除算法得到了广泛的研究和应用,推动了文档图像处理技术的发展。其次,文档去模糊和去阴影技术的研究也取得了显著进展,相关的论文和算法在多个国际会议上得到了展示。此外,文档超分辨率和低光增强技术的研究也为文档图像处理领域带来了新的思路和方法,进一步丰富了该领域的研究内容。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务