five

StainDoc|文档污渍去除数据集|文档数字化数据集

收藏
arXiv2024-10-30 更新2024-11-01 收录
文档污渍去除
文档数字化
下载链接:
https://github.com/CXH-Research/StainRestorer
下载链接
链接失效反馈
资源简介:
StainDoc是由惠州大学计算机科学与工程学院创建的首个大规模高分辨率文档污渍去除数据集,包含超过5000对污渍和清洁文档图像。该数据集涵盖多种污渍类型、严重程度和文档背景,旨在支持文档污渍去除算法的鲁棒训练和评估。数据集的创建过程包括模拟真实世界污渍、控制条件下拍摄和后期处理标准化。StainDoc主要应用于文档数字化和分析领域,旨在解决文档污渍对可读性和下游应用的影响问题。
提供机构:
惠州大学计算机科学与工程学院
创建时间:
2024-10-30
原始信息汇总

StainRestorer 数据集概述

数据集介绍

  • 名称: StainDoc
  • 描述: StainDoc 是首个大规模高分辨率数据集,专门用于文档污渍去除任务,包含真实世界的数据和对应的地面真值数据。
  • 来源: 由 Kaggle 提供。

数据集类型

  • 类型: 文档污渍去除
  • 子集:
    • StainDoc_mark
    • StainDoc_seal

数据集生成

  • 生成方法: 基于 DocDiff 的处理流程生成。

使用方法

训练

  1. 下载数据集。

  2. config.yml 文件的 TRAINING 部分指定 TRAIN_DIR、VAL_DIR 和 SAVE_DIR。

  3. 单 GPU 训练: bash python train.py

  4. 多 GPU 训练: bash accelerate config accelerate launch train.py

    • 如遇 accelerate 使用问题,请参考 Accelerate

推理

  1. config.yml 文件的 TESTING 部分指定 TRAIN_DIR、VAL_DIR 和 SAVE_DIR。
  2. 运行推理脚本: bash python infer.py

引用

  • 暂无引用信息。
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了应对文档图像中常见污渍对可读性和后续应用的严重影响,研究团队构建了StainDoc数据集。该数据集包含超过5,000对污渍和清洁文档图像,分辨率为2145 × 2245,涵盖多种场景。构建过程中,首先收集了约300份多语言文本和图表的文档,模拟了茶、红墨水和蓝墨水等常见污渍,并在一致的照明条件下拍摄。随后,通过标准化的分类和预处理步骤,确保数据集的多样性和一致性。
特点
StainDoc数据集的显著特点在于其大规模、高分辨率和多样性。它不仅包含了多种污渍类型和严重程度,还涵盖了不同的文档背景,从而为训练和评估文档污渍去除算法提供了丰富的资源。此外,数据集的构建过程严格控制了拍摄条件和后期处理,确保了图像质量的一致性,为算法的高效训练和测试提供了坚实基础。
使用方法
StainDoc数据集主要用于训练和评估文档污渍去除算法。研究者可以使用该数据集来训练深度学习模型,如Transformer模型,以实现精确的污渍去除。数据集的多样性和高分辨率特性使其适用于各种文档处理任务,包括光学字符识别(OCR)和文档数字化。通过在StainDoc上的训练和测试,研究者可以开发出能够有效去除污渍并保留文档细节的先进算法。
背景与挑战
背景概述
文档图像常常因各种污渍而降质,显著影响其可读性并阻碍文档数字化和分析等下游应用。现有文档增强方法在去除污渍的同时保留细节方面效果有限,主要原因是缺乏全面的污渍文档数据集。为应对这一挑战,我们构建了StainDoc,这是首个专为文档污渍去除设计的大规模、高分辨率(2145 × 2245)数据集。StainDoc包含超过5,000对污渍和清洁文档图像,涵盖多种场景,包括多样化的污渍类型、严重程度和文档背景,为文档污渍去除算法的鲁棒训练和评估提供了基础。
当前挑战
StainDoc数据集面临的挑战包括:1) 解决文档污渍去除领域的复杂问题,如污渍的多样性和复杂性;2) 在构建过程中遇到的挑战,如高质量图像的获取和处理,以及确保数据集的多样性和代表性。此外,数据集需要处理污渍与文本或图像边缘重叠的情况,以及在去除污渍过程中保持文档细节的完整性。这些挑战要求开发新的算法和技术,以有效去除污渍并保留文档的原始内容。
常用场景
经典使用场景
在文档图像处理领域,StainDoc数据集因其大规模、高分辨率的特点,成为文档污渍去除研究的重要基石。该数据集包含超过5,000对污渍和清洁文档图像,涵盖多种污渍类型、严重程度和文档背景,为训练和评估文档污渍去除算法提供了丰富的资源。研究者利用StainDoc数据集,通过深度学习模型如StainRestorer,实现了对文档中各种污渍的高精度去除,同时保留了文档的细节和完整性。
实际应用
StainDoc数据集在实际应用中展现出广泛的前景,特别是在文档数字化和分析领域。通过使用StainDoc数据集训练的模型,可以有效去除文档中的污渍,提高文档的可读性和视觉质量,从而提升光学字符识别(OCR)的准确性。此外,该数据集在考古学、历史文献保护等领域也有重要应用,帮助恢复和保存珍贵的历史文档,确保其长期保存和研究价值。
衍生相关工作
基于StainDoc数据集,研究者们开发了多种文档污渍去除模型,如StainRestorer,这些模型在去除污渍的同时,保持了文档内容的完整性。此外,StainDoc数据集还激发了相关领域的研究,如文档图像增强、图像修复和视觉Transformer的应用。例如,DocMemory模块和Stain Removal Transformer(SRTransformer)的提出,不仅提升了文档污渍去除的效果,也为其他图像处理任务提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

ner_training_stanza

该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。

huggingface 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中文突发事件语料库

中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

github 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录