ShabbyPages

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/sparkfish/shabby-pages

下载链接

链接失效反馈

官方服务：

资源简介：

ShabbyPages是一个先进的文档图像数据集，包含超过6,000个干净的数字原生图像及其合成噪声版本，适用于训练和基准测试文档去噪器和二值化器。该数据集通过Augraphy文档增强工具进行增强，使其看起来像是经过打印、传真、复印或其他物理过程处理过的。

ShabbyPages is an advanced document image dataset comprising over 6,000 clean digital native images along with their synthetically noised versions, suitable for training and benchmarking document denoisers and binarizers. This dataset is enhanced using the Augraphy document augmentation tool, making the images appear as though they have been processed through printing, faxing, photocopying, or other physical processes.

创建时间：

2022-02-06

原始信息汇总

数据集概述

名称: ShabbyPages 2023

目的: 用于训练和基准测试文档去噪和二值化模型。

特点:

包含超过6,000个“生而数字”的干净图像及其合成噪声版本（“破旧页”）。
使用Augraphy文档增强工具进行增强，模拟打印、传真、复印等物理过程。
提供像素级映射的地面实况和扭曲版本，适用于监督学习。

数据生成:

使用Augraphy（版本8.1.0）生成基于地面实况文档的合成但真实的数据集。

应用:

改进文档布局检测、文本提取和OCR过程中的预处理模型。

数据集结构:

包含多个Python脚本，用于生成和处理数据集，如图像拟合、生成Kaggle竞赛数据集、移除空白页等。

示例:

提供一个Jupyter笔记本示例，展示如何使用Augraphy和Shabby Pages管道生成破旧图像。

相关工作:

比较了多个真实世界和合成数据集，如RVL-CDIP、Tobacco3482、FUNSD、NoisyOffice、DDI-100和NIST-SFRS。

贡献:

欢迎通过拉取请求进行贡献，重大更改前请先开启问题讨论。

引用:

若在研究中使用此数据集，请引用项目。

许可证:

根据MIT许可证发布。

搜集汇总

数据集介绍

构建方式

在文档处理领域，噪声去除和二值化是基础问题，但现有数据集往往规模较小且复杂性不足。为填补这一空白，*ShabbyPages*数据集应运而生，包含超过6,000张干净的‘数字原生’图像及其通过*Augraphy*工具合成的噪声版本。这些合成图像模拟了打印、传真、复印等物理过程，确保了数据集的真实性和复杂性。通过避免几何变换，数据集保留了像素级的映射关系，从而为监督学习提供了可靠的训练数据。

使用方法

使用*ShabbyPages*数据集时，用户可以利用提供的脚本生成数据集，或直接使用预生成的数据进行模型训练和评估。数据集特别适用于需要去噪和二值化预处理的文档布局检测、文本提取和OCR等任务。通过GitHub提供的示例笔记本，用户可以快速上手并了解如何利用*Augraphy*工具生成和处理噪声图像，从而提升模型的性能和鲁棒性。

背景与挑战

背景概述

在文档处理领域，文档去噪和二值化是基础问题，然而现有数据集往往规模较小且复杂度不足，难以有效训练和基准测试现代数据驱动的机器学习模型。为填补这一空白，2023年，*ShabbyPages*数据集应运而生，由*The Augraphy Project*团队开发。该数据集包含超过6,000张干净的‘数字原生’图像及其合成噪声版本，通过*Augraphy*工具模拟了打印、传真、复印等物理过程的文档变形。*ShabbyPages*不仅为文档去噪和二值化模型提供了丰富的训练数据，还通过基准测试展示了其对提升文档布局检测、文本提取和OCR预处理模型的潜力。

当前挑战

构建*ShabbyPages*数据集面临的主要挑战包括：首先，如何生成具有高度真实感的合成噪声文档，以确保模型能够有效学习去除真实世界中的噪声特征。其次，由于训练数据通常缺乏干净的基准源，导致训练不准确和可用数据量有限，*ShabbyPages*通过提供精确的基准文档解决了这一问题。此外，数据集的生成过程需要避免几何变换，以保持基准文档与噪声版本之间的像素级映射，这对数据增强技术提出了更高的要求。

常用场景

经典使用场景

在文档处理领域，ShabbyPages数据集的经典应用场景主要集中在文档去噪和二值化处理。该数据集通过提供超过6,000张干净的‘数字原生’图像及其对应的合成噪声版本，为训练和评估现代数据驱动的机器学习模型提供了丰富的资源。这些合成噪声图像通过Augraphy工具模拟了打印、传真、复印等物理过程，使得模型能够在高度逼真的噪声环境下进行训练，从而提升其在实际应用中的去噪和二值化能力。

解决学术问题

ShabbyPages数据集解决了文档处理领域中训练数据不足和复杂性不够的问题。传统的文档数据集往往缺乏足够的噪声多样性和规模，导致模型在面对真实世界复杂噪声时表现不佳。ShabbyPages通过提供大规模的合成噪声数据，帮助研究者训练出能够有效去除真实噪声的模型，显著提升了文档去噪和二值化的基准性能，为相关领域的研究提供了新的方向和可能性。

实际应用

在实际应用中，ShabbyPages数据集广泛应用于文档处理、文本提取和OCR（光学字符识别）等领域。通过使用该数据集训练的去噪和二值化模型，可以显著提高文档布局检测的准确性，优化文本提取过程，并提升OCR系统的识别率。特别是在处理老旧或损坏的文档时，这些模型能够有效恢复原始文档的清晰度，为档案管理、法律文书处理和历史文献数字化等应用场景提供了强有力的技术支持。

数据集最近研究