ShabbyPages
收藏arXiv2023-03-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2303.09339v2
下载链接
链接失效反馈官方服务:
资源简介:
ShabbyPages是由Sparkfish LLC和范德比尔特大学合作创建的一个用于文档去噪和二值化的大型数据集。该数据集包含6202张来自多种语言和格式的‘生数字’图像及其合成噪声版本,旨在模拟打印、传真等物理过程后的文档状态。数据集通过Augraphy工具进行增强,以增加其复杂性和多样性,适用于训练和评估现代数据驱动的机器学习模型。ShabbyPages不仅支持文档处理技术的发展,还为相关领域的研究提供了丰富的资源,特别是在光学字符识别和布局解析等下游任务中。
提供机构:
范德比尔特大学
创建时间:
2023-03-16



