five

ShabbyPages

收藏
arXiv2023-03-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2303.09339v2
下载链接
链接失效反馈
官方服务:
资源简介:
ShabbyPages是由Sparkfish LLC和范德比尔特大学合作创建的一个用于文档去噪和二值化的大型数据集。该数据集包含6202张来自多种语言和格式的‘生数字’图像及其合成噪声版本,旨在模拟打印、传真等物理过程后的文档状态。数据集通过Augraphy工具进行增强,以增加其复杂性和多样性,适用于训练和评估现代数据驱动的机器学习模型。ShabbyPages不仅支持文档处理技术的发展,还为相关领域的研究提供了丰富的资源,特别是在光学字符识别和布局解析等下游任务中。
提供机构:
范德比尔特大学
创建时间:
2023-03-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作