SUT Dataset
收藏github2023-12-07 更新2024-05-31 收录
下载链接:
https://github.com/aliiafkari/SUT_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
SUT数据集是一个新的多功能合成数据集,用于波斯文档图像分析。该数据集包含62,453张图像,分为21个不同的类别,包括带有合成生成个人信息的身份证件,覆盖在各种背景上。数据集还包括带有图像标签信息的相应文件,以及包含图像路径和嵌入数据相关信息的CSV文件。
The SUT dataset is a novel, multifunctional synthetic dataset designed for Persian document image analysis. It comprises 62,453 images, categorized into 21 distinct classes, including identification documents with synthetically generated personal information, overlaid on various backgrounds. The dataset also includes corresponding files with image label information, as well as CSV files containing image paths and related embedded data information.
创建时间:
2023-09-20
原始信息汇总
数据集概述
1. 数据集名称
SUT Dataset
2. 数据集介绍
- 首次发布:在2023年的第13届国际计算机与知识工程会议(ICCKE 2023)上首次介绍。
- 目的:解决在文档图像分析(DIA)任务中,如文档图像分类、文本检测与识别、信息检索等,获取多样化和大量真实数据的问题。
3. 数据集内容
- 图像数量:包含62,453张图像。
- 分类:分为21个不同的类别,包括身份文档,其中包含合成生成的个人信息叠加在不同背景上。
- 附加信息:包含CSV文件,提供图像路径和嵌入数据的相关信息。
4. 数据集统计
- 图像分布:详细分布情况可通过提供的统计图表查看。
5. 访问方式
- 申请流程:需填写正式申请表并发送至eshabaninia@gmail.com。
- 处理时间:申请处理时间为48-72小时,之后提供下载链接。
6. 引用信息
- 论文引用:如使用此数据集,请引用相关论文。
搜集汇总
数据集介绍

构建方式
SUT数据集旨在解决文档图像分析任务中获取多样化且大量真实数据的挑战。该数据集包含62,453张图像,分为21个不同的类别,涵盖了身份证明文件等多样化的文档类型。这些图像通过合成生成,将个人信息叠加在各种背景上,生成了具有丰富标注信息的图像。数据集的真实标注信息以CSV文件形式存储,包含图像路径及其嵌入数据的相关信息。
特点
SUT数据集的特点在于其多样性和丰富性。数据集不仅涵盖了广泛的文档类型,还通过合成技术生成了具有真实感的图像。每张图像都配有详细的标注信息,便于进行文档图像分类、文本检测与识别以及信息检索等任务。此外,数据集的图像分布均匀,确保了各类别数据的平衡性,为模型训练提供了坚实的基础。
使用方法
使用SUT数据集需要先填写正式的申请表格,并通过电子邮件发送至指定地址。申请提交后,通常在48至72小时内会收到下载链接。数据集的使用者可以通过CSV文件中的标注信息快速定位图像及其相关数据,从而进行文档图像分析任务的研究与开发。数据集的使用者还需在相关研究中引用原始论文,以尊重数据集的贡献者。
背景与挑战
背景概述
SUT数据集由E. Shabaninia等研究人员于2023年在第13届国际计算机与知识工程会议(ICCKE 2023)上首次发布,旨在解决波斯语文档图像分析(DIA)任务中获取多样化且大量标注数据的挑战。该数据集包含62,453张图像,分为21个类别,涵盖了身份文档等多种类型,图像中嵌入了合成生成的个人信息,并附有相应的标注文件。SUT数据集的发布为波斯语文档图像分类、文本检测与识别以及信息检索等任务提供了重要的数据支持,推动了相关领域的研究进展。
当前挑战
SUT数据集在构建过程中面临的主要挑战包括如何生成多样化的合成数据以覆盖现实场景中的复杂情况,以及如何确保标注数据的准确性和一致性。由于波斯语文档的特殊性,数据集的构建需要克服语言和文化的差异,确保生成的图像能够真实反映实际应用场景。此外,数据集的规模和质量直接影响到模型的训练效果,如何在保证数据多样性的同时控制数据生成的成本和复杂性,也是研究人员需要解决的关键问题。
常用场景
经典使用场景
SUT数据集在文档图像分析领域具有广泛的应用,尤其是在波斯语文档的处理中。该数据集通过提供多样化的合成图像,支持文档图像分类、文本检测与识别以及信息检索等任务。研究人员可以利用这些数据训练和验证监督学习模型,提升模型在复杂背景下的鲁棒性和准确性。
衍生相关工作
SUT数据集的发布推动了文档图像分析领域的多项经典研究工作。基于该数据集,研究人员开发了多种先进的文本检测和识别算法,特别是在波斯语文档处理方面取得了显著进展。此外,该数据集还促进了多语言文档分析技术的发展,为跨语言信息检索和文档分类提供了新的研究思路和技术支持。
数据集最近研究
最新研究方向
近年来,随着文档图像分析(DIA)技术的快速发展,SUT数据集在波斯语文档图像处理领域引起了广泛关注。该数据集通过合成生成的62,453张图像,覆盖了21个不同类别,特别是身份文档的图像分类、文本检测与识别以及信息检索等任务。这一数据集的出现,为研究者提供了丰富的标注数据,极大地推动了基于监督学习的模型在复杂背景下的文档图像分析性能提升。当前,SUT数据集的研究方向主要集中在如何利用其多样化的合成数据优化深度学习模型的泛化能力,特别是在跨语言和跨文化场景中的应用。此外,该数据集还为信息检索系统的开发提供了新的实验平台,进一步促进了多语言文档处理技术的发展。
以上内容由遇见数据集搜集并总结生成



