DocXPand-25k
收藏arXiv2024-07-30 更新2024-08-02 收录
下载链接:
https://github.com/QuickSign/docxpand/releases/tag/v1.0.0
下载链接
链接失效反馈官方服务:
资源简介:
DocXPand-25k数据集由QuickSign创建,包含24,994张丰富标签的身份文档图像,适用于身份文档分析。该数据集通过定制的矢量模板生成,涵盖九种虚构的身份文档设计,包括四种身份证、两种居住证和三种护照设计。数据集的创建过程中,使用了5,800多种真实世界的背景图像,确保了背景的多样性。该数据集旨在解决在线服务中身份验证的自动化问题,特别是在银行账户开设和保险订阅等领域。
The DocXPand-25k dataset, developed by QuickSign, contains 24,994 richly labeled identity document images targeted for identity document analysis. Generated via custom vector templates, it encompasses nine fictional identity document designs: four types of identity cards, two types of residence permits, and three types of passport designs. During its creation, over 5,800 real-world background images were utilized to guarantee diverse background contexts. This dataset is intended to address the automation of identity verification in online services, especially in use cases such as bank account opening and insurance subscription.
提供机构:
QuickSign
创建时间:
2024-07-30
搜集汇总
数据集介绍

构建方式
DocXPand-25k数据集的构建采用了定制化的矢量模板,这些模板代表了九种虚构的身份证明设计,包括四种身份证、两种居留许可和三种护照设计。这些模板被用于生成包含人工生成的个人信息(姓名、日期、标识符、面部、条形码等)的24,994张丰富标签的身份证明图像。为了确保背景的多样性,研究人员收集了大约5.8k张来自真实世界照片、扫描和屏幕截图的身份证明背景图像。此外,生成这些图像的软件已根据MIT许可证发布,而数据集则根据CCBY-NC-SA 4.0许可证发布。
特点
DocXPand-25k数据集的特点在于其丰富的多样性和高度的可定制性。数据集中的身份证明图像具有人工生成的个人信息和视觉布局的多样性,这使得数据集能够很好地模拟真实世界中的身份证明。此外,数据集还提供了丰富的标签信息,包括分类标签、身份证明在图像中的坐标、身份照片、幽灵图像和条形码的坐标,以及每个文本字段的坐标和确切值。
使用方法
使用DocXPand-25k数据集时,用户可以将其用于评估各种身份证明分析方法的性能。数据集提供了丰富的标签信息,这使得用户可以轻松地评估身份证明分类、定位、特定特征检测(如身份照片、签名和机器可读区)以及文本字段识别等任务的性能。此外,数据集还提供了生成图像的软件,这使得用户可以生成更多具有不同背景和视觉布局的身份证明图像,从而进一步增加数据集的多样性。
背景与挑战
背景概述
身份文档图像分析对于许多在线服务(如银行账户开户或保险订阅)而言至关重要。近年来,关于文档定位、文本识别和欺诈检测的研究层出不穷,旨在实现足够高的准确性以自动验证身份。然而,由于隐私限制、安全要求和法律原因,可用于基准测试ID分析方法的可用数据集寥寥无几。在本文中,我们介绍了DocXPand-25k数据集,该数据集由24,994个丰富标记的身份文档图像组成,使用定制矢量模板生成,代表九种虚构的身份文档设计,包括四种身份证、两种居留许可和三种护照设计。这些合成身份文档具有人工生成的个人信息(姓名、日期、标识符、人脸、条形码等),并在视觉布局和文本内容上呈现出丰富的多样性。我们从现实世界的照片、身份证扫描和屏幕截图收集了大约5.8k个多样化的背景,以确保背景的多样性。我们编写的用于生成这些图像的软件已在MIT许可条款下发布,我们的数据集已在CCBY-NC-SA 4.0许可条款下发布。
当前挑战
DocXPand-25k数据集面临的挑战包括:1) 实现身份文档分类、定位、特定特征(如身份照片、签名和机读区)检测以及文本字段识别等任务的准确性;2) 构建过程中,由于隐私限制、安全要求和法律原因,收集真实身份文档图像的困难;3) 生成多样化的合成身份文档图像,同时保持其真实性和多样性;4) 提供丰富的标签,以便于基准测试分类、文档定位、人脸检测、条形码检测、MRZ检测和文本字段识别等方法。
常用场景
经典使用场景
DocXPand-25k数据集是一个大规模且多样化的身份证明文件分析基准数据集,适用于身份证明文件分类、定位、特定特征检测(如身份照片、签名和机读区)、文本字段识别等任务的评估。该数据集包含了24,994个丰富标注的身份证明文件图像,这些图像使用了自定义的矢量模板生成,代表了九种虚构的身份证明设计,包括四种身份证、两种居留证和三种护照设计。这些合成的身份证明文件具有人工生成的个人信息(姓名、日期、标识符、面部、条形码等),在视觉布局和文本内容上呈现丰富的多样性。为了确保背景的多样性,我们从现实世界的照片、身份证明文件的扫描件和屏幕截图收集了约5.8k个不同的背景。
实际应用
DocXPand-25k数据集的实际应用场景包括在线银行开户、保险订阅等在线服务中的身份验证自动化。该数据集可用于开发自动化的身份证明文件分析系统,以实现身份证明文件的自动分类、定位、特征检测和文本字段识别。这些系统可以减少处理身份证明文件所需的时间和人力资源,并提高身份验证的准确性和可靠性。
衍生相关工作
DocXPand-25k数据集的发布对身份证明文件分析领域产生了显著影响,促进了身份证明文件分析方法的开发和研究。基于该数据集,研究人员可以开发新的身份证明文件分析算法,并进行基准评估和比较。此外,该数据集还提供了工具和协议,以生成更多类别的图像,并提供了丰富的标注,以支持身份证明文件分类、定位、特征检测和文本字段识别等任务的基准评估。这些衍生的工作将有助于推动身份证明文件分析领域的发展,并促进身份验证技术的自动化和智能化。
以上内容由遇见数据集搜集并总结生成



