five

多模态签名与数字字符串数据集(MSDS)

收藏
arXiv2022-11-24 更新2024-06-21 收录
下载链接:
https://github.com/HCIILAB/MSDS
下载链接
链接失效反馈
官方服务:
资源简介:
多模态签名与数字字符串数据集(MSDS)是由华南理工大学深度学习与视觉计算实验室创建的大型在线和离线手写数据集。该数据集包含两个子集:MSDS-ChS(中文签名)和MSDS-TDS(令牌数字字符串),由402名用户贡献,每个用户在每个子集中提供20个真实样本和20个熟练伪造样本。MSDS-ChS是目前公开可用的最大的中文签名数据集,至少是现有在线数据集的八倍大。MSDS-TDS首次涵盖了手写的令牌数字字符串,即用户的实际电话号码,这些尚未被研究过。数据集的创建过程考虑了同一用户在不同会话中的书写变化,模拟了更真实的评估场景,增强了数据集的可行性。该数据集主要用于手写身份验证的研究,旨在探索新的更有效的生物识别方法,为相关研究领域带来长期影响。

The Multimodal Signature and Digital String Dataset (MSDS) is a large-scale online and offline handwriting dataset developed by the Deep Learning and Visual Computing Laboratory of South China University of Technology. This dataset comprises two subsets: MSDS-ChS (Chinese Signatures) and MSDS-TDS (Token Digital Strings), collected from 402 distinct users, with each user providing 20 genuine samples and 20 skilled forgeries for each subset. MSDS-ChS stands as the largest publicly available Chinese signature dataset to date, with a scale at least eight times that of existing comparable online datasets. MSDS-TDS is the first dataset to cover handwritten token digital strings, specifically users' actual phone numbers, a topic that has not been explored in existing research. The construction of this dataset accounts for writing variations of the same user across different recording sessions, simulating more realistic evaluation scenarios and thereby enhancing the dataset's practical utility. This dataset is primarily utilized for research on handwriting-based identity verification, aiming to explore novel and more effective biometric approaches, and is expected to bring long-term impacts to relevant research communities.
提供机构:
华南理工大学深度学习与视觉计算实验室
创建时间:
2022-10-17
搜集汇总
数据集介绍
main_image_url
构建方式
MSDS数据集由两个子集组成:MSDS-ChS(中文签名)和MSDS-TDS(标记数字字符串)。数据采集过程分为两个独立的会话,每个会话间隔至少21天。在每次会话中,用户按照相同的程序进行书写:10个真实签名→10个真实电话号码→10个伪造签名→10个伪造电话号码。动态信息记录在书写过程中产生的x、y坐标、压力和时间戳,并保存在单独的文本文件中。此外,我们还保存了每个手写笔迹的静态图像,以便携式网络图形(PNG)格式。数据采集使用了两款基于Android的平板电脑:HUAWEI MatePad BAH3-W59和LENOVO TB-J706F,每款各三台。我们还专门开发了一个Android应用程序,用户界面如图2所示,由主书写板、进度条、工具栏和信息显示区域组成。用户在书写板上书写签名和电话号码,如图2(a)和(b)所示。
特点
MSDS-ChS是目前公开可用的最大中文签名数据集,其规模至少是之前在线中文签名数据集的八倍。MSDS-TDS是第一个大规模的标记数字字符串数据集,旨在研究手写标记数字字符串的有效性。MSDS数据集考虑了同一用户在不同会话中的手写笔迹变化,通过在两个独立的会话中采集数据来模拟现实世界的场景,从而进行更有效的评估。
使用方法
MSDS数据集可用于手写身份验证研究。MSDS-ChS子集可用于在线/离线中文签名验证,而MSDS-TDS子集可用于使用标记数字字符串的在线/离线身份验证。数据集以两种模态提供:在线时间序列模态和离线图像模态。用户界面简单直观,易于使用。数据集包含用户协议、版权授权及隐私保护协议等,并提供了数据采集设备的规格信息。
背景与挑战
背景概述
手写签名作为身份验证的生物特征度量手段,近年来得到了深入的研究。然而,由于数据集规模较小以及生物特征介质的限制,在线手写签名验证的性能仍然远落后于实际应用。为了解决这个问题,本文提出了一种名为多模态签名与数字字符串(MSDS)的新型手写签名验证基准数据集,该数据集包含两个子集:MSDS-ChS(中文签名)和MSDS-TDS(数字字符串)。MSDS-ChS是目前公开可用的最大的中文签名数据集,至少比现有的在线数据集大八倍。同时,MSDS-TDS包含手写的Token Digit Strings,即用户的实际电话号码,这尚未被探索过。MSDS数据集的创建旨在推动在线手写签名验证的研究,并为探索新的生物特征提供新的方向。
当前挑战
MSDS数据集面临着一些挑战。首先,由于中文签名的笔画离散且内类方差较大,与西方常用的书写友好的草书不同,因此需要设计更精确的模型来降低跨会话场景下的EER%。其次,尽管MSDS数据集已经包含了两个子集,但将中文签名和Token Digit Strings结合起来,以跨模态的方式进行探索,以评估模型性能及其在现实世界应用中的可行性,仍然是一个值得研究的方向。此外,为了进一步提高数据集的多样性,可以考虑从不同年龄组和不同国家收集更多的手写数据,以丰富数据集的年龄和地域多样性。
常用场景
经典使用场景
多模态签名与数字字符串数据集(MSDS)作为手写验证领域的一项重要资源,其经典使用场景主要集中在以下几个方面:首先,MSDS-ChS子集提供了迄今为止最大的公开可用的中文签名数据集,为在线和离线中文签名验证研究提供了丰富的数据基础;其次,MSDS-TDS子集首次涵盖了手写Token Digit String(TDS),即用户的实际电话号码,为探索TDS在手写验证中的有效性提供了新的研究方向;此外,MSDS数据集考虑了同一用户在不同会话之间手写的变异性,模拟了现实世界场景,为手写验证系统提供了更有效的评估。
实际应用
MSDS数据集的实际应用场景主要集中在身份验证领域。例如,MSDS-ChS子集可以应用于在线和离线中文签名验证,用于银行、金融、电子商务等场景的身份认证;MSDS-TDS子集可以应用于基于TDS的身份验证,如电话号码、身份证号码等,为身份认证提供了一种新的方式。
衍生相关工作
MSDS数据集的发布激发了相关领域的研究,衍生了许多经典工作。例如,研究人员利用MSDS数据集研究了不同手写特征提取方法的有效性,探索了基于深度学习的特征提取和识别方法,以及模态融合技术在手写验证中的应用。此外,MSDS数据集也为其他语言的手写验证研究提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作