UTSig
收藏arXiv2016-08-12 更新2024-06-21 收录
下载链接:
http://mlcm.ut.ac.ir/Datasets.html
下载链接
链接失效反馈官方服务:
资源简介:
UTSig数据集是由德黑兰大学电气与计算机工程学院的研究团队创建的波斯离线签名数据集,包含8280张图像,分为115个类别。每个类别包含27个真实签名、3个相反手签名和42个熟练伪造签名,由6个伪造者制作。数据集考虑了签名收集过程中的多种变量,如签名周期、书写工具、签名框大小等,以创建更真实的数据集。UTSig数据集旨在为波斯离线签名验证系统提供丰富的数据资源,以解决文化依赖的签名验证问题,并推动相关技术的发展。
The UTSig dataset is a Persian offline signature dataset created by a research team from the School of Electrical and Computer Engineering, University of Tehran. It comprises 8280 images across 115 categories, with each category containing 27 genuine signatures, 3 opposite-hand signatures, and 42 skilled forgeries generated by 6 forgers. Multiple variables were accounted for during the signature collection process, such as signature interval, writing instrument, signature box size, and other factors, to build a more realistic dataset. The UTSig dataset aims to provide a rich data resource for Persian offline signature verification systems, solving culturally dependent signature verification issues and promoting the development of related technologies.
提供机构:
机器学习和计算建模实验室,控制和智能处理卓越中心,电气与计算机工程学院,德黑兰大学,德黑兰,伊朗
创建时间:
2016-03-10
搜集汇总
数据集介绍
构建方式
在签名验证领域,波斯语签名因其独特的文化特征而需要专门的数据集支持。UTSig数据集的构建过程体现了对现实签名场景的细致模拟,通过招募115名男性参与者,在三天内收集每位参与者的27个真实签名和3个反手签名。同时,邀请230名伪造者根据一到三个真实样本制作42个熟练伪造签名,确保了伪造样本的多样性。数据采集过程中考虑了签名周期、书写工具、签名框尺寸以及伪造者可见样本数量等多个变量,所有签名均以600 dpi分辨率扫描并存储为8位灰度TIF文件,随后进行了人工去噪和边界修正,以提升图像质量。
特点
UTSig数据集在波斯语离线签名验证领域展现出显著优势,其包含8280个图像样本,覆盖115个类别,样本数量和类别规模均超过现有公开数据集。该数据集不仅提供了丰富的真实与伪造签名,还引入了反手签名作为特殊伪造类型,并记录了伪造者的自评相似度分数,增强了数据的元信息维度。与西方、中文等文化背景的签名相比,波斯语签名在形态学上具有更少的分支点和端点,这一特征为跨文化签名分析提供了独特视角。数据集的多样性和文化特异性使其成为训练和评估签名验证系统的理想资源。
使用方法
UTSig数据集为研究者提供了四种标准的作者依赖型训练与测试配置,以支持签名验证系统的开发与比较。这些配置基于真实签名、随机伪造及反手签名的不同组合,例如配置一使用12个真实样本和570个随机伪造样本进行训练,而配置二则额外纳入反手签名以提升系统性能。测试阶段包含剩余的真实样本、熟练伪造样本及大量随机伪造样本,确保评估的全面性。研究者可采用支持向量机等分类器,结合固定点算术特征提取方法,在数据集上执行训练与验证,并通过等错误率和最小对数似然比成本等指标量化系统表现,促进波斯语签名验证技术的标准化进展。
背景与挑战
背景概述
在生物特征识别领域,手写签名验证作为一种传统且广泛接受的身份认证方式,其研究价值与应用潜力备受关注。UTSig数据集由德黑兰大学机器学习与计算建模实验室的Amir Soleimani、Kazim Fouladi及Babak N. Araabi等研究人员于相关论文发表时期创建,旨在解决波斯语离线签名验证系统缺乏高质量文化特异性数据的问题。该数据集包含115个类别共计8280幅签名图像,每类涵盖27个真实签名、3个反手签名及42个高仿真伪造签名,通过引入签名周期、书写工具、签名框尺寸等多变量控制,显著提升了数据集的丰富性与现实代表性。UTSig的构建不仅填补了波斯语签名数据资源的空白,更通过其规模与多样性推动了跨文化手写分析研究的发展,为签名验证算法的训练与评估提供了重要基准。
当前挑战
UTSig数据集致力于解决离线签名验证领域的两大核心挑战:一是针对波斯语签名独特书写风格(如连笔性强、与姓名关联度低)的识别难题,需开发适应其形态特征(如较少分支点与端点)的专用算法;二是在数据构建过程中面临的多重困难,包括如何在有限资源下大规模采集高质量签名样本、平衡真实签名与多样化伪造签名(如反手签名、高仿真伪造)的比例、控制签名框尺寸与书写工具等变量以模拟真实应用场景,以及确保数据采集过程的伦理合规性与参与者匿名性。这些挑战共同塑造了数据集的复杂性与实用性,为后续研究提供了严谨的验证平台。
常用场景
经典使用场景
在笔迹识别与生物特征认证领域,UTSig数据集作为首个大规模、公开的波斯语离线签名数据集,其经典使用场景聚焦于离线签名验证系统的训练与评估。该数据集通过包含115个类别、总计8280个签名样本,为研究者提供了丰富的真实签名、熟练伪造及反手签名样本,支持基于作者依赖或作者独立的验证方法。在典型应用中,研究者利用UTSig的标准实验设置,如结合真实样本与随机伪造或反手样本进行训练,以优化分类器在等错误率和最小对数似然比成本等指标上的性能,从而推动波斯语签名验证技术的基准测试与算法比较。
实际应用
在实际应用层面,UTSig数据集为波斯语地区的身份认证系统提供了关键支持。签名验证广泛应用于银行交易、法律文件签署、公共服务表单等场景,其中离线签名系统因无需专用设备而更具普适性。UTSig通过模拟真实签名条件,如不同签名周期、书写工具、签名框尺寸等变量,使得基于该数据集训练的验证系统能更好地适应实际环境中的变化。例如,在金融机构中,系统可利用UTSig的反手签名样本增强对非常规签名变异的识别能力,从而降低欺诈风险,提升身份验证的准确性与可靠性。
衍生相关工作
UTSig数据集的发布催生了多项围绕波斯语签名验证的经典研究工作。在算法层面,研究者基于UTSig提出了多种特征提取与分类方法,如结合固定点算术特征与支持向量机的验证框架,以及利用反手签名提升性能的训练策略。在跨文化比较研究中,UTSig被用于分析波斯语签名与其他语言签名在形态学特征上的差异,推动了多脚本签名验证技术的发展。此外,该数据集的标准实验设置也被后续研究广泛采纳,为离线签名验证领域的公平比较与性能评估建立了规范,促进了相关学术竞赛与协作项目的开展。
以上内容由遇见数据集搜集并总结生成



