HanSig

github2023-12-29 更新2024-05-31 收录

下载链接：

https://github.com/ashleyfhh/HanSig

下载链接

链接失效反馈

资源简介：

HanSig是一个大规模的离线中文手写签名数据集，包含35,400个签名样本，来自238位作者（17,700个真实签名和同等数量的熟练伪造签名）。每个名字收集了20个真实签名和20个相应的伪造签名，通过收集三种不同风格的签名来体现作者内部的变化。签名从扫描图像中裁剪出来，经过预处理去除表格线和签名周围的空白，可立即使用。适用于随机和熟练伪造验证任务。

HanSig is a large-scale offline Chinese handwritten signature dataset, comprising 35,400 signature samples from 238 authors (17,700 genuine signatures and an equal number of skilled forgeries). For each name, 20 genuine signatures and 20 corresponding forged signatures were collected, capturing intra-author variability through the collection of three different signature styles. The signatures were cropped from scanned images and preprocessed to remove form lines and surrounding whitespace, making them ready for immediate use. This dataset is suitable for both random and skilled forgery verification tasks.

创建时间：

2023-07-21

原始信息汇总

HanSig 数据集概述

数据集基本信息

样本数量: 35,400 个签名样本
作者数量: 238 位作者
样本类型: 17,700 个真实签名和 17,700 个熟练伪造签名

数据集特点

多样性: 每个名字收集了20个真实签名和20个对应的伪造签名。
风格变化: 通过收集三种不同风格的签名（整洁、正常、时尚），体现了作者内部的变化。
预处理: 签名从扫描图像中裁剪，并去除了表格线和周围的空白，便于直接使用。
应用范围: 适用于随机和熟练伪造验证任务。

数据组织

真实签名文件名: 如 original_w1_2_3.jpg，其中 w1 表示第一位作者，2 表示第二个名字，3 表示特定名字的第三个签名图像。
伪造签名文件名: 如 forgery_w1_2_3.jpg，命名规则与真实签名相似。

数据示例

签名风格: 展示了三种风格的签名样本。
签名对比: 展示了真实签名和伪造签名的对比样本。

获取数据

需填写表格以获取下载指南。

引用信息

若在研究中使用此数据集，请引用： F.-H. Huang and H.-M. Lu. Multiscale Feature Learning Using Co-Tuplet Loss for Offline Handwritten Signature Verification. arXiv preprint arXiv:2308.00428, 2023.

搜集汇总

数据集介绍

构建方式

HanSig数据集的构建过程体现了严谨的科学方法。该数据集收集了238位书写者的35,400个签名样本，其中包括17,700个真实签名和同等数量的熟练伪造签名。每位书写者为每个名字提供了20个真实签名和20个伪造签名，确保了数据的多样性和代表性。签名样本在三种不同风格下收集，包括整洁、普通和时尚风格，以捕捉书写者内部的自然变化。所有签名均从扫描图像中裁剪，并经过预处理，去除了表格线和多余的空白，确保数据可直接用于分析。

特点

HanSig数据集具有显著的特点，使其在离线中文手写签名验证领域具有重要价值。首先，数据集规模庞大，涵盖了真实签名和熟练伪造签名，适用于随机和熟练伪造验证任务。其次，签名样本在三种不同风格下收集，真实反映了书写者的书写习惯和变化。此外，所有签名图像均经过预处理，去除了不必要的干扰因素，确保了数据的纯净性和可用性。这些特点使得HanSig成为研究手写签名验证的理想选择。

使用方法

使用HanSig数据集进行研究的流程简洁明了。研究者需填写指定表单以获取数据下载链接。下载后，数据集中的签名图像可直接用于分析，无需额外预处理。每个签名图像的文件名具有唯一性，便于识别和分类。真实签名和伪造签名的文件名结构清晰，便于区分和对比。研究者可参考数据集中的示例图像和相关文献，深入理解数据集的结构和应用场景。通过引用相关文献，研究者可确保其工作的学术严谨性和可追溯性。

背景与挑战

背景概述

HanSig数据集是一个大规模的中文离线手写签名数据集，由Fu-Hsien Huang和Hsin-Min Lu于2023年创建。该数据集包含来自238位作者的35,400个签名样本，其中17,700个为真实签名，其余为同等数量的熟练伪造签名。每个名字下收集了20个真实签名和20个对应的伪造签名，并通过三种不同风格的签名采集，体现了签名者内部的自然变化。HanSig数据集的构建旨在推动手写签名验证领域的研究，特别是在随机和熟练伪造验证任务中的应用。该数据集的发布为相关领域的研究人员提供了一个高质量、多样化的基准数据集，显著提升了手写签名验证算法的开发与评估。

当前挑战

HanSig数据集在构建过程中面临多重挑战。首先，手写签名验证本身是一个复杂的任务，签名者的内部变化和伪造者的模仿能力使得区分真实与伪造签名极具难度。其次，数据集的构建需要确保签名样本的多样性和真实性，这要求在不同风格下采集签名，并严格筛选伪造签名以模拟真实场景。此外，预处理阶段需去除扫描图像中的表格线和多余空白，确保数据可直接用于算法训练与测试。这些挑战不仅体现在数据采集与处理的技术层面，还涉及到如何设计有效的验证算法以应对复杂的签名变化与伪造行为。

常用场景

经典使用场景

HanSig数据集在离线中文手写签名验证领域具有广泛的应用。其大规模的真实签名与伪造签名样本，使得研究者能够深入探讨签名验证算法的性能。通过包含不同风格的签名样本，HanSig为研究签名风格变化对验证结果的影响提供了丰富的数据支持。该数据集特别适用于随机伪造和熟练伪造的验证任务，为签名验证算法的开发与优化提供了坚实的基础。

衍生相关工作

HanSig数据集已经衍生出多项经典研究工作。例如，基于该数据集的研究提出了多尺度特征学习与协同损失函数相结合的签名验证方法，显著提升了验证算法的性能。此外，HanSig还被用于探索深度学习在签名验证中的应用，推动了该领域的技术进步。这些研究工作不仅验证了HanSig数据集的有效性，还为未来的研究提供了新的思路和方法。

数据集最近研究