five

大规模电子化签名数据库纸质签名数据集

收藏
国家基础学科公共科学数据中心2026-03-14 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69aeeeaf195d265547c1e2b1&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
真实文档场景下大规模脱机手写签名标注数据集摘要脱机签名认证(Offline Signature Verification, OSV)是仅基于签名图像判断真伪的任务,在金融票据验证、合同签署审查、档案文书管理、司法鉴定等领域具重要应用价值,但受复杂背景(签名与印刷文本、印章重叠)、图像质量差(分辨率小、模糊、形变)、数据量小(易致模型过拟合)三大挑战制约。现有脱机签名认证数据集采集于实验室受控环境,背景干净、分辨率统一、样本差异小,虽便于算法训练,却在实际文档场景中表现欠佳。 为解决上述问题,本研究采集构建来源于真实文档的大规模脱机签名数据集。原始样本来自2008-2023年公开可获取的企业IPO申报材料、上市公司年报、季度财务报告、证券监管文件等可靠PDF文档,通过网络爬虫批量爬取后,用自动化脚本将PDF逐页解析转换为高分辨率PNG图像。筛选环节先做区域分割与初步检测,再由两名经验标注者人工复核,保留真实含签名页面并校正页面方向;标注采用最小外接四边形方式,平衡精度与效率。 数据清洗阶段,通过红色通道阈值分割去除红色印章,利用手写文字区域检测网络过滤印刷体文本与背景内容。最终数据集含86,932个脱机签名样本,覆盖27,942个不同姓名、2,179个常用汉字;姓名频次呈长尾分布(44.7%的姓名仅出现0-5次,3%超过100次),“王”“张”“李”“陈”“刘”等姓氏频次最高;签名多位于文档中下区域,外接框长宽比集中在0.5-2之间,且包含易识别、不易识别、复杂背景、多样风格等多类样本,为复杂场景下OSV算法评估与改进提供贴近实际的基准数据。
提供机构:
公安部第三研究所
二维码
社区交流群
二维码
科研交流群
商业服务