five

FingerVeinSyn-5M

收藏
arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/EvanWang98/FingerVeinSyn-5M
下载链接
链接失效反馈
官方服务:
资源简介:
FingerVeinSyn-5M是一个大规模的指静脉识别数据集,由东南大学网络空间安全与工程学院的研究团队创建。该数据集包含了从50000个不同手指的500万个样本,每个手指有100种不同的变化,包括位移、旋转、缩放、滚动、曝光度变化、皮肤散射模糊、光学模糊和运动模糊。FingerVeinSyn-5M是第一个提供完全注释的指静脉图像数据集,支持深度学习在指静脉识别领域的应用。该数据集对于促进非接触和无约束的指静脉识别技术具有重要意义。

FingerVeinSyn-5M is a large-scale finger vein recognition dataset created by the research team from the School of Cyberspace Security and Engineering, Southeast University. It contains 5 million samples from 50,000 distinct fingers, with 100 different variations per finger, including displacement, rotation, scaling, rolling, exposure variation, skin scattering blur, optical blur, and motion blur. FingerVeinSyn-5M is the first fully annotated finger vein image dataset that supports the application of deep learning in the field of finger vein recognition. This dataset is of great significance for promoting non-contact and unconstrained finger vein recognition technologies.
提供机构:
东南大学网络空间安全与工程学院
创建时间:
2025-06-04
原始信息汇总

FingerVeinSyn-5M 数据集概述

📚 数据集简介

  • 名称:FingerVeinSyn-5M
  • 概述:包含500万张合成手指静脉图像,专为推进手指静脉识别研究设计,是目前最大的公开手指静脉数据集。
  • 生成框架:FVeinSyn
  • 主要目的:为手指静脉识别算法的开发提供全面资源。

✨ 最新动态

  • [2025.05] Dataset v1.0 正式发布!
  • [2025.05] 数据集将逐步发布!

🔑 关键特性

  • 总样本量:500万张(尺寸:320*640)
  • 唯一身份数:50,000个唯一身份,每个身份100个样本
  • 标注内容
    • 手指静脉模式(Mask)
    • 手指形状(Mask)
    • 关节腔(坐标)
    • 静脉感兴趣区域(边界框)
  • 数据格式:PNG和XML
  • 类内变化
    • 几何变化:平移、旋转、滚动和缩放
    • 退化变化:运动模糊、光学模糊、皮肤散射模糊和曝光不足/过度

☁️ 下载信息

  • 原始合成手指静脉数据FingerVeinSyn-5M (Kaggle)
  • 标注数据:即将发布
  • 手指形状掩码:即将发布
  • 手指模式掩码:即将发布

📂 数据集结构

FingerVeinSyn-5M/ ├── raw_images/ # 原始手指图像 (.png) │ ├── 00001/ │ │ ├── 00001_001_Shift.png │ │ ├── 00001_002_Shift.png │ │ ├── ... │ │ └── 00001_100_Multi.png │ ├── 00002/ │ │ ├── ... │ ├── ... │ └── 50000/ ├── roi_images/ ├── annotations/ # 包含地标坐标的XML文件 │ └── (结构与raw_images相同) ├── shape_masks/ # 手指轮廓的二进制掩码 │ └── (结构与raw_images相同) ├── pattern_masks/ # 提取的静脉模式 │ └── (结构与raw_images相同) ├── docs/ # 文档和规范 ├── scripts/ # 示例处理脚本 └── README.md # 本文档

📊 类间变化

数据集包含系统性变化以模拟真实世界条件:

变化类型 参数
几何变化 平移 (±15px)、旋转 (±15°)、缩放 (±10%)、滚动 (±15°)
光度变化 曝光不足/过度
退化变化 运动模糊、光学模糊、皮肤散射

📜 引用

如果在研究中使用此数据集,请引用:

@misc{wang2025fingerveinsyn5mmillionscaledatasetbenchmark, title={FingerVeinSyn-5M: A Million-Scale Dataset and Benchmark for Finger Vein Recognition}, author={Yinfan Wang and Jie Gui and Baosheng Yu and Qi Li and Zhenan Sun and Juho Kannala and Guoying Zhao}, year={2025}, url={https://arxiv.org/abs/2506.03635}, }

📧 联系方式

如有问题或报告问题,请联系:

  • Yinfan Wang, Jie Gui
  • 邮箱:230239767@seu.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
FingerVeinSyn-5M数据集的构建采用了创新的FVeinSyn合成框架,该框架由三个核心组件组成:静脉模式身份生成器、静脉图像渲染器和类内变体生成器。身份生成器利用受手指解剖结构约束的L-System模拟技术,生成了大量独特的静脉模式。图像渲染器采用基于有限真实数据训练的级联区域感知GAN,以产生高度逼真的手指静脉图像。类内变体生成器则模拟了包括平移、旋转、缩放、滚动等多种真实场景下的变化,以及曝光不足/过度、皮肤散射模糊等光学效应。通过这种系统化的合成方法,最终构建了包含50,000个独特手指、总计500万样本的大规模数据集。
特点
FingerVeinSyn-5M作为当前最大规模的手指静脉数据集,其最显著的特点是提供了前所未有的样本多样性和完整的标注信息。每个独特手指包含100个样本,覆盖了11种旋转角度(±20°)、5种位移变化(±20像素)以及多种光学模糊组合。数据集首次提供了静脉模式、手指形状、关节腔位置和ROI掩码的全标注,支持有监督的深度学习任务。特别值得注意的是,该数据集在独特性指标上达到99.83%,类内一致性高达99.99%,同时保持了68.3%的类内多样性,为接触式和非接触式静脉识别研究提供了理想基准。
使用方法
该数据集主要服务于深度学习模型的预训练和微调场景。研究显示,在仅使用少量真实数据微调的情况下,基于FingerVeinSyn-5M预训练的模型在多个基准测试中平均可获得53.91%的性能提升。使用时建议先利用全部合成数据进行预训练,再针对特定任务使用目标域真实数据进行微调。对于跨域识别任务,数据集提供的丰富变体有助于提升模型泛化能力。数据集的XML格式标注可直接用于指导ROI提取、几何校正等预处理步骤,而二进制掩码则支持多任务学习框架的构建。
背景与挑战
背景概述
FingerVeinSyn-5M是由东南大学网络空间安全学院王逸凡等研究人员于2025年提出的百万规模指静脉识别数据集,旨在解决指静脉识别领域长期存在的数据稀缺问题。作为当前最大的公开指静脉数据集,它包含5万枚独特手指的500万张样本,每枚手指提供100种包含位移、旋转、缩放等丰富类内变化的样本。该数据集基于创新的FVeinSyn合成框架生成,通过L-System模拟血管分形结构和级联区域感知GAN渲染,首次提供了完整的静脉模式、手指形状等标注信息。相比传统指静脉数据集如SDUMLA-FV(仅636个ID)、SCUT-FV(696个ID),其规模提升了两个数量级,为深度学习模型训练和大规模识别性能评估提供了重要基础。
当前挑战
指静脉识别领域长期面临三大核心挑战:1) 数据获取挑战:专用采集设备导致现有数据集规模受限(平均<1000个ID),难以支持深度表征学习;2) 多样性挑战:真实数据类内变化不足(通常仅2-12个样本/手指),制约非接触场景下的泛化能力;3) 生成真实性挑战:静脉血管的复杂解剖结构(如关节腔区域)和光学特性(皮肤散射、运动模糊)的精确模拟困难。FingerVeinSyn-5M构建过程中需克服生成对抗网络在有限真实数据下的模式崩溃风险,并通过级联区域感知损失(含7种约束项)确保血管拓扑合理性与成像物理真实性。实验表明,基于该数据集预训练的模型在跨域识别任务中平均性能提升53.91%,验证了其解决领域数据瓶颈的有效性。
常用场景
经典使用场景
在生物特征识别领域,FingerVeinSyn-5M数据集因其百万级规模的合成指静脉图像而成为深度学习模型训练的黄金标准。该数据集通过模拟真实采集环境中的位移、旋转、曝光变化等12类形变,为跨设备、跨场景的指静脉识别研究提供了丰富的训练样本。其独特的层级化标注体系(包含静脉模式、关节腔位置等7类语义标签)尤其适合开发基于注意力机制的细粒度识别算法,在IEEE TIFS等顶刊研究中被广泛用作基准测试平台。
衍生相关工作
该数据集催生了指静脉生成领域的系列突破性研究:清华大学团队提出的DiffVein框架利用其标注实现了可控静脉生成,获ICCV 2025最佳论文提名;中科院自动化所基于该数据构建的VeinTransformer模型在NIST举办的FVR2025竞赛中夺冠。衍生工作还包括跨模态静脉-指纹联合识别系统(IEEE T-BIOM 2024)、抗样本攻击的可撤销静脉模板生成方案(ACM MM 2025)等17篇CCF-A类论文。
数据集最近研究
最新研究方向
近年来,FingerVeinSyn-5M数据集在生物识别领域引起了广泛关注,特别是在指静脉识别技术的深度学习方法研究中。该数据集通过合成生成技术解决了传统指静脉数据规模小、多样性不足的问题,为深度学习模型的训练提供了丰富的数据支持。前沿研究主要集中在利用该数据集进行跨域识别、小样本学习和非接触式指静脉识别等方面。特别是在开放集协议和跨域识别任务中,FingerVeinSyn-5M表现出了显著的性能提升,平均识别准确率提高了53.91%。此外,该数据集首次提供的全面标注信息(如静脉模式、手指形状和关节腔位置)为多任务学习和监督学习提供了新的可能性。这些研究不仅推动了指静脉识别技术的发展,也为其他生物识别领域的合成数据生成提供了重要参考。
相关研究论文
  • 1
    FingerVeinSyn-5M: A Million-Scale Dataset and Benchmark for Finger Vein Recognition东南大学网络空间安全与工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作