FakeIDet2-db
收藏arXiv2025-08-15 更新2025-08-22 收录
下载链接:
https://github.com/BiDAlab/FakeIDet2-db
下载链接
链接失效反馈官方服务:
资源简介:
FakeIDet2-db是一个包含超过90万个真实/伪造身份证件图片的数据集,这些图片从2000张身份证件图片中提取,使用了不同的智能手机传感器、照明和高度条件等。此外,还考虑了三种物理攻击:打印、屏幕和复合攻击。该数据集旨在促进ID持有者和AI研究人员在伪造ID检测研究中的合作,并提供了不同匿名化级别的灵活性,以优化隐私和性能。
提供机构:
生物识别与数据模式分析实验室,马德里自治大学
创建时间:
2025-08-15
搜集汇总
数据集介绍

构建方式
FakeIDet2-db数据库的构建采用了隐私感知的分块处理策略,通过从2000张身份证图像中提取非重叠的图像块,涵盖64×64和128×64两种尺寸。数据采集过程使用了三种不同档次的智能手机传感器,并在多种光照条件和拍摄高度下进行,以模拟真实场景的变异性。攻击类型包括打印、屏幕显示和物理合成攻击,其中物理合成攻击为首次引入。此外,数据库提供了三种匿名化级别(非匿名、伪匿名和全匿名),通过黑块覆盖敏感信息以确保隐私合规性。
特点
该数据库的核心特点在于其隐私保护设计与攻击类型的多样性。作为首个包含官方真实身份证和物理合成攻击的公共数据集,它提供了超过90万个图像块,覆盖了47种西班牙身份证模板。数据采集设备涵盖了高端至低端的智能手机传感器,并结合了多种光照和高度条件,确保了数据的广泛代表性。匿名化处理允许灵活的信息共享,同时通过随机化块顺序和文件名进一步防止身份重建,为研究提供了安全且丰富的数据基础。
使用方法
FakeIDet2-db的使用方法聚焦于隐私感知的假身份证检测模型训练与评估。研究人员可基于图像块而非完整身份证进行模型开发,利用提供的伪匿名或全匿名数据块训练特征提取和融合模块。数据库支持跨设备、跨攻击类型的泛化测试,并提供了标准化的评估协议和指标(如EER)。模型推理阶段允许ID持有者根据隐私需求选择内部或外部处理,确保了合规性与灵活性。此外,数据库与公开基准测试结合,便于与其他方法进行公平比较。
背景与挑战
背景概述
FakeIDet2-db由马德里自治大学生物识别与数据模式分析实验室于2025年创建,旨在应对数字身份验证中伪造身份证件的检测难题。该数据集聚焦于物理攻击与合成攻击的识别,包含超过90万张从47种西班牙官方身份证中提取的图像块,覆盖打印、屏幕显示及物理复合三类主要攻击类型。其创新性在于首次引入物理复合伪造样本,并通过隐私保护机制促进政府机构与AI研究者的协作,对生物识别安全领域具有重要推动作用。
当前挑战
该数据集核心挑战在于解决身份文档伪造检测中的隐私与数据稀缺矛盾。领域挑战包括区分高度逼真的AI生成伪造ID与真实文档,尤其在复合攻击中局部篡改的识别;构建挑战涉及官方敏感数据的获取限制,需通过分块匿名化处理平衡数据可用性与隐私保护,同时确保多设备、多光照条件下数据采集的一致性以增强模型泛化能力。
常用场景
经典使用场景
在身份文档防伪检测领域,FakeIDet2-db数据集通过提供大量真实与伪造身份证件的图像块,为训练和验证深度学习模型提供了关键资源。该数据集广泛应用于学术研究中,特别是在隐私保护场景下,研究者利用其非完整图像块而非整张证件图像来开发检测算法,既避免了敏感信息泄露,又保持了检测性能。
实际应用
在实际应用中,FakeIDet2-db被金融机构、政府部门和远程验证系统用于增强身份认证流程的安全性。例如,在银行远程开户或数字服务访问过程中,系统可利用基于该数据集训练的模型实时检测用户提交的身份证件是否遭受打印、屏幕显示或物理合成等攻击,有效防止身份欺诈行为。
衍生相关工作
该数据集催生了多项创新研究,如基于补丁嵌入提取和融合的FakeIDet2检测方法,其引入的多头自注意力机制显著提升了复合攻击的检测精度。此外,衍生工作包括跨数据库基准测试框架,以及针对合成攻击和物理攻击的泛化性研究,为领域设立了可复现的性能标准。
以上内容由遇见数据集搜集并总结生成



