five

FantasyID

收藏
arXiv2025-07-28 更新2025-07-30 收录
下载链接:
https://www.idiap.ch/paper/fantasyid
下载链接
链接失效反馈
官方服务:
资源简介:
FantasyID是一个用于检测身份证明文档数字篡改的公开数据集。该数据集包含多种设计风格、语言和真实人物的面部图像的身份证。为了模拟真实的KYC场景,FantasyID的卡片被打印并用三种不同的设备捕获,构成真实类别。此外,数据集还模拟了恶意行为者可能进行的数字伪造/注入攻击,以篡改身份证。FantasyID数据集旨在解决KYC应用程序中伪造身份证件的检测问题,并为开发检测算法提供数据支持。

FantasyID is a public dataset dedicated to detecting digital tampering of identity documents. This dataset includes ID cards with facial images of real individuals, featuring diverse design styles and languages. To simulate real-world KYC scenarios, the ID cards in FantasyID are printed and captured via three different devices, forming the genuine sample category. Additionally, the dataset simulates digital forgery or injection attacks that malicious actors may conduct to tamper with ID cards. The FantasyID dataset aims to address the problem of forged identity document detection in KYC applications and provide data support for the development of detection algorithms.
提供机构:
瑞士伊迪亚普研究所
创建时间:
2025-07-28
搜集汇总
数据集介绍
main_image_url
构建方式
FantasyID数据集的构建过程体现了高度专业化的设计理念与技术整合。研究团队采用多阶段流程:首先生成262张训练集与100张测试集的虚拟身份证,这些卡片融合了阿拉伯语、中文等10种语言的13种独特设计模板,采用Creative Commons 4.0授权素材确保法律合规性。关键创新在于使用AMFD等公开人脸数据库的真实面部图像,避免生成人脸带来的检测偏差。随后通过Evolis Primacy 2打印机以600DPI精度物理输出,并采用iPhone 15 Pro等三种设备进行数字化采集,最终形成1086张高保真图像。伪造样本则通过InSwapper面部交换与Textdiffuser2文本修复等前沿生成技术构建,模拟数字注入攻击场景。
特点
该数据集的核心价值在于其突破性的数据特性:作为首个完全由原始虚拟证件构成的开源数据集,彻底规避了传统数据集中官方证件篡改带来的法律与伦理问题。卡片设计融合吉罗克花纹等真实证件安全特征,覆盖10种语言的文化特异性设计,构建了362张物理打印证件及其数字采集样本的完整链条。特别值得注意的是,测试集包含三类针对性攻击模式(文本篡改、面部替换及其组合),其中Attack-2采用Facedancer进行高斯模糊融合的面部替换,对现有检测算法构成显著挑战。这种多维度攻击模拟使FantasyID成为评估证件防伪算法泛化能力的理想基准。
使用方法
FantasyID为数字证件防伪研究提供了标准化评估框架。研究者可采用其分层数据架构:训练集包含1899张样本(786真实+1572伪造),验证集459张来自HQ-WMCA人脸库,测试集则设置300张全新设计的跨域样本与1085种针对性攻击。评估时建议沿用论文提出的双阈值策略——在验证集固定10%误报率下测试集性能,该设定能有效模拟实际KYC系统的操作需求。数据集特别适合测试算法对局部篡改(如文本替换)与全局伪造(如面部交换)的检测能力,TruFor等基线模型在该数据集上50%左右的漏检率证实了其挑战性。为避免分辨率损失影响检测,建议保持原始图像尺寸输入特征提取网络。
背景与挑战
背景概述
FantasyID数据集由瑞士Idiap研究所的Pavel Korshunov、Amir Mohammadi等研究人员于2025年创建,旨在解决数字身份文档伪造检测领域的核心问题。随着图像生成技术的快速发展,恶意行为者能够轻易伪造身份文档,这对金融领域的客户身份识别(KYC)系统构成了严重威胁。FantasyID通过模拟真实身份文档的设计风格、语言多样性以及真实人脸数据,为研究者提供了一个合法且多样化的基准数据集。该数据集包含13种不同语言设计的身份证模板,并通过物理打印和数字化采集过程生成真实样本,同时利用生成式工具创建了多种数字篡改样本。相比于以往基于官方证件修改的公开数据集,FantasyID首次提供了未经篡改的原始样本,避免了因样本本身存在修改而导致的检测算法偏差,对推动数字身份安全领域的研究具有重要意义。
当前挑战
FantasyID数据集面临的挑战主要体现在两个方面:在领域问题层面,现有最先进的伪造检测算法(如TruFor、MMFusion等)对文本区域的篡改检测表现尚可,但在人脸替换攻击(如Facedancer生成的样本)检测上表现欠佳,误检率接近50%,难以满足实际应用需求;在数据集构建层面,研究人员需要平衡法律合规性与数据真实性,既要避免使用真实敏感信息,又要确保模拟文档的视觉特征与真实证件足够接近。此外,多语言文本的生成与篡改、不同设备采集导致的图像质量差异,以及生成式工具产生的多样化攻击样本,都增加了数据集构建的复杂度。这些挑战使得FantasyID成为评估伪造检测算法鲁棒性的高标准测试平台。
常用场景
经典使用场景
在数字身份验证领域,FantasyID数据集被广泛应用于开发和评估身份证件篡改检测算法。该数据集模拟了真实世界中的身份证件,包含多种设计风格、语言和真实人脸,为研究者提供了一个安全且合法的测试平台。通过打印和重新捕捉这些身份证件,数据集还模拟了实际KYC(了解你的客户)流程中的图像采集过程,使得检测算法能够在接近真实场景的条件下进行验证。
衍生相关工作
FantasyID数据集推动了多项经典工作的诞生,尤其是在篡改检测算法领域。例如,TruFor和MMFusion等先进算法在FantasyID上进行了广泛测试,展示了其在文本篡改检测中的优越性能。此外,该数据集还激发了针对多语言身份证件篡改检测的研究,为跨文化场景下的身份验证提供了新的解决方案。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,数字身份文档伪造技术呈现出前所未有的逼真度和易用性,这对金融科技领域的客户身份识别(KYC)系统构成了严峻挑战。FantasyID数据集的推出填补了该领域缺乏高质量、多样化且符合伦理规范的基准数据集的空白。当前研究主要聚焦于多模态融合检测算法开发,通过结合RGB图像、噪声特征和文本分析等多维度信息,提升对局部篡改(如人脸替换、文本修改)的检测精度。最新实验表明,基于Transformer架构的TruFor和MMFusion算法在文本篡改检测任务中表现优异,但在人脸篡改检测方面仍存在显著局限,这揭示了数字身份安全领域亟待突破的技术瓶颈。该数据集通过涵盖10种语言、13种设计模板的真实场景模拟,为跨文化场景下的防伪研究提供了重要实验平台。
相关研究论文
  • 1
    FantasyID: A dataset for detecting digital manipulations of ID-documents瑞士伊迪亚普研究所 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作