DFIC
收藏arXiv2026-02-12 更新2026-02-13 收录
下载链接:
https://github.com/visteam-isr-uc/DFIC
下载链接
链接失效反馈官方服务:
资源简介:
DFIC(Diverse Face Images - Coimbra)是由科英布拉大学·系统与机器人研究所构建的大规模面部图像数据集,旨在解决ICAO标准合规性验证的数据稀缺问题。该数据集包含58,633张高质量与低质量设备拍摄的图像及2,706段短视频,覆盖1,016名不同年龄、性别和种族的受试者,涵盖26项ICAO非合规场景(如遮挡、光照异常等),并附带90万手动标注和40万自动标注。数据通过多设备采集和受控条件模拟真实场景,应用于自动化护照照片合规检测、人脸识别系统公平性提升等领域。
DFIC (Diverse Face Images - Coimbra) is a large-scale facial image dataset developed by the Institute of Systems and Robotics, University of Coimbra, designed to address the data scarcity problem in ICAO standard compliance verification. This dataset contains 58,633 images captured by both high-quality and low-quality imaging devices, as well as 2,706 short videos, covering 1,016 subjects with diverse ages, genders and ethnicities. It encompasses 26 types of ICAO non-compliant scenarios, such as occlusions, abnormal lighting and other similar cases, and is accompanied by 900,000 manual annotations and 400,000 automatic annotations. The data is collected via multiple devices, with real-world scenarios simulated under controlled conditions, and has applications in fields including automated passport photo compliance detection and fairness enhancement of facial recognition systems.
提供机构:
科英布拉大学·系统与机器人研究所
创建时间:
2026-02-12
原始信息汇总
DFIC数据集概述
数据集基本信息
- 数据集名称:DFIC (Towards a balanced facial image dataset for automatic ICAO compliance verification)
- 数据规模:包含约58,000张标注图像和2,706个视频,涉及超过1,000名对象。
- 核心内容:涵盖广泛的不合规条件以及合规肖像,旨在促进自动ICAO(国际民用航空组织)合规性验证方法的开发。
获取与使用条款
- 获取方式:需通过填写表单申请(https://forms.gle/pLfb6eRAmfbgNNVU9)。
- 使用限制:仅可用于非商业研究目的。
- 禁止行为:不得出于任何商业目的复制、销售、交易或利用任何部分图像及衍生数据;不得进一步复制、发布或分发数据集的任何部分(同一组织内部单站点使用允许复制)。
- 用户义务:同意数据集中的个人可根据GDPR行使权利,包括访问、更正、删除或限制处理其个人数据,以及反对处理的权利。
相关资源
- 预训练模型下载地址:https://drive.google.com/drive/folders/1l6OAiyM0k93KJQ7G6ORzoX4oryrifYUc?usp=sharing
- 许可证文件:https://github.com/visteam-isr-uc/DFIC/blob/main/LICENSE.md
- 数据集结构说明文件:https://github.com/visteam-isr-uc/DFIC/blob/main/data/DFIC/README.md
- 关联论文:https://arxiv.org/abs/2602.10985
引用格式
若使用本代码库、方法、模型或数据集,请引用:
@misc{gonçalves2026dficbalancedfacialimage, title={DFIC: Towards a balanced facial image dataset for automatic ICAO compliance verification}, author={Nuno Gonçalves and Diogo Nunes and Carla Guerra and João Marcos}, year={2026}, eprint={2602.10985}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.10985}, }
搜集汇总
数据集介绍

构建方式
在机器可读旅行证件(MRTD)身份验证领域,确保人脸图像符合ISO/IEC和ICAO标准至关重要。DFIC数据集的构建采用了系统化的采集策略,通过招募超过1000名志愿者,覆盖了广泛的年龄、性别和种族背景。数据采集在受控环境下进行,每位参与者按照24种预设场景拍摄图像,其中包含合规肖像及多种违反ICAO标准的情形。图像采集同时使用高质量相机和智能手机设备,并录制了2706段短视频以捕捉动态面部变化。此外,通过人工生成技术补充了部分罕见违规样本,最终形成了包含58,633张图像的大规模数据集。
特点
DFIC数据集在ICAO合规验证领域展现出显著优势,其规模远超现有公开数据集,并提供了前所未有的多样性。数据集不仅涵盖了ISO/IEC 19794-5标准中定义的26项合规要求,还通过精心设计的场景覆盖了从眼部遮挡到光照异常等多种违规情形。人口统计学分布经过优化,特别关注了儿童、老年及非洲裔等传统数据集中代表性不足的群体,其中一个子集实现了近乎均匀的分布。每张图像均附有详细的人工标注,包括合规状态、违规原因及程度描述,总计超过200万条注释,为模型训练提供了丰富的监督信息。
使用方法
DFIC数据集主要应用于自动化ICAO合规验证算法的开发与评估。研究人员可利用其丰富的标注信息训练深度学习模型,特别是针对多标签分类任务。数据集已划分为训练集和测试集,支持模型在平衡与非平衡人口分布下的性能对比。在实际应用中,该数据集可用于微调现有模型或开发新型注意力机制网络,以同时验证所有26项合规要求。此外,其包含的短视频序列为动态合规分析提供了可能,例如从连续帧中选取最优合规图像。数据集遵循严格的法律与伦理规范,确保在符合GDPR等法规的前提下促进人脸识别系统的安全性、隐私性与公平性研究。
背景与挑战
背景概述
在机器可读旅行证件(MRTD)的身份验证领域,确保面部图像符合ISO/IEC和ICAO标准对于实现可靠的自动化身份核验至关重要。由科英布拉大学系统与机器人研究所的研究团队于2026年创建的DFIC数据集,正是为了应对传统人工审核在高效场景下的局限性而设计。该数据集包含约58,000张标注图像和2,706段视频,覆盖了1,000多名受试者,不仅包含合规肖像,更广泛涵盖了多种非合规条件。其核心研究问题在于通过提供大规模、高平衡性的人口统计学分布数据,推动自动化的ICAO合规性验证算法发展,从而提升面部识别系统的安全性、隐私性和公平性。DFIC的出现填补了该领域高质量公开数据集的空白,为后续研究奠定了新的基准。
当前挑战
DFIC数据集旨在解决的领域核心挑战是自动化验证面部图像是否符合ISO/IEC 19794-5和ICAO Doc 9303等标准所规定的26项复杂要求,这涉及从姿态、光照到遮挡物等多种因素的精细判断。在构建过程中,研究团队面临多重挑战:首先,需在单一数据集中均衡地涵盖所有26项合规要求的正负样本,尤其是某些罕见非合规情况(如面纱遮挡、异常肤色)的样本获取与标注极为困难;其次,为实现算法公平性,必须克服现有数据集人口统计学分布严重失衡的问题,需额外努力招募儿童、老年及特定族裔等代表性不足的群体;此外,高质量的手动标注规模巨大,需设计严谨的多人标注与仲裁流程以控制误差,并需生成部分人工图像以补充自然数据中匮乏的特定非合规类型,同时还需妥善处理数据采集所涉及的法律与伦理合规问题。
常用场景
经典使用场景
在生物特征识别与证件安全领域,DFIC数据集为自动化ICAO合规性验证提供了关键支撑。该数据集通过涵盖58,000余张标注图像及2,700段视频,系统性地模拟了护照等机读旅行证件中人像的合规与非合规场景。其经典应用体现在为深度学习模型提供训练与评估基准,特别是针对ISO/IEC 19794-5标准中定义的26项摄影与姿态要求,如眼睛闭合、头部遮挡、光照不均等,从而推动算法在复杂真实场景中的泛化能力与鲁棒性提升。
解决学术问题
DFIC数据集有效应对了生物特征质量评估中数据缺乏多样性与平衡性的学术挑战。传统数据集在年龄、性别与种族分布上存在显著偏差,难以全面覆盖ICAO标准所涉及的各种非合规情形。该数据集通过纳入逾千名来自不同 demographic 群体的参与者,并精细标注每张图像对26项要求的合规状态,为研究者提供了探索算法公平性、减少 demographic bias 的实证基础。其引入促进了自动合规验证方法从依赖传统图像处理向基于注意力机制等深度学习范式的演进,解决了模型在边缘案例上泛化不足的核心问题。
衍生相关工作
DFIC数据集的发布催生了一系列围绕ICAO合规验证的经典研究工作。基于该数据集训练的注意力机制模型在多项测试中超越了现有方法如ICAONet、BioGaze与OFIQ,显著降低了等错误率并提升了跨数据集泛化能力。这些进展进一步推动了如BioLab-ICAO框架的演进,并在FVC-onGoing平台的Face Image ISO Compliance Verification竞赛中成为重要基准。同时,DFIC为开源工具如Open Source Face Image Quality提供了丰富的评估数据,促进了ISO/IEC 29794-5标准的实践落地,并在合成数据生成、多任务学习架构等领域激发了新的方法创新。
以上内容由遇见数据集搜集并总结生成



