africa-identity-fraud-national-id

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-identity-fraud-national-id

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成的表格分类数据集，专注于模拟非洲地区的身份欺诈和对国家身份证系统的攻击。数据集包含10,000条平衡记录（50%欺诈，50%合法），所有数据均为基于真实世界研究生成的合成数据。其背景是非洲正在经历全球最雄心勃勃的数字身份推广浪潮，如尼日利亚的NIN、南非的智能身份证、肯尼亚的Huduma Namba等，这些集中化的生物识别和个人数据存储库成为了欺诈的高价值目标。数据集旨在捕捉非洲特有的欺诈模式，包括尼日利亚的NIN/BVN内部数据盗窃和幽灵身份创建、南非的家庭事务腐败和身份盗窃、肯尼亚的注册欺诈和SIM卡交换、加纳的文件伪造，以及跨区域的死者身份重用、未成年人身份剥削和跨境欺诈等。数据涵盖了17个非洲国家，模拟了包括尼日利亚NIN、南非智能身份证、肯尼亚Huduma Namba、加纳加纳卡等在内的10个国家或地区的身份证系统。数据特征丰富，包含41个原始列，如国家、目标身份证系统、欺诈类型、攻击向量、受害者人口统计信息（年龄、性别、是否已故、是否为未成年人、是否来自农村地区、文化水平）、攻击细节（内部人员参与、有组织犯罪、是否跨境、生物识别数据是否泄露、生物识别类型、是否被欺骗、数字系统是否被利用、物理文件是否伪造、数据是否来自暗网或先前漏洞）、财务损失、欺诈性开设的账户/贷款/SIM卡数量、检测指标（是否检测到、检测时间、检测来源、是否向警方或身份证机构报告）、响应结果（身份是否恢复、 perpetrator是否被捕、系统漏洞是否修复）以及最终标签（1表示欺诈，0表示合法）和合成数据标识。此外，数据集还提供了39个提取的特征，用于表示受害者脆弱性、攻击特征、生物识别风险、攻击方法、数据来源、财务影响、检测和响应有效性、欺诈类型、系统类型、目的、数据敏感性、区域标志以及复合的欺诈严重性评分、受害者脆弱性评分和系统风险评分。该数据集适用于网络安全、欺诈检测、数字身份系统风险评估、表格数据分类等任务的研究和模型训练。

创建时间：

2026-05-13

搜集汇总

数据集介绍

构建方式

该数据集来源于非洲网络威胁情报项目，由Electric Sheep Africa精心构建。所有10,000条记录均为基于真实世界研究数据的合成数据，类别分布严格均衡（50/50）。构建过程深入整合了世界银行ID4D指南、尼日利亚NIMC欺诈报告、南非内政部智能身份证欺诈统计、肯尼亚Huduma Namba评估报告等多源权威资料，精准模拟了非洲大陆数字身份系统面临的各类攻击场景。数据集以结构化表格形式呈现，每一条记录都经过精心设计，确保能够真实反映从尼日利亚NIN/BVN到南非智能身份证，乃至肯尼亚、加纳、埃塞俄比亚等国身份系统的脆弱性。

特点

该数据集的核心特色在于其深度聚焦非洲数字身份系统这一特殊领域，覆盖了尼日利亚、南非、肯尼亚、加纳等17个国家的10余种国家级身份系统。数据集包含了丰富的欺诈类型，从身份盗窃、文件伪造、内部数据盗窃到生物识别欺骗、幽灵身份创建等11种具体攻击方式。此外，还创新性地设计了多重衍生特征体系，如受害者脆弱性评估（包括未成年人、逝者、农村居民等）、攻击特征标记（内部威胁、有组织犯罪）、生物识别攻击指标以及数据获取渠道分析等，为用户提供了从多维度理解身份欺诈的全面视角。

使用方法

该数据集的使用极为便捷，用户可通过HuggingFace的datasets库直接加载：from datasets import load_dataset; dataset = load_dataset("electricsheepafrica/africa-identity-fraud-national-id")。数据集适用于表格分类任务，可广泛应用于身份欺诈检测模型的训练与评估。用户可利用其提供的40余个原始特征和丰富的衍生特征进行各类机器学习实验，包括二分类预测（标签列标记欺诈与否）、欺诈类型识别、风险评分建模等。数据集的合成性质确保了隐私合规性，同时保留了真实世界的统计特征，特别适合用于非洲身份安全领域的研究与安全产品的原型开发。

背景与挑战

背景概述

身份伪造与攻击国家级身份认证系统已成为数字时代全球性安全挑战，尤其在非洲大陆正经历人类历史上规模最大的数字身份推广浪潮的背景下。该数据集由Electric Sheep Africa团队于2026年创建，聚焦非洲各国迅猛推广全国数字身份系统（如尼日利亚NIN、南非智能身份证、肯尼亚Huduma Namba等）过程中滋生的身份欺诈问题。这些系统汇聚了数千万乃至上亿民众的生物特征与个人信息，形成了高度集中的攻击目标。数据集涵盖了来自非洲17个国家的10,000条平衡样本数据，基于真实研究数据的人工合成方式构建，系统切分了身份盗窃、文档伪造、数据库入侵、生物特征欺骗、内部人员数据窃取、已故者身份再利用等多维欺诈类型，为理解这一独特的、具有显著地区特征的安全威胁提供了亟需的基础研究资源。该数据集的发布对网络安全与数字身份治理领域具有重要参考价值，有助于推动针对非洲地区国家级身份系统攻击模式的系统研究。

当前挑战

该数据集致力于解决的领域核心挑战在于：非洲各国高速部署的数字身份系统（如NIN、Smart ID Card、Ghana Card等）虽旨在提升公共治理效率，却因庞大的集中化生物特征与个人数据库的存在而成为高价值攻击目标，现有网络安全研究对此区域特有的身份欺诈模式（如内鬼数据兜售、已故者身份复活利用、针对低识字率与农村人群的精准诈骗）缺乏系统认知与建模工具。在数据构建层面，研究人员面临重大挑战：真实身份欺诈数据极为敏感，难以直接获取，因此必须依托世界银行ID4D指南、各国官方安全事件报告及INTERPOL评估等权威资料，在模拟现实欺诈形态的同时确保不泄露任何真实受害者隐私。此外，需要精准捕捉非洲各国身份系统在架构、执法力度与民众数字素养等方面的巨大差异，并将这些异质特征结构化纳入合成数据之中，最终构建出10,000条覆盖17国、具36维特征变量且欺诈与非欺诈类别严格平衡的样本集，以保证数据集在机器学习建模中的实用性与可迁移性。

常用场景

经典使用场景

在非洲大陆掀起数字身份系统建设浪潮的当下，该数据集凭借其针对11种身份欺诈类型和9个国家身份系统的细致建模，成为训练与评估分类模型的核心资源。研究者可基于其平衡标注的10万行合成数据，构建能够精准识别身份盗窃、文档伪造、生物特征欺骗等欺诈行为的监督学习算法，亦可将其用于分析不同数字身份系统（如尼日利亚NIN/BVN、南非Smart ID Card、肯尼亚Huduma Namba等）的脆弱性特征模式。

衍生相关工作

围绕该数据集已催生了一系列具有启发性的学术探索，包括针对非洲数字身份系统的攻击树建模、基于图神经网络的欺诈团伙链路发现，以及融合人口统计脆弱性与生物特征攻击成功率的多维风险评估框架。研究者进一步将其与Cyber Threat Intelligence领域的实时威胁情报进行交叉验证，衍生出针对尼日利亚NIMC内部数据泄露模式的时序预测模型，以及基于迁移学习的小样本身份欺诈检测算法，推动了数据驱动网络安全的深层次演化。

数据集最近研究