africa-deepfake-identity-fraud

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-deepfake-identity-fraud

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专注于非洲地区的深度伪造与合成身份欺诈的合成数据集，属于“非洲网络威胁情报”系列的一部分。其核心目的是建模针对非洲机构、个人和政治系统的AI驱动身份欺诈威胁。背景源于2024年非洲深度伪造欺诈激增700%（据Sumsub报告），以及尼日利亚NIN/BVN、肯尼亚Huduma Namba、加纳卡等数字身份系统的快速推广所创造的新攻击面。数据集具体捕捉了尼日利亚的身份系统绕过和政治深度伪造、南非的银行KYC绕过、肯尼亚的Huduma Namba欺诈以及全非洲范围内的CEO语音克隆、选举深度伪造等区域特定模式。数据集包含10,000条记录，正负样本平衡（50/50），所有数据均为基于真实世界研究报告生成的合成数据（is_synthetic=1）。数据以表格形式呈现，适用于表格分类任务，特别是欺诈检测与分类。数据内容涵盖了10种具体的欺诈类型，包括人脸交换KYC绕过、合成身份创建、CEO语音克隆欺诈、政治深度伪造、AI生成身份文件伪造、生物识别欺骗等。数据集提供了35个核心特征字段，详细描述了每条记录的属性，例如：发生国家、欺诈类型、目标行业、使用的深度伪造工具、分发渠道、涉及的身份文件类型、检测方法、深度伪造质量、是否涉及视频/音频/图像/文档、攻击者组织程度与技术技能、造成的经济损失（美元）、是否成功开设欺诈账户、是否试图影响选举、是否绕过活体检测/人脸识别/语音认证、是否被检测到、检测时间以及最终标签（1=欺诈，0=合法）等。此外，还从核心特征中衍生出了一系列复合特征，用于评估攻击的媒体复杂度、身份合成度、攻击者 sophistication、生物识别绕过能力、财务与社会影响、检测效果等，并包含了欺诈类型、目标行业、工具类型和地理区域的一键编码标志。数据来源综合了Sumsub、INTERPOL、iProov、KnowBe4、SABRIC、尼日利亚NIMC以及麦肯锡等多份2024-2025年发布的关于非洲网络威胁和深度伪造的研究报告。

This dataset is a synthetic dataset focused on deepfake and synthetic identity fraud in Africa, part of the Africa Cyber Threat Intelligence series. Its core purpose is to model AI-driven identity fraud threats targeting African institutions, individuals, and political systems. The background stems from a 700% surge in deepfake fraud in Africa in 2024 (according to Sumsub reports) and new attack surfaces created by the rapid adoption of digital identity systems such as Nigerias NIN/BVN, Kenyas Huduma Namba, and Ghana Card. The dataset specifically captures regional patterns including identity system bypass and political deepfakes in Nigeria, bank KYC bypass in South Africa, Huduma Namba fraud in Kenya, and continent-wide CEO voice cloning and election deepfakes. It contains 10,000 records with balanced positive and negative samples (50/50), all generated as synthetic data based on real-world research reports (is_synthetic=1). The data is presented in tabular form, suitable for tabular classification tasks, especially fraud detection and classification. The content covers 10 specific fraud types, including face swap KYC bypass, synthetic identity creation, CEO voice cloning fraud, political deepfakes, AI-generated identity document forgery, biometric spoofing, etc. The dataset provides 35 core feature fields, detailing attributes of each record, such as: country of occurrence, fraud type, target industry, deepfake tools used, distribution channels, identity document types involved, detection methods, deepfake quality, involvement of video/audio/image/documents, attacker organization level and technical skills, economic loss in USD, success in opening fraudulent accounts, attempts to influence elections, bypass of liveness detection/face recognition/voice authentication, detection status, detection time, and final label (1=fraud, 0=legitimate). Additionally, a series of composite features are derived from core features to assess attack media complexity, identity synthesis level, attacker sophistication, biometric bypass capability, financial and social impact, detection effectiveness, etc., and includes one-hot encoded flags for fraud type, target industry, tool type, and geographic region. Data sources integrate multiple research reports on African cyber threats and deepfakes from 2024-2025, including Sumsub, INTERPOL, iProov, KnowBe4, SABRIC, Nigerias NIMC, and McKinsey.

创建时间：

2026-05-13

原始信息汇总

数据集概述：Deepfake & Synthetic Identity Fraud (Africa)

该数据集由 electricsheepafrica 创建，属于 Africa Cyber Threat Intelligence 系列，专注于非洲地区的深度伪造（Deepfake）与合成身份欺诈威胁。

基本信息

数据集名称: Deepfake & Synthetic Identity Fraud (Africa)
语言: 英语
许可证: MIT
任务类别: 表格分类（tabular-classification）
标签: 网络安全、非洲、深度伪造、合成身份、生物特征欺诈
数据规模: 10,000 行（平衡数据集，正负样本比例为 50/50）
数据类型: 全部为合成数据（is_synthetic=1），基于真实世界研究数据生成

背景与动机

据 Sumsub 2024 年报告，非洲地区深度伪造欺诈增长了 700%，成为增长最快的身份欺诈手段。
非洲快速推行的数字身份系统（如尼日利亚 NIN/BVN、肯尼亚 Huduma Namba、加纳卡）为 AI 驱动的身份欺诈创造了新的攻击面。
数据集捕获了非洲特有的欺诈模式，包括：
- 尼日利亚：国家身份证号/银行验证码系统绕过、政治深度伪造（2023 年选举）
- 南非：银行 KYC 绕过、最高生物特征欺诈率（SABRIC 报告）
- 肯尼亚：Huduma Namba 欺诈、移动银行深度伪造攻击
- 全洲：针对非洲企业的 CEO 语音克隆、选举深度伪造
- 新兴：AI 生成的生命证明用于保险/养老金欺诈、浪漫深度伪造

欺诈类型

数据集涵盖 10 类欺诈行为：

欺诈类型	描述
face_swap_kyc_bypass	面部交换以绕过 KYC/身份验证
synthetic_identity_creation	使用 AI 创建完全伪造的身份
voice_clone_ceo_fraud	CEO/高管语音克隆用于商业电子邮件欺诈
deepfake_video_impersonation	视频深度伪造冒充已知人物
political_deepfake	伪造政治内容影响选举
id_document_forgery_ai	AI 生成的伪造身份文件
biometric_spoofing	欺骗生物特征认证系统
fake_social_media_persona	AI 生成的社交媒体资料
ai_generated_proof_of_life	伪造生命证明用于保险/养老金欺诈
deepfake_romance_scam	深度伪造角色用于浪漫欺诈

数据特征

数据集包含 34 个原始特征 和 大量衍生特征，涵盖欺诈手段、攻击者画像、影响评估与检测结果。

主要原始特征（部分）：

record_id：唯一标识符
country：非洲国家（覆盖 15 个国家）
fraud_type：欺诈类型（或 "none"）
target_sector：目标领域/用例
deepfake_tool：创建深度伪造使用的技术
distribution_channel：深度伪造内容的分发渠道
id_document_type：涉及的身份文档类型
detection_method：检测方法
deepfake_quality：质量等级（低/中/高）
financial_loss_usd：经济损失（美元）
label：标签（1 = 欺诈，0 = 合法）
多个布尔特征（0/1）：是否涉及视频、音频、图像、文件；是否绕过活体检测、欺骗面部/语音识别；是否被检测、是否报告等。

衍生特征（部分）：

media_count / multimodal_attack / full_multimedia：媒体复杂度
identity_synthesis_score / pure_synthetic / hybrid_identity：身份类型
attacker_sophistication / professional_operation / serial_fraud：攻击者画像
biometric_bypass_score / any_biometric_bypass / multi_biometric_bypass：生物特征绕过
deepfake_threat_score：复合威胁严重性评分
impact_score：复合影响/损害评分
detection_effectiveness：复合检测成功率评分
欺诈类型、目标领域、工具类型、区域的独热编码特征

数据来源

数据集基于以下真实世界研究报告构建（均为公开来源）：

Sumsub Identity Fraud Report 2024 — 非洲深度伪造激增
INTERPOL Africa Cyberthreat Assessment 2025
iProov Threat Intelligence Report 2024
KnowBe4 Africa Threat Report 2024
SABRIC (South Africa) Annual Crime Stats 2024
Nigeria NIMC Identity Fraud Reports 2024
McKinsey "Deepfakes in Africa" 2024

搜集汇总

数据集介绍

构建方式

africa-deepfake-identity-fraud数据集源自非洲网络安全威胁情报研究，由electricsheepafrica团队基于真实世界的研究数据合成构建。该数据集共包含10,000条记录，类别平衡，正负样本各占50%，全部为合成数据（is_synthetic=1）。构建过程深入模拟了针对非洲机构、个人及政治系统的深度伪造与合成身份欺诈场景，尤其关注尼日利亚、南非、肯尼亚等国的数字身份系统漏洞，如NIN/BVN绕过、银行KYC欺诈及政治深度伪造等。通过整合Sumsub、INTERPOL、iProov等多份权威报告中的威胁模式，系统化生成了涵盖10种欺诈类型、15个非洲国家及多维度攻击特征的样本集。

特点

该数据集以精细化的特征工程著称，包含36个原始特征和大量衍生特征。核心特征覆盖欺诈类型、目标行业、伪造工具、投递渠道、检测方式及质量等级等维度，特别突出了非洲特有的欺诈模式，如CEO语音克隆、选举深度伪造及AI生成生存证明等。衍生特征通过聚合计算生成媒体复杂度、身份合成度、攻击者画像、生物特征绕过得分、经济损失程度及社会影响等复合指标。数据集还提供了金融损失、虚假账户数量、检测时间等连续数值型变量，以及跨平台攻击、多身份创建等二进制标志，为多角度分析深度伪造欺诈提供了丰富的数据基础。

使用方法

该数据集专为表格分类任务设计，适用于监督学习中的欺诈检测与风险评分模型训练。用户可通过HuggingFace datasets库以一行代码加载数据：from datasets import load_dataset; dataset = load_dataset('electricsheepafrica/africa-deepfake-identity-fraud')。数据集以'label'字段作为二元分类目标（1表示欺诈，0表示合法）。丰富的衍生特征如deepfake_threat_score、impact_score、detection_effectiveness等复合评分可直接用于构建威胁评估模型，而fraud_type、country等分类特征则可支持多分类任务分析。此外，数据集的平衡设计降低了类别不平衡带来的建模偏差，MIT开源协议确保了便捷的研究与商业应用。

背景与挑战

背景概述

该数据集由Electric Sheep Africa机构于2026年创建，聚焦于非洲地区深伪与合成身份欺诈这一新兴网络安全威胁。随着非洲各国加速推进数字身份系统建设（如尼日利亚NIN/BVN、肯尼亚Huduma Namba等），攻击面显著扩大。据Sumsub报告，2024年非洲深伪欺诈案件激增700%，成为增长最快的身份欺诈类型。该数据集通过合成10,000条平衡样本，系统建模了面向非洲金融机构、政府部门和选举系统的多类型深伪攻击，填补了非洲语境下高质量威胁情报数据的空白，为区域网络安全研究和防御策略制定提供了关键资源。

当前挑战

该数据集面临的核心挑战包括：领域问题层面，深伪欺诈技术迭代极快（如AI生成的生命体征检测绕过手段），传统基于单一模态的检测方法难以应对多模态融合攻击；非洲大陆数字身份系统碎片化、监管框架不统一，导致跨国家、跨场景的威胁模式泛化建模困难。构建过程中，真实攻击数据因隐私、法律限制难以获取，依赖合成数据虽保障了平衡性，但需精心模拟真实攻击的统计特征与演化规律，避免引入偏差；同时需整合多来源（国际刑警组织、各国报告）的异构情报，确保数据的时效性与地域代表性。

常用场景

经典使用场景

在非洲数字身份系统快速普及的背景下，深度伪造与合成身份欺诈已成为该地区网络安全领域最严峻的威胁之一。该数据集专为建模和检测针对非洲机构、个人及政治体系的深度伪造攻击而设计，涵盖了从人脸替换KYC绕过、语音克隆CEO欺诈到选举深度伪造等十种典型欺诈类型。其经典使用场景包括训练和评估分类模型以区分合法交易与欺诈行为，同时支持对欺诈模式的多维度分析，如攻击手段、传播渠道、检测方法及经济损失等。通过提供10,000条平衡的合成样本，该数据集为研究人员构建面向非洲区域特性的反欺诈系统提供了标准化的实验基准。

实际应用

在实际应用中，该数据集为非洲金融机构、政府数字身份管理平台及移动银行服务商提供了反欺诈系统的训练与测试资源。具体而言，可被用于开发基于机器学习的实时KYC验证增强模块，提升对尼日利亚NIN/BVN系统、肯尼亚Huduma Namba和加纳卡等身份体系中的合成身份攻击的拦截能力。此外，在选举安全领域，数据集支持构建选举深度伪造内容检测工具，帮助监管部门快速识别虚假政治宣传。保险和养老金行业也能利用其训练活体检测算法，防范AI生成的虚假生命证明欺诈，从而将技术落地为切实减少经济损失和声誉风险的防护屏障。

衍生相关工作

围绕该数据集已衍生出一系列具有影响力的后续研究，主要集中在非洲特定场景下的深度伪造检测方法创新。例如，研究者基于其多模态特征开发了面向低质量面部伪造的跨域适应模型，显著提升了在移动银行视频认证中的泛化性能。另一些工作利用数据集的合成身份构建了可解释性欺诈检测框架，揭示了攻击者组织化程度与财务损失之间的关联模式。此外，该数据集还启发了对政治深度伪造的社会影响建模，催生了针对选举干预的因果推断研究。这些衍生工作共同推动了“区域化网络威胁情报”这一新兴方向的发展，强化了数据驱动型安全分析在非洲大陆的实践基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集