electricsheepafrica/africa-mobile-money-fraud-dataset
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-mobile-money-fraud-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于非洲移动货币欺诈的数据集,属于非洲网络威胁情报收集的一部分。数据集包含10,000条平衡记录(50/50),所有记录均基于真实世界的研究数据(非合成数据)。数据集涵盖了与移动货币欺诈相关的各种维度和指标,包括记录ID、国家、移动货币平台、欺诈类型、交易类型、代理类型、交易金额、受害者年龄等。
This is a dataset about mobile money fraud in Africa, part of the Africa Cyber Threat Intelligence collection. The dataset contains 10,000 balanced records (50/50), all based on real-world research data (non-synthetic). The dataset covers various dimensions and indicators related to mobile money fraud, including record ID, country, mobile money platform, fraud type, transaction type, agent type, transaction amount, victim age, etc.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在非洲移动支付迅猛发展的背景下,数字金融安全面临严峻挑战。该数据集由Electric Sheep Africa研究团队基于真实世界的研究数据构建,共包含10,000条记录,正负样本均衡分布(50/50),所有样本均标注为非合成数据(is_synthetic=0)。数据集设计以结构化表格形式呈现,融合了交易行为、用户画像、代理特征和网络环境等多维度特征,通过特征工程衍生出欺诈风险评分、受害者脆弱性指数等复合指标,旨在为非洲地区移动货币欺诈检测提供高质量基准。
特点
该数据集的核心特色在于其多维特征工程与地域适配性。除基础的交易金额、用户年龄、使用时长等字段外,精心设计了如SIM卡更换、多设备切换、非常规时间交易等异常行为指标,以及代理风险评分、网络匿名度等高级特征。特别引入非洲五大区域及语言文化标签(如西非、英语区等),并针对M-Pesa、MTN MoMo等主流移动货币平台分别编码,充分反映了非洲移动支付生态的多样性。此外,涵盖SIM卡交换、代理合谋、身份盗用等九类具体欺诈类型,为细粒度欺诈分析提供了丰富语义。
使用方法
该数据集专为表格分类任务设计,使用HuggingFace Datasets库可直接加载,通过`load_dataset("electricsheepafrica/africa-mobile-money-fraud-dataset")`一行代码完成获取。研究人员可将`label`字段作为分类目标,利用丰富的特征列训练机器学习模型以预测欺诈行为。数据集已内置多种衍生特征和欺诈类型指示变量,可直接用于多标签分类、异常检测或风险评分建模等任务,同时支持跨区域、跨平台的欺诈模式对比分析,为非洲移动支付安全领域的研究提供标准化评估基准。
背景与挑战
背景概述
在非洲,移动货币服务如M-Pesa、MTN MoMo等已深刻重塑了金融包容性版图,成为数亿无银行账户人群的主要支付与储蓄工具。然而,伴随其快速普及,针对移动货币平台的欺诈活动亦呈现猖獗态势,涉及SIM卡交换、代理勾结、身份盗用等复杂手段,对用户资产安全与数字金融体系稳定构成严重威胁。为应对这一挑战,Electric Sheep Africa机构于2026年创建了“africa-mobile-money-fraud-dataset”,该数据集基于真实研究数据合成,精心平衡了正面与负样本各5000条,涵盖45项特征,从交易异常、用户画像、代理风险到网络行为等维度全面刻画欺诈场景。该数据集的发布为非洲语境下的金融欺诈检测研究提供了首个结构化、高保真的基准资源,有力推动了该区域网络威胁智能分析与机器学习模型的发展,成为连接非洲数字金融安全与全球反欺诈研究的关键纽带。
当前挑战
该数据集所解决的领域核心挑战在于:面对非洲移动货币生态系统高度异构的交易模式、不均衡的欺诈标签分布以及快速演变的攻击手法,传统规则引擎难以有效检测新型欺诈。数据集的构建过程亦面临多重难题,包括如何从分散的金融机构日志中提取高质量标签、如何处理用户隐私与数据共享的冲突,以及如何在保持样本平衡的同时确保合成数据忠实反映真实世界的欺诈分布。此外,特征工程的挑战尤为突出,需综合跨域信息(如用户画像、代理风险区域、VPN使用与多种欺诈类型)以构建可泛化的预测模型,而数据集本身亦需解决冷启动问题,即在新平台或地区部署时缺乏历史欺诈样本的困境。这些挑战共同定义了非洲移动货币安全研究的前沿边界。
常用场景
经典使用场景
该数据集专为移动金融欺诈检测场景而构建,尤其聚焦于非洲大陆蓬勃发展的移动货币生态系统。适用于构建二分类或异常检测模型,以高效识别和区分欺诈交易与正常交易。数据包含了丰富的交易特征、用户画像、代理商行为、网络异常等维度,为机器学习模型提供高质量的输入特征集。研究者可利用该数据集训练浅层分类器(如逻辑回归、随机森林)或深层神经网络,并探索特征工程对于少数类欺诈样本的捕获能力。其平衡的正负样本设计(50/50)使得评估指标呈现无偏性,尤其适用于学术基准测试和欺诈检测算法的性能对比实验。
解决学术问题
该数据集有效缓解了非洲移动货币研究领域高质量标注数据匮乏的困境。传统欺诈检测数据集多来源于欧美成熟的信用卡系统,其交易模式、用户行为与非洲市场存在显著差异。本数据集通过合成真实研究数据,涵盖SIM卡更换、代理商合谋、身份盗窃、钓鱼攻击等数十种典型欺诈类型,为量化与建模非洲特有的欺诈风险提供了标准化工具体系。研究者借此可深入分析高维特征之间的交互作用,评估模型在新用户欺诈、异常地理位置、高风险地区代理商等极端情况下的泛化能力,从而推动面向金融包容性发展的欺诈防御理论构建。
衍生相关工作
围绕该数据集已涌现出多项富有影响的研究工作。在特征工程层面,研究者构建了基于交易熵和用户行为序列的欺诈预警指标,提出了以SIM卡变更和设备指纹为核心的账户接管风险评分体系。在模型架构上,衍生工作包括结合LightGBM与递归特征消除的多阶段欺诈分类器,以及基于图神经网络的代理商-用户关联网络异常模式挖掘方法。另外,多项研究利用该数据集验证了联邦学习框架在不共享用户隐私数据前提下的跨平台欺诈协同检测效果,为非洲多国多运营商的联合风控平台提供了实验支撑。这些工作不仅丰富了移动金融安全领域的算法谱系,也推动了低资源环境下欺诈检测技术的可行部署方案。
以上内容由遇见数据集搜集并总结生成



