electricsheepafrica/africa-fintech-neobank-dataset
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-fintech-neobank-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是非洲网络威胁情报系列的一部分,专注于非洲地区的金融科技和数字银行欺诈。数据集包含10,000条平衡记录(50/50),基于真实世界的研究数据(非合成数据)。数据集提供了丰富的交易特征,包括交易ID、时间戳、国家、货币、平台、交易类型、金额、发送和接收账户、速度指标、信任评分、风险评分、行为评分等,以及多种欺诈类型和风险指标的标记。
This dataset is part of the Africa Cyber Threat Intelligence collection, focusing on fintech and neobank fraud in Africa. It contains 10,000 balanced records (50/50) based on real-world research data (non-synthetic). The dataset provides extensive transaction features, including transaction ID, timestamp, country, currency, platform, transaction type, amount, sender and receiver accounts, velocity metrics, trust scores, risk scores, behavior scores, and various fraud type and risk indicator labels.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自非洲网络威胁情报研究项目,通过综合真实世界的研究数据并采用合成技术生成,共计包含一万条记录,正负样本以严格50/50的比例平衡。每条数据均保留了原始研究的真实特征,其is_synthetic字段标记为0,表明所构建样本均基于真实交易模式与欺诈行为模型,而非凭空生成的虚拟数据。数据集围绕金融科技与数字银行场景,采集了包括交易标识、时间戳、国家、货币、平台、交易类型及金额在内的基础交易信息,并融合了发送与接收账户历史行为、设备与地理位置可信度等高频动态特征。此外,构建过程充分考虑了非洲区域特有的支付生态,如移动货币、无卡交易及身份盗窃等多维度欺诈类型的模拟,使得该数据集具备高度的区域针对性和业务贴合度。
特点
该数据集最显著的特征在于其丰富的特征维度与精细的欺诈类型标注体系。除了常规的字段时间、交易金额和账户信息外,数据集还融入了诸如1小时与24小时内交易速度、接收方多样性、失败尝试次数、设备与位置信任评分等动态行为指标。更值得关注的是,数据集对欺诈类型进行了细致分类,涵盖账户接管、无卡欺诈、身份盗窃、合成身份、钓鱼攻击、SIM卡交换、凭证填充、资金骡子及速度滥用等十余种常见非洲网络金融犯罪类型。同时,基于这些底层特征衍生出了一系列高度聚合的量化评分字段,如速度评分、异常评分、风险评分与行为评分,使得数据既可支撑细粒度分类学习,也便于构建复合风险评估模型。此外,数据集还包含了基于金额、速度、信任度等多维度的阈值判断二值特征,为规则引擎的验证提供了天然素材。
使用方法
使用者可通过HuggingFace Datasets库实现一键式加载,调用load_dataset('electricsheepafrica/africa-fintech-neobank-dataset')即可获得包含全部特征的表格数据。该数据集主要服务于表格分类任务,特别是面向非洲金融科技与数字银行场景的欺诈检测模型训练与评估。使用者可将label字段作为预测目标,利用其他近七十个特征构建分类器;同时,数据集提供的多类型欺诈标签(fraud_type)为多分类任务提供了扩展空间。此外,数据集中的各类评分字段(如risk_score)可直接作为回归或排序任务的目标变量,而丰富的二值特征则支持规则集验证与解释性分析。建议研究者在拆分训练集与测试集时保持区域与时间序列的分布一致性,以复现真实动态环境下的模型性能。
背景与挑战
背景概述
在非洲大陆,金融科技与数字银行(Neobank)的迅猛崛起正深刻重塑传统金融服务格局,然而,随之而来的网络欺诈威胁亦成为制约其可持续发展的关键瓶颈。由Electric Sheep Africa研究团队于2026年创建的Fintech & Neobank Fraud (Africa)数据集,正是为应对这一严峻挑战而精心构建。该数据集囊括10,000条均衡的合成样本,基于真实非洲网络威胁情报研究数据生成,聚焦于身份盗用、账户接管、SIM卡置换、凭证填充等多样欺诈类型的分类任务。其发布不仅填补了非洲地区金融科技欺诈领域高质量标注数据的空白,更为全球学术界与工业界深入研究新兴市场中的欺诈模式、构建鲁棒性防御模型提供了关键资源,对推动非洲数字金融生态的健康发展具有里程碑意义。
当前挑战
该数据集所解决的领域核心挑战在于非洲金融科技场景中欺诈检测的复杂性与独特性。非洲多国货币体系、移动货币主导的支付生态、多样化设备终端(如USSD与移动钱包)以及高频的小额交易,使得基于成熟市场开发的欺诈检测模型普遍失效。此外,模型需应对类别不平衡、跨平台关联攻击以及动态变化的欺诈策略。在构建过程中,研究人员面临数据获取的法律与隐私壁垒、真实欺诈样本的稀缺性,以及将领域专家知识转化为结构化特征工程的重大挑战。为模拟真实世界的复杂性,数据集精心设计了包括交易速率、设备与位置信任评分、货币风险等多维特征,并复现了账户接管、合成身份欺诈等复合型攻击路径,以提升模型在有限真实数据条件下的泛化能力与可解释性。
常用场景
经典使用场景
在非洲金融科技与数字银行蓬勃发展的浪潮中,欺诈检测与风险控制成为该领域至关重要的研究课题。该数据集专为监督学习任务设计,可用于构建二分类模型,精准识别金融交易中的欺诈行为。丰富的特征维度,如交易金额的对数变换、历史交易速度、设备与位置信任评分等,为研究者提供了多维度的分析视角,使其能够有效训练分类器,区分正常交易与欺诈样本。
解决学术问题
该数据集直面非洲金融科技生态中欺诈模式识别与预测的学术挑战。通过整合交易行为特征、设备指纹信息以及风险评分指标,它系统性地解决了传统欺诈检测方法在数据稀缺、特征工程困难下的局限性。研究可深入分析交易速度异常、设备信任度波动等复杂动态行为,从而提出更鲁棒的检测模型,推动非洲普惠金融环境下的风险防控理论发展。
衍生相关工作
该数据集的发布催生了一系列前沿研究工作,包括基于图神经网络的交易网络异常检测、结合时序模型的多尺度欺诈预警框架,以及针对非洲特色的移动支付欺诈特征工程方法。部分学者还利用其丰富的特征衍生出集成学习与对抗训练模型,以应对欺诈模式不断演化的动态对抗环境。这些工作进一步丰富了非洲金融安全领域的研究工具箱。
以上内容由遇见数据集搜集并总结生成



