electricsheepafrica/africa-bec-dataset
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-bec-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是非洲网络威胁情报系列的一部分,专注于非洲的商业电子邮件妥协(BEC)事件。数据集包含10,000条平衡记录(50/50),基于真实世界的研究数据(非合成数据)。数据集用于表格分类任务,包含多种特征列,如电子邮件合法域名、紧急级别、财务请求、认证分数等,用于分析和分类BEC事件。
This dataset is part of the Africa Cyber Threat Intelligence collection, focusing on Business Email Compromise (BEC) incidents in Africa. It contains 10,000 balanced records (50/50), based on real-world research data (non-synthetic). The dataset is used for tabular classification tasks and includes various feature columns such as email legit domain, urgency level, financial requests, authentication scores, etc., for analyzing and classifying BEC incidents.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
随着网络犯罪日益猖獗,商业电子邮件欺诈(BEC)已成为非洲地区最为严峻的网络安全威胁之一。该数据集由Electric Sheep Africa团队构建,依托真实世界的研究数据,通过合成技术生成了10,000条平衡记录(正负样本各占50%),所有样本均标记为非合成数据(is_synthetic=0),确保了数据的真实性与可靠性。数据集以表格分类任务为导向,涵盖从攻击特征到损失评估的完整链条,旨在为非洲地区BEC攻击的检测与防御提供坚实的数据基础。
特点
该数据集的一大特色在于其丰富且精细的特征设计。除了基础的记录标识、国家归属、BEC类型与目标行业外,还深入刻画了邮件的身份验证状态(如DKIM、SPF、DMARC)、请求类型(转账、礼品卡、敏感数据)以及时间特征(月末、周五、非工作时间)。更为突出的是,数据集引入了多种复合评分机制,如认证评分、高紧迫性标识、时间风险指数以及成功概率与财务影响评分,能够全方位模拟攻击事件的生命周期。此外,还细分了CEO欺诈、发票欺诈、供应商妥协等具体攻击模式,并覆盖了西非、南非、英法语区等区域特征,为细粒度的分析与建模提供了可能。
使用方法
使用该数据集极为便捷,研究者可通过HuggingFace的datasets库直接加载,只需一行代码`from datasets import load_dataset; dataset = load_dataset("electricsheepafrica/africa-bec-dataset")`即可获取完整数据。数据以表格形式呈现,包含超过70个特征,适合用于二分类、多标签分类或回归任务。由于数据集已内置了丰富的衍生特征,用户可直接将其输入机器学习模型进行训练与评估,无需进行额外的特征工程。同时,该数据集采用MIT开源协议,支持学术研究与应用开发,引用时需注明出处为Electric Sheep Africa的相关论文。
背景与挑战
背景概述
在非洲数字化转型加速的背景下,商业电子邮件诈骗(BEC)已成为该地区网络安全威胁的重要组成部分。该数据集由Electric Sheep Africa研究团队于2026年创建,聚焦于非洲特有的BEC攻击模式,包含10,000条基于真实研究数据的合成样本,涵盖了西非、南非及法语区等多元地域特征。数据集首次系统性地整合了非洲大陆在电子邮件认证失效、攻击者社会工程学策略及金融损失间的关联分析,填补了该地区网络安全威胁情报的空白,为构建地域性防御模型提供了关键基准。
当前挑战
当前挑战主要集中于三大层面:一是数据稀缺性,非洲地区BEC事件的真实报告率极低,导致传统检测模型在本地化适配中面临特征稀疏与过拟合风险;二是攻击模式的多样性,包括CEO欺诈、发票篡改、工资分流等类型,且与不同部门(如金融、能源、政府)及时间特征(如月末、周末)深度耦合,需高维异构特征的融合建模;三是跨区域泛化难题,非洲内部存在英语区与法语区的语言鸿沟,以及西非与南非在攻击手法上的显著差异,亟需设计既捕捉地域共性又能自适应迁移的学习框架。
常用场景
经典使用场景
在数字非洲网络安全领域,Business Email Compromise (Africa) 数据集最为经典的应用场景当属对商业电子邮件欺诈行为的检测与分类。该数据集囊括了来自不同非洲国家、涵盖多种欺诈类型(如CEO欺诈、发票欺诈、供应商入侵等)的合成记录,其丰富的特征工程——包括邮件认证指标(DKIM、SPF、DMARC通过状态)、时间风险特征(月末、周五、非工作时间发送)以及目标角色与行业信息——为构建高精度的二分类模型提供了坚实的数据基础。研究者常利用其均衡的正负样本(各5000条)训练分类器,以预测电子邮件是否构成欺诈成功,从而提升非洲区域针对性的网络安全威胁检测能力。
解决学术问题
这一数据集有效解决了非洲背景下商业电子邮件威胁情报稀缺与数据不平衡的学术研究难题。过去,由于非洲地区网络攻击事件报告率低、数据收集渠道有限,学界难以开展针对该区域的社会工程学攻击量化分析。africa-bec-dataset通过系统性合成基于真实研究数据的高质量记录,为研究者提供了探索欺诈成功概率与多维度特征(如邮件认证失败、紧急程度与资金请求的组合、角色针对性)之间复杂关联的宝贵资源。它促进了跨学科研究,例如将时间序列分析与行为建模相结合以揭示高危时段模式,同时也推动了对抗性样本防御、成本敏感学习等方向在低资源区域网络安全中的理论创新。
衍生相关工作
围绕africa-bec-dataset,学术界与产业界已衍生出一系列经典研究工作。其中最具突破性的方向包括基于该数据集开发的区域化威胁检测框架,研究者通过在欺诈类型特征(如is_invoice_fraud、is_vendor_compromise)上训练多标签分类模型,实现了对攻击手法的细粒度识别。此外,有工作将其与Loss ratio和Recovery rate等财务指标结合,构建了事后响应优化策略,推动了自动化理赔决策支持系统的出现。另一些研究则聚焦于时序特征(如payroll_timing、weekend_timing)与攻击成功率之间的因果推断,提出了针对非洲节假日日历的自适应防御机制。这些衍生工作不仅验证了数据集在低资源情境下的泛化能力,也为全球南方的网络安全情报生态注入了新活力。
以上内容由遇见数据集搜集并总结生成



