five

africa-apt-espionage

收藏
Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-apt-espionage
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个合成的网络威胁情报数据集,专门用于模拟针对非洲19个国家的网络间谍活动和国家级高级持续性威胁(APT)行动。背景源于非洲日益成为网络间谍活动的重要战场,涉及全球主要大国和商业间谍软件供应商对非洲政府、电信、矿业和公民社会的针对性攻击。数据集建模了包括Lazarus(朝鲜)、APT41(中国)、APT28(俄罗斯)、Sidewinder(印度)、OilRig(伊朗)以及Mustang Panda、BackdoorDiplomacy、Turla等多个知名APT组织,同时也包含国内监控行为体和商业间谍软件(如NSO集团的Pegasus)的活动。数据规模为10,000行,正负样本平衡(APT攻击标记为1,合法活动标记为0),所有记录均为基于真实世界研究报告生成的合成数据(is_synthetic=1)。数据集以表格形式呈现,包含丰富的特征列,详细描述了每次事件的攻击属性(如目标国家、APT组织、归属国家、目标行业、攻击向量、恶意软件家族、战略目标)、技术复杂性指标(如MITRE ATT&CK战术数量、是否使用零日漏洞、自定义恶意软件、无文件攻击等)、攻击影响(如系统失陷数量、数据泄露量、财务损失、国家安全影响、外交事件)以及检测与响应情况(如是否被检测、检测时间、响应激活)。此外,README还提及了可从原始特征中提取的衍生特征,例如复杂度评分、隐身性指标、持久性指标、影响严重性评分、检测成熟度评分,以及对APT组织、归属国、目标行业、攻击向量等的独热编码表示。该数据集适用于表格分类任务,旨在支持网络安全研究、威胁情报分析、APT攻击检测模型开发以及针对非洲地缘政治网络威胁的风险评估。数据来源基于INTERPOL、卡巴斯基、Mandiant、ESET、Recorded Future、Citizen Lab、Amnesty International和MITRE ATT&CK等机构在2024-2025年发布的关于非洲网络威胁的公开报告和研究。

This dataset is a synthetic cyber threat intelligence dataset, specifically designed to simulate cyber espionage activities and state-sponsored Advanced Persistent Threat (APT) operations targeting 19 African countries. The background stems from Africas increasing role as a key battleground for cyber espionage, involving targeted attacks by global major powers and commercial spyware vendors against African governments, telecommunications, mining industries, and civil society. The dataset models multiple well-known APT groups, including Lazarus (North Korea), APT41 (China), APT28 (Russia), Sidewinder (India), OilRig (Iran), as well as Mustang Panda, BackdoorDiplomacy, and Turla, and also includes activities of domestic surveillance actors and commercial spyware (e.g., NSO Groups Pegasus). The dataset consists of 10,000 rows with balanced positive and negative samples (APT attacks labeled as 1, legitimate activities labeled as 0), and all records are synthetic data generated based on real-world research reports (is_synthetic=1). Presented in tabular format, it includes rich feature columns detailing each events attack attributes (e.g., target country, APT group, attributed country, target industry, attack vector, malware family, strategic objective), technical complexity indicators (e.g., number of MITRE ATT&CK tactics, use of zero-day vulnerabilities, custom malware, fileless attacks), attack impact (e.g., number of compromised systems, data exfiltration volume, financial loss, national security impact, diplomatic incidents), and detection and response details (e.g., whether detected, detection time, response activation). Additionally, the README mentions derivable features from the original ones, such as complexity scores, stealthiness indicators, persistence indicators, impact severity scores, detection maturity scores, and one-hot encodings for APT groups, attributed countries, target industries, and attack vectors. The dataset is suitable for tabular classification tasks, aiming to support cybersecurity research, threat intelligence analysis, APT attack detection model development, and risk assessment for geopolitical cyber threats in Africa. Data sources are based on public reports and studies on African cyber threats released in 2024-2025 by organizations such as INTERPOL, Kaspersky, Mandiant, ESET, Recorded Future, Citizen Lab, Amnesty International, and MITRE ATT&CK.
创建时间:
2026-05-13
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于真实世界的研究数据,采用合成生成方式构建,包含10,000条记录,正负样本比例为均衡的50/50。构建过程中,研究者参考了INTERPOL非洲网络安全评估报告、Kaspersky APT趋势报告、Mandiant M-Trends报告、ESET非洲威胁报告、Recorded Future的非洲APT态势分析、Citizen Lab的Pegasus/Predator监控项目、Amnesty International的数字监控报告以及MITRE ATT&CK框架等权威情报源,系统梳理了非洲大陆面临的网络间谍与国家级APT攻击场景,涉及中国、俄罗斯、朝鲜、以色列及非洲本土行为体等多方攻击者。每条记录均通过领域专家设计的多维特征模板生成,涵盖了攻击者归属、目标行业、攻击向量、恶意软件家族、战略目标等关键变量,确保数据具有高度的现实代表性。
特点
该数据集的核心特色在于其精细化的特征设计与多维度标签体系。除基础属性外,还提取了攻击复杂度(如零日漏洞利用、定制恶意软件使用)、隐蔽性(如加密C2、代理基础设施)、持久性(如战役时长)、规模(如受感染系统数)、数据窃取量、杀伤链覆盖度等衍生指标。数据集特别标注了雇佣军间谍软件、移动设备攻击、记者与活动家监控、人权关切等非洲特有的监控行为维度,并构建了APT威胁评分、国家安全风险评分、检测成熟度评分等复合评估指标。地域维度上细分为西非、东非、南非、北非,同时提供了19个目标国家的粒度标识,便于研究者开展区域化分析。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,调用`load_dataset("electricsheepafrica/africa-apt-espionage")`即可获得完整数据。该数据集设计为表格分类任务格式,标签列`label`标识APT攻击(1)与合法活动(0)。研究者可利用其丰富的特征进行二分类任务训练,也可基于APT集群、归属国、目标行业、攻击向量等单热编码特征开展多标签分类、异常检测或威胁建模研究。数据集还提供了战役持续时间、检测时间、经济损失等连续变量,适用于回归分析与时间序列建模。提取的特征如`apt_threat_score`和`detection_maturity_score`可直接用于构建威胁评估与安全态势感知系统,支持非洲区域网络安全领域的学术研究与实务应用。
背景与挑战
背景概述
在数字地缘政治博弈日趋激烈的当下,非洲大陆正沦为网络间谍活动与国家级高级持续性威胁(APT)角逐的新兴战场。由Electric Sheep Africa团队于2026年创建的africa-apt-espionage数据集,聚焦于非洲语境下国家支持的网络间谍与APT行动,涵盖来自中国、俄罗斯、朝鲜、伊朗、印度及各类雇佣间谍软件组织的复杂攻击模式。该数据集基于INTERPOL、Kaspersky、Mandiant、Citizen Lab等权威情报源的真实研究数据构建,系统性地模拟了针对非洲政府、电信、矿业及公民社会等关键领域的攻击行为。其核心研究问题在于揭示非洲特有的网络威胁格局,并探索针对性的检测与归因方法。作为非洲网络威胁情报系列的重要组成部分,该数据集为安全研究社区提供了首份结构化、可复现的非洲APT威胁数据资源,有力推动了该地区网络防御策略的实证研究与能力建设。
当前挑战
该数据集所面临的挑战兼具领域问题与构建过程双重维度。在领域问题层面,非洲网络威胁格局呈现明显的碎片化与多源化特征,攻击者既包括国家级APT组织,也涵盖雇佣间谍软件厂商和本地政府行为体,传统威胁情报模型难以捕捉这种复杂的多角色博弈与混合战术组合。数据构建过程的核心挑战在于:真实APT攻击数据极端稀缺且高度敏感,直接采集面临隐私与国家安全约束,因此必须依赖合成数据生成技术。然而,如何确保合成样本既能忠实反映真实威胁分布(如各APT组织在非洲特有的战术偏好、目标选择规律),又能规避伪造模式的倾向性偏差,是一项精妙的平衡。此外,数据集需标准化关联至MITRE ATT&CK框架的39项战术指标,但不同情报源对攻击手法的描述粒度不一,统一建模面临语义对齐与特征提取的深层困难。
常用场景
经典使用场景
该数据集主要服务于网络安全领域的机器学习研究,尤其是针对非洲大陆的国家级网络间谍活动与高级持续性威胁(APT)的检测与分类任务。研究人员可基于该数据集构建二分类模型,用于区分正常网络活动与由他国或非国家行为体发起的APT攻击。数据集提供了丰富的特征维度,包括攻击向量、恶意软件家族、MITRE ATT&CK战术覆盖、系统受损规模、数据泄露量等,使得模型能够捕捉从初始入侵到数据外泄的完整攻击生命周期特征。同时,依托其10,000条均衡合成的样本,该数据集特别适合用于训练和评估在低资源、高对抗性环境下有效的威胁检测算法,为非洲区域网络安全态势感知提供了基准测试平台。
解决学术问题
该数据集有效填补了非洲区域APT攻击领域系统化、标准化数据集的空白,解决了长期以来学术研究中因缺乏高质量标注数据而难以定量分析非洲网络威胁的困境。它使研究者能够深入探究不同国家背景的APT组织(如中国APT41、俄罗斯APT28、朝鲜Lazarus等)在非洲的地域行为偏好、攻击行业选择以及战术技术流程差异。此外,数据集支持对间谍软件(如Pegasus、Predator)的机制分析,为研究商业监控工具对非洲公民社会和人权的影响提供了可计算样本。其合成数据基于权威情报来源生成,确保了可复现的、安全的研究环境,推动了针对非洲这一新兴网络战场的大规模实证研究。
衍生相关工作
基于该数据集,学术界已衍生出多项经典工作。MITRE ATT&CK框架在非洲语境下的映射与扩展研究是其中重要分支,研究者通过分析数据集中战术阶段分布,构建了针对非洲APT的专用攻击知识库。在零信任架构领域,该数据集被用于研究动态安全策略与攻击检测点的优化布置。同时,基于APT威胁评分(apt_threat_score)和检测成熟度评分(detection_maturity_score),出现了多篇聚焦于国家网络安全能力成熟度建模的论文。在可解释AI方向,利用该数据集的特征重要性分析,研究者揭示了不同APT组织在非洲的差异化行为模式,为黑箱检测模型提供了可解释性增强方案。此外,数据集中涉及的金融损失字段推动了APT攻击经济成本建模领域的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作