electricsheepafrica/africa-malware-dataset

Name: electricsheepafrica/africa-malware-dataset
Creator: electricsheepafrica
Published: 2026-05-07 16:51:49
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/electricsheepafrica/africa-malware-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为恶意软件分发网络（非洲），是非洲网络威胁情报系列的一部分。数据集包含10,000条平衡记录（50/50），来源于现有数据集（is_synthetic标志不一）。数据集专注于非洲的网络安全，特别是恶意软件分发网络，适用于表格分类任务。特征列表包括与恶意软件特性、检测方法和目标行业相关的各种属性。

The dataset, named Malware Distribution Networks (Africa), is part of the Africa Cyber Threat Intelligence collection. It contains 10,000 balanced records (50/50), sourced from existing datasets (is_synthetic flags vary). The dataset focuses on cybersecurity in Africa, specifically on malware distribution networks, and is suitable for tabular classification tasks. The features list includes various attributes related to malware characteristics, detection methods, and target sectors.

提供机构：

electricsheepafrica

搜集汇总

数据集介绍

构建方式

非洲恶意软件分发网络数据集源自现有安全数据源的整合，经过精心的平衡采样构建而成。该数据集包含10,000条记录，以均衡的50/50比例划分正负样本，确保分类任务的公正性。每条数据均包含丰富的结构化特征，涵盖恶意软件家族、MITRE攻击技术、传递向量、目标行业、文件属性及多种检测指标。数据集中设有'synthetic'标志位，用以标识每条记录的来源性质，为研究者提供透明的数据出处信息。

特点

该数据集以非洲网络威胁情报为核心视角，共包含超过80个精心设计的特征维度，全面刻画恶意软件分发的多维属性。特征体系覆盖恶意软件技术特征（如加壳、混淆、加密、持久化、C2通信）、检测方式的多样化（签名、启发式、行为、沙箱）、攻击传递途径（邮件、网页、USB等）以及目标行业分类。此外，还引入了地理位置（非洲区域划分）、时间因素（检测时刻、工作日/周末）和风险评分（如恶意软件复杂度、检测难度、威胁严重性），构建了高度专业化的非洲网络威胁分析基准。

使用方法

研究者可通过HuggingFace的datasets库便捷加载该数据集，只需调用`load_dataset("electricsheepafrica/africa-malware-dataset")`即可获得完整的表格分类数据。数据集可直接用于训练机器学习模型，完成恶意软件分类、威胁检测难度预测、区域威胁模式分析等任务。由于特征中包含了丰富的地理、时间和攻击向量信息，特别适用于研究非洲地区独特的网络威胁生态，以及开发面向非洲网络安全场景的防御模型。数据以MIT开源协议发布，便于学术研究和工业应用。

背景与挑战

背景概述

网络威胁情报是网络安全领域的核心研究主题，尤其针对地域性恶意软件分发网络的建模与分析具有重要意义。由Electric Sheep Africa于2026年创建的africa-malware-dataset，旨在填补非洲地区恶意软件数据集的空白，为跨区域网络攻击模式研究提供结构化数据支持。该数据集包含10,000条均衡样本，覆盖多种恶意软件家族、攻击向量及检测特征，结合非洲特有的互联网基础设施与匿名化技术使用情况，为理解该地区新兴网络威胁生态提供了关键资源。其影响力体现在推动地域性威胁建模、促进安全社区对非洲网络空间的关注，并为后续基于机器学习的恶意软件检测研究奠定了数据基础。

当前挑战

该数据集面临的核心挑战在于所解决的领域问题：非洲地区网络安全监测数据稀缺，现有数据集多聚焦欧美网络环境，导致针对非洲恶意软件分发网络的特征提取与防御模型泛化能力不足。同时，数据构建中需克服数据采集的伦理与法律限制，确保匿名化处理不影响威胁分类准确性；合成数据与真实样本的混合（is_synthetic标志）要求模型能区分噪声与有效信号。此外，特征维度高达80余项，涵盖地理、时间、传播机制及检测结果等异构范畴，如何在有限样本量下实现高效特征选择与降维，以及处理标签不平衡（部分恶意家族样本量稀少），是构建稳健分类器的关键难点。

常用场景

经典使用场景

在网络安全研究领域，africa-malware-dataset被广泛用于构建面向非洲区域恶意软件的二进制分类与威胁评估模型。该数据集提供了10,000条经过平衡处理（正负样本各占50%）的结构化记录，涵盖文件类型、传播途径、目标行业、隐匿技术、破坏行为等丰富特征，特别适用于训练基于树模型、深度神经网络或集成学习的恶意软件检测系统。研究者常利用其包含的MITRE ATT&CK技术映射与非洲地域特征标签（如IP属地、匿名化工具使用），开展区域化威胁情报分析与恶意软件家族识别任务，以提升在非洲网络环境下检测未知恶意样本的鲁棒性。

实际应用

在企业安全运营中心（SOC）与非洲本地互联网服务提供商中，该数据集可用于搭建针对性的威胁狩猎与预警系统。基于其包含的64维特征，安全团队能够自动识别携带隐匿技术（如混淆、加密、持久化机制）且指向非洲行业关键基础设施（金融、政府、医疗）的高级恶意样本。此外，数据集中的时间维度特征（检测时刻、周末/夜间标志）还可用于分析攻击者的行为周期模式，辅助构建动态防护策略，从而在真实流量中优先阻断高风险家族，降低误报率，提升区域网络生态的整体防御效能。

衍生相关工作

受africa-malware-dataset启发，后续涌现出多项围绕非洲网络威胁情报的拓展性研究。例如，部分工作基于该数据集的特征工程框架，融合多源暗网论坛数据构建了面向非洲地域的恶意软件传播网络预测模型；另有学者将其作为基准训练集，进一步提出结合图神经网络的攻击源头溯源方法，用于映照不同非洲国家间的恶意代码传播链条。此外，该数据集还催生了面向低算力环境（如移动设备）的轻量级恶意软件分类器设计，以及针对非洲金融木马家族演变规律的长时序分析工作，显著丰富了区域化网络安全实证研究的内涵与外延。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集