five

electricsheepafrica/africa-ip-reputation-dataset

收藏
Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-ip-reputation-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是非洲网络威胁情报(Africa Cyber Threat Intelligence)系列的一部分,专注于IP信誉和威胁情报。数据集包含10,000行数据,平衡分布为50/50。数据来源于现有数据集(is_synthetic标志各异)。数据集包含多个特征,如IP地址、威胁类别、目标国家、目标行业、情报来源、首次出现时间、最后出现时间、活动天数、置信度、严重性等。此外,还包括多个二进制标志和评分指标,如是否为Tor出口节点、是否为VPN、是否为代理、是否包含恶意软件哈希等。数据集还提供了威胁量评分、基础设施风险、目标风险评分和信誉评分等高级指标。

This dataset is part of the Africa Cyber Threat Intelligence collection, focusing on IP reputation and threat intelligence. It contains 10,000 rows with a balanced 50/50 distribution. Records are sourced from existing datasets (is_synthetic flags vary). The dataset includes various features such as IP addresses, threat categories, target countries, target sectors, intelligence sources, first seen, last seen, days active, confidence, severity, and more. Additionally, it includes multiple binary flags and scoring metrics, such as whether the IP is a Tor exit node, VPN, proxy, has malware hash, etc. The dataset also provides advanced metrics like threat volume score, infrastructure risk, target risk score, and reputation score.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集隶属于非洲网络威胁情报系列,由Electric Sheep Africa团队构建。数据集包含10,000条记录,以50/50的比例平衡正负样本,确保了分类任务的公正性。数据来源为现有数据集的整合,部分记录带有合成标识(is_synthetic),以区分原始情报与扩充样本。每条样本涵盖IP地址、威胁类别、威胁行为体、目标国家与行业等核心字段,并通过多维度特征工程衍生出诸如匿名化标识、恶意软件散列、Tor出口节点判断、VPN与代理识别等安全指标。此外,数据集还引入了基于置信度、严重性、活跃时长、报告数量等数值的衍生特征,以及针对非洲区域特定行为体的标记字段,如非洲行为体、目标非洲国家等,从而构建起一个兼具区域针对性与通用分析能力的威胁情报库。
特点
该数据集最显著的特点在于其聚焦非洲地区的网络威胁态势,通过大量二值化与数值化特征实现了细粒度的IP信誉评估。样本包含超过60个字段,不仅覆盖了基础威胁类别(如C2服务器、钓鱼主机、恶意软件分发、暴力破解等),还引入了复合风险评分(威胁量评分、基础设施风险、目标风险评分、信誉评分),便于进行多视角的量化分析。数据集的平衡设计使其适用于二分类任务,而丰富的特征集则支持多分类与排序场景。此外,通过标记数据来源类型(商业情报、OSINT、非洲CERT),增强了数据的可审计性与信任度。整体而言,该数据集为研究非洲地区网络威胁行为模式提供了高价值的结构化训练资源。
使用方法
使用者可通过HuggingFace datasets库便捷加载该数据集,具体代码为:load_dataset('electricsheepafrica/africa-ip-reputation-dataset')。加载后得到的数据对象可直接用于表格分类模型的训练与评估。建议优先利用label字段作为目标变量开展监督学习,同时可借助is_synthetic字段过滤或分析合成数据对模型的影响。丰富的数值与二值特征便于进行特征选择、降维或构建混合模型。由于数据已内置部分衍生指标(如高严重性、关键威胁标识等),研究者亦可直接将其作为自监督学习或异常检测的输入。该数据集以MIT许可证开放,适合学术研究与工业应用中的威胁情报分析任务。
背景与挑战
背景概述
随着全球网络威胁态势的日益复杂,非洲大陆作为数字化转型的活跃区域,其网络基础设施面临持续增长的恶意活动冲击。然而,现有威胁情报数据集多集中于北美、欧洲等地区,针对非洲本地化IP信誉与威胁特征的系统性研究显著匮乏。在此背景下,Electric Sheep Africa团队于2026年发布了非洲IP信誉数据集(africa-ip-reputation-dataset),旨在填补这一关键空白。该数据集包含10,000条平衡样本,涵盖IP地址、威胁类别、威胁行为体、目标国家与行业、活跃时长、置信度及严重性等多维特征,并衍生出匿名化、命令与控制、钓鱼主机、恶意软件分发、暴力破解、DDoS、扫描、代理、挖矿、勒索、垃圾邮件、凭证填充、数据泄露、APT基础设施、僵尸网络、漏洞利用等细分标签,以及商业、OSINT和非洲CERT等来源标识。这一开创性资源为跨文化网络安全研究提供了基础,促进了非洲地区威胁情报的量化分析与模型训练,推动了全球网络安全防御体系的区域化精细化发展。
当前挑战
该数据集所解决的领域核心挑战在于:现有威胁情报资源在非洲地区的覆盖严重不足,导致面向新兴数字市场的入侵检测与风险预警模型缺乏本地化训练数据,误判率与漏报率居高不下。构建过程中,团队面临多重技术与非技术难题。首先,需要从分散的商业情报源、开放威胁情报平台以及非洲各国CERT报告中整合异构数据,处理格式不统一与标识冲突问题,确保特征一致性与标签可信度。其次,10,000条样本需在恶意与非恶意类别间实现严格平衡,同时兼顾威胁种类多样性(如APT、挖矿、勒索等44种特征)与地域代表性(非洲IP与目标非洲双重标识),对采样策略提出高要求。再者,合成数据的引入(is_synthetic标志)虽扩充了样本量,但需谨慎评估其对模型泛化能力的潜在偏差。此外,时间敏感性(first_seen与last_seen字段)与活跃度指标(days_active)的精确标注,要求构建流程具备持续跟踪与版本迭代能力,以确保数据集的现实关联性与研究时效性。
常用场景
经典使用场景
在网络安全的广袤领域中,非洲大陆因其独特的地缘政治与数字生态,正逐渐成为网络威胁活动的新兴焦点。该数据集专为非洲地区的IP信誉与威胁情报分析而设计,是机器学习与网络安全交叉研究的宝贵资源。其经典的使用场景聚焦于基于多维特征的恶意IP二分类任务,研究人员可利用其中包含的IP地址、威胁类别、严重程度、活跃天数、目标国家与行业等数十项特征,构建高性能的分类模型,以精准区分正常IP与具有各类恶意行为(如僵尸网络、钓鱼托管、暴力破解、勒索软件节点)的威胁IP。数据集经过精心平衡(50/50正负样本),为模型训练提供了稳健的基础,尤其适合探索非洲特有网络威胁模式与全球恶意活动的差异。
解决学术问题
该数据集致力于解决网络安全学术研究中长期存在的区域数据稀疏与威胁情报不平衡难题。传统威胁情报数据集多聚焦于欧美或全球视角,导致针对非洲地区IP信誉建模的研究因缺少高质量、标注完善的本地化数据而举步维艰。该数据集通过整合来自商业情报源、开源情报(OSINT)及非洲CERT机构的多元化信息,并引入合成标志(is_synthetic)以透明化数据来源,有效弥补了非洲网络威胁智能体的知识鸿沟。它使得研究者能够量化分析非洲IP被用作C2服务器、APT基础设施或加密货币挖矿节点的风险特征,推动了对新兴经济体中网络犯罪生态系统的系统性理解,为构建更公平、更具地域覆盖度的全球威胁情报模型奠定了数据基石。
衍生相关工作
该数据集自发布以来,已衍生出多项具有启发性的研究工作。基于其丰富的特征空间与区域专属属性,研究者构建了面向非洲网络的轻量级恶意IP检测模型,通过特征工程(如匿名化标志is_anonymized、Tor出口节点识别is_tor_exit等)实现了在低计算资源环境下的高效推理。同时,部分工作利用该数据集探索了威胁传播的时间动态,将first_seen与last_seen字段用于时序图神经网络,勾勒出非洲恶意IP的生命周期演变规律。此外,该数据集还催生了关于非洲与非非洲IP威胁行为镜像分析的对比研究,揭示了发达国家攻击基础设施向非洲跳板迁移的隐秘模式,为跨国网络犯罪溯源提供了新颖的数据驱动视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作