electricsheepafrica/africa-phishing-dataset
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-phishing-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是非洲网络威胁情报系列的一部分,专注于网络钓鱼和社会工程攻击。数据集包含10,000条平衡记录(50/50),所有记录均基于真实世界的研究数据(非合成数据)。数据集包含多种特征列,如钓鱼类型、目标行业、诱饵主题、冒充品牌、语言等,以及各种行为指标和风险评估分数。数据集可用于表格分类任务,帮助研究人员和分析师更好地理解和预测网络钓鱼攻击的模式和效果。
This dataset is part of the Africa Cyber Threat Intelligence collection, focusing on phishing and social engineering attacks. It contains 10,000 balanced records (50/50), all based on real-world research data (non-synthetic). The dataset includes various feature columns such as phishing type, target sector, lure topic, impersonated brand, language, and multiple behavioral indicators and risk assessment scores. It is designed for tabular classification tasks, aiding researchers and analysts in better understanding and predicting patterns and effects of phishing attacks.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在网络安全威胁日益严峻的背景下,针对非洲地区的钓鱼与社会工程学攻击数据集应运而生。该数据集名为africa-phishing-dataset,由Electric Sheep Africa团队精心构建,属于非洲网络威胁情报系列的一部分。其构建方式基于真实世界的研究数据,所有记录均为非合成数据(is_synthetic=0),共包含10,000条均衡分布的样本(正负样本比例为50/50)。数据集通过研究性采集(Acquisition: RESEARCH)获得,涵盖了来自非洲多个国家的钓鱼攻击实例,旨在为区域性的网络威胁分析提供可靠的数据基础。
特点
该数据集在特征设计上展现出高度的专业性与细致度。除了基本信息如记录ID、国家、钓鱼类型、目标行业和诱饵主题外,还深入刻画了攻击链中的关键环节,包括邮件的投递、打开、点击及凭证提交等行为指标。数据集特别包含了丰富的安全检测特征,如恶意链接、恶意附件、域名可疑性、紧急语言使用及拼写错误等。此外,还提供了多维度分类标签,涵盖钓鱼、鱼叉式钓鱼、短信钓鱼、语音钓鱼以及社交媒体和移动应用攻击等多种威胁形态,并针对金融、政府、电信、医疗等关键基础设施行业进行了目标标识。
使用方法
使用该数据集进行模型训练与评估极为便捷。研究人员可通过HuggingFace的datasets库直接加载,只需一行Python代码即可获取完整数据:`from datasets import load_dataset` 后执行 `dataset = load_dataset("electricsheepafrica/africa-phishing-dataset")`。由于数据集以表格分类(tabular-classification)形式呈现,适用于构建基于特征工程的机器学习模型,如逻辑回归、随机森林或梯度提升树等。数据集的均衡分布特性使其在训练过程中无需额外处理类别不平衡问题,可直接用于二分类任务的模型开发、特征重要性分析以及区域性的网络钓鱼威胁态势评估。
背景与挑战
背景概述
在非洲大陆数字化转型加速的背景下,网络安全威胁尤其是钓鱼攻击与社会工程学攻击日益猖獗,但针对该区域的系统性研究数据集极度匮乏。由Electric Sheep Africa机构于2026年创建并发布的Africa Phishing Dataset,正是为填补这一空白而生的结构化数据集。该数据集包含10,000条均衡样本(正负样本比50/50),覆盖西非、东非、南非、北非等区域,包含英语、法语、阿拉伯语、阿姆哈拉语及斯瓦希里语等多语言环境下的钓鱼攻击特征。其核心研究问题聚焦于非洲独特的社会文化、经济及语言环境如何塑造钓鱼攻击的行为模式与传播路径,提供了诸如伪装品牌、紧急语言特征、交付率、点击率等丰富的特征变量。该数据集对网络安全领域的影响力在于:为针对非洲区域的钓鱼检测模型、威胁情报分析及区域攻击模式挖掘提供了可靠的基础标注数据,弥补了全球网络安全数据集长期忽视非洲地区的结构性缺失。
当前挑战
该数据集面临的挑战主要体现在两个层面:一是所解决的领域问题——非洲钓鱼攻击的检测与防御面临地域性痛点。非洲大陆多语言、低数字素养、银行业与电信业快速扩张但安全防护滞后,使得钓鱼攻击手段高度多样且难以建模。传统模型基于欧美样本训练,在非洲场景下的泛化能力极差。数据集通过引入多语言特征、区域标签、品牌伪装类型等维度,首次提供了针对性训练数据,但语言分布不均(英语为主)与攻击类型的时间漂移仍是待解难题。二是构建过程中的挑战:数据来源于真实研究资料,但全量样本为合成数据(is_synthetic=0),如何确保合成的逼真度与场景覆盖率?同时,面对非洲各国法律差异与数据私隐限制,在保持50个以上特征维度的前提下规避敏感信息泄露,并捕捉动态演变的钓鱼策略如社交平台与移动端攻击,对标注者提出了极高要求。
常用场景
经典使用场景
在网络安全的浩瀚疆域中,网络钓鱼攻击始终是威胁用户隐私与资产安全的核心挑战之一。africa-phishing-dataset作为非洲网络威胁情报系列的重要组成部分,为学术界与工业界提供了一个专注于非洲语境的钓鱼攻击分类数据集。该数据集包含10,000条均衡的正负样本,涵盖国家、目标行业、诱饵主题、伪装品牌等多维度特征,尤其适用于构建基于表格数据的二分类模型,以精准识别钓鱼攻击行为并评估其成功概率。这一场景不仅推动了机器学习在网络安全领域的经典应用,更填补了非洲地区针对性钓鱼数据资源的空白。
实际应用
在实际应用中,该数据集赋能安全运营团队与风险管理部门,构建针对非洲区域的智能钓鱼检测系统。通过分析邮件、短信、语音和社交媒体等多元攻击载体,结合金融、政府、电信、医疗等关键行业的特征,系统可实时识别高峰期钓鱼激增、高价值目标定向攻击等异常模式。企业可据此优化邮件过滤规则、用户行为分析模型与员工安全培训方案,显著降低凭证泄露与经济损失。此外,结合内容风险评分与成功可能性预测,安全产品能动态调整防御策略,为非洲数字化转型中的机构提供定制化防护,切实增强区域网络韧性。
衍生相关工作
该数据集的出现催生了众多衍生性研究,推动安全社区深入理解非洲语境下的钓鱼攻击生态。经典工作包括基于特征重要性的钓鱼行为预测模型,利用漏斗指标与内容特征构建攻击成功概率的鲁棒估计器;以及跨区域对比研究,揭示非洲与全球其他地区在目标行业、伪装品牌及语言差异上的独特模式。此外,针对该数据生成的合成数据扩展版本和公平性评估基准,被用于检验模型在少数族群语种(如阿姆哈拉语、斯瓦希里语)下的泛化能力,促进了面向多元语言环境的安全算法发展,进一步巩固了地域定制化威胁情报的理论与实践基础。
以上内容由遇见数据集搜集并总结生成



