africa-egov-public-sector-breaches

Hugging Face2026-05-15 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-egov-public-sector-breaches

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成的表格分类数据集，专注于模拟和分析针对非洲地区电子政务平台及公共部门数字系统的网络攻击与数据泄露事件。随着非洲各国政府加速数字化转型（如国民身份证系统、数字税务门户、电子采购、选民登记），其数字系统面临巨大的安全攻击面，但安全投入普遍不足。数据集旨在捕捉非洲特有的网络威胁模式，涵盖了南非、尼日利亚、肯尼亚、埃塞俄比亚、加纳、卢旺达等多个国家的具体攻击案例，例如针对司法部门、医疗实验室、税务系统、选民数据库等关键基础设施的攻击。数据集包含10,000条记录，正负样本平衡（50/50），所有记录均为基于真实世界研究报告生成的合成数据（is_synthetic=1）。每条记录代表一个可能的事件，并通过一个二分类标签（`label`）标识是否为攻击事件（1表示攻击，0表示合法）。数据特征非常丰富，涵盖了攻击事件的多个维度：基本事件信息（如记录ID、国家、攻击类型、受攻击的政府系统、政府层级）、攻击详情（如威胁行为者类型、暴露的数据类型、受影响公民数量、暴露记录数、数据大小、是否利用了已知漏洞、是否涉及社会工程或内部人员等）、系统安全状况（如被攻击系统在事件前是否具备加密、多因素认证、Web应用防火墙、补丁策略、备份、事件响应计划、安全审计等安全控制措施，以及是否存在首席信息安全官角色、是否遵守数据保护法规）、攻击影响与后果（如服务停机时间、经济损失、公民服务是否中断、是否影响选举进程、是否构成国家安全风险、是否导致身份盗用风险、公众信任是否受损等）、事件响应与恢复（如是否被检测到、检测来源、检测时间、是否启动事件响应、是否聘请外部取证、执法部门是否介入、是否通知数据保护机构和公民、系统是否恢复、恢复时间等）。此外，README还提及了从这些原始特征中可能提取出的高级特征，例如安全态势评分、攻击复杂程度、影响严重性评分、响应成熟度评分、电子政务威胁评分、治理差距评分等。该数据集适用于网络安全研究、威胁情报分析、机器学习模型训练（如攻击检测、风险预测、影响评估），特别有助于理解非洲公共部门在数字治理背景下面临的独特安全挑战和防御缺口。数据生成参考了国际电信联盟（ITU）、世界银行、国际刑警组织（INTERPOL）、非洲联盟等多个权威机构发布的最新研究报告。

This dataset is a synthetic tabular classification dataset focused on simulating and analyzing cyber attacks and data breach incidents targeting e-government platforms and public sector digital systems in Africa. With African governments accelerating digital transformation (e.g., national ID systems, digital tax portals, e-procurement, voter registration), their digital systems face significant security attack surfaces, but security investments are generally insufficient. The dataset aims to capture Africa-specific cyber threat patterns, covering specific attack cases in multiple countries such as South Africa, Nigeria, Kenya, Ethiopia, Ghana, and Rwanda, including attacks on critical infrastructure like judicial departments, medical laboratories, tax systems, and voter databases. The dataset contains 10,000 records with balanced positive and negative samples (50/50), all of which are synthetic data generated based on real-world research reports (is_synthetic=1). Each record represents a potential event and is labeled with a binary classification (`label`) indicating whether it is an attack event (1 for attack, 0 for legitimate). The data features are very rich, covering multiple dimensions of attack events: basic event information (e.g., record ID, country, attack type, attacked government system, government level), attack details (e.g., threat actor type, exposed data type, number of affected citizens, number of exposed records, data size, whether known vulnerabilities were exploited, whether social engineering or insiders were involved), system security status (e.g., whether the attacked system had security controls such as encryption, multi-factor authentication, web application firewall, patch policy, backups, incident response plan, security audits before the event, as well as the presence of a Chief Information Security Officer role and compliance with data protection regulations), attack impact and consequences (e.g., service downtime, economic loss, whether citizen services were disrupted, whether election processes were affected, whether it posed a national security risk, whether it led to identity theft risks, whether public trust was damaged), and incident response and recovery (e.g., whether detected, detection source, detection time, whether incident response was initiated, whether external forensics were hired, whether law enforcement was involved, whether data protection agencies and citizens were notified, whether the system was restored, recovery time). Additionally, the README mentions potential advanced features that can be extracted from these raw features, such as security posture score, attack complexity level, impact severity score, response maturity score, e-government threat score, and governance gap score. This dataset is suitable for cybersecurity research, threat intelligence analysis, and machine learning model training (e.g., attack detection, risk prediction, impact assessment), particularly helpful for understanding the unique security challenges and defense gaps faced by African public sectors in the context of digital governance. The data generation references the latest research reports from multiple authoritative organizations such as the International Telecommunication Union (ITU), the World Bank, INTERPOL, and the African Union.

创建时间：

2026-05-13

搜集汇总

数据集介绍

构建方式

该数据集源自《非洲网络威胁情报》系列，由Electric Sheep Africa团队以合成方式构建，共包含10,000条记录，正负样本均衡分布（50/50）。所有数据均为合成生成（is_synthetic=1），但严格基于真实世界的研究资料，涵盖ITU全球网络安全指数2024、世界银行非洲数字政府准备度评估2024、国际刑警组织非洲网络威胁评估2025等权威来源，以及Recorded Future、KnowBe4、Check Point Research等安全厂商的威胁报告。数据构建过程模拟了非洲各国电子政务平台及公共部门系统遭遇的多类网络攻击，包括数据泄露、勒索软件、网站篡改、DDoS、SQL注入、凭证填充、内部数据泄漏、API利用、零日漏洞等12种攻击类型，并针对国家身份证登记、选民注册、税务门户、医疗信息系统、土地登记等12类关键政府系统进行建模。每条记录包含60余项特征，细致刻画了攻击特征、安全防护措施、事件响应、政治影响、公民影响等多维信息，并衍生出安全态势评分、攻击复杂度、影响严重性、响应成熟度等复合指标。

使用方法

使用者可通过HuggingFace datasets库一键加载该数据集，仅需执行`from datasets import load_dataset`及`dataset = load_dataset("electricsheepafrica/africa-egov-public-sector-breaches")`即可获取完整数据。数据集以表格分类任务形式呈现，适用于多种下游分析与建模场景。其丰富的二值特征（如system_had_encryption、ciso_role_exists、politically_motivated等）可直接用于分类模型的输入，而label列（1=攻击，0=合法）则作为监督学习的目标变量。特别地，数据集内置的多种衍生特征与复合评分，如attack_sophistication、impact_severity_score、response_maturity_score等，便于研究人员直接开展攻击态势评估、安全治理差距分析、事件影响预测等深度分析。此外，数据集中还包含了攻击类型和政府系统类别的独热编码特征，支持多分类与多标签学习任务，而区域标志（如is_west_africa）则允许进行地理区域对比分析。对于需要复现或扩展研究的用户，数据集的MIT开源许可及完整参考文献索引提供了良好的可追溯性与合规使用基础。

背景与挑战

背景概述

2026年，由Electric Sheep Africa团队构建的africa-egov-public-sector-breaches数据集，聚焦于非洲国家电子政务与公共部门数字化进程中的网络安全威胁。随着非洲各国加速推行数字身份系统、税务门户、电子采购及选民登记平台，缺乏基本安全控制的政务系统成为网络攻击的重灾区。该数据集基于ITU全球网络安全指数、世界银行数字政府评估及INTERPOL非洲网络威胁评估等权威来源，模拟了南非、尼日利亚、肯尼亚等20个国家的12类攻击模式与13类政务系统靶标，为研究非洲独特的网络威胁格局提供了结构化基准，填补了该地区政务网络安全领域高质量数据的空白。

当前挑战

该数据集面临的核心挑战在于，非洲电子政务安全领域长期存在治理缺口——超60%的平台缺乏基本防护，且多数政府机构未设首席信息安全官。其构建过程需模拟真实攻击样本，涵盖从国家身份数据库泄露到选举干预的复杂场景，同时平衡50/50的正负样本比例以支持分类任务。此外，数据合成依赖于跨境情报源（如国际刑警组织报告）的时效性与准确性，并需在有限公开漏洞报告中提炼攻击者战术、系统脆弱性和治理缺失间的因果关联，这对数据集的代表性、完整性与可迁移性提出了严苛要求。

常用场景

经典使用场景

在非洲数字政务加速转型的浪潮中，该数据集是构建非洲电子政务与公共部门网络安全威胁检测与分类模型的珍贵资源。研究人员能够利用其包含的十二种攻击类型与十二类政府系统标签，训练针对特定领域（如国家身份证系统、选民登记数据库或税收门户）的入侵检测、异常识别与威胁归因算法。数据集中丰富的安全控制特征（如是否启用了加密、多因素认证或补丁策略）为评估不同防护水平下的攻击成功率提供了基础，使得模型不仅能分辨攻击与否，还能揭示脆弱性与攻击形态之间的深层关联。此外，基于地理分布与政府层级维度的分析，使其成为研究非洲数字治理薄弱环节与区域性攻击模式的理想平台，尤其适用于构建面向资源有限环境的轻量化防御模型。

解决学术问题

该数据集直面非洲电子政务系统安全研究中长期存在的数据匮乏与场景碎片化困境。传统网络安全数据集大多以西方信息系统为蓝本，忽略了非洲大陆特有的政企数字化生态——例如选民数据库被武器化用于政治干预、国家身份证泄露导致大规模身份盗窃，以及超过60%的政务平台缺乏基础安全控制。通过合成但高度逼真的十万条样本，该数据集首次系统性地量化了这些区域特性，使得研究者能够实证检验安全治理缺口（如首席信息安全官缺位、事件响应预案缺失）与攻击严重后果（如选举干扰、公共服务中断）之间的因果路径。它填补了针对新兴经济体关键基础设施的威胁建模空白，为比较政治学、公共管理与网络安全领域的交叉研究提供了可复现的实证基础。

实际应用

在实际场景中，该数据集可直接赋能非洲各国政府机构与区域网络安全运营中心（CSIRT）的威胁情报能力建设。通过在离线或隔离环境中训练分类模型，团队可以实时监测政务门户的异常流量，自动识别勒索软件加密行为、SQL注入尝试或API端点劫持等攻击形态，尤其在缺乏专业安全运维人员的地方政府中，这种预测性预警机制能显著缩短平均检测时间。数据集还支持对供应商外包系统、关键信息基础设施的漏洞暴露面进行模拟推演，辅助决策者制定差异化的安全投资优先级——例如判断是将有限预算优先投入生物特征数据加密，还是构建国会级事件响应团队。对于多国协作的跨境数字倡议（如非洲联盟单一航空运输市场或大陆自贸区电子支付网络），该数据集也是评估供应链安全风险与开展红蓝对抗演练的高效工具。

数据集最近研究