electricsheepafrica/africa-healthcare-cyber-dataset

Name: electricsheepafrica/africa-healthcare-cyber-dataset
Creator: electricsheepafrica
Published: 2026-05-07 16:46:42
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/electricsheepafrica/africa-healthcare-cyber-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是非洲网络威胁情报系列的一部分，名为“医疗保健网络安全（非洲）”。它是一个合成数据集，包含10,000条平衡记录。数据集涵盖了非洲医疗保健网络安全的多个方面，包括设施类型、安全措施、威胁向量和风险评分等。数据集适用于表格分类任务，采用MIT许可。

This dataset is part of the Africa Cyber Threat Intelligence collection, titled Healthcare Cybersecurity (Africa). It is a synthetic dataset containing 10,000 balanced records. The dataset covers various aspects of healthcare cybersecurity in Africa, including facility types, security measures, threat vectors, and risk scores. It is intended for tabular classification tasks and is licensed under MIT.

提供机构：

electricsheepafrica

搜集汇总

数据集介绍

构建方式

在全球网络安全威胁日益严峻的背景下，非洲医疗行业面临着独特且严峻的挑战。为弥补该区域网络安全数据集匮乏的困境，Electric Sheep Africa团队构建了africa-healthcare-cyber-dataset，一个面向非洲医疗机构的网络安全分类数据集。该数据集全部采用合成生成方式（is_synthetic=1），包含10,000条样本，正负标签比例为均衡的50/50。构建过程基于对非洲医疗系统典型特征与威胁模型的深入理解，系统性地模拟了从国家、设施类型、医疗设备到安全控制措施等多个维度的属性组合，确保了数据在反映非洲医疗网络安全生态方面的代表性。

特点

该数据集的一大特色在于其多维度的特征体系，涵盖了地理区域、医疗系统类型、设备暴露情况、安全防御措施、事件记录与威胁类型等近百个字段。特别引入了派生特征如security_posture_score、vulnerability_score和healthcare_risk_score，能够综合评估医疗机构的整体安全态势。此外，数据集还包含了丰富的二值化指示变量，例如针对不同威胁向量（勒索软件、数据泄露、设备劫持等）以及医疗信息系统类型（OpenMRS、DHIS2、EMR等）的标记，使得研究者可以灵活开展细分领域的分类与预测任务。

使用方法

研究者可通过HuggingFace Datasets库轻松加载该数据集，使用命令`load_dataset("electricsheepafrica/africa-healthcare-cyber-dataset")`即可获取。数据以表格形式呈现，可直接应用于监督学习中的二分类任务，目标是预测`label`字段表示的网络安全事件发生情况。由于数据集中包含了丰富且结构化的安全控制与威胁特征，研究者可以基于此构建风险评估模型、防御措施有效性分析系统，或是开展非洲医疗网络安全态势的量化研究。数据集在MIT许可下开放使用，并鼓励引用相关文献以支持学术诚信。

背景与挑战

背景概述

该数据集由Electric Sheep Africa于2026年创建，聚焦于非洲地区医疗卫生系统的网络安全威胁情报。非洲医疗行业在数字化转型过程中面临独特的网络风险，如勒索软件、数据泄露和设备劫持等攻击日益频繁，但针对该地域与场景的公开数据集极为匮乏。该数据集以合成方式生成了10,000条平衡样本（正负样本各半），涵盖肯尼亚、尼日利亚、南非等50余个国家的医疗机构特征，包括医院、诊所、远程医疗平台等八类设施，并构建了安全态势、脆弱性、影响及综合风险四种评分指标。作为非洲网络威胁情报系列的一部分，它为研究资源受限环境下的医疗网络安全检测与防御提供了关键基础，填补了该领域数据稀缺的空白。

当前挑战

该数据集的核心挑战在于非洲医疗网络安全的独特领域问题：相比发达国家，非洲医疗机构普遍面临安全预算极低、审计逾期、补丁缺失及过时系统等严峻风险，传统基于北美或欧洲情境构建的检测模型难以直接迁移。构建过程中，由于真实攻击数据涉及隐私与安全敏感性，难以大规模采集，团队采用了全合成生成策略，需确保模拟数据能合理反映非洲各区域（西非、东非、南非等）的设施类型、威胁向量与安全防护配置差异，避免引入地域或设施类型的系统性偏差。此外，数据集的实用性依赖于合成样本与真实场景的保真度，如何验证其与现实威胁态势的吻合性，并兼顾低资源设施中的可部署性，是推广与应用中的核心考验。

常用场景

经典使用场景

在非洲医疗行业数字化转型的浪潮中，网络安全威胁日益严峻，该数据集作为首例聚焦非洲大陆医疗体系的合成网络安全数据集，为研究者提供了涵盖多维度安全指标的标准化分类任务平台。其经典用法在于构建监督学习模型，预测医疗机构是否遭受网络攻击（二分类标签），通过丰富的特征工程，如防火墙配置、入侵检测系统部署、加密策略、备份机制、访问控制级别等基础设施变量，以及勒索软件、数据泄露、设备劫持等多种威胁向量的指示变量，实现精准的风险评估与攻击预测。

解决学术问题

该数据集直面非洲医疗领域网络安全研究中的数据匮乏与隐私壁垒困境，通过合成数据生成技术，系统性地解决了真实医疗数据难以获取、标注成本高昂等核心学术障碍。研究者可借此深入剖析不同医疗设施类型（公立医院、私立诊所、远程医疗平台等）、地理区域（西非、东非、南非等）与卫生信息系统（OpenMRS、DHIS2等）之间的脆弱性差异，从而量化安全态势与攻击风险之间的关联机制，为资源受限环境下的安全策略优化提供实证基础。

衍生相关工作

该数据集已衍生出多项具有代表性的研究工作，包括基于特征重要性的安全态势评分模型构建、面向不同非洲区域的安全策略对比分析，以及结合设备暴露与人员密度的复合风险评分体系。研究者还利用其进行异常检测算法的鲁棒性测试，对比随机森林、XGBoost及轻量级神经网络在类别不平衡与合成样本分布下的性能表现。此外，该数据集被应用于开发可解释性网络安全仪表盘，可视化展示医疗设施的攻击面与防御效能缺口。

以上内容由遇见数据集搜集并总结生成