five

Electrical Substations Cybersecurity Dataset

收藏
github2024-10-07 更新2024-10-08 收录
下载链接:
https://github.com/esguti/cybersecurity-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于训练和评估电力变电站网络安全机器学习模型,包含IEC61850和IEC104协议的网络捕获数据。

This dataset is intended for training and evaluating machine learning models for cybersecurity in power substations, and contains network traffic capture data compliant with the IEC 61850 and IEC 104 protocols.
创建时间:
2024-10-06
原始信息汇总

数据集概述

研究背景

该数据集是研究工作“基于机器学习模型的电力变电站入侵检测系统训练数据集”的一部分,目前正在等待出版批准。数据集旨在训练和评估用于电力变电站网络安全的机器学习模型。

数据格式

  • 数据集文件格式:PCAP 或 PCAPNG
  • 数据来源:IEC61850 或 IEC60870-5-104(也称为 IEC104)

数据处理工具

  • tshark:用于预处理脚本
  • Sanicap:用于匿名化处理
  • Cicflowmeter:用于特征提取

数据处理流程

  1. 过滤与分割:使用 Wireshark 的 tshark 工具进行过滤,并将大文件分割为 10GB 的单元。
  2. 合并:将分割后的文件合并。
  3. 匿名化:使用 Sanicap 工具对 PCAPNG 文件进行匿名化处理。
  4. 生成 CSV:根据 IEC104 和 IEC61850 协议提取特征,并生成 CSV 文件。

数据集使用

  • 机器学习算法测试:使用 Python 脚本执行机器学习算法来测试数据集。
  • 标签生成:根据文件名中的最后一个“-”符号后的文本生成标签,用于标识攻击类型或无攻击。

环境要求

  • Python 及其相关库
  • GPU(非强制,但推荐)

安装与执行

  • 安装工具:包括 tshark、Sanicap 和 Cicflowmeter。
  • 安装 Python 和库:使用 CONDA 创建虚拟环境,并安装所需的 Python 库。
  • 执行 IDS:激活虚拟环境后,运行 pycaret_ids.py 脚本进行数据集测试。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对电力变电站网络捕获数据的预处理和特征提取。具体而言,数据集包括从IEC61850和IEC60870-5-104协议中提取的网络流量数据,这些数据以PCAP格式存储。通过使用tshark工具进行过滤和分割,将大型PCAP文件分割为10GB的单元,随后进行合并和匿名化处理。特征提取阶段,针对IEC104和IEC61850协议分别使用CICFlowMeter和tshark工具,最终生成包含攻击标签的CSV文件。
特点
该数据集的显著特点在于其针对电力变电站网络安全的专门设计。数据集涵盖了IEC61850和IEC60870-5-104两种协议的网络流量,提供了丰富的特征数据。此外,数据集经过严格的匿名化处理,确保了数据的安全性和隐私保护。标签化的设计使得数据集能够直接用于训练入侵检测系统,特别是基于机器学习模型的检测系统。
使用方法
使用该数据集时,首先需要安装必要的工具和依赖,如tshark、Sanicap和CICFlowMeter。随后,通过执行预处理脚本对PCAP文件进行过滤、分割和合并。特征提取阶段,根据协议类型选择相应的脚本生成CSV文件。最后,利用IDS文件夹中的Python脚本,可以对生成的CSV数据集进行机器学习模型的训练和评估。特别地,设置use_gpu=True参数可以利用GPU加速计算。
背景与挑战
背景概述
电力变电站网络安全数据集(Electrical Substations Cybersecurity Dataset)是针对电力变电站网络入侵检测系统(IDS)训练的机器学习模型而创建的数据集。该数据集的研究工作目前正在等待发表批准,其核心研究问题是如何利用机器学习模型有效识别和防御电力变电站中的网络攻击。该数据集的构建涉及对IEC61850和IEC60870-5-104(即IEC104)协议的网络捕获数据进行预处理和测试,旨在为电力变电站的网络安全提供强有力的技术支持。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据集的来源是基于PCAP格式的网络捕获数据,这些数据需要经过复杂的预处理步骤,包括过滤、分割、合并和匿名化,以确保数据的质量和安全性。其次,由于电力变电站网络数据的特殊性,特征提取过程需要区分IEC104和IEC61850协议,这增加了数据处理的复杂性。此外,数据集的构建还需要考虑如何有效地标记攻击类型,以便机器学习模型能够准确识别和分类不同的网络攻击。
常用场景
经典使用场景
在电力系统安全领域,Electrical Substations Cybersecurity Dataset 主要用于训练和评估基于机器学习模型的入侵检测系统。该数据集通过处理来自IEC61850或IEC60870-5-104协议的网络捕获文件,提取关键特征,进而用于训练多种机器学习算法,如Pycaret、lazypredict等,以识别和防御电力变电站中的网络攻击。
实际应用
在实际应用中,Electrical Substations Cybersecurity Dataset 被广泛用于电力公司和网络安全企业的入侵检测系统开发。通过使用该数据集训练的模型,能够实时监控电力变电站的网络流量,及时发现并响应潜在的网络威胁,确保电力供应的连续性和稳定性。此外,该数据集还支持政府和研究机构进行网络安全策略的制定和评估。
衍生相关工作
基于Electrical Substations Cybersecurity Dataset,研究者们开发了多种先进的入侵检测系统,并发表了一系列相关论文。例如,有研究利用该数据集训练深度学习模型,显著提升了检测精度;还有工作结合强化学习,实现了自适应的入侵防御策略。这些衍生工作不仅丰富了电力系统网络安全的研究内容,也为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作