five

HAI (HIL-based Augmented ICS) Security Dataset|工业控制系统安全数据集|硬件在环模拟数据集

收藏
github2024-05-23 更新2024-05-31 收录
工业控制系统安全
硬件在环模拟
下载链接:
https://github.com/icsdataset/hai
下载链接
链接失效反馈
资源简介:
HAI数据集是从一个真实的工业控制系统(ICS)测试平台收集的,该平台通过硬件在环(HIL)模拟器增强了蒸汽涡轮发电和抽水蓄能水电发电的模拟。

The HAI dataset is collected from a real industrial control system (ICS) test platform, which is enhanced by a hardware-in-the-loop (HIL) simulator to simulate steam turbine power generation and pumped-storage hydroelectric power generation.
创建时间:
2020-02-06
原始信息汇总

HAI (HIL-based Augmented ICS) Security Dataset 概述

数据集背景

  • 2017年:启动了三个实验室规模的CPS测试平台,包括GE的涡轮测试平台、Emerson的锅炉测试平台和FESTO的模块化生产系统(MPS)水处理测试平台。
  • 2018年:构建了一个复杂的过程系统,使用HIL模拟器结合三个系统,模拟热电和抽水蓄能水电的生成。安装了OPC-UA网关以促进来自异构设备的数据收集。
  • 数据集版本
    • HAI 1.0:2020年2月发布,包含38次攻击的ICS操作数据。
    • HAI 20.07:HAI 1.0的调试版本,于2020年8月发布。
    • HAI 21.03:2021年发布,基于更紧密耦合的HIL模拟器,提供更清晰的攻击效果和额外攻击。
    • HAI 22.04:包含更复杂的攻击,检测难度约为HAI 21.03的四倍。
    • HAI/HAIEnd 23.05:2022年开发,用于ICS端点威胁检测,包括锅炉DCS内部控制逻辑的更多点。

HAI测试平台

  • 锅炉过程(P1):使用Emerson Ovation DCS控制。
  • 涡轮过程(P2):使用GE的Mark VIe DCS控制。
  • 水处理过程(P3):使用Siemens的S7-300 PLC控制。
  • HIL模拟(P4):使用dSPACE的SCALEXIO系统进行模拟,通过Siemens S7-1500 PLC和ET200远程IO设备与真实世界过程互连。

HAI数据集

  • 数据集版本:已发布四个版本,每个版本包含多个CSV文件,满足时间连续性。
  • 数据字段:每个CSV文件的第一列表示观测时间,其余列提供记录的SCADA数据点。最后四列提供数据标签,指示是否发生攻击。

数据集获取

  • 使用git clone命令从GitHub克隆数据集。
  • 从HAI 22.04版本开始,使用git lfs pull下载实际文件内容。

性能指标

  • 推荐使用eTaPR(Enhanced Time-series Aware Precision and Recall)指标评估异常检测模型。

使用该数据集的项目

  • 列出了从2020年到2023年使用该数据集的多个研究项目和实验。
AI搜集汇总
数据集介绍
main_image_url
构建方式
HAI数据集通过在现实工业控制系统(ICS)测试平台上结合硬件在环(HIL)模拟器构建而成。该测试平台包括锅炉、涡轮机和水处理过程,并通过HIL模拟器模拟蒸汽涡轮发电和抽水蓄能水力发电。数据集的构建始于2017年,最初使用三个实验室规模的CPS测试平台,随后在2018年通过HIL模拟器将这些系统整合,确保变量高度耦合和相关,以生成更丰富的数据集。数据收集通过OPC-UA网关从异构设备中进行,确保数据的连续性和完整性。
特点
HAI数据集的特点在于其高度现实性和复杂性,通过HIL模拟器增强了ICS操作数据的丰富性和多样性。数据集包含正常和异常情况下的操作数据,涵盖多种攻击场景,从HAI 1.0到HAI 23.05,版本不断更新,攻击复杂度逐渐增加,检测难度也随之提升。此外,HAI数据集提供了Python NetworkX图数据,有助于分析和优化异常检测性能。
使用方法
使用HAI数据集时,用户可以通过GitHub或Kaggle下载数据,使用git clone命令克隆仓库,并通过git lfs pull下载实际文件内容。数据集以CSV文件形式提供,每个文件满足时间连续性,包含时间戳和SCADA数据点。推荐使用eTaPR(Enhanced Time-series Aware Precision and Recall)指标评估异常检测模型,确保与其他研究的性能比较公平。数据集适用于多种工业控制系统安全相关的研究和实验,支持机器学习和深度学习模型的训练和验证。
背景与挑战
背景概述
HAI (HIL-based Augmented ICS) Security Dataset 是由硬件在环(HIL)模拟器增强的工业控制系统(ICS)测试平台收集的数据集。该数据集的核心研究问题在于通过模拟真实的工业控制系统环境,提供丰富的操作数据和异常情况数据,以支持工业控制系统安全领域的研究。数据集的创建始于2017年,由多个实验室规模的CPS测试平台启动,随后在2018年通过HIL模拟器构建了更为复杂的系统。HAI数据集自2020年首次发布以来,已历经多个版本的迭代,最新版本HAI 23.05于2022年发布,旨在进一步提高攻击检测的难度和复杂性。该数据集的主要研究人员和机构通过不断更新和优化数据集,显著推动了工业控制系统安全领域的发展。
当前挑战
HAI数据集在构建过程中面临多项挑战。首先,如何通过HIL模拟器精确模拟复杂的工业控制系统环境,确保数据的真实性和可靠性,是一大技术难题。其次,随着数据集版本的更新,攻击的复杂性和隐蔽性不断增加,导致异常检测的难度显著提升。例如,HAI 22.04版本的检测难度约为HAI 21.03版本的四倍。此外,数据集的多样性和大规模性也对数据处理和分析提出了高要求。最后,如何在保证数据质量的同时,提供易于使用的数据格式和工具,以便研究人员能够高效地进行实验和验证,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在工业控制系统(ICS)安全领域,HAI数据集的经典使用场景主要集中在异常检测和入侵检测。通过模拟真实的工业控制环境,该数据集提供了丰富的正常和异常操作数据,使得研究人员能够开发和验证各种异常检测算法。例如,基于时间序列分析、机器学习和深度学习的方法,可以有效地识别出系统中的异常行为,从而提高ICS的安全性。
实际应用
在实际应用中,HAI数据集被广泛用于工业控制系统的安全监控和威胁检测。通过分析数据集中的时间序列数据,企业可以实时监控其工业控制系统的运行状态,及时发现并应对潜在的安全威胁。此外,该数据集还支持开发定制化的安全解决方案,以满足不同工业环境下的特定需求,从而提升整体工业控制系统的安全性和可靠性。
衍生相关工作
基于HAI数据集,许多经典工作得以衍生和发展。例如,研究人员开发了多种异常检测算法,如基于深度学习的异常检测模型和基于时间序列分析的方法。此外,HAI数据集还促进了跨学科研究,如将控制理论与网络安全相结合,推动了工业控制系统安全领域的发展。这些工作不仅提升了异常检测的准确性和效率,还为工业控制系统的安全提供了新的理论和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录