five

HAI (HIL-based Augmented ICS) Security Dataset

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/icsdataset/hai
下载链接
链接失效反馈
官方服务:
资源简介:
HAI数据集是从一个真实的工业控制系统(ICS)测试平台收集的,该平台通过硬件在环(HIL)模拟器增强了蒸汽涡轮发电和抽水蓄能水电发电的模拟。

The HAI dataset is collected from a real industrial control system (ICS) test platform, which is enhanced by a hardware-in-the-loop (HIL) simulator to simulate steam turbine power generation and pumped-storage hydroelectric power generation.
创建时间:
2020-02-06
原始信息汇总

HAI (HIL-based Augmented ICS) Security Dataset 概述

数据集背景

  • 2017年:启动了三个实验室规模的CPS测试平台,包括GE的涡轮测试平台、Emerson的锅炉测试平台和FESTO的模块化生产系统(MPS)水处理测试平台。
  • 2018年:构建了一个复杂的过程系统,使用HIL模拟器结合三个系统,模拟热电和抽水蓄能水电的生成。安装了OPC-UA网关以促进来自异构设备的数据收集。
  • 数据集版本
    • HAI 1.0:2020年2月发布,包含38次攻击的ICS操作数据。
    • HAI 20.07:HAI 1.0的调试版本,于2020年8月发布。
    • HAI 21.03:2021年发布,基于更紧密耦合的HIL模拟器,提供更清晰的攻击效果和额外攻击。
    • HAI 22.04:包含更复杂的攻击,检测难度约为HAI 21.03的四倍。
    • HAI/HAIEnd 23.05:2022年开发,用于ICS端点威胁检测,包括锅炉DCS内部控制逻辑的更多点。

HAI测试平台

  • 锅炉过程(P1):使用Emerson Ovation DCS控制。
  • 涡轮过程(P2):使用GE的Mark VIe DCS控制。
  • 水处理过程(P3):使用Siemens的S7-300 PLC控制。
  • HIL模拟(P4):使用dSPACE的SCALEXIO系统进行模拟,通过Siemens S7-1500 PLC和ET200远程IO设备与真实世界过程互连。

HAI数据集

  • 数据集版本:已发布四个版本,每个版本包含多个CSV文件,满足时间连续性。
  • 数据字段:每个CSV文件的第一列表示观测时间,其余列提供记录的SCADA数据点。最后四列提供数据标签,指示是否发生攻击。

数据集获取

  • 使用git clone命令从GitHub克隆数据集。
  • 从HAI 22.04版本开始,使用git lfs pull下载实际文件内容。

性能指标

  • 推荐使用eTaPR(Enhanced Time-series Aware Precision and Recall)指标评估异常检测模型。

使用该数据集的项目

  • 列出了从2020年到2023年使用该数据集的多个研究项目和实验。
搜集汇总
数据集介绍
main_image_url
构建方式
HAI数据集通过在现实工业控制系统(ICS)测试平台上结合硬件在环(HIL)模拟器构建而成。该测试平台包括锅炉、涡轮机和水处理过程,并通过HIL模拟器模拟蒸汽涡轮发电和抽水蓄能水力发电。数据集的构建始于2017年,最初使用三个实验室规模的CPS测试平台,随后在2018年通过HIL模拟器将这些系统整合,确保变量高度耦合和相关,以生成更丰富的数据集。数据收集通过OPC-UA网关从异构设备中进行,确保数据的连续性和完整性。
特点
HAI数据集的特点在于其高度现实性和复杂性,通过HIL模拟器增强了ICS操作数据的丰富性和多样性。数据集包含正常和异常情况下的操作数据,涵盖多种攻击场景,从HAI 1.0到HAI 23.05,版本不断更新,攻击复杂度逐渐增加,检测难度也随之提升。此外,HAI数据集提供了Python NetworkX图数据,有助于分析和优化异常检测性能。
使用方法
使用HAI数据集时,用户可以通过GitHub或Kaggle下载数据,使用git clone命令克隆仓库,并通过git lfs pull下载实际文件内容。数据集以CSV文件形式提供,每个文件满足时间连续性,包含时间戳和SCADA数据点。推荐使用eTaPR(Enhanced Time-series Aware Precision and Recall)指标评估异常检测模型,确保与其他研究的性能比较公平。数据集适用于多种工业控制系统安全相关的研究和实验,支持机器学习和深度学习模型的训练和验证。
背景与挑战
背景概述
HAI (HIL-based Augmented ICS) Security Dataset 是由硬件在环(HIL)模拟器增强的工业控制系统(ICS)测试平台收集的数据集。该数据集的核心研究问题在于通过模拟真实的工业控制系统环境,提供丰富的操作数据和异常情况数据,以支持工业控制系统安全领域的研究。数据集的创建始于2017年,由多个实验室规模的CPS测试平台启动,随后在2018年通过HIL模拟器构建了更为复杂的系统。HAI数据集自2020年首次发布以来,已历经多个版本的迭代,最新版本HAI 23.05于2022年发布,旨在进一步提高攻击检测的难度和复杂性。该数据集的主要研究人员和机构通过不断更新和优化数据集,显著推动了工业控制系统安全领域的发展。
当前挑战
HAI数据集在构建过程中面临多项挑战。首先,如何通过HIL模拟器精确模拟复杂的工业控制系统环境,确保数据的真实性和可靠性,是一大技术难题。其次,随着数据集版本的更新,攻击的复杂性和隐蔽性不断增加,导致异常检测的难度显著提升。例如,HAI 22.04版本的检测难度约为HAI 21.03版本的四倍。此外,数据集的多样性和大规模性也对数据处理和分析提出了高要求。最后,如何在保证数据质量的同时,提供易于使用的数据格式和工具,以便研究人员能够高效地进行实验和验证,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在工业控制系统(ICS)安全领域,HAI数据集的经典使用场景主要集中在异常检测和入侵检测。通过模拟真实的工业控制环境,该数据集提供了丰富的正常和异常操作数据,使得研究人员能够开发和验证各种异常检测算法。例如,基于时间序列分析、机器学习和深度学习的方法,可以有效地识别出系统中的异常行为,从而提高ICS的安全性。
实际应用
在实际应用中,HAI数据集被广泛用于工业控制系统的安全监控和威胁检测。通过分析数据集中的时间序列数据,企业可以实时监控其工业控制系统的运行状态,及时发现并应对潜在的安全威胁。此外,该数据集还支持开发定制化的安全解决方案,以满足不同工业环境下的特定需求,从而提升整体工业控制系统的安全性和可靠性。
衍生相关工作
基于HAI数据集,许多经典工作得以衍生和发展。例如,研究人员开发了多种异常检测算法,如基于深度学习的异常检测模型和基于时间序列分析的方法。此外,HAI数据集还促进了跨学科研究,如将控制理论与网络安全相结合,推动了工业控制系统安全领域的发展。这些工作不仅提升了异常检测的准确性和效率,还为工业控制系统的安全提供了新的理论和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作