ICS-Flow|工业控制系统安全数据集|机器学习入侵检测数据集
收藏arXiv2023-05-11 更新2024-06-21 收录
下载链接:
https://www.kaggle.com/datasets/alirezadehlaghi/icssim
下载链接
链接失效反馈资源简介:
ICS-Flow数据集是由瑞典梅拉达伦大学创新、设计与工程学院的研究人员创建,旨在为工业控制系统(ICS)的机器学习入侵检测技术提供评估基准。该数据集包含网络数据和过程状态变量日志,用于监督和非监督的机器学习入侵检测系统评估。数据集中的网络数据包括从模拟ICS组件和仿真网络捕获的正常和异常网络数据包和流量。异常是通过各种攻击技术注入系统的,这些技术常被黑客用于修改网络流量和破坏ICS。此外,研究团队还开发了开源工具“ICSFlowGenerator”,用于从原始网络数据包生成网络流量参数。最终数据集包含超过2500万个原始网络数据包、网络流量记录和过程变量日志。该数据集可用于训练入侵检测机器学习模型,并已公开在Kaggle平台上。
提供机构:
瑞典梅拉达伦大学创新、设计与工程学院
创建时间:
2023-05-11
AI搜集汇总
数据集介绍

构建方式
ICS-Flow数据集的构建基于ICSSIM框架,该框架能够模拟定制化的虚拟工业控制系统安全测试平台。研究者首先在模拟环境中模拟了瓶装厂的生产流程,并使用Modbus协议进行网络通信。随后,研究者实施了四种类型的网络攻击:侦察、重放攻击、分布式拒绝服务攻击(DDoS)和中间人攻击。为了便于机器学习模型的分析,研究者开发了ICSFlowGenerator工具,用于从原始网络数据中提取网络流特征。最终,ICS-Flow数据集包含了超过2500万个原始网络数据包、网络流记录和进程变量日志。
特点
ICS-Flow数据集具有以下特点:1)数据集包含多种网络流特征,能够捕捉工业控制系统网络行为的不同方面;2)数据集中的异常数据是通过模拟现实攻击场景生成的,而非合成数据,更具现实代表性;3)数据集未经过匿名化处理,提供了完整的网络流数据、进程状态快照、攻击日志和工业控制系统组件信息;4)数据集提供了多种标签策略,包括注入时间(IT)和网络安全工具(NST),以支持不同的机器学习任务。
使用方法
使用ICS-Flow数据集进行入侵检测研究时,首先需要对数据进行预处理,包括填充缺失值、选择标签列、排除地址和时间特征、划分数据集和进行特征归一化。接着,可以使用MRMR技术进行特征选择,以降低数据维度。然后,可以构建决策树、随机森林和人工神经网络等机器学习模型进行入侵检测或攻击识别。最后,可以使用准确率、召回率、精确率和F1分数等指标评估模型的性能。
背景与挑战
背景概述
随着工业控制系统(ICS)的互联性不断增强,其面临的网络安全威胁也日益严重。为了保护ICS免受网络攻击,入侵检测系统(IDS)被引入,其中使用机器学习(ML)进行异常检测是一种有前景的方法。然而,缺乏合适的评估ML算法的数据集成为了一个挑战。现有的数据集可能无法反映真实的ICS网络数据,缺乏必要的特征,或已经过时。本文提出的“ICS-Flow”数据集为基于监督和无监督ML的IDS评估提供了网络数据和过程状态变量日志。该数据集包含超过2500万个原始网络数据包、网络流记录和过程变量日志,为研究和开发新的检测方法提供了宝贵的资源。
当前挑战
ICS-Flow数据集面临着一些挑战,包括:1) 目前可用于评估ICS中基于ML的异常检测的数据集数量有限,并且一些数据集基于不切实际的实现;2) 对于异常检测任务,只有一小部分数据集与通过网络攻击注入异常的数据集相关;3) 一些ICS测试平台缺乏关键细节或实施不当,这可能会影响异常检测方法的准确性和有效性;4) 一些数据集高度匿名化,由于保密问题无法共享,而其他数据集则无法反映当前的市场趋势;5) 训练用于异常检测的ML模型的一个重大挑战是缺乏标记数据;6) 可用数据集中网络跟踪标签通常基于自动生成的合成网络跟踪,这消除了准确区分合法和恶意活动所必需的详细信息;7) 可用于异常检测任务的数据集在记录的数据类型上有所不同,一些只记录过程状态变量,一些只记录控制命令,而其他一些则捕获整个网络数据包;8) 由于IDS的高度专业性,在不同IDS之间传输数据集很困难,并且每个领域都更喜欢定制的数据集。
常用场景
经典使用场景
在工业控制系统安全领域,'ICS-Flow' 数据集提供了网络数据和流程状态变量日志,为基于机器学习 (ML) 的入侵检测系统 (IDS) 的评估提供了重要的基准。该数据集包含来自模拟工业控制系统组件和模拟网络的正常和异常网络数据包和流量,并通过各种攻击技术注入异常,以模拟现实世界的网络攻击场景。这使得 'ICS-Flow' 成为研究工业控制系统安全性和开发入侵检测算法的理想数据集。
解决学术问题
'ICS-Flow' 数据集解决了工业控制系统安全领域中的一个关键问题,即缺乏合适的评估 ML 算法的基准数据集。现有的数据集可能无法反映真实的 ICS 网络数据,缺乏必要的特征以进行有效的异常检测,或者已经过时。'ICS-Flow' 数据集提供了真实网络攻击场景下的网络流量数据,并通过多种攻击技术注入异常,为研究入侵检测算法提供了宝贵的数据资源。此外,该数据集还包含了多种网络流特征,有助于研究人员更好地理解 ICS 网络行为,并开发更有效的入侵检测算法。
衍生相关工作
'ICS-Flow' 数据集的发布促进了工业控制系统安全领域的研究。基于该数据集,研究人员可以开发新的入侵检测算法,并评估其性能。此外,该数据集还可以用于研究工业控制系统安全性的其他方面,例如异常检测、威胁情报和攻击建模。随着 'ICS-Flow' 数据集的不断发展,它有望成为工业控制系统安全领域的重要研究工具。
以上内容由AI搜集并总结生成



