Anomaly Detection Dataset for Industrial Control Systems

github2025-03-21 更新2025-03-22 收录

下载链接：

https://github.com/sondt1337/AI-based-ICS-Incident-Investigation-System

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于工业控制系统的异常检测，输入为.pcap文件，输出为恶意网络流。数据集来源包括ICS-Flow from kaggle和模拟系统的捕获。攻击类型包括正常、ddos、ip-scan、mitm、port-scan、replay、command-injection。

This dataset is designed for anomaly detection in industrial control systems (ICS). The input data is in .pcap format, and the output targets are categorized as malicious network flows. The dataset is sourced from two parts: ICS-Flow from Kaggle and network traffic captured from simulated industrial control systems. The covered attack types include normal traffic, DDoS, IP-scan, MITM, port-scan, replay, and command-injection.

创建时间：

2025-03-21

原始信息汇总

AI-based ICS Incident Investigation System 数据集概述

数据集基本信息

项目背景：该项目由Group 8在台湾GCC 2025期间完成，名为"AI-based ICS Incident Investigation System"。
主要目标：
- 分析ICS环境中的恶意或异常流量或流量记录pcap文件。
- 导入AI模块以支持多种ICS协议。
- 微调AI模块以进行流量分析。
- 显示网络拓扑、受感染设备并指示恶意行为。
- 可选：使用AI自动化攻击ICS。

数据收集

输入数据：.pcap文件。
数据来源：
- ICS-Flow数据集（来源：https://www.kaggle.com/datasets/alirezadehlaghi/icssim/data）。
- 从模拟系统中捕获的数据。
输出数据：恶意“网络流”。
攻击类型：Normal, ddos, ip-scan, mitm, port-scan, replay, command-injection。

数据处理

生成网络流：
- 将多个数据包合并为一个网络流。
- 按（协议、源、目的地）分组。
- 预处理数据。
- 处理顺序数据。
- 捕获共同特征。

AI训练

模型类型：XGBoost。
模型特点：
- 多分类和NaN处理。
- 训练速度快。
- 性能优异。

结果

训练结果：包含训练和验证结果的图表（具体图表见原始数据）。

工具架构

功能：使用AI模型并可视化网络拓扑。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于工业控制系统（ICS）环境中的网络流量数据，主要通过捕获模拟系统中的.pcap文件以及从Kaggle平台获取的ICS-Flow数据集。数据预处理阶段将多个数据包整合为单一网络流，并按照协议、源地址和目标地址进行分组，以捕捉网络流量的共同特征。最终生成的恶意网络流数据涵盖了多种攻击类型，如DDoS、IP扫描、MITM等。

特点

该数据集的特点在于其专注于工业控制系统的异常检测，提供了多样化的攻击类型标签，包括正常流量和多种恶意行为。数据集通过模拟系统捕获和公开数据集的结合，确保了数据的多样性和真实性。此外，数据经过预处理，能够有效支持AI模型的训练，尤其是针对多分类任务的XGBoost模型，表现出较高的训练速度和性能。

使用方法

该数据集的使用方法主要包括数据加载、预处理和模型训练。用户可以通过加载.pcap文件或直接使用预处理后的网络流数据，结合XGBoost等机器学习模型进行多分类任务训练。数据集支持对网络拓扑的可视化，帮助用户识别受感染的设备和恶意行为。此外，用户还可以利用AI模块自动化攻击模拟，进一步验证模型的鲁棒性和检测能力。

背景与挑战

背景概述

工业控制系统（ICS）在现代工业基础设施中扮演着至关重要的角色，其安全性直接关系到生产过程的稳定性和可靠性。随着网络攻击手段的日益复杂化，针对ICS的异常检测成为了一个紧迫的研究课题。在此背景下，'Anomaly Detection Dataset for Industrial Control Systems'数据集应运而生，由台湾GCC 2025大会上的第八小组开发完成。该数据集旨在通过分析ICS环境中的恶意或异常流量，支持多种ICS协议的AI模块，并通过精细调优实现对流量的深度分析。其核心研究问题在于如何有效识别和分类网络中的异常行为，从而提升ICS系统的安全防护能力。该数据集的发布为工业控制系统的安全研究提供了宝贵的数据资源，推动了相关领域的技术进步。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，ICS环境的复杂性和多样性使得异常检测模型的训练和验证变得异常困难，尤其是在处理多种协议和不同网络拓扑结构时。其次，数据集的构建依赖于大量的.pcap文件，这些文件需要通过模拟系统捕获并进行预处理，以确保数据的准确性和代表性。此外，如何有效地处理序列数据并捕捉网络流的共同特征，也是模型训练中的一大难题。最后，尽管XGBoost等算法在分类任务中表现出色，但在面对新型攻击手段时，模型的泛化能力仍需进一步提升。这些挑战不仅考验着研究者的技术能力，也为未来的研究指明了方向。

常用场景

经典使用场景

在工业控制系统（ICS）的安全研究中，Anomaly Detection Dataset for Industrial Control Systems 数据集被广泛应用于异常流量检测和恶意行为分析。通过对.pcap文件中的网络流量进行预处理和特征提取，研究者能够训练AI模型以识别诸如DDoS、IP扫描、中间人攻击等不同类型的攻击行为。该数据集的使用场景涵盖了从流量捕获到恶意行为分类的全过程，为工业控制系统的安全防护提供了强有力的数据支持。

解决学术问题

该数据集解决了工业控制系统中异常检测的多个关键学术问题。首先，它提供了多样化的攻击类型数据，使得研究者能够开发出更加鲁棒的异常检测模型。其次，通过多协议支持和流量特征提取，该数据集帮助研究者深入理解不同攻击模式的特征，从而提升模型的泛化能力。此外，该数据集还为工业控制系统的实时监控和自动化防御提供了理论基础，推动了该领域的研究进展。

衍生相关工作

基于Anomaly Detection Dataset for Industrial Control Systems 数据集，研究者们开发了多种经典的工作。例如，利用XGBoost算法进行多分类任务，实现了对多种攻击类型的高效识别。此外，该数据集还催生了一系列关于工业控制系统网络拓扑可视化的研究，使得安全分析更加直观和高效。这些衍生工作不仅推动了工业控制系统安全领域的技术进步，还为未来的研究提供了丰富的参考和借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集