TII-SSRC-23

Name: TII-SSRC-23
Creator: 技术创新研究所
Published: 2023-09-14 13:23:36
License: 暂无描述

arXiv2023-09-14 更新2024-06-21 收录

下载链接：

https://kaggle.com/datasets/daniaherzalla/tii-ssrc-23

下载链接

链接失效反馈

官方服务：

资源简介：

TII-SSRC-23数据集是由技术创新研究所创建的，旨在通过多样化的网络流量模式探索入侵检测的类型学。该数据集包含27.5GB的数据，分为良性和恶意两大类，涵盖八种不同的流量类型和32种子类型。数据集的创建过程包括定义网络拓扑、生成良性流量以及恶意流量，特别是复制了四种网络威胁：拒绝服务（DoS）攻击、暴力攻击、信息收集策略和Mirai僵尸网络。该数据集主要用于解决网络入侵检测问题，特别是在面对复杂和不断变化的网络流量情况时，提高基于机器学习的入侵检测系统的鲁棒性和有效性。

The TII-SSRC-23 dataset was developed by the Technology Innovation Institute, aiming to explore the typology of intrusion detection via diverse network traffic patterns. This dataset contains 27.5 GB of data, categorized into two broad groups: benign and malicious traffic, covering 8 distinct traffic types and 32 subtypes. The dataset creation process includes defining network topology, generating both benign and malicious network traffic, and specifically replicating four types of network threats: Denial of Service (DoS) attacks, brute-force attacks, information gathering strategies, and the Mirai botnet. This dataset is primarily intended to address network intrusion detection problems, especially to improve the robustness and effectiveness of machine learning-based intrusion detection systems when facing complex and evolving network traffic scenarios.

提供机构：

技术创新研究所

创建时间：

2023-09-14

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，数据集的构建质量直接影响入侵检测系统的性能。TII-SSRC-23数据集采用系统化方法构建，首先设计包含五个节点的测试床网络拓扑，模拟真实网络环境。良性流量通过Mumble和VLC等工具生成音频、文本、视频及背景流量，并引入网络干扰变异以增强真实性。恶意流量涵盖拒绝服务攻击、暴力破解、信息收集和Mirai僵尸网络四大类别，通过Hping3、Nmap等工具精细调控攻击参数，如数据包传输速率、负载大小和协议标志，最终形成包含32个子类型的异构流量集合。所有原始流量均以PCAP格式保存，并通过CICFlowMeter工具提取75维特征，以CSV格式提供结构化数据。

特点

该数据集的核心特点在于其卓越的多样性与现代性。它突破了传统数据集恶意样本类别单一的局限，囊括了八种主要流量类型和32个精细子类型，其中恶意攻击变体多达26种。数据集特别注重每类流量内部的模式分化，例如在拒绝服务攻击中通过调整传输速度、负载大小等参数生成192种独特的TCP洪水攻击变体。此外，数据集紧密贴合物联网和现代网络环境，专门包含针对Mirai僵尸网络的多种分布式拒绝服务攻击向量。其提供的双向流数据规模达860万条，并以PCAP和CSV双格式发布，既保留了原始数据包信息，也提供了便于机器学习模型使用的特征向量，为复杂网络威胁的检测研究奠定了坚实基础。

使用方法

该数据集为入侵检测研究提供了多层次的评估框架。研究者可利用其进行监督学习任务，包括区分良性流量与恶意流量的二分类、识别八种主要流量类型的多分类，以及进一步细分至32个子类型的细粒度分类。数据集附带的特征重要性分析结果，如前向最大数据包长度、流字节率等关键特征，可为模型优化提供指导。对于无监督异常检测研究，该数据集可作为分布外检测任务的基准，评估模型在仅使用正常流量训练后识别未知恶意流量的能力。使用前需进行数据预处理，包括移除IP地址和端口等无关列、处理缺失值、对分类特征进行独热编码，并可选择应用标准化或归一化。数据集的公开获取便于复现论文中的基线实验结果，并支持与新提出的检测算法进行公平比较。

背景与挑战

背景概述

在网络安全领域，基于机器学习的入侵检测系统（IDS）的性能高度依赖于其训练数据集的质量与代表性。传统网络流量数据集，如DARPA98、KDD99和CICIDS2017，虽在创建时具有开创性，但普遍存在恶意样本多样性不足、流量模式陈旧、难以反映现代复杂网络环境（尤其是物联网环境）演变的问题，这严重制约了IDS模型对新威胁的泛化识别能力。为应对这一挑战，阿布扎比技术创新研究院（Technology Innovation Institute）的研究团队于2023年推出了TII-SSRC-23数据集。该数据集旨在通过囊括音频、视频、文本、背景流量以及拒绝服务攻击、暴力破解、信息收集和Mirai僵尸网络等四大类共26种独特攻击子类型，构建一个异构且全面的流量集合，以增强IDS模型在多样化现实网络场景中的鲁棒性与适应性。

当前挑战

TII-SSRC-23数据集致力于解决网络入侵检测领域的一个核心挑战：如何使基于机器学习的检测模型能够有效识别和响应不断演变、形态多样的新型网络攻击模式。具体挑战体现在两方面：其一，在领域问题层面，现有数据集普遍缺乏对恶意流量内部多样性的充分刻画，导致训练的模型在面对未见过的攻击变体时泛化能力不足；其二，在构建过程层面，生成一个既全面又逼真的数据集面临诸多困难，包括需要模拟复杂的现代网络拓扑（含物联网设备）、精心设计并参数化各种良性及恶意流量以覆盖广泛的行为模式，以及确保生成的数据能准确捕捉真实网络交互的统计特征与时间动态，同时还需处理海量原始流量数据的标注、过滤与特征提取等工程难题。

常用场景

经典使用场景

在网络安全研究领域，TII-SSRC-23数据集为机器学习驱动的入侵检测系统提供了多维度的评估基准。该数据集通过模拟真实网络环境中的多样化流量模式，包括音频、视频、文本等良性流量以及拒绝服务攻击、暴力破解、信息收集和Mirai僵尸网络等恶意流量，为研究者构建和验证入侵检测模型提供了丰富的训练与测试素材。其经典应用场景在于支撑监督学习与无监督学习框架下的异常流量识别，通过提供涵盖32种子类型的流量数据，使模型能够学习复杂网络环境中的细微特征差异，从而提升对未知攻击模式的泛化能力。

衍生相关工作

围绕TII-SSRC-23数据集，学术界已衍生出多类经典研究工作。一方面，研究者利用其丰富的流量子类型开展了细粒度攻击分类探索，例如基于深度支持向量数据描述的异常检测框架在区分复杂攻击变体方面表现出色。另一方面，该数据集的特征重要性分析结果被广泛用于指导轻量化入侵检测模型的设计，通过聚焦于前向最大包长度、流字节率等关键特征，提升了模型在资源受限环境中的部署效率。此外，结合生成对抗网络的数据增强方法也借助该数据集的多样性，进一步丰富了训练样本的分布，推动了自适应入侵检测系统的发展。

数据集最近研究