ZYELL-NCTU NetTraffic-1.0

Name: ZYELL-NCTU NetTraffic-1.0
Creator: 国立阳明交通大学
Published: 2021-03-08 23:18:29
License: 暂无描述

arXiv2021-03-08 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2103.05767v1

下载链接

链接失效反馈

官方服务：

资源简介：

ZYELL-NCTU NetTraffic-1.0是由国立阳明交通大学与Zyell Solutions合作创建的大规模真实网络数据集，旨在提升网络安全的异常检测能力。该数据集包含约2250万条从真实防火墙系统中收集的时间序列流量记录，涵盖多种网络攻击类型，如DDoS和端口扫描。数据集的创建过程涉及从防火墙日志中提取流量统计部分，并半自动标记数据。该数据集适用于开发和测试网络威胁解决方案，特别是针对防火墙的异常检测技术，有助于学术界和工业界在网络安全领域的研究与应用。

ZYELL-NCTU NetTraffic-1.0 is a large-scale real-world network traffic dataset jointly developed by National Yang Ming Chiao Tung University and Zyell Solutions, aiming to improve anomaly detection capabilities for network security. This dataset contains approximately 22.5 million time-series traffic records collected from real firewall systems, covering various network attack types such as DDoS and port scanning. The dataset was created by extracting traffic statistics from firewall logs and performing semi-automatic data labeling. It is suitable for developing and testing network threat defense solutions, especially anomaly detection technologies tailored for firewalls, and supports research and practical applications in the network security domain for both academic and industrial communities.

提供机构：

国立阳明交通大学

创建时间：

2021-03-08

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，数据集的构建需贴近真实网络环境以提升入侵检测系统的效能。ZYELL-NCTU NetTraffic-1.0数据集通过部署于真实网络环境中的防火墙系统，采集了约2250万条时间序列流量日志。数据收集过程中，利用hping3和nmap工具随机发起攻击，攻击间隔从三分钟至四小时不等，模拟了分布式拒绝服务攻击（DDoS）和探测响应攻击（Probing）等多种威胁场景。每条日志记录代表一个网络连接会话，包含源/目的IP地址、端口、流量字节数、连接时长等22项特征，并通过专家设定的超参数（如N=100，T=3，T'=600）衍生出基于IP或端口的统计特征，最终经过半自动化标注处理，区分正常流量与具体攻击类型。

特点

该数据集的核心特点在于其真实性与大规模性，直接源自实际网络中的防火墙原始输出，避免了虚拟或实验环境可能引入的偏差。数据呈现严重的类别不平衡，异常流量仅占约1.5%，其中包含DDoS-smurf、Probing-IP sweep、Probing-Port sweep及Probing-Nmap等攻击子类，这一分布高度契合现实网络中异常事件罕见却危害巨大的特性。此外，数据集保留了完整的IP地址信息，未进行匿名化处理，确保了网络流量的真实表征，同时训练集与测试集的概率分布存在差异，进一步增加了检测任务的挑战性，为开发鲁棒的机器学习模型提供了贴近实际的基准。

使用方法

该数据集适用于网络异常检测领域的研究与算法评估，尤其可用于探索基于机器学习和深度学习的入侵检测方法。使用者可依据提供的训练集与测试集划分，开发分类模型以识别正常流量与各类攻击行为。鉴于数据的高度不平衡特性，建议采用类别平衡准确率等指标进行性能评估，并尝试集成学习、深度神经网络等先进技术以提升检测精度。数据集中的时间序列特征与统计衍生变量，为研究流量动态模式与异常关联提供了丰富维度，支持学术界与工业界共同推进网络安全防御技术的实际应用。

背景与挑战

背景概述

随着计算机网络应用的迅猛增长，网络安全已成为长期活跃的研究领域。入侵检测系统（IDS）的异常检测能力提升是核心议题，然而现有网络异常数据集多已过时或经过IP匿名化处理，难以反映当前网络真实特征。为此，国立阳明交通大学与合勤集团旗下的Zyell Solutions联合研究团队于近期推出了ZYELL-NCTU NetTraffic-1.0数据集，该数据集采集自真实网络防火墙的原始输出日志，规模达百万级别，旨在推动网络安全研究的实质性进展。该数据集聚焦于分布式拒绝服务攻击（DDoS）和探测响应攻击（Probing）等现实威胁，为学术界与工业界提供了贴近实际场景的基准数据，以期缩小理论研究与实际应用之间的差距。

当前挑战

在网络安全异常检测领域，现有挑战主要体现在两方面：其一，领域问题本身具有复杂性，网络攻击行为多样且快速演化，而异常流量在真实环境中仅占极低比例（约0.001%-1%），导致数据存在严重的类别不平衡问题；同时，大规模、无标签或弱标签的网络数据使得基于机器学习的检测方法难以取得理想性能。其二，在数据集构建过程中，研究者面临真实网络环境数据采集的困难，既要确保数据隐私合规，又需保留源地址、目的地址等关键特征以维持网络流的真实性；此外，模拟攻击场景需兼顾多样性与可控性，并需通过专家知识进行半自动化标注，这些因素均增加了数据集构建的难度与成本。

常用场景

经典使用场景

在网络安全研究领域，网络异常检测（NAD）的进展常受限于数据集的时效性与真实性。ZYELL-NCTU NetTraffic-1.0数据集以其大规模、真实网络环境采集的特性，成为评估和优化入侵检测系统（IDS）性能的经典基准。该数据集通过防火墙原始日志构建，模拟了分布式拒绝服务攻击（DDoS）和探测攻击（Probing）等多种现代网络威胁场景，为研究者提供了贴近实际网络流量的数据基础，从而支持机器学习模型在复杂、不平衡数据分布下的训练与验证。

衍生相关工作

基于该数据集，学术界衍生出一系列聚焦于网络异常检测的创新研究。例如，研究者利用其时间序列特征开发了结合统计学习与深度神经网络的混合模型，以提升对稀有攻击类别的检测精度。同时，该数据集也催生了针对不平衡数据处理的算法改进工作，如集成学习与自适应采样技术的应用，这些成果进一步丰富了网络安全领域的方法论，并为后续大规模真实网络数据集的构建提供了参考范式。

数据集最近研究