NETD (Dynamic Non-I.I.D. Encrypted Traffic Dataset)

github2025-09-19 更新2025-09-23 收录

下载链接：

https://github.com/linwhitehat/NETD

下载链接

链接失效反馈

官方服务：

资源简介：

NETD（动态非独立同分布加密流量数据集）是一个专为支持加密流量分类中的分布外泛化研究而设计的数据集。它通过将受控的分布偏移引入现有的公共数据集构建而成，使研究人员能够在不同条件下评估模型的鲁棒性。该数据集基于公开的ISCX-VPN数据集构建，包含来自6个服务类别（聊天、电子邮件、文件传输、P2P、流媒体、VoIP）的17个应用程序的流量。

NETD (Dynamic Non-IID Encrypted Traffic Dataset) is a dataset specifically designed to support out-of-distribution generalization research in encrypted traffic classification. It is constructed by introducing controlled distribution shifts into existing public datasets, enabling researchers to evaluate model robustness under various conditions. This dataset is built upon the public ISCX-VPN dataset, and contains traffic from 17 applications across 6 service categories: chat, email, file transfer, P2P, streaming, and VoIP.

创建时间：

2025-09-19

原始信息汇总

NETD: 动态非独立同分布加密流量数据集

概述

NETD（动态非独立同分布加密流量数据集）是一个专为支持加密流量分类中的分布外泛化研究而设计的数据集。该数据集通过对现有公共数据集引入受控的分布偏移构建而成，使研究人员能够在不同条件下评估模型的鲁棒性。

动机

当前大多数流量分类研究依赖于训练和测试数据独立同分布的假设。然而，现实网络场景中，应用程序更新和用户行为会随时间变化，导致“分布漂移”，从而降低基于旧数据训练的模型性能。NETD旨在填补这一空白。

构建方法

NETD通过操纵两个关键因素模拟分布偏移：比例偏差和组合偏差。

比例偏差

模拟类内行为普遍性的变化。确保类的所有组成部分在训练集和测试集中均存在，但改变它们的比例。偏差由主导比率控制。

组合偏差

模拟更极端的偏移，即训练数据未能覆盖测试数据的完整分布。通过改变训练集和测试集中每个服务类别的组成应用程序数量来实现。

数据集变体

提供四种具有不同分布偏移的数据集：

NETD-1：使用比例偏差策略构建，训练集中的主导与次要组件比率为1:3。
NETD-2：使用比例偏差策略构建，训练集中的主导与次要组件比率为3:1。
NETD-3：使用组合偏差策略构建，训练集仅由每个目标服务类别中80%的应用程序构建，测试集包含完整数据。
NETD-4：NETD-3的更极端版本，训练集仅由目标服务的20%上下文应用程序构建。

数据来源

数据集基于公开可用的ISCX-VPN数据集构建，包含来自6个服务类别（聊天、电子邮件、文件传输、P2P、流媒体、VoIP）的17个应用程序的流量。

数据集访问

完整NETD数据集可从以下链接下载：

https://drive.google.com/（下载链接）

引用

如在使用NETD的研究中，请引用论文： bibtex @article{lin2025etool, title={Respond to Change with Constancy: Instruction-tuning with LLM for Non-IID Network Traffic Classification}, author={Lin, Xinjie and Xiong, Gang and Gou, Gaopeng and Dong, Wenqi and Yu, Jing and Li, Zhen and Xia, Wei}, journal={IEEE Transactions on Information Forensics and Security}, volume={20}, pages={5758-5773}, year={2025} }

搜集汇总

数据集介绍

构建方式

在加密流量分析领域，NETD数据集通过系统化引入分布偏移来模拟真实网络环境中的动态变化。该数据集基于公开的ISCX-VPN数据集构建，采用比例偏差和成分偏差两种策略生成非独立同分布数据。比例偏差通过调整同一服务类别内主导应用与次要应用的样本比例实现，成分偏差则通过控制训练集与测试集包含的应用数量差异来制造分布差异。这种构建方法能够精确控制分布偏移的强度和类型，为模型鲁棒性评估提供科学基准。

特点

NETD数据集的显著特征在于其动态非独立同分布属性，有效模拟了现实网络中因应用更新和行为变化导致的分布漂移现象。数据集包含四种不同偏移强度的变体：NETD-1和NETD-2采用1:3和3:1的比例偏差策略，NETD-3和NETD-4分别使用80%和20%的应用覆盖率构建成分偏差。这种分层设计使研究者能够系统评估模型在不同偏移程度下的泛化能力，填补了传统I.I.D.数据集无法反映真实网络动态特性的研究空白。

使用方法

研究者可通过公开的Google Drive链接获取NETD数据集完整资源。使用时需根据研究目标选择相应变体：若关注流量比例变化的影响可采用NETD-1/2，若研究成分缺失场景则适用NETD-3/4。数据集已预分割为训练集和测试集，可直接用于加密流量分类模型的分布外泛化能力验证。建议结合论文所述的评估框架，对比模型在四种偏移场景下的性能表现，从而全面衡量其应对动态网络环境的能力。

背景与挑战

背景概述

随着网络流量加密技术的普及，传统流量分类方法面临严峻挑战，尤其是在非独立同分布数据场景下的模型泛化能力不足。NETD数据集由Xinjie Lin等研究人员于2025年创建，依托IEEE《信息取证与安全汇刊》发表的研究成果，旨在解决动态网络环境中因应用更新和用户行为变化导致的分布漂移问题。该数据集基于公开的ISCX-VPN流量数据，通过引入可控分布偏移机制，为加密流量分类的域外泛化研究提供了首个系统性评估基准，推动了网络安全管理领域的算法鲁棒性研究。

当前挑战

加密流量分类领域长期受限于训练与测试数据独立同分布的理想假设，而实际网络环境中动态分布偏移会导致模型性能显著下降。NETD构建过程中面临双重挑战：在领域问题层面，需模拟真实场景中应用比例失衡和组件缺失等非独立同分布现象；在技术实现层面，需通过比例偏置与成分偏置的数学建模，精确控制ISCX-VPN原始数据中6类服务、17种应用的分布差异，同时保持流量特征的语义一致性。

常用场景

经典使用场景

在加密流量分析领域，NETD数据集通过模拟真实网络环境中的分布偏移，为评估分类模型的泛化能力提供了标准化测试平台。该数据集最经典的应用场景是验证机器学习模型在非独立同分布条件下的鲁棒性，研究人员利用其构建的比例偏差和组合偏差变体，系统性地测试模型对应用更新和用户行为变化的适应能力。这种设计使得NETD成为研究动态网络环境下流量分类算法性能退化的理想实验基准。

解决学术问题

NETD数据集主要解决了传统流量分类研究中因I.I.D.假设脱离现实而导致的模型泛化不足问题。通过引入可控的分布偏移机制，该数据集为研究社区提供了量化评估模型在分布外泛化能力的科学工具。其意义在于推动了加密流量分析从静态场景向动态演化场景的范式转变，为构建适应真实网络环境变化的智能分类系统奠定了数据基础。

衍生相关工作

基于NETD数据集衍生的经典研究包括面向非I.I.D.环境的元学习框架和领域自适应算法。相关工作通过引入课程学习策略和动态权重调整机制，显著提升了模型在分布偏移条件下的稳定性。这些研究成果不仅推动了加密流量分析技术的前沿发展，更为时间序列数据处理的分布外泛化研究提供了可迁移的方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集