NETD (Dynamic Non-I.I.D. Encrypted Traffic Dataset)
收藏NETD: 动态非独立同分布加密流量数据集
概述
NETD(动态非独立同分布加密流量数据集)是一个专为支持加密流量分类中的分布外泛化研究而设计的数据集。该数据集通过对现有公共数据集引入受控的分布偏移构建而成,使研究人员能够在不同条件下评估模型的鲁棒性。
动机
当前大多数流量分类研究依赖于训练和测试数据独立同分布的假设。然而,现实网络场景中,应用程序更新和用户行为会随时间变化,导致“分布漂移”,从而降低基于旧数据训练的模型性能。NETD旨在填补这一空白。
构建方法
NETD通过操纵两个关键因素模拟分布偏移:比例偏差和组合偏差。
比例偏差
模拟类内行为普遍性的变化。确保类的所有组成部分在训练集和测试集中均存在,但改变它们的比例。偏差由主导比率控制。
组合偏差
模拟更极端的偏移,即训练数据未能覆盖测试数据的完整分布。通过改变训练集和测试集中每个服务类别的组成应用程序数量来实现。
数据集变体
提供四种具有不同分布偏移的数据集:
- NETD-1:使用比例偏差策略构建,训练集中的主导与次要组件比率为1:3。
- NETD-2:使用比例偏差策略构建,训练集中的主导与次要组件比率为3:1。
- NETD-3:使用组合偏差策略构建,训练集仅由每个目标服务类别中80%的应用程序构建,测试集包含完整数据。
- NETD-4:NETD-3的更极端版本,训练集仅由目标服务的20%上下文应用程序构建。
数据来源
数据集基于公开可用的ISCX-VPN数据集构建,包含来自6个服务类别(聊天、电子邮件、文件传输、P2P、流媒体、VoIP)的17个应用程序的流量。
数据集访问
完整NETD数据集可从以下链接下载:
- https://drive.google.com/(下载链接)
引用
如在使用NETD的研究中,请引用论文: bibtex @article{lin2025etool, title={Respond to Change with Constancy: Instruction-tuning with LLM for Non-IID Network Traffic Classification}, author={Lin, Xinjie and Xiong, Gang and Gou, Gaopeng and Dong, Wenqi and Yu, Jing and Li, Zhen and Xia, Wei}, journal={IEEE Transactions on Information Forensics and Security}, volume={20}, pages={5758-5773}, year={2025} }




