five

CESNET-TLS22, CESNET-QUIC22, CESNET-TLS-Year22

收藏
github2024-05-06 更新2024-05-31 收录
下载链接:
https://github.com/CESNET/cesnet-datazoo
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库提供了一系列用于加密网络流量分析的数据集,包括CESNET-TLS22、CESNET-QUIC22和CESNET-TLS-Year22。这些数据集支持多种配置选项,如训练、验证和测试周期的选择,应用类别的选择,以及数据转换如特征缩放。此外,数据集提供了多种大小,以便用户可以根据需要选择合适的数据集规模进行实验。

This repository offers a collection of datasets for encrypted network traffic analysis, including CESNET-TLS22, CESNET-QUIC22, and CESNET-TLS-Year22. These datasets support various configuration options such as the selection of training, validation, and testing cycles, the choice of application categories, and data transformations like feature scaling. Additionally, the datasets are available in multiple sizes, allowing users to select the appropriate scale for their experimental needs.
创建时间:
2023-08-30
原始信息汇总

数据集概述

数据集目标

该项目旨在提供处理大型网络流量数据集的工具,并促进流量分类领域的研究。核心功能包括:

  • 提供下载、配置和加载三个公开加密网络流量数据集的通用API。
  • 提供广泛配置选项,如训练、验证和测试周期的选择,应用类别的选择及已知和未知类别的划分,以及数据转换如特征缩放。
  • 基于适合大型数据集实验的数据结构,具备多种缓存机制以加速重复运行。
  • 数据集提供多种大小,默认大小为S,包含2500万样本。

可用数据集

名称 CESNET-TLS22 CESNET-QUIC22 CESNET-TLS-Year22
协议 TLS QUIC TLS
发布年份 2022 2023 2023
收集时长 2周 4周 1年
收集周期 2021-10-04至2021-10-17 2022-10-31至2022-11-27 2022-01-01至2022-12-31
字段 ID, SRC_IP, DST_IP, DST_ASN, SRC_PORT, DST_PORT, PROTOCOL, TLS_SNI, TLS_JA3, TIME_FIRST, TIME_LAST ID, SRC_IP, DST_IP, DST_ASN, SRC_PORT, DST_PORT, PROTOCOL, QUIC_VERSION, QUIC_SNI, QUIC_USERAGENT, TIME_FIRST, TIME_LAST ID, SRC_IP, DST_IP, DST_ASN, DST_PORT, PROTOCOL, TLS_SNI, TLS_JA3, TIME_FIRST, TIME_LAST
应用类别数 191 102 180
可用样本数 141392195 153226273 507739073
可用数据集大小 XS, S, M, L XS, S, M, L XS, S, M, L
引用 https://doi.org/10.1016/j.comnet.2022.109467 https://doi.org/10.1016/j.dib.2023.108888
Zenodo URL https://zenodo.org/record/7965515 https://zenodo.org/record/7963302

安装

可通过pip安装: bash pip install cesnet-datazoo

示例

初始化数据集以创建训练、验证和测试数据框的示例代码: py from cesnet_datazoo.datasets import CESNET_QUIC22 from cesnet_datazoo.config import DatasetConfig, AppSelection

dataset = CESNET_QUIC22("/datasets/CESNET-QUIC22/", size="XS") dataset_config = DatasetConfig( dataset=dataset, apps_selection=AppSelection.ALL_KNOWN, train_period_name="W-2022-44", test_period_name="W-2022-45", ) dataset.set_dataset_config_and_initialize(dataset_config) train_dataframe = dataset.get_train_df() val_dataframe = dataset.get_val_df() test_dataframe = dataset.get_test_df()

相关论文

搜集汇总
数据集介绍
main_image_url
构建方式
在网络流量分类研究领域,CESNET-TLS22、CESNET-QUIC22和CESNET-TLS-Year22数据集通过系统化的数据采集和处理流程构建而成。这些数据集涵盖了不同协议(TLS和QUIC)和不同时间跨度的网络流量数据,包括两周、四周和一年的采集周期。数据集的构建过程中,采用了多种配置选项,如训练、验证和测试周期的选择,以及应用类别的划分,确保了数据集的多样性和实用性。此外,数据集还提供了多种尺寸(XS、S、M、L),以适应不同规模实验的需求。
使用方法
使用CESNET-TLS22、CESNET-QUIC22和CESNET-TLS-Year22数据集进行研究时,用户首先需要通过pip安装cesnet-datazoo包,然后根据实验需求配置数据集。通过DatasetConfig类,用户可以指定训练、验证和测试周期,以及应用类别的选择。数据集初始化后,可以通过get_train_df、get_val_df和get_test_df方法获取相应的数据帧,用于进一步的分析和模型训练。此外,数据集还支持通过PyTorch DataLoaders进行数据加载,方便用户在深度学习框架中使用。
背景与挑战
背景概述
在网络流量分类领域,CESNET团队于2022年至2023年间推出了CESNET-TLS22、CESNET-QUIC22和CESNET-TLS-Year22三个数据集,旨在通过提供大规模加密网络流量数据集来推动该领域的研究。这些数据集由捷克共和国的CESNET机构主导,主要研究人员包括Jan Luxemburk和Karel Hynek。核心研究问题集中在如何有效分类和分析加密网络流量,以提升网络安全和性能。这些数据集的发布不仅为研究人员提供了丰富的实验资源,还显著推动了网络流量分类技术的发展。
当前挑战
尽管这些数据集为网络流量分类研究提供了宝贵的资源,但在构建和应用过程中仍面临诸多挑战。首先,数据集的规模庞大,处理和存储这些数据需要高性能计算资源和高效的存储解决方案。其次,数据集中的加密流量分类问题复杂,需要开发先进的机器学习模型和算法来准确识别和分类不同类型的流量。此外,数据集的多样性和动态性要求研究人员不断更新和优化模型,以应对不断变化的网络环境和应用场景。最后,数据集的隐私和安全问题也是一大挑战,确保数据在处理和分析过程中的安全性至关重要。
常用场景
经典使用场景
在网络流量分类领域,CESNET-TLS22、CESNET-QUIC22和CESNET-TLS-Year22数据集被广泛用于训练和验证加密网络流量分类模型。这些数据集提供了丰富的配置选项,包括训练、验证和测试周期的选择,以及应用类别的划分。通过这些数据集,研究人员能够高效地进行大规模实验,探索不同模型配置下的性能表现。
解决学术问题
这些数据集解决了加密网络流量分类中的关键学术问题,如流量特征提取、模型泛化能力评估和未知应用类别的检测。通过提供多样化的数据规模和详细的配置选项,这些数据集极大地促进了相关领域的研究进展,为开发更精确和鲁棒的流量分类模型奠定了基础。
实际应用
在实际应用中,这些数据集被用于开发和优化网络流量监控系统,特别是在需要识别和分类加密流量的情况下。通过使用这些数据集,网络管理员能够更有效地检测和应对潜在的安全威胁,提升网络的整体安全性和性能。
数据集最近研究
最新研究方向
在网络流量分类领域,CESNET-TLS22、CESNET-QUIC22和CESNET-TLS-Year22数据集的最新研究方向主要集中在利用深度学习技术进行加密流量的高效分类。这些数据集提供了丰富的加密流量样本,涵盖了多种协议和应用,为研究人员提供了宝贵的实验资源。前沿研究不仅关注于模型的准确性和效率,还探索了如何在保护用户隐私的前提下进行流量分析。此外,数据集的多尺度设计使得研究可以从较小规模开始,逐步扩展到大规模实验,从而加速了新方法的验证和优化。这些研究成果对于提升网络安全和优化网络性能具有重要意义,尤其是在应对日益复杂的网络威胁和需求多样化的网络服务方面。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作