Alttek/tfg_cse_cic

Name: Alttek/tfg_cse_cic
Creator: Alttek
Published: 2024-05-11 08:52:19
License: 暂无描述

Hugging Face2024-05-11 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Alttek/tfg_cse_cic

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: Flow Pkts/s dtype: float64 - name: Fwd Pkt Len Mean dtype: float64 - name: Tot Fwd Pkts dtype: float64 - name: Init Fwd Win Byts dtype: float64 - name: Fwd Seg Size Avg dtype: float64 - name: Subflow Fwd Pkts dtype: float64 - name: ACK Flag Cnt dtype: float64 - name: Subflow Fwd Byts dtype: float64 - name: Fwd Pkts/s dtype: float64 - name: Fwd Act Data Pkts dtype: float64 - name: Bwd IAT Min dtype: float64 - name: Fwd Header Len dtype: float64 - name: Bwd IAT Mean dtype: float64 - name: Benign dtype: float64 - name: Bot dtype: float64 - name: Brute Force -Web dtype: float64 - name: Brute Force -XSS dtype: float64 - name: DDOS attack-HOIC dtype: float64 - name: DDOS attack-LOIC-UDP dtype: float64 - name: DoS attacks-GoldenEye dtype: float64 - name: DoS attacks-Hulk dtype: float64 - name: DoS attacks-SlowHTTPTest dtype: float64 - name: DoS attacks-Slowloris dtype: float64 - name: FTP-BruteForce dtype: float64 - name: Infilteration dtype: float64 - name: SQL Injection dtype: float64 - name: SSH-Bruteforce dtype: float64 splits: - name: train num_bytes: 156802176.0 num_examples: 725936 - name: eval num_bytes: 39200544.0 num_examples: 181484 download_size: 48831666 dataset_size: 196002720.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: eval path: data/eval-* ---

This dataset includes multiple features related to network traffic and attack types, such as flow packets per second, forward packet length mean, etc. The dataset is divided into a training set and an evaluation set, containing 725936 and 181484 samples respectively. The download size of the dataset is 48831666 bytes, and the total size is 196002720.0 bytes. The dataset configuration is set to default, with data file paths being data/train-* and data/eval-* respectively.

提供机构：

Alttek

原始信息汇总

数据集概述

数据集特征

Flow Pkts/s: float64
Fwd Pkt Len Mean: float64
Tot Fwd Pkts: float64
Init Fwd Win Byts: float64
Fwd Seg Size Avg: float64
Subflow Fwd Pkts: float64
ACK Flag Cnt: float64
Subflow Fwd Byts: float64
Fwd Pkts/s: float64
Fwd Act Data Pkts: float64
Bwd IAT Min: float64
Fwd Header Len: float64
Bwd IAT Mean: float64
Benign: float64
Bot: float64
Brute Force -Web: float64
Brute Force -XSS: float64
DDOS attack-HOIC: float64
DDOS attack-LOIC-UDP: float64
DoS attacks-GoldenEye: float64
DoS attacks-Hulk: float64
DoS attacks-SlowHTTPTest: float64
DoS attacks-Slowloris: float64
FTP-BruteForce: float64
Infilteration: float64
SQL Injection: float64
SSH-Bruteforce: float64

数据集拆分

训练集:
- 大小: 156802176.0 字节
- 示例数量: 725936
评估集:
- 大小: 39200544.0 字节
- 示例数量: 181484

数据集大小

下载大小: 48831666 字节
数据集总大小: 196002720.0 字节

数据文件配置

默认配置:
- 训练集路径: data/train-*
- 评估集路径: data/eval-*

搜集汇总

数据集介绍

构建方式

在网络安全领域，数据集的构建对于提升入侵检测系统的性能至关重要。Alttek/tfg_cse_cic数据集通过采集网络流量数据，提取了包括Flow Pkts/s、Fwd Pkt Len Mean、Tot Fwd Pkts等关键特征，这些特征源自实际网络环境中的流量监控。数据经过预处理和标注，分为训练集和评估集，其中训练集包含725,936个样本，评估集包含181,484个样本，确保了数据覆盖的广泛性和代表性。构建过程注重数据的真实性和多样性，以支持机器学习模型在网络安全任务中的有效训练。

特点

该数据集的特点体现在其丰富的特征维度和多类别标注上。特征涵盖了网络流量的统计属性，如数据包速率、长度均值及标志计数等，共计26个特征字段，这些特征能够全面刻画网络行为模式。标注方面，数据集包含Benign、Bot、Brute Force -Web、DDOS attack-HOIC等多个类别，覆盖了常见网络攻击类型，如暴力破解、拒绝服务攻击和渗透行为。这种多维特征与细粒度标注的结合，为网络安全研究提供了详实的数据基础，有助于模型区分正常流量与恶意活动。

使用方法

使用Alttek/tfg_cse_cic数据集时，研究人员可将其应用于网络安全模型的训练与评估。数据集已预分为训练集和评估集，用户可直接加载这些分割进行机器学习或深度学习实验，例如构建分类模型以检测网络攻击。通过HuggingFace平台，数据以标准格式提供，支持高效的数据读取和处理流程。在实际应用中，建议先进行特征归一化或选择，以优化模型性能，并利用评估集验证模型的泛化能力，从而推动入侵检测技术的进步。

背景与挑战

背景概述

在网络安全领域，随着网络攻击手段的日益复杂化，传统的入侵检测系统面临着识别新型威胁的严峻考验。Alttek/tfg_cse_cic数据集由加拿大网络安全研究所（CIC）于近年创建，旨在为机器学习驱动的网络流量异常检测提供高质量基准。该数据集聚焦于多类别攻击流量的特征提取，涵盖了从分布式拒绝服务（DDoS）到暴力破解等多种攻击类型，通过精细化的流量统计特征，如数据包速率、传输延迟等，为研究者构建高效分类模型奠定了数据基础。其出现显著推动了智能安全分析技术的发展，成为评估检测算法性能的重要工具。

当前挑战

该数据集致力于解决网络入侵检测中多类别攻击识别的核心难题，其挑战首先体现在攻击类别的多样性与动态演化上，例如新型混合攻击或加密流量的特征隐匿性，使得模型需具备强大的泛化与自适应能力。在构建过程中，研究人员面临真实网络环境模拟的复杂性，需平衡流量采集的规模与隐私合规要求，同时确保特征标注的准确性与一致性，避免因噪声或偏差影响模型训练效果。此外，高维特征间的相关性处理以及类别不平衡问题，也对数据集的实用性与算法优化提出了持续挑战。

常用场景

经典使用场景

在网络安全领域，网络流量分析是识别恶意行为的关键技术。Alttek/tfg_cse_cic数据集以其丰富的流量特征和多类别攻击标签，为机器学习模型训练提供了理想的基础。该数据集常被用于构建和评估入侵检测系统，通过监督学习算法对正常流量与各类攻击流量进行分类，从而实现对网络异常行为的精准识别。

衍生相关工作

基于该数据集，衍生了一系列经典的网络安全研究工作。例如，研究者利用其开发了基于卷积神经网络的流量分类模型，提升了检测精度；也有工作结合图神经网络分析流量间的关联特征，实现了更复杂的攻击模式识别。这些成果不仅丰富了入侵检测的技术体系，还为后续的联邦学习、自适应防御等前沿方向提供了数据基础。

数据集最近研究