Imran1/balance_network

Name: Imran1/balance_network
Creator: Imran1
Published: 2023-09-25 11:03:09
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Imran1/balance_network

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: resp_pkts dtype: int64 - name: service dtype: string - name: orig_ip_bytes dtype: int64 - name: local_resp dtype: bool - name: missed_bytes dtype: int64 - name: protocol dtype: string - name: duration dtype: float64 - name: conn_state dtype: string - name: dest_ip dtype: string - name: orig_pkts dtype: int64 - name: community_id dtype: string - name: resp_ip_bytes dtype: int64 - name: dest_port dtype: int64 - name: orig_bytes dtype: float64 - name: local_orig dtype: bool - name: datetime dtype: string - name: history dtype: string - name: resp_bytes dtype: float64 - name: uid dtype: string - name: src_port dtype: int64 - name: ts dtype: float64 - name: src_ip dtype: string - name: mitre_attack_tactics dtype: string splits: - name: train num_bytes: 484491622 num_examples: 2018296 download_size: 100944771 dataset_size: 484491622 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "balance_network" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征： - 字段名：响应数据包数（resp_pkts），数据类型：int64 - 字段名：服务（service），数据类型：string - 字段名：源IP字节数（orig_ip_bytes），数据类型：int64 - 字段名：本地响应端（local_resp），数据类型：bool - 字段名：丢失字节数（missed_bytes），数据类型：int64 - 字段名：协议（protocol），数据类型：string - 字段名：持续时长（duration），数据类型：float64 - 字段名：连接状态（conn_state），数据类型：string - 字段名：目标IP（dest_ip），数据类型：string - 字段名：源数据包数（orig_pkts），数据类型：int64 - 字段名：社区ID（community_id），数据类型：string - 字段名：响应IP字节数（resp_ip_bytes），数据类型：int64 - 字段名：目标端口（dest_port），数据类型：int64 - 字段名：源字节数（orig_bytes），数据类型：float64 - 字段名：本地发起端（local_orig），数据类型：bool - 字段名：日期时间（datetime），数据类型：string - 字段名：会话历史（history），数据类型：string - 字段名：响应字节数（resp_bytes），数据类型：float64 - 字段名：唯一连接标识（uid），数据类型：string - 字段名：源端口（src_port），数据类型：int64 - 字段名：时间戳（ts），数据类型：float64 - 字段名：源IP（src_ip），数据类型：string - 字段名：MITRE攻击战术（mitre_attack_tactics），数据类型：string 数据划分： - 划分名称：训练集（train），占用字节数：484491622，样本数量：2018296 下载大小：100944771，数据集总大小：484491622 配置项： - 配置名称：默认配置（default），数据文件： - 划分：训练集（train），文件路径：data/train-* # “balance_network” 数据集卡片 [更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ##

提供机构：

Imran1

原始信息汇总

数据集概述

数据特征

数据集包含以下特征：

resp_pkts: 数据类型为 int64
service: 数据类型为 string
orig_ip_bytes: 数据类型为 int64
local_resp: 数据类型为 bool
missed_bytes: 数据类型为 int64
protocol: 数据类型为 string
duration: 数据类型为 float64
conn_state: 数据类型为 string
dest_ip: 数据类型为 string
orig_pkts: 数据类型为 int64
community_id: 数据类型为 string
resp_ip_bytes: 数据类型为 int64
dest_port: 数据类型为 int64
orig_bytes: 数据类型为 float64
local_orig: 数据类型为 bool
datetime: 数据类型为 string
history: 数据类型为 string
resp_bytes: 数据类型为 float64
uid: 数据类型为 string
src_port: 数据类型为 int64
ts: 数据类型为 float64
src_ip: 数据类型为 string
mitre_attack_tactics: 数据类型为 string

数据分割

train: 包含 2018296 个样本，总字节数为 484491622

数据集大小

下载大小: 100944771 字节
数据集大小: 484491622 字节

配置

default: 数据文件路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在网络安全领域，平衡网络数据集通过采集网络流量日志构建而成，其数据源自真实网络环境中的连接记录。每条记录包含源IP、目标IP、端口、协议及数据包大小等关键字段，并标注了MITRE ATT&CK战术信息，以支持威胁检测研究。数据经过清洗与标准化处理，确保特征一致性和完整性，最终形成包含超过200万条样本的训练集，为机器学习模型提供丰富的网络行为表征。

使用方法

研究人员可通过HuggingFace数据集库直接加载该数据集，利用其预分割的训练集进行模型开发。典型应用包括构建分类模型以识别恶意连接，或通过无监督方法检测网络异常。使用时应注重特征工程，例如将分类变量编码为数值形式，并基于时间序列分析网络行为模式。数据集支持批量处理与流式读取，可无缝集成至主流机器学习框架，加速网络安全算法的迭代与验证。

背景与挑战

背景概述

在网络空间安全领域，入侵检测系统的效能高度依赖于高质量的网络流量数据。由Imran1发布的balance_network数据集，聚焦于网络流量分析，其核心研究问题在于如何通过结构化的网络连接记录，精准识别潜在的恶意攻击行为。该数据集收录了详尽的网络会话特征，如数据包数量、字节流量、协议类型及连接状态，并创新性地引入了MITRE ATT&CK战术标签，为攻击行为的战术层面分类提供了直接依据。它的构建旨在服务于基于机器学习的网络异常检测与威胁情报研究，对提升自动化安全防御系统的准确性与可解释性具有显著影响力。

当前挑战

该数据集致力于应对网络入侵检测领域的关键挑战，即如何在极度不平衡的网络流量中（正常流量远多于攻击流量），有效识别出隐蔽且多变的网络攻击模式。其具体挑战体现在两方面：其一，在领域问题层面，网络攻击手段持续演进，要求模型不仅能检测已知攻击，还需具备对新型或未知威胁的泛化识别能力；其二，在构建过程中，如何从海量原始网络日志中清洗、标注并平衡数据，确保MITRE ATT&CK战术标签的准确性与一致性，同时处理网络协议与服务的多样性所带来的特征异质性，均是数据集构建者面临的实际难题。

常用场景

经典使用场景

在网络流量分析领域，balance_network数据集凭借其丰富的网络连接特征，如数据包数量、字节传输、协议类型及连接状态，为异常检测模型的训练与评估提供了坚实基础。该数据集常用于监督学习场景，通过标记的MITRE ATT&CK战术信息，支持分类算法识别恶意网络行为，尤其在入侵检测系统（IDS）的构建中，帮助研究者模拟真实网络环境下的流量模式，优化检测精度与效率。

解决学术问题

该数据集有效应对了网络空间安全研究中数据稀缺与标注不完善的挑战，通过提供大规模、多特征的网络连接记录，助力解决异常流量检测、攻击分类及威胁情报分析等核心问题。其包含的MITRE ATT&CK战术标签为学术探索攻击者行为模式与防御策略关联性提供了实证依据，推动了机器学习在网络安全领域的理论深化，促进了自适应防御机制的发展。

实际应用

在实际网络运维中，balance_network数据集可应用于企业或机构的安全监控平台，通过训练实时检测模型，识别分布式拒绝服务（DDoS）、端口扫描或数据渗透等常见威胁。其高维特征支持构建自动化响应系统，提升网络防御的主动性与准确性，为关键基础设施保护、云安全服务及物联网设备管理提供可靠的数据驱动解决方案。

数据集最近研究