Imran1/balance_network
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Imran1/balance_network
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: resp_pkts
dtype: int64
- name: service
dtype: string
- name: orig_ip_bytes
dtype: int64
- name: local_resp
dtype: bool
- name: missed_bytes
dtype: int64
- name: protocol
dtype: string
- name: duration
dtype: float64
- name: conn_state
dtype: string
- name: dest_ip
dtype: string
- name: orig_pkts
dtype: int64
- name: community_id
dtype: string
- name: resp_ip_bytes
dtype: int64
- name: dest_port
dtype: int64
- name: orig_bytes
dtype: float64
- name: local_orig
dtype: bool
- name: datetime
dtype: string
- name: history
dtype: string
- name: resp_bytes
dtype: float64
- name: uid
dtype: string
- name: src_port
dtype: int64
- name: ts
dtype: float64
- name: src_ip
dtype: string
- name: mitre_attack_tactics
dtype: string
splits:
- name: train
num_bytes: 484491622
num_examples: 2018296
download_size: 100944771
dataset_size: 484491622
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for "balance_network"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 字段名:响应数据包数(resp_pkts),数据类型:int64
- 字段名:服务(service),数据类型:string
- 字段名:源IP字节数(orig_ip_bytes),数据类型:int64
- 字段名:本地响应端(local_resp),数据类型:bool
- 字段名:丢失字节数(missed_bytes),数据类型:int64
- 字段名:协议(protocol),数据类型:string
- 字段名:持续时长(duration),数据类型:float64
- 字段名:连接状态(conn_state),数据类型:string
- 字段名:目标IP(dest_ip),数据类型:string
- 字段名:源数据包数(orig_pkts),数据类型:int64
- 字段名:社区ID(community_id),数据类型:string
- 字段名:响应IP字节数(resp_ip_bytes),数据类型:int64
- 字段名:目标端口(dest_port),数据类型:int64
- 字段名:源字节数(orig_bytes),数据类型:float64
- 字段名:本地发起端(local_orig),数据类型:bool
- 字段名:日期时间(datetime),数据类型:string
- 字段名:会话历史(history),数据类型:string
- 字段名:响应字节数(resp_bytes),数据类型:float64
- 字段名:唯一连接标识(uid),数据类型:string
- 字段名:源端口(src_port),数据类型:int64
- 字段名:时间戳(ts),数据类型:float64
- 字段名:源IP(src_ip),数据类型:string
- 字段名:MITRE攻击战术(mitre_attack_tactics),数据类型:string
数据划分:
- 划分名称:训练集(train),占用字节数:484491622,样本数量:2018296
下载大小:100944771,数据集总大小:484491622
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分:训练集(train),文件路径:data/train-*
# “balance_network” 数据集卡片
[更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
##
提供机构:
Imran1
原始信息汇总
数据集概述
数据特征
数据集包含以下特征:
- resp_pkts: 数据类型为
int64 - service: 数据类型为
string - orig_ip_bytes: 数据类型为
int64 - local_resp: 数据类型为
bool - missed_bytes: 数据类型为
int64 - protocol: 数据类型为
string - duration: 数据类型为
float64 - conn_state: 数据类型为
string - dest_ip: 数据类型为
string - orig_pkts: 数据类型为
int64 - community_id: 数据类型为
string - resp_ip_bytes: 数据类型为
int64 - dest_port: 数据类型为
int64 - orig_bytes: 数据类型为
float64 - local_orig: 数据类型为
bool - datetime: 数据类型为
string - history: 数据类型为
string - resp_bytes: 数据类型为
float64 - uid: 数据类型为
string - src_port: 数据类型为
int64 - ts: 数据类型为
float64 - src_ip: 数据类型为
string - mitre_attack_tactics: 数据类型为
string
数据分割
- train: 包含 2018296 个样本,总字节数为 484491622
数据集大小
- 下载大小: 100944771 字节
- 数据集大小: 484491622 字节
配置
- default: 数据文件路径为
data/train-*
搜集汇总
数据集介绍

构建方式
在网络安全领域,平衡网络数据集通过采集网络流量日志构建而成,其数据源自真实网络环境中的连接记录。每条记录包含源IP、目标IP、端口、协议及数据包大小等关键字段,并标注了MITRE ATT&CK战术信息,以支持威胁检测研究。数据经过清洗与标准化处理,确保特征一致性和完整性,最终形成包含超过200万条样本的训练集,为机器学习模型提供丰富的网络行为表征。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,利用其预分割的训练集进行模型开发。典型应用包括构建分类模型以识别恶意连接,或通过无监督方法检测网络异常。使用时应注重特征工程,例如将分类变量编码为数值形式,并基于时间序列分析网络行为模式。数据集支持批量处理与流式读取,可无缝集成至主流机器学习框架,加速网络安全算法的迭代与验证。
背景与挑战
背景概述
在网络空间安全领域,入侵检测系统的效能高度依赖于高质量的网络流量数据。由Imran1发布的balance_network数据集,聚焦于网络流量分析,其核心研究问题在于如何通过结构化的网络连接记录,精准识别潜在的恶意攻击行为。该数据集收录了详尽的网络会话特征,如数据包数量、字节流量、协议类型及连接状态,并创新性地引入了MITRE ATT&CK战术标签,为攻击行为的战术层面分类提供了直接依据。它的构建旨在服务于基于机器学习的网络异常检测与威胁情报研究,对提升自动化安全防御系统的准确性与可解释性具有显著影响力。
当前挑战
该数据集致力于应对网络入侵检测领域的关键挑战,即如何在极度不平衡的网络流量中(正常流量远多于攻击流量),有效识别出隐蔽且多变的网络攻击模式。其具体挑战体现在两方面:其一,在领域问题层面,网络攻击手段持续演进,要求模型不仅能检测已知攻击,还需具备对新型或未知威胁的泛化识别能力;其二,在构建过程中,如何从海量原始网络日志中清洗、标注并平衡数据,确保MITRE ATT&CK战术标签的准确性与一致性,同时处理网络协议与服务的多样性所带来的特征异质性,均是数据集构建者面临的实际难题。
常用场景
经典使用场景
在网络流量分析领域,balance_network数据集凭借其丰富的网络连接特征,如数据包数量、字节传输、协议类型及连接状态,为异常检测模型的训练与评估提供了坚实基础。该数据集常用于监督学习场景,通过标记的MITRE ATT&CK战术信息,支持分类算法识别恶意网络行为,尤其在入侵检测系统(IDS)的构建中,帮助研究者模拟真实网络环境下的流量模式,优化检测精度与效率。
解决学术问题
该数据集有效应对了网络空间安全研究中数据稀缺与标注不完善的挑战,通过提供大规模、多特征的网络连接记录,助力解决异常流量检测、攻击分类及威胁情报分析等核心问题。其包含的MITRE ATT&CK战术标签为学术探索攻击者行为模式与防御策略关联性提供了实证依据,推动了机器学习在网络安全领域的理论深化,促进了自适应防御机制的发展。
实际应用
在实际网络运维中,balance_network数据集可应用于企业或机构的安全监控平台,通过训练实时检测模型,识别分布式拒绝服务(DDoS)、端口扫描或数据渗透等常见威胁。其高维特征支持构建自动化响应系统,提升网络防御的主动性与准确性,为关键基础设施保护、云安全服务及物联网设备管理提供可靠的数据驱动解决方案。
数据集最近研究
最新研究方向
在网络流量分析领域,Imran1/balance_network数据集凭借其丰富的网络连接特征,正成为异常检测与威胁情报研究的关键资源。该数据集整合了数据包传输、协议状态及MITRE ATT&CK战术标签,为机器学习模型提供了细粒度的训练基础。当前前沿研究聚焦于利用深度学习技术,如时序神经网络与图卷积网络,以识别隐蔽的高级持续性威胁和零日攻击。热点事件如供应链攻击与勒索软件泛滥,推动了基于该数据集的实时入侵检测系统开发,旨在提升网络安全的自适应防御能力。其影响在于促进了安全自动化与智能分析融合,对构建弹性网络基础设施具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



