PicoDomain
收藏arXiv2020-08-21 更新2024-06-21 收录
下载链接:
https://github.com/iHeartGraph/PicoDomain
下载链接
链接失效反馈官方服务:
资源简介:
PicoDomain是一个紧凑且高保真的网络安全数据集,由乔治华盛顿大学开发。该数据集包含从真实入侵中收集的Zeek日志,模拟了小型网络环境下的典型企业网络流量。数据集创建过程中,遵循了Mandiant攻击生命周期,从初始入侵到任务目标的执行。PicoDomain数据集适用于快速验证和迭代开发分析平台,特别是在机器学习和网络安全分析领域。
PicoDomain is a compact and high-fidelity cybersecurity dataset developed by George Washington University. It contains Zeek logs collected from real intrusions, simulating typical enterprise network traffic in a small-scale network environment. During the dataset's creation, the Mandiant Attack Lifecycle was followed, spanning from initial intrusion to the execution of mission objectives. The PicoDomain dataset is suitable for rapid validation and iterative development of analysis platforms, especially in the fields of machine learning and cybersecurity analytics.
提供机构:
乔治华盛顿大学
创建时间:
2020-08-21
搜集汇总
数据集介绍

构建方式
在网络安全研究领域,构建高质量数据集对于算法验证至关重要。PicoDomain数据集的构建基于模拟真实企业网络环境的原则,采用了一个小型Windows办公网络,包含五个工作站、一个域控制器和一个网关防火墙。该环境通过模拟用户日常活动(如网页浏览和SMB文件共享)以及执行完整的攻击活动来生成数据。攻击活动遵循Mandiant攻击生命周期,从初始入侵到任务完成,涵盖了现代攻击者常用的工具、技术和程序。数据收集通过Security Onion传感器进行,利用SPAN端口捕获网络流量,并生成Zeek日志,确保了数据的高保真度和完整性。
特点
PicoDomain数据集的特点在于其紧凑性和高保真度。该数据集规模较小,仅包含约50万条日志,便于在原型开发阶段快速迭代和分析。同时,它提供了详细的攻击活动标注(即红队日志),确保了数据具有可靠的地面真实值,避免了匿名化导致的信息损失。数据集模拟了典型企业网络流量,包括多种日志类型(如连接、DNS、HTTP、Kerberos等),并涵盖了从初始入侵到横向移动的完整攻击链。这些特点使得PicoDomain既能支持传统统计分析,也适用于机器学习算法的开发和验证。
使用方法
PicoDomain数据集的使用方法侧重于支持网络安全分析和算法原型开发。研究人员可以首先利用红队日志作为地面真实值,验证检测方法的准确性。通过分析Zeek日志中的网络流量模式,例如SSL活动异常或Kerberos认证事件,可以识别攻击行为。数据集适用于统计分析方法,如时间序列分析,以及机器学习技术,例如使用局部异常因子进行无监督异常检测。其紧凑规模允许快速数据解析和特征提取,通常在几秒内完成,从而加速算法迭代。最终,该数据集可作为大型数据集(如LANL)验证前的初步测试平台,提高研究效率。
背景与挑战
背景概述
PicoDomain数据集由乔治华盛顿大学的研究团队于2019年创建,旨在应对网络安全领域中对高质量、小规模数据集的迫切需求。该数据集的核心研究问题聚焦于提供一种紧凑且高保真的网络流量日志集合,模拟真实企业环境中的入侵场景,并包含精确的地面真实标签。其设计基于现代攻击者常用的工具、技术和程序,遵循Mandiant攻击生命周期模型,涵盖了从初始入侵到任务完成的完整攻击链。PicoDomain的出现填补了现有数据集在规模与真实性之间的空白,为机器学习算法的快速原型开发和验证提供了重要支撑,推动了半自主网络安全防御系统的研究进展。
当前挑战
PicoDomain数据集旨在解决网络安全领域中入侵检测与行为分析的挑战,特别是在面对使用合法访问方法伪装成正常用户的攻击者时,传统基于签名或启发式的检测方法往往失效。构建过程中的挑战包括:在模拟企业网络环境时,需平衡真实性与可控性,避免用户仿真脚本或代理留下干扰痕迹;同时,数据集需在有限规模内保持攻击场景的代表性,涵盖客户端攻击、权限提升、横向移动等多阶段威胁行为,并确保Zeek日志的完整性与可解释性,避免过度匿名化导致关键信息丢失。此外,模拟环境的昼夜流量模式需贴近现实,以增强数据集的实用价值。
常用场景
经典使用场景
在网络安全研究领域,PicoDomain数据集被广泛用于模拟和分析企业网络环境中的高级持续性威胁(APT)攻击场景。该数据集通过精心设计的攻击活动,如基于Mandiant攻击生命周期的入侵模拟,为研究人员提供了一个紧凑且高保真的实验平台。其经典使用场景包括利用Zeek日志进行网络流量分析,以识别攻击者在横向移动、权限提升和命令与控制(C2)通信中的行为模式。数据集的小规模特性使得它特别适合在原型开发阶段快速验证检测算法,避免了大规模数据集带来的计算负担,从而加速了网络安全分析工具的迭代与优化过程。
解决学术问题
PicoDomain数据集有效解决了网络安全研究中常见的学术问题,特别是针对缺乏真实标注数据和高保真网络环境模拟的挑战。传统数据集如LANL常因匿名化处理而丢失关键信息,或规模过大导致原型开发效率低下。PicoDomain通过提供完整标注的攻击活动日志,包括详细的Zeek记录和红队行动时间线,使研究人员能够准确验证检测方法的有效性。该数据集支持从传统统计分析到无监督机器学习等多种方法,帮助学术界探索在动态网络环境中识别隐蔽攻击的技术,推动了基于行为异常和威胁情报的检测模型发展。
衍生相关工作
PicoDomain数据集衍生了一系列经典的网络安全研究工作,尤其是在机器学习和图数据分析领域。基于该数据集,研究人员开发了多种无监督异常检测算法,如利用局部离群因子(LOF)方法从Kerberos日志中识别 compromised 账户。这些工作进一步推动了基于图结构的威胁检测模型,其中网络实体被建模为节点,通信关系作为边,以捕捉攻击传播的动态模式。此外,数据集还启发了对混合检测框架的探索,结合统计特征与深度学习技术,以提升对多阶段攻击的识别精度。这些衍生成果不仅丰富了网络安全学术文献,也为工业界提供了可部署的检测方案参考。
以上内容由遇见数据集搜集并总结生成



