定制模拟数据集

Name: 定制模拟数据集
Creator: 格拉斯哥大学
Published: 2025-04-03 14:42:26
License: 暂无描述

arXiv2025-04-03 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.02313v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过重放现实世界中的供应链利用来模拟，旨在捕捉开源软件（OSS）在运行时的通用利用行为，并专注于多阶段供应链漏洞的利用，以研究APT在供应链漏洞中的独特特征和检测方法。

This dataset is constructed by replaying real-world supply chain exploitation events, aiming to capture the generic exploitation behaviors of open-source software (OSS) during runtime. It focuses on the exploitation of multi-stage supply chain vulnerabilities to study the unique characteristics and detection methodologies of advanced persistent threats (APTs) in supply chain vulnerabilities.

提供机构：

格拉斯哥大学

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在网络安全领域，供应链漏洞（SCVs）日益成为高级持续性威胁（APT）的主要攻击媒介。为填补学术界和工业界缺乏针对性数据集的空白，本研究通过重放真实世界供应链攻击场景，构建了定制模拟数据集。该数据集采用多源监控技术，动态捕获运行时行为，涵盖npm、PyPI等主流开源生态系统的9,461份攻击报告，并特别模拟了Azure云平台上的多阶段攻击链。数据采集过程运用自主研发的UTLParser工具，将异构日志转化为时序溯源图结构，为后续图学习提供标准化输入。

特点

该数据集的核心价值在于其高度仿真的攻击场景构建与多维特征融合。区别于传统静态代码分析数据集，其创新性地捕捉了无源码环境下的运行时动态行为特征，完整呈现供应链攻击特有的横向移动模式。数据元素包含进程、网络、文件等系统实体的异构节点属性，以及带时间戳的交互边关系，形成具有时空维度的动态属性图。特别值得注意的是，数据集精细标注了攻击阶段标签，为研究多阶段APT攻击链提供可解释性分析基础。

使用方法

该数据集专为分布式时序图学习算法验证设计。研究者可通过加载预处理后的动态溯源图，采用分层消息传递网络提取时空特征。具体流程包含：使用多头注意力机制建模节点间依赖关系，基于动态阈值聚类识别异常子图，最后通过反向传播重构攻击路径。为提升计算效率，建议采用图分区技术实现分布式训练，并配合弹性权重固化（EWC）方法实现模型持续更新。数据集兼容主流图学习框架，其标准化接口支持快速对接PyG或DGL等工具链。

背景与挑战

背景概述

定制模拟数据集由格拉斯哥大学的Zhuoran Tan、Christos Anagnostopoulos和Jeremy Singer等研究人员于2025年提出，旨在解决供应链中高级持续性威胁（APT）检测的关键问题。随着信息通信技术（ICT）的快速发展，供应链中的数字资产、软件和硬件组件日益复杂，成为APT攻击的主要目标。传统防御策略多依赖于区块链完整性保证或开源软件源代码分析，但在源代码不可得或运行时检测方面存在明显不足。该数据集通过模拟真实世界供应链漏洞利用场景，结合多源数据构建动态溯源图，填补了学术界和工业界在APT检测领域的数据空白，为实时检测和防御提供了重要支持。

当前挑战

定制模拟数据集面临的挑战主要体现在两个方面：领域问题和构建过程。在领域问题方面，APT攻击利用供应链漏洞（SCVs）具有高度隐蔽性和多阶段攻击特性，传统检测方法难以有效捕捉其独特攻击链。现有数据集多针对通用APT活动设计，无法准确反映供应链场景下的攻击模式。在构建过程中，数据集需要整合多源监控数据并转化为动态溯源图，涉及复杂的异构节点和边类型处理。此外，实时图构建和分布式训练带来的计算开销、以及模型更新中的灾难性遗忘问题，均对数据集的实用性和可扩展性提出了严峻挑战。

常用场景

经典使用场景

在网络安全领域，定制模拟数据集被广泛应用于高级持续性威胁（APT）检测的研究中。该数据集通过模拟真实供应链漏洞（SCVs）的攻击行为，为研究者提供了丰富的运行时动态行为数据。特别是在分布式环境下，该数据集能够构建动态溯源图，帮助研究者深入理解APT攻击链的复杂性和隐蔽性。通过多源数据整合和时序图学习，该数据集为检测供应链中的APT行为提供了强有力的支持。

衍生相关工作

定制模拟数据集衍生了一系列经典研究工作，包括基于注意力机制的图神经网络和时序图模型。这些研究进一步优化了APT检测的精度和效率。例如，UTLParser工具的开发实现了多源数据的统一解析，为动态溯源图的构建提供了技术支持。此外，分布式学习技术的引入显著提升了大规模图数据处理的效率，为后续的实时检测和自适应学习奠定了坚实基础。

数据集最近研究