QUT-DV25
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://doi.org/10.7910/DVN/LBMXJY and https://qut-dv25.dysec.io
下载链接
链接失效反馈官方服务:
资源简介:
QUT-DV25是一个用于动态分析下一代软件供应链攻击的数据集,由昆士兰科技大学的研究团队创建。该数据集包含14271个Python包的行为轨迹,其中7127个表现出恶意行为。这些包在隔离的沙盒环境中执行,使用扩展的Berkeley Packet Filter (eBPF)内核和用户级探针进行实时监控,记录了36个实时特征,包括系统调用、网络流量、资源使用、目录访问模式、依赖日志和安装行为。这些特征使得研究下一代攻击向量成为可能,如多阶段恶意软件执行、远程访问激活和动态有效载荷生成。QUT-DV25数据集在恶意检测系统中表现出色,为在快速发展的软件供应链生态系统中开发和基准化高级威胁检测提供了坚实的基础。
QUT-DV25 is a dataset for dynamic analysis of next-generation software supply chain attacks, created by a research team at Queensland University of Technology. The dataset contains behavioral traces of 14,271 Python packages, among which 7,127 exhibit malicious behaviors. These packages were executed in an isolated sandbox environment, with real-time monitoring conducted using extended Berkeley Packet Filter (eBPF) kernel and user-level probes, capturing 36 real-time features including system calls, network traffic, resource usage, directory access patterns, dependency logs, and installation behaviors. These features enable research into next-generation attack vectors such as multi-stage malware execution, remote access activation, and dynamic payload generation. The QUT-DV25 dataset delivers outstanding performance in malicious detection systems, providing a solid foundation for developing and benchmarking advanced threat detection within the rapidly evolving software supply chain ecosystem.
提供机构:
昆士兰科技大学
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
QUT-DV25数据集通过动态分析方法构建,专注于捕捉Python Package Index(PyPI)生态系统中的下一代软件供应链攻击。数据集在受控的隔离沙箱环境中执行14,271个Python包(其中7,127个为恶意包),利用扩展的Berkeley Packet Filter(eBPF)内核和用户级探针实时捕获安装时和安装后的行为轨迹。通过eBPF工具,数据集记录了36种实时特征,包括系统调用、网络流量、资源使用、目录访问模式、依赖日志和安装行为,为研究复杂的动态攻击向量提供了全面的数据支持。
特点
QUT-DV25数据集的特点在于其动态分析能力,能够捕捉传统静态或元数据方法无法检测的复杂攻击行为。数据集包含14,271个Python包,其中7,127个被标记为恶意包,覆盖了多种攻击类型,如多阶段恶意软件执行、远程访问激活和动态负载生成。通过eBPF工具,数据集提供了丰富的实时特征,包括系统调用、网络流量和资源使用等,为机器学习模型训练和威胁检测研究提供了高质量的数据基础。此外,数据集的构建方法确保了行为轨迹的隔离性和可重复性,使其成为评估恶意软件检测系统的理想基准。
使用方法
QUT-DV25数据集的使用方法主要围绕动态行为分析和机器学习模型训练展开。研究人员可以通过分析数据集中的实时特征,如系统调用和网络流量,识别恶意包的行为模式。数据集支持多种机器学习方法,包括随机森林、决策树、支持向量机和梯度提升,用于二元分类任务。使用前需对数据进行预处理,包括去除重复包、对齐目录结构和归一化数值特征。数据集的高维特征可通过特征选择和降维技术优化,以提高模型性能。QUT-DV25的公开可用性确保了研究的可重复性,并为开发先进的供应链威胁防御工具提供了坚实基础。
背景与挑战
背景概述
QUT-DV25数据集由澳大利亚昆士兰科技大学(QUT)的研究团队于2025年推出,旨在应对下一代软件供应链攻击的动态分析需求。随着开源软件(OSS)的广泛应用,Python包索引(PyPI)等生态系统成为恶意攻击的主要目标,传统的静态分析和元数据检测方法已无法有效应对多阶段恶意软件执行、远程访问激活等复杂威胁。QUT-DV25通过扩展伯克利包过滤器(eBPF)内核和用户级探针,在隔离沙箱环境中捕获了14,271个Python包的安装及安装后行为轨迹,其中7,127个被标记为恶意包。该数据集包含36种实时特征,如系统调用、网络流量和资源使用模式,为软件供应链安全研究提供了重要的动态分析基准。
当前挑战
QUT-DV25数据集面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,传统静态数据集无法捕捉安装时和安装后的动态行为,导致多阶段攻击(如动态负载生成和隐蔽远程访问)难以检测。QUT-DV25通过动态分析填补了这一空白,但需解决高维度特征带来的模型复杂性和平台依赖性等问题。在构建过程中,数据集需克服恶意包样本稀缺、环境隔离复杂性以及eBPF探针部署的技术难题。此外,依赖外部威胁情报验证标签的可靠性,以及处理部分安装失败案例的行为可变性,均为数据集的构建增加了挑战。
常用场景
经典使用场景
QUT-DV25数据集在动态分析下一代软件供应链攻击中展现出卓越的应用价值。该数据集通过eBPF内核和用户级探针,在隔离的沙盒环境中捕获了14,271个Python软件包的安装及安装后行为轨迹,其中7,127个被标记为恶意软件包。其36个实时特征涵盖了系统调用、网络流量、资源使用、目录访问模式等多个维度,为研究多阶段恶意软件执行、远程访问激活和动态负载生成等复杂攻击提供了丰富的数据支持。
实际应用
在实际应用场景中,QUT-DV25数据集已被用于提升Python软件包索引(PyPI)生态系统的安全性。基于该数据集训练的机器学习模型能够实时监测软件包安装过程中的异常行为,如未经授权的目录访问或可疑网络连接。其动态分析能力使得安全团队能够及时发现并移除潜伏的恶意软件包,有效降低了软件供应链被攻击的风险。
衍生相关工作
QUT-DV25数据集推动了多个相关研究领域的进展。基于该数据集,研究人员开发了DySEC系统,用于动态检测PyPI生态系统中的恶意软件包。此外,该数据集还被用于改进现有的恶意软件检测系统(MDS),通过结合静态和动态分析方法,显著提升了检测精度。这些衍生工作进一步验证了QUT-DV25在软件供应链安全研究中的核心价值。
以上内容由遇见数据集搜集并总结生成



