Malicious Software Packages Dataset
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/DataDog/malicious-software-packages-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1448个(并持续增加)由Datadog识别的恶意软件包,作为软件供应链安全研究的一部分。大多数恶意包是通过GuardDog识别的。数据集涵盖了PyPI和NPM生态系统。
本数据集汇聚了1448个(且持续扩充中)由Datadog鉴定的恶意软件包,构成软件供应链安全研究的核心内容。其中,多数恶意软件包由GuardDog检测识别。数据集内容广泛,涵盖了Python Package Index(PyPI)和Node Package Manager(NPM)两大生态系统。
创建时间:
2023-03-21
原始信息汇总
Malicious Software Packages Dataset 概述
数据集基本信息
- 名称: Malicious Software Packages Dataset
- 描述: 一个包含1507个恶意软件包的开源数据集,由Datadog识别,主要用于软件供应链安全研究。
- 生态系统: PyPI, NPM
数据集内容
- 样本位置: 位于 samples/ 文件夹中,以加密ZIP文件形式存储,密码为
infected。 - 文件命名: 文件名中的日期为发现日期,非发布日期。
使用方法
- 自动提取: 使用 extract.sh 脚本自动提取所有样本进行本地分析。
- 手动提取: 使用命令
unzip -o -P infected samples/pypi/2023-03-20-pydefender-v1.0.0.zip -d /tmp/提取单个样本。
许可证
- 许可证: Apache-2.0
- 引用方式: 使用提供的引用格式进行学术引用。
注意事项
- 安全警告: 数据集包含的软件包具有恶意,不得在个人机器上运行。
- 数据偏差: 数据集可能存在选择偏差,主要由GuardDog规则集识别,可能不完全代表软件供应链安全恶意软件的全貌。
- 相似性: 数据集中的某些软件包高度相似,截至2023年3月20日,估计包含约50个高度相似的软件包集群。
维护状态
- 更新: 数据集将定期添加新软件包。
- 验证: 每个软件包均经过人工手动审核确认其恶意性质。
贡献政策
- 当前状态: 不接受外部贡献。
- 联系: 如有发现,可通过 securitylabs@datadoghq.com 联系分享。
搜集汇总
数据集介绍

构建方式
该数据集由Datadog安全实验室构建,旨在通过其安全研究工作识别软件供应链中的恶意软件包。数据集包含2861个恶意软件包,主要通过GuardDog工具识别。这些软件包来自PyPI和NPM生态系统,每个样本均经过人工审核确认其恶意性质。数据集中的样本以加密ZIP文件形式存储,文件名包含发现日期,但并非软件包发布日期。
特点
该数据集的一个显著特点是其样本的多样性和复杂性。尽管数据集主要由GuardDog规则集识别,但其包含了大约50个高度相似的软件包集群,其中最大的集群包含超过500个高度相似的软件包。这种集群结构有助于研究人员深入分析恶意软件的变种和传播模式。此外,数据集的持续更新机制确保了其时效性和代表性。
使用方法
用户可以通过提供的extract.sh脚本自动解压所有样本进行本地分析,或使用unzip命令手动解压单个样本。解压密码为'infected'。数据集适用于安全研究人员、数据科学家和软件供应链安全专家,用于分析恶意软件的行为模式、传播途径和变种特征。使用时需注意,数据集包含实际的恶意软件,不应在生产环境中运行。
背景与挑战
背景概述
恶意软件包数据集(Malicious Software Packages Dataset)由Datadog安全实验室创建,旨在通过识别和分析软件供应链中的恶意软件包,提升软件供应链安全。该数据集包含了2861个恶意软件包,主要来源于PyPI和NPM生态系统。数据集的创建始于2023年3月,由Datadog的GuardDog工具识别并手动验证。这一数据集的发布,标志着在软件供应链安全领域的一次重要进展,为研究人员和安全专家提供了宝贵的资源,以更好地理解和应对恶意软件包的威胁。
当前挑战
尽管恶意软件包数据集提供了丰富的恶意软件样本,但其构建和使用过程中仍面临多项挑战。首先,数据集可能存在选择偏差,因为其主要依赖GuardDog规则集进行识别,这可能导致数据集无法全面反映软件供应链安全中的恶意软件景观。其次,数据集中包含大量高度相似的软件包,特别是存在一个包含超过500个高度相似包的大型集群,这可能影响数据集的分析准确性。此外,数据集的维护和更新也是一个持续的挑战,需要不断添加新的恶意软件包以保持其时效性和代表性。
常用场景
经典使用场景
在软件供应链安全领域,Malicious Software Packages Dataset 被广泛用于检测和分析恶意软件包。该数据集包含了2861个恶意软件包,主要来自PyPI和NPM生态系统。研究者通过分析这些样本,可以识别出恶意软件包的常见特征和行为模式,从而开发出更有效的检测和防御机制。此外,数据集还提供了自动提取样本的脚本,方便研究者进行本地分析。
实际应用
在实际应用中,Malicious Software Packages Dataset 被用于训练和测试恶意软件检测工具。安全公司和研究机构利用该数据集开发和优化其产品,以提高对恶意软件包的识别准确率。此外,该数据集还被用于教育和培训,帮助安全从业者更好地理解和应对软件供应链中的安全威胁。
衍生相关工作
基于Malicious Software Packages Dataset,研究者们开发了多种检测和防御工具,如GuardDog等。这些工具通过分析数据集中的样本,识别出恶意软件包的特征,并应用于实际的软件供应链安全防护中。此外,该数据集还激发了相关领域的研究,如恶意软件包的分类和行为分析,进一步推动了软件供应链安全技术的发展。
以上内容由遇见数据集搜集并总结生成



