Malicious Software Packages Dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/DataDog/malicious-software-packages-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1448个（并持续增加）由Datadog识别的恶意软件包，作为软件供应链安全研究的一部分。大多数恶意包是通过GuardDog识别的。数据集涵盖了PyPI和NPM生态系统。

本数据集汇聚了1448个（且持续扩充中）由Datadog鉴定的恶意软件包，构成软件供应链安全研究的核心内容。其中，多数恶意软件包由GuardDog检测识别。数据集内容广泛，涵盖了Python Package Index（PyPI）和Node Package Manager（NPM）两大生态系统。

创建时间：

2023-03-21

原始信息汇总

Malicious Software Packages Dataset 概述

数据集基本信息

名称: Malicious Software Packages Dataset
描述: 一个包含1507个恶意软件包的开源数据集，由Datadog识别，主要用于软件供应链安全研究。
生态系统: PyPI, NPM

数据集内容

样本位置: 位于 samples/ 文件夹中，以加密ZIP文件形式存储，密码为 infected。
文件命名: 文件名中的日期为发现日期，非发布日期。

使用方法

自动提取: 使用 extract.sh 脚本自动提取所有样本进行本地分析。
手动提取: 使用命令 unzip -o -P infected samples/pypi/2023-03-20-pydefender-v1.0.0.zip -d /tmp/ 提取单个样本。

许可证

许可证: Apache-2.0
引用方式: 使用提供的引用格式进行学术引用。

注意事项

安全警告: 数据集包含的软件包具有恶意，不得在个人机器上运行。
数据偏差: 数据集可能存在选择偏差，主要由GuardDog规则集识别，可能不完全代表软件供应链安全恶意软件的全貌。
相似性: 数据集中的某些软件包高度相似，截至2023年3月20日，估计包含约50个高度相似的软件包集群。

维护状态

更新: 数据集将定期添加新软件包。
验证: 每个软件包均经过人工手动审核确认其恶意性质。

贡献政策

当前状态: 不接受外部贡献。
联系: 如有发现，可通过 securitylabs@datadoghq.com 联系分享。

搜集汇总

数据集介绍

构建方式

该数据集由Datadog安全实验室构建，旨在通过其安全研究工作识别软件供应链中的恶意软件包。数据集包含2861个恶意软件包，主要通过GuardDog工具识别。这些软件包来自PyPI和NPM生态系统，每个样本均经过人工审核确认其恶意性质。数据集中的样本以加密ZIP文件形式存储，文件名包含发现日期，但并非软件包发布日期。

特点

该数据集的一个显著特点是其样本的多样性和复杂性。尽管数据集主要由GuardDog规则集识别，但其包含了大约50个高度相似的软件包集群，其中最大的集群包含超过500个高度相似的软件包。这种集群结构有助于研究人员深入分析恶意软件的变种和传播模式。此外，数据集的持续更新机制确保了其时效性和代表性。

使用方法

用户可以通过提供的extract.sh脚本自动解压所有样本进行本地分析，或使用unzip命令手动解压单个样本。解压密码为'infected'。数据集适用于安全研究人员、数据科学家和软件供应链安全专家，用于分析恶意软件的行为模式、传播途径和变种特征。使用时需注意，数据集包含实际的恶意软件，不应在生产环境中运行。

背景与挑战

背景概述

恶意软件包数据集（Malicious Software Packages Dataset）由Datadog安全实验室创建，旨在通过识别和分析软件供应链中的恶意软件包，提升软件供应链安全。该数据集包含了2861个恶意软件包，主要来源于PyPI和NPM生态系统。数据集的创建始于2023年3月，由Datadog的GuardDog工具识别并手动验证。这一数据集的发布，标志着在软件供应链安全领域的一次重要进展，为研究人员和安全专家提供了宝贵的资源，以更好地理解和应对恶意软件包的威胁。

当前挑战

尽管恶意软件包数据集提供了丰富的恶意软件样本，但其构建和使用过程中仍面临多项挑战。首先，数据集可能存在选择偏差，因为其主要依赖GuardDog规则集进行识别，这可能导致数据集无法全面反映软件供应链安全中的恶意软件景观。其次，数据集中包含大量高度相似的软件包，特别是存在一个包含超过500个高度相似包的大型集群，这可能影响数据集的分析准确性。此外，数据集的维护和更新也是一个持续的挑战，需要不断添加新的恶意软件包以保持其时效性和代表性。

常用场景

经典使用场景

在软件供应链安全领域，Malicious Software Packages Dataset 被广泛用于检测和分析恶意软件包。该数据集包含了2861个恶意软件包，主要来自PyPI和NPM生态系统。研究者通过分析这些样本，可以识别出恶意软件包的常见特征和行为模式，从而开发出更有效的检测和防御机制。此外，数据集还提供了自动提取样本的脚本，方便研究者进行本地分析。

实际应用

在实际应用中，Malicious Software Packages Dataset 被用于训练和测试恶意软件检测工具。安全公司和研究机构利用该数据集开发和优化其产品，以提高对恶意软件包的识别准确率。此外，该数据集还被用于教育和培训，帮助安全从业者更好地理解和应对软件供应链中的安全威胁。

衍生相关工作

基于Malicious Software Packages Dataset，研究者们开发了多种检测和防御工具，如GuardDog等。这些工具通过分析数据集中的样本，识别出恶意软件包的特征，并应用于实际的软件供应链安全防护中。此外，该数据集还激发了相关领域的研究，如恶意软件包的分类和行为分析，进一步推动了软件供应链安全技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集