malicious_npm_packages.json

github2025-12-03 更新2025-12-04 收录

下载链接：

https://github.com/triconinfotech/shai-hulud-malicious-packages

下载链接

链接失效反馈

官方服务：

资源简介：

Shai-Hulud恶意NPM包数据库是一个自动更新的威胁情报引擎，从OSV获取已确认的恶意NPM包建议，并将其整合到一个持续更新的、机器可读的JSON数据库中。该数据库包含所有已知的恶意NPM包及其对应版本，并丰富了建议元数据，每30分钟自动更新一次，可作为恶意包签名数据库直接用于扫描器和安全工具。

The Shai-Hulud Malicious NPM Package Database is an automatically updated threat intelligence engine that retrieves confirmed malicious NPM package advisories from OSV and consolidates them into a continuously updated, machine-readable JSON database. This database contains all known malicious NPM packages and their corresponding versions, with enriched advisory metadata. It automatically updates every 30 minutes and can be directly used as a malicious package signature database for scanners and security tools.

创建时间：

2025-11-27

搜集汇总

数据集介绍

构建方式

在软件供应链安全领域，恶意软件包的识别与防范已成为关键课题。Shai-Hulud恶意NPM包数据库的构建基于自动化威胁情报引擎，通过持续从OpenSSF OSV恶意包公告源摄取已确认的恶意NPM包信息，并整合至统一的JSON格式数据库中。该引擎每30分钟执行一次数据更新，确保信息时效性，同时将原始公告进行标准化与聚合处理，生成结构化的版本感知索引，为自动化工具提供可直接消费的单一确定性情报文件。

使用方法

在安全实践应用中，该数据集可作为恶意包拒绝列表或签名文件，无缝集成至自动化工作流。用户可直接消费malicious_npm_packages.json文件，无需依赖仓库内部代码。数据集支持多种使用场景，包括作为自动化扫描器的输入源、CI/CD管道中的供应链安全控制点，或用于构建实时威胁检测模型。通过GitHub代码搜索功能，用户可高效检索特定恶意包条目，而分块存储结构确保了大规模数据下的程序化访问效率。

背景与挑战

背景概述

在软件供应链安全领域，恶意软件包已成为日益严峻的威胁，尤其是Node.js生态系统中的NPM（Node Package Manager）仓库。为应对这一挑战，Shai-Hulud恶意NPM包数据库应运而生，由研究人员Hemachand Sai主导开发，并依托OpenSSF OSV等上游安全数据源。该数据集创建于2023年，旨在通过自动化威胁情报引擎，整合已确认的恶意NPM包安全公告，构建一个持续更新、机器可读的JSON数据库。其核心研究问题聚焦于如何高效、统一地提供恶意包签名数据，以支持自动化扫描器、CI/CD流水线及供应链监控系统，从而提升软件依赖管理的安全性与可靠性。该数据集通过每30分钟自动更新，已收录超过一万个恶意包记录，为安全工具集成提供了标准化接口，显著增强了开源生态系统的威胁检测与响应能力。

当前挑战

该数据集致力于解决软件供应链安全中恶意NPM包检测的挑战，具体包括识别隐蔽的依赖注入、版本混淆攻击以及大规模自动化分发包的威胁。在构建过程中，面临多重技术难题：首先，上游安全公告（如OSV）格式不一致且碎片化，需进行数据聚合与归一化处理以生成统一结构；其次，为确保数据的实时性与准确性，需设计高效的自动化流水线，实现每30分钟同步更新；此外，为适应GitHub的索引限制，需将大型JSON文件分割为多个约2MB的片段，同时保持完整数据的可编程访问性。这些挑战要求数据集在保持高覆盖率和低误报率之间取得平衡，以支持安全工具的可靠集成。

常用场景

经典使用场景

在软件供应链安全领域，恶意NPM包数据库为自动化安全扫描工具提供了核心数据支持。该数据集通过整合来自OSV等权威来源的恶意包公告，构建了一个统一、版本感知的JSON索引，使得安全系统能够高效识别和阻断已知的恶意依赖包。其经典使用场景包括集成到持续集成/持续部署流水线中，作为实时检测恶意包入侵的关键组件，确保开发环境与生产部署的安全性。

解决学术问题

该数据集有效解决了软件供应链安全研究中恶意包检测数据分散、格式不统一的学术难题。通过提供结构化、标准化的恶意包签名数据库，它支持了大规模自动化安全分析，促进了恶意软件传播模式、版本演化规律及攻击溯源等方面的深入研究。其意义在于为学术界提供了高质量、可复现的实验数据基础，推动了供应链安全防御技术的理论创新与实证评估。

实际应用

在实际应用层面，该数据集被广泛部署于企业安全运维中，作为恶意包黑名单直接输入到安全监控系统。它支持自动化扫描器在软件构建阶段实时检测依赖风险，并被用于强化CI/CD管道中的供应链安全控制。此外，其分块存储设计确保了数据在GitHub等平台的可搜索性，便于安全团队快速查询与响应，从而显著提升了组织对开源生态中恶意威胁的防御能力。

数据集最近研究