面向软件供应链安全的开源组件指纹特征及级联依赖拓扑数据集
收藏国家基础学科公共科学数据中心2026-05-16 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6a05f1a0f175603f068dee91&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集主要面向软件供应链成分识别(SCA)与深层依赖拓扑分析需求建设,旨在通过建立跨语言的归一化组件模型,解决多语言环境下组件识别难、依赖关系追溯复杂等核心问题。该资源深度覆盖了Java (Maven)、Python (PyPI)、JavaScript (NPM)、Golang (GoModule)及Rust (Crates.io)五大主流生态自诞生至今的全量历史版本及每日实时新增发布。在产生过程中,数据集采用多源镜像同步、官方API采集与动态页面解析相结合的合规方案,利用分布式爬虫系统提取License演化、源码仓库变更等深层元数据,并依据自研标准进行异构数据的归一化映射。在加工流程中,系统通过去重纠偏确保版本号准确性,利用静态解析递归还原组件间的级联依赖关系以生成高保真依赖图谱,并建立“源码-制品”双向溯源链条。数据集核心字段涵盖包名、版本号、所属生态及依赖图谱等关键维度。所有采集与处理工作均在具备安全防护能力的本地机房与协同云端环境中完成,采用分区存储策略确保海量数据的高效存取。该数据集为开展精细化软件成分分析、深层依赖拓扑研究及供应链合规性治理提供了权威、完整且具备溯源能力的底层数据支撑。
提供机构:
中国科学院信息工程研究所



