Maven Central SBOM Dataset
收藏arXiv2025-01-24 更新2025-01-25 收录
下载链接:
https://zenodo.org/records/10047561
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由蒙特利尔大学和瑞典皇家理工学院的研究团队创建,旨在研究Maven Central中SBOM的发布情况。数据集包含14,071个SBOM,涵盖了7,290个软件包发布,数据来源于Maven Central的依赖图。研究团队通过扩展Goblin Weaver工具,从Maven Central中收集了这些SBOM,并将其与依赖图结合,形成了首个从包注册表中收集的SBOM数据集。该数据集可用于未来关于SBOM和软件包分发的研究,旨在提高软件供应链的透明度和安全性。
This dataset was developed by a research team from the University of Montreal and the Royal Institute of Technology (KTH) in Sweden, with the objective of investigating the publication status of SBOMs in Maven Central. The dataset comprises 14,071 SBOMs, covering 7,290 software package releases, with data sourced from the dependency graphs of Maven Central. The research team collected these SBOMs from Maven Central by extending the Goblin Weaver tool, and integrated them with dependency graphs to establish the first SBOM dataset collected from package registries. This dataset is intended for future research on SBOMs and software package distribution, aiming to enhance the transparency and security of software supply chains.
提供机构:
蒙特利尔大学, 瑞典皇家理工学院
创建时间:
2025-01-24
搜集汇总
数据集介绍

构建方式
Maven Central SBOM数据集的构建基于Maven Central依赖图,研究者从该图中按年份比例抽取了10%的发布节点作为样本,共计1,445,910个节点。通过Goblin Weaver工具,研究者进一步从Maven Central中收集了与这些节点相关的SBOM文件,共获取了14,071个SBOM文件,涵盖7,290个发布节点。这些SBOM文件以CycloneDX和SPDX两种主要格式为主,并通过哈希算法(如MD5、SHA-1等)进行校验。最终,研究者将这些SBOM数据与Maven Central依赖图进行整合,形成了一个包含SBOM信息的增强版依赖图。
特点
该数据集的特点在于其首次从Maven Central包注册表中系统地收集了SBOM文件,涵盖了7,290个发布节点和14,071个SBOM文件。数据集中的SBOM文件以CycloneDX格式为主,占比高达97.3%,而SPDX格式仅占2.7%。此外,所有SBOM文件均通过至少一种哈希算法进行校验,确保了数据的完整性。数据集还揭示了SBOM发布的时间趋势,尤其是2021年白宫行政令发布后,SBOM的发布数量显著增加。数据集还提供了SBOM与Maven Central依赖图的对比分析,揭示了SBOM中依赖关系的准确性及其与依赖图的匹配程度。
使用方法
该数据集可用于研究SBOM的发布趋势、格式选择及其在软件供应链透明性中的作用。研究者可以通过分析SBOM文件的内容,探索不同格式的SBOM在依赖关系描述上的差异,并评估SBOM在软件供应链安全中的应用效果。此外,增强版的Maven Central依赖图可用于进一步研究依赖关系的准确性及其对软件供应链的影响。数据集还可用于开发自动化工具,帮助开发者更高效地生成和发布SBOM文件,从而提升软件供应链的透明性和安全性。
背景与挑战
背景概述
Maven Central SBOM Dataset 是由蒙特利尔大学和KTH皇家理工学院的研究团队于2025年创建的,旨在研究Maven Central中软件物料清单(SBOM)的发布情况。SBOM作为软件供应链透明性和完整性的关键工具,近年来受到广泛关注。该数据集基于Goblin框架,从Maven Central依赖图中抽取了10%的发布节点,收集了14,071个SBOM文件,覆盖了7,290个软件包发布。这是首个从包注册表中收集的SBOM数据集,为研究SBOM的发布模式、格式及其与依赖图的对齐情况提供了重要数据支持。2021年白宫发布的网络安全行政命令显著推动了SBOM的采用,尤其是在Maven Central中的发布。
当前挑战
Maven Central SBOM Dataset 面临的挑战主要体现在两个方面。首先,SBOM的发布在Maven Central中尚未普及,尽管2021年后发布量显著增加,但整体发布比例仍较低(仅0.5%的发布节点包含SBOM)。其次,SBOM的构建和发布过程中存在依赖信息不准确的问题。研究发现,部分SBOM中的依赖信息与Maven Central依赖图存在显著差异,甚至出现完全错误的依赖版本。此外,SBOM的发布过程缺乏系统化文档,导致自动化发布工具的普及和使用面临障碍。这些挑战限制了SBOM在软件供应链安全中的广泛应用。
常用场景
经典使用场景
Maven Central SBOM Dataset 主要用于研究软件供应链中的透明性和完整性。该数据集通过收集和分析 Maven Central 中的软件物料清单(SBOM),帮助研究人员评估开发者发布 SBOM 的频率及其与软件包的关系。经典的使用场景包括分析 SBOM 的生成工具准确性、SBOM 的版本控制以及 SBOM 在软件包注册表中的分布情况。通过该数据集,研究人员可以深入探讨 SBOM 的生成和发布模式,为软件供应链的安全性和透明度提供数据支持。
衍生相关工作
Maven Central SBOM Dataset 衍生了许多相关的研究工作。例如,研究人员利用该数据集开发了新的 SBOM 生成工具,并评估了这些工具的准确性和效率。此外,该数据集还被用于研究 SBOM 在软件供应链中的传播和影响,特别是 SBOM 的发布对软件包流行度的影响。其他相关研究还包括 SBOM 格式的比较分析、SBOM 生成工具的自动化程度评估以及 SBOM 在漏洞检测中的应用。这些研究工作进一步推动了 SBOM 在软件供应链中的广泛应用。
数据集最近研究
最新研究方向
随着软件供应链安全问题的日益突出,软件物料清单(SBOM)的生成与发布成为研究热点。Maven Central SBOM Dataset 作为首个从包注册中心收集的 SBOM 数据集,为研究 SBOM 的发布行为及其与依赖图的关联提供了重要数据支持。近年来,研究重点集中在 SBOM 生成工具的准确性、SBOM 发布流程的自动化以及 SBOM 与依赖图的一致性分析上。2021 年白宫发布的网络安全行政命令显著推动了 SBOM 的采用,尤其是在 Maven Central 中的发布量大幅增加。然而,研究也揭示了 SBOM 发布中的挑战,如依赖信息的准确性不足以及发布流程缺乏系统化文档。未来研究方向可能包括进一步优化 SBOM 生成工具、探索 SBOM 在供应链安全中的实际应用效果,以及推动 SBOM 在开发者社区中的广泛普及。
相关研究论文
- 1Software Bills of Materials in Maven Central蒙特利尔大学, 瑞典皇家理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成



