five

软件物料清单数据集(SBOM Dataset)

收藏
arXiv2025-04-09 更新2025-04-11 收录
下载链接:
https://zenodo.org/record/14233414
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个软件物料清单(SBOM)的集合,由大阪大学等研究机构创建,旨在评估SBOM消费工具的性能。数据集包含了从真实世界Java项目中生成的46个SBOM,通过自动和手动校正确保了准确性,并符合SPDX Lite配置文件的要求。这些准确且结构良好的SBOM,能够使研究人员全面评估SBOM消费工具的功能并识别潜在问题。

This dataset is a collection of Software Bill of Materials (SBOM), created by research institutions including Osaka University, aiming to evaluate the performance of SBOM consumption tools. It contains 46 SBOMs generated from real-world Java projects, whose accuracy is ensured via automatic and manual validation, and which comply with the SPDX Lite profile specifications. These accurate and well-structured SBOMs enable researchers to comprehensively assess the functionalities of SBOM consumption tools and identify potential issues.
提供机构:
大阪大学
创建时间:
2025-04-09
搜集汇总
数据集介绍
main_image_url
构建方式
软件物料清单数据集(SBOM Dataset)的构建过程基于真实世界的Java项目,通过系统化的步骤确保数据质量。首先从GitHub收集了3,271个活跃的Java项目,筛选出798个使用Maven构建工具的项目,并利用开源工具sbom-tool生成初始SBOM。随后通过自动化和手动修正步骤,确保SBOM符合SPDX Lite规范,最终得到46个高质量的SBOM。修正过程中利用了Maven Central Repository的API补充缺失信息,并通过人工审核确保数据的准确性和完整性。
特点
该数据集的主要特点在于其高质量和结构化设计。所有SBOM均遵循SPDX Lite规范,确保包含关键信息如组件名称、版本、许可证等,适用于漏洞管理和许可证管理两大应用场景。数据集中的项目具有复杂的依赖关系,能够有效评估SBOM消费工具的功能。此外,每个SBOM文件均附带数据来源描述文件,提供透明化的生成过程,便于用户理解和验证数据的可靠性。
使用方法
该数据集可用于评估SBOM消费工具的性能和功能。用户可通过数据集中的repositories.json文件筛选目标项目,并直接使用对应的SBOM文件(sbom.spdx.json)作为工具输入。数据集中提供的依赖关系和组件信息能够帮助研究人员模拟真实场景下的工具行为。此外,数据来源文件(sbom.data-sources.json)详细记录了字段值的自动或手动修正来源,为用户提供进一步的分析依据。
背景与挑战
背景概述
软件物料清单(SBOM)数据集由日本大阪大学、圣母清心女子大学、福知山公立大学及南山大学的研究团队于2025年联合构建,旨在解决软件依赖管理中的关键问题。随着软件供应链复杂度的提升,传统依赖管理方法难以快速识别漏洞组件,SBOM作为包含组件名称、版本及许可证等元数据的结构化清单,成为应对这一挑战的重要工具。该数据集聚焦Java生态,基于3271个GitHub高星项目生成46个符合SPDX Lite规范的精细标注SBOM,为评估SBOM消费工具提供了首个公开基准,推动了软件成分分析与供应链安全研究的发展。
当前挑战
领域层面,SBOM消费工具面临依赖关系深度解析、多源漏洞数据融合等核心挑战,现有方法难以平衡检测精度与覆盖广度。数据集构建过程中,研究团队需解决三大技术难题:SBOM生成工具对Maven组件大小写敏感性问题导致的元数据缺失,自动化流程对非中央仓库组件的检索局限,以及pom.xml文件信息不准确带来的校正工作量激增。此外,跨编程语言SBOM的标准化表达与规模扩展仍是待突破的瓶颈。
常用场景
经典使用场景
在软件供应链安全领域,软件物料清单数据集(SBOM Dataset)为研究人员提供了一个标准化的评估基准。该数据集通过收集真实世界的Java项目SBOM文件,为评估SBOM消费工具的功能性和准确性提供了重要支持。其经典使用场景包括测试工具在识别依赖库漏洞和许可证合规性方面的表现,帮助开发者优化软件依赖管理流程。
衍生相关工作
基于该数据集已衍生出多个重要的研究方向,包括SBOM生成工具的准确性改进研究、跨语言SBOM标准化工作以及软件供应链攻击检测模型的开发。数据集构建过程中发现的组件命名大小写敏感性问题直接推动了SBOM工具链的改进,而其中包含的复杂依赖关系数据则被用于训练新型的依赖冲突预测算法。
数据集最近研究
最新研究方向
随着软件供应链安全问题的日益突出,软件物料清单(SBOM)作为管理软件依赖关系的关键工具,其研究与应用正成为软件工程领域的前沿热点。近期研究聚焦于SBOM消费工具的评估与优化,特别是在漏洞管理和许可证管理两大核心应用场景。由大阪大学等机构构建的SBOM数据集(arXiv:2504.06880v1)首次提供了基于真实Java项目的46个符合SPDX Lite规范的精准SBOM样本,填补了该领域公开数据集的空白。这一数据集不仅为评估SBOM消费工具的功能性提供了基准,还揭示了当前SBOM生成工具在组件名称大小写敏感性处理等方面的技术缺陷。值得注意的是,该研究通过结合自动化修正与人工校验的双重机制,显著提升了SBOM数据的可靠性,其方法论为跨语言SBOM数据集的扩展奠定了技术基础。在政策层面,欧美《网络弹性法案》和《改善国家网络安全行政令》等法规对SBOM的强制性要求,进一步推动了该数据集在合规性验证和供应链风险管理中的应用价值。
相关研究论文
  • 1
    A Dataset of Software Bill of Materials for Evaluating SBOM Consumption Tools大阪大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作