Wild SBOMs
收藏arXiv2025-03-19 更新2025-03-21 收录
下载链接:
https://www.softwareheritage.org
下载链接
链接失效反馈官方服务:
资源简介:
Wild SBOMs数据集包含了从公共版本控制系统(VCS)中发现的超过78,000个独特的SBOM文件,这些文件是从超过9400万个独特的源代码库中筛选出来的。该数据集由两部分组成:1)一个包含78,612个去重SBOM文件的数据集;2)包含SBOM标准采用、文件格式、质量评分、来源信息等元数据的CSV文件。该数据集可用于支持大规模分析SBOM采纳情况、最常用的标准、文件格式等,也可用于分析SBOM质量、基准测试SBOM工具、软件组合分析、漏洞分析等。
提供机构:
巴黎电信学院,法国
创建时间:
2025-03-19
搜集汇总
数据集介绍

构建方式
Wild SBOMs 数据集的构建基于对公共版本控制系统(VCS)中软件物料清单(SBOM)文件的广泛挖掘。研究团队从超过 9400 万个独特的源代码仓库中提取了 78,612 个独特的 SBOM 文件,并通过去重和过滤确保了数据的多样性和质量。具体步骤包括从 Software Heritage Archive 下载索引文件、使用正则表达式筛选候选文件、去重、移除非 SBOM 文件扩展名,并通过 SBOM 质量评分工具(sbomqs)验证文件的有效性。最终,数据集包含了 SBOM 文件及其元数据,如文件格式、标准、质量评分和来源信息。
特点
Wild SBOMs 数据集的特点在于其规模大、多样性高且具有丰富的元数据。数据集涵盖了 78,612 个独特的 SBOM 文件,这些文件来自 1,782 个不同的代码托管平台和包仓库,反映了广泛的 SBOM 实践。每个 SBOM 文件都附带了详细的元数据,包括使用的标准(如 SPDX、CycloneDX)、文件格式(如 JSON、XML)、质量评分以及文件的来源和修订历史。这些特点使得该数据集成为研究 SBOM 实践、工具评估和软件供应链安全的宝贵资源。
使用方法
Wild SBOMs 数据集可用于多种研究场景,包括大规模分析 SBOM 的采用情况、评估 SBOM 工具的性能以及进行软件组成分析和漏洞分析。研究人员可以通过加载数据集中的 CSV 文件,使用 Python 的 Pandas 库进行数据探索和分析。例如,可以统计不同 SBOM 标准和文件格式的使用频率,或分析 SBOM 文件在不同代码托管平台上的分布情况。此外,数据集还可用于测试和验证 SBOM 生成工具的准确性和功能性,为改进 SBOM 实践提供数据支持。
背景与挑战
背景概述
Wild SBOMs数据集由Lu´ıs Soeiro、Thomas Robert和Stefano Zacchiroli等研究人员于2025年创建,旨在为软件物料清单(SBOM)的研究提供大规模的真实世界数据。该数据集包含了从超过9400万个公共代码库中提取的78,612个独特的SBOM文件,涵盖了1,782个不同的代码托管平台。SBOM作为软件供应链透明化的重要工具,能够帮助开发者管理第三方组件的许可、依赖关系和安全性问题。随着美国国家电信和信息管理局(NTIA)和欧盟《网络弹性法案》(CRA)的推动,SBOM的使用逐渐成为软件开发的必要环节。该数据集的发布为研究SBOM的实际应用、标准采纳情况以及工具生态系统的评估提供了宝贵的资源。
当前挑战
Wild SBOMs数据集在构建过程中面临多重挑战。首先,SBOM文件的多样性和复杂性使得数据采集和过滤变得尤为困难。研究人员需要从海量的公共代码库中识别出符合SBOM标准的文件,并通过去重和验证确保数据的准确性和唯一性。其次,SBOM文件的格式和标准(如SPDX、CycloneDX)尚未统一,导致数据集的标准化处理面临挑战。此外,SBOM文件的质量参差不齐,部分文件可能因生成工具的限制或人为错误而存在缺陷,这为数据集的整体质量评估带来了困难。最后,SBOM文件的存储位置和命名规范缺乏统一标准,进一步增加了数据采集和整理的复杂性。这些挑战不仅影响了数据集的构建,也为后续的研究提出了更高的要求。
常用场景
经典使用场景
Wild SBOMs数据集为研究人员提供了一个大规模、多样化的SBOM文件集合,涵盖了来自94,618,356个公共代码库的78,612个唯一SBOM文件。该数据集广泛应用于分析SBOM的实际使用情况,包括标准的采用率、文件格式的分布以及SBOM生成工具的有效性评估。通过这一数据集,研究人员能够深入探讨SBOM在开源软件生态系统中的实际应用情况,并为改进SBOM生成工具提供数据支持。
解决学术问题
Wild SBOMs数据集解决了多个学术研究中的关键问题,尤其是在SBOM标准的实际应用和工具评估方面。通过分析该数据集,研究人员能够评估不同SBOM标准的采用率、文件格式的流行度以及SBOM生成工具的质量。此外,该数据集还为软件供应链安全研究提供了基础数据,帮助识别和解决SBOM文件中的潜在漏洞和合规性问题。这些研究不仅推动了SBOM标准的进一步发展,还为软件供应链的透明性和安全性提供了理论支持。
衍生相关工作
Wild SBOMs数据集衍生了一系列相关研究,尤其是在SBOM工具评估和软件供应链安全领域。例如,研究人员利用该数据集对SBOM生成工具进行了广泛的基准测试,评估了不同工具在生成SBOM文件时的准确性和效率。此外,该数据集还被用于研究SBOM文件中的漏洞分布情况,帮助识别和解决软件供应链中的潜在安全风险。这些研究不仅推动了SBOM工具的进一步发展,还为软件供应链的透明性和安全性提供了新的视角。
以上内容由遇见数据集搜集并总结生成



