Open Source Vulnerabilities (OSV) database
收藏arXiv2025-04-22 更新2025-04-24 收录
下载链接:
https://osv.dev/
下载链接
链接失效反馈官方服务:
资源简介:
Open Source Vulnerabilities (OSV)数据库是由多个公开来源收集的数据集,本文中使用的数据集是基于该数据库的一个快照,包含了CRAN、Go、Maven、npm、PyPI和RubyGems六个流行编程语言生态系统的信息。数据集记录了在这些生态系统中检测到的恶意软件上传情况,以及相关的安全通告和媒体报道。该数据集旨在分析软件生态系统的安全风险,特别是恶意软件上传的长期趋势。
The Open Source Vulnerabilities (OSV) database is a dataset compiled from multiple public sources. The dataset utilized in this study is a snapshot derived from this database, which contains information across six widely adopted programming language ecosystems: CRAN, Go, Maven, npm, PyPI, and RubyGems. This dataset documents detected malware uploads within these ecosystems, alongside associated security advisories and media reports. Its primary objective is to analyze the security risks of software ecosystems, with a specific focus on the long-term trends of malware uploads.
提供机构:
南丹麦大学
创建时间:
2025-04-22
搜集汇总
数据集介绍

构建方式
Open Source Vulnerabilities (OSV) database数据集基于2025年4月从OSV数据库获取的批量快照构建,聚焦于CRAN、Go、Maven、npm、PyPI和RubyGems六大编程语言生态系统的安全数据。通过筛选文件名以MAL-开头的条目识别恶意软件记录,同时统计安全通告(ADVISORY)和媒体文章(ARTICLE)等参考信息。数据按日、周、月三个时间粒度聚合,时间跨度为2022年1月至2025年3月,采用自回归分布滞后(ARDL)模型分析恶意软件上传趋势与生态系统安全状况的关联性。
特点
该数据集的核心价值在于首次系统性地量化了主流编程语言生态系统的恶意软件渗透现象。数据显示npm和PyPI生态系统分别以82.46%和56.29%的恶意软件占比最为严重,而RubyGems虽总条目较少但恶意软件比例高达47.07%。时间序列分析揭示恶意软件记录在2025年初已占OSV数据库总条目的80%,呈现显著上升趋势。数据集创新性地将恶意软件频率(MalFreqt)、占比份额(MalSharet)与生态系统数量(Ecot)、安全通告(Advt)、媒体报道(Artt)等多元指标关联,为软件供应链安全研究提供了多维分析基础。
使用方法
研究者可通过ARDL模型分析恶意软件传播的时序特征,其中长期乘数(LRM)显示生态系统数量每增加1个单位会导致恶意软件占比日增长46.5个百分点。数据集支持三种应用场景:一是安全态势评估,通过比较不同生态系统的MalSharet值识别高风险平台;二是趋势预测,利用动态乘数(DM)分析政策干预或技术升级对恶意软件传播的滞后影响;三是跨学科研究,结合CRA法规文本分析等法律维度探讨监管有效性。使用时需注意数据采集时间窗口对结论的影响,建议配合Virustotal等检测引擎进行结果验证。
背景与挑战
背景概述
Open Source Vulnerabilities (OSV) database是由南丹麦大学的Jukka Ruohonen和Mubashrah Saddiqa等研究人员于2025年构建的一个专注于开源软件生态系统中恶意软件上传和安全漏洞的数据集。该数据集旨在分析六大主流编程语言生态系统(CRAN、Go、Maven、npm、PyPI和RubyGems)中恶意软件上传的纵向趋势,填补了该领域的研究空白。OSV数据库的建立为研究软件生态系统的安全风险提供了重要数据支持,特别是在恶意软件检测和供应链安全方面具有显著影响力。
当前挑战
OSV数据库面临的挑战主要包括两个方面:一是领域问题的挑战,即如何准确识别和分类开源软件生态系统中的恶意软件上传,尤其是在依赖关系复杂的场景下,恶意软件可能通过依赖网络迅速传播;二是构建过程中的挑战,包括数据收集的完整性(如仅部分生态系统数据被纳入分析)、恶意软件标识的准确性(依赖简单的字符串匹配可能引入误差),以及时间序列数据的处理(如如何有效聚合日、周、月数据以反映趋势)。此外,数据集中恶意软件比例的动态变化(如2025年占比高达80%)也为模型预测带来了复杂性。
常用场景
经典使用场景
Open Source Vulnerabilities (OSV) database作为开源软件生态系统安全研究的重要数据集,其经典使用场景聚焦于恶意软件上传行为的时序分析与跨生态系统的横向比较。该数据集通过整合CRAN、Go、Maven、npm、PyPI和RubyGems六大主流编程语言生态系统的安全事件记录,为研究者提供了分析恶意软件传播规律、检测效率以及生态系统脆弱性的标准化数据基础。尤其在识别typ0-squatting攻击模式和依赖链污染等复杂安全威胁时,OSV的MAL-前缀标记机制与漏洞报告的并行记录,使得纵向安全态势评估成为可能。
实际应用
在实践层面,OSV数据库已成为企业安全团队监控开源依赖风险的核心工具。其实际应用体现在三方面:安全厂商利用该数据集训练恶意软件检测模型(如DySec系统对PyPI包的动态分析),软件开发团队通过OSV的CWE-506标注快速识别安装时感染风险,而欧盟《网络弹性法案》(CRA)的合规审查则依赖该数据评估软件产品的已知漏洞状态。特别值得注意的是,数据集反映的npm生态恶意软件占比激增现象(2025年达80%),直接促使GitHub等平台加强了包上传的自动化扫描机制。
衍生相关工作
围绕OSV数据库衍生的经典研究包括三个方向:Zhang等人开发的跨npm/PyPI恶意行为序列模型,通过统一特征空间提升检测效率;Ruohonen团队基于OSV的PHP包分析验证了'流行度假说'在安全领域的适用性;而欧盟CRA法规研究则利用该数据集建立了漏洞生命周期与监管要求的映射框架。这些工作共同构成了从技术检测到政策制定的完整研究链条,其中ARDL模型在恶意软件预测中的应用(R²达0.95)更成为时序分析方法的标杆案例。
以上内容由遇见数据集搜集并总结生成



