Vulnerability-Affected Versions Identification Dataset
收藏arXiv2025-09-04 更新2025-09-06 收录
下载链接:
http://[1]
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个大规模、高质量的数据集,涵盖了来自不同C/C++项目的132种漏洞类型的1128个漏洞。该数据集由研究人员手动收集并经过严格验证,为工具评估提供了可复现和可靠的基准。数据集涵盖了多个领域的应用程序,包括操作系统、多媒体处理、命令行数据传输、加密和安全通信等。
提供机构:
中国科学院信息工程研究所;中国科学院大学网络空间安全学院;南洋理工大学;香港科技大学;中国科学院大学软件研究所
创建时间:
2025-09-04
搜集汇总
数据集介绍
构建方式
在软件安全研究领域,构建高质量漏洞影响版本数据集面临标注一致性与版本追溯的挑战。该数据集通过多阶段严谨流程构建:首先基于GitHub星标、漏洞密度和领域多样性筛选九个代表性C/C++项目;随后通过交叉验证NVD记录与官方安全公告,人工收集2020至2024年间的漏洞修复提交;最后采用双人独立标注机制,通过追溯漏洞诱导提交与修复提交间的版本区间确定受影响版本,并由第三方专家解决分歧,确保标注的准确性与可复现性。
特点
该数据集涵盖1,128个真实世界C/C++漏洞,覆盖Linux内核、FFmpeg等九个领域的132种漏洞类型,包含59,187个受影响版本标注。其显著特征体现在细粒度标注维度:不仅区分添加型、删除型与混合型补丁模式,还记录单文件、跨文件及多分支开发环境的修改范围。数据集中混合补丁占比77.4%,多分支项目占比显著,真实反映了开源生态中漏洞修复的复杂性,为评估工具在不同代码变更模式下的鲁棒性提供了多维测试基础。
使用方法
该数据集设计用于系统性评估漏洞影响版本识别工具的有效性。研究者可基于漏洞级与版本级双重视角开展评估:漏洞级评估要求工具精确匹配完整受影响版本集合,版本级评估则允许部分正确性以衡量泛化能力。使用时需提供修复提交作为输入,分别测试追踪型与匹配型工具在默认配置下的表现,并通过四维度分析框架(有效性、根因、补丁类型敏感性、组合策略)量化工具在跨分支开发、多文件修改等复杂场景下的性能边界。
背景与挑战
背景概述
Vulnerability-Affected Versions Identification Dataset由中国科学院信息工程研究所、新加坡南洋理工大学等机构的研究团队于2025年创建,旨在解决软件安全领域中漏洞影响版本识别的核心问题。该数据集包含1,128个真实世界的C/C++漏洞,覆盖132种漏洞类型,涉及Linux内核、FFmpeg等九个高影响力开源项目。通过手动标注漏洞引入提交和影响版本范围,该数据集为评估漏洞追踪与匹配工具的效能提供了高质量基准,显著推动了软件供应链安全分析和漏洞治理研究的发展。
当前挑战
该数据集解决的领域挑战在于漏洞影响版本的精确识别,现有工具因启发式依赖、语义推理不足和刚性匹配逻辑等问题,最高准确率不足45%。构建过程中的挑战包括:真实漏洞数据的异构性导致标注一致性难以保障;多分支开发环境下版本追溯的复杂性;以及跨文件补丁和纯添加型补丁对传统基于删除行的追踪方法造成的失效风险。
常用场景
经典使用场景
在软件安全研究领域,Vulnerability-Affected Versions Identification Dataset为漏洞影响版本识别任务提供了标准化评估基准。该数据集最经典的使用场景在于系统评估各类追踪式与匹配式工具的识别性能,研究人员通过其在统一框架下对比不同算法在真实漏洞数据上的表现,涵盖版本级精确匹配、漏报误报分析等多维度指标验证。
实际应用
在实际应用层面,该数据集被广泛应用于软件供应链安全治理与漏洞响应体系构建。安全团队可基于其标注数据训练版本影响预测模型,辅助企业快速定位需优先修补的受影响版本;开源项目维护者借助其多分支版本追踪能力,优化漏洞修复的向后移植策略,显著降低因版本误判导致的安全风险蔓延。
衍生相关工作
该数据集衍生出多项漏洞分析领域的经典研究工作,包括基于大语言模型的语句选择优化(LLM4SZZ)、混合策略集成方法(LLM4SZZ+)以及多工具投票机制。这些工作通过复用其标注体系与评估框架,在语义验证、跨分支推理等方向实现突破,并进一步推动了如V-SZZ、MOVERY等工具在复杂补丁模式下的性能优化。
以上内容由遇见数据集搜集并总结生成



