five

CommitVulFix|软件安全数据集|漏洞修复数据集

收藏
arXiv2025-01-07 更新2025-01-09 收录
软件安全
漏洞修复
下载链接:
https://github.com/security-pride/CommitShield
下载链接
链接失效反馈
资源简介:
CommitVulFix是由华中科技大学和蚂蚁集团的研究团队构建的漏洞修复检测数据集,主要用于评估漏洞修复检测工具的性能。该数据集包含681个C/C++漏洞修复提交和1118个非漏洞修复提交,数据来源于2023年以来的开源软件版本控制系统。数据集通过结合静态分析工具和大语言模型(LLMs)生成精确的提交描述,并获取丰富的补丁上下文信息。该数据集的应用领域主要集中在软件安全领域,旨在提高漏洞修复检测的准确性,帮助开发者在软件开发过程中及时发现和修复漏洞,从而提升软件系统的安全性。
提供机构:
华中科技大学
创建时间:
2025-01-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
CommitVulFix数据集的构建基于对开源软件版本控制系统中提交记录的分析,特别是针对C/C++代码库中的漏洞修复提交。研究者通过收集2023年以来的C/C++漏洞修复提交,并结合GitHub API提取相关提交的详细信息,包括提交描述、代码差异等。为了确保数据集的多样性和代表性,研究者还从包含这些漏洞的仓库中筛选了非漏洞修复提交,最终构建了一个包含681个漏洞修复提交和1,118个非漏洞修复提交的数据集。
特点
CommitVulFix数据集的特点在于其专注于C/C++代码库中的漏洞修复提交,涵盖了2023年以来的最新漏洞修复记录。数据集不仅包含漏洞修复提交,还包含了大量非漏洞修复提交,确保了评估工具在识别漏洞修复时的准确性。此外,数据集的构建过程中充分考虑了提交描述和代码差异的上下文信息,为漏洞修复检测任务提供了丰富的背景数据。
使用方法
CommitVulFix数据集主要用于评估漏洞修复检测工具的性能。研究者可以通过该数据集测试工具在识别漏洞修复提交时的准确性和召回率。数据集中的非漏洞修复提交则用于评估工具在区分漏洞修复与非漏洞修复时的表现。通过结合静态分析工具和大语言模型(LLM),研究者可以利用该数据集进行漏洞修复和漏洞引入的检测任务,进一步提升工具的性能。
背景与挑战
背景概述
CommitVulFix数据集由华中科技大学的研究团队于2023年创建,旨在解决开源软件版本控制系统中漏洞引入与修复的检测问题。该数据集的核心研究问题是通过结合静态分析工具与大型语言模型(LLMs),提升漏洞修复与引入检测的准确性。CommitVulFix的构建基于对C/C++代码库的深入分析,涵盖了681个漏洞修复提交和1118个非漏洞修复提交。该数据集的发布为软件安全领域的研究提供了重要的数据支持,尤其是在漏洞修复与引入的自动化检测方面,推动了相关技术的发展。
当前挑战
CommitVulFix数据集在构建与应用过程中面临多重挑战。首先,漏洞修复检测(VFD)任务中,现有工具往往忽略提交描述信息,导致误报率较高。其次,漏洞引入检测(VID)任务中,传统的SZZ算法及其变体主要依赖删除代码的检测,无法有效识别通过添加代码修复漏洞的情况。此外,数据集的构建过程中,如何准确提取与漏洞相关的代码修改信息,并确保数据的多样性与代表性,也是研究者面临的主要挑战。这些挑战不仅影响了检测工具的准确性,也对数据集的广泛应用提出了更高的要求。
常用场景
经典使用场景
CommitVulFix数据集在软件安全领域中被广泛用于检测和追踪版本控制系统中的漏洞引入与修复。通过结合静态分析工具和大语言模型(LLMs),该数据集能够精确生成漏洞修复的描述,并提供丰富的补丁上下文,从而显著提升漏洞检测的准确性。其经典使用场景包括在开源软件的版本控制系统中,自动识别哪些提交引入了新的漏洞,以及哪些提交修复了现有的漏洞。
实际应用
在实际应用中,CommitVulFix数据集被广泛用于开源软件的漏洞管理。开发者可以利用该数据集在漏洞正式披露前,提前检测和修复潜在的漏洞,从而减少恶意攻击的窗口期。此外,该数据集还可用于分析历史提交,帮助开发者识别哪些版本的软件可能包含未修复的漏洞,从而指导修复工作。这些应用显著提升了软件开发的整体安全性。
衍生相关工作
CommitVulFix数据集衍生了一系列相关研究工作,特别是在漏洞检测和修复领域。例如,VulFixMiner和VulCurator等工具通过结合预训练模型和提交描述信息,进一步提升了漏洞修复检测的准确性。此外,基于SZZ算法的改进版本如V-SZZ、AG-SZZ等,也在漏洞引入检测任务中取得了显著进展。这些工作共同推动了软件安全领域的研究进展,并为未来的漏洞管理工具提供了重要的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Thyroid Disease Data

该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录