GitHub Issues Vulnerability Dataset
收藏arXiv2025-01-09 更新2025-01-14 收录
下载链接:
http://arxiv.org/abs/2501.05258v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由代尔夫特理工大学、KTH皇家理工学院、RISE AB和Red Hat的研究团队创建,专门用于通过分析GitHub问题来自动检测软件漏洞。数据集包含4379条GitHub问题记录,其中844条与已披露的CVE漏洞相关,3535条与漏洞无关。数据来源于GitHub问题,并通过国家漏洞数据库(NVD)进行验证和标注。数据集的创建过程包括从NVD中提取漏洞信息,并与GitHub问题相关联,最终筛选出与漏洞相关的有效记录。该数据集的应用领域主要集中在软件漏洞的早期检测,旨在通过自动化手段减少漏洞被利用的时间窗口,提升开源软件生态系统的安全性。
This dataset was developed by research teams from Delft University of Technology, KTH Royal Institute of Technology, RISE AB, and Red Hat, specifically tailored for automated software vulnerability detection through the analysis of GitHub issues. It consists of 4379 GitHub issue records, among which 844 are associated with disclosed CVE vulnerabilities, while the remaining 3535 are not. The data is sourced from GitHub issues and was verified and annotated using the National Vulnerability Database (NVD). The dataset creation process involves extracting vulnerability information from NVD, correlating it with corresponding GitHub issues, and finally filtering out valid records related to software vulnerabilities. The primary application domain of this dataset is the early detection of software vulnerabilities, aiming to reduce the time window during which vulnerabilities can be exploited via automated means and enhance the security of the open-source software ecosystem.
提供机构:
代尔夫特理工大学, KTH皇家理工学院, RISE AB, Red Hat
创建时间:
2025-01-09
搜集汇总
数据集介绍

构建方式
GitHub Issues Vulnerability Dataset的构建过程主要依赖于美国国家漏洞数据库(NVD)作为数据源。研究人员首先从NVD中提取了2019年1月1日至2024年6月2日期间发布的所有漏洞信息,包括CVE标识符、漏洞描述和严重性指标。随后,通过分析NVD中的外部引用链接,筛选出与GitHub问题相关的条目,并进一步从GitHub中提取了6,626个不同的代码仓库。最终,研究人员选择了31个与漏洞关联最紧密的仓库,构建了一个包含4,379个GitHub问题的数据集,其中844个问题与已披露的CVE漏洞相关,其余3,535个问题则与漏洞无关。
特点
该数据集的一个显著特点是其专注于GitHub问题与CVE漏洞之间的关联性。数据集不仅包含了GitHub问题的文本描述,还提供了CVE标识符、披露日期、漏洞描述、受影响软件信息以及漏洞影响指标等丰富的元数据。此外,数据集的构建过程严格遵循了LLM的上下文窗口限制,排除了超过8,191个token的问题,确保了与现有开源LLM的兼容性。这种设计使得该数据集特别适合用于基于Transformer模型的漏洞检测研究。
使用方法
该数据集主要用于训练和评估基于Transformer的模型,以自动化检测GitHub问题中的潜在漏洞。研究人员提出了三种不同的方法:基于嵌入的分类器、基于LLM的检测模型以及结合两者的混合方法。使用该数据集时,首先将GitHub问题的文本转换为嵌入向量,随后通过XGBoost分类器或LLM进行二分类预测。此外,数据集还可用于评估模型生成的漏洞描述与官方CVE记录的相似性,从而验证模型在漏洞检测任务中的解释能力。
背景与挑战
背景概述
GitHub Issues Vulnerability Dataset 是由 Delft University of Technology、KTH Royal Institute of Technology 和 RISE AB 等机构的研究人员于2025年创建的一个专门用于漏洞检测的数据集。该数据集的核心研究问题是通过分析 GitHub 上的问题讨论,自动化地识别软件漏洞。研究人员利用基于 Transformer 的模型和机器学习技术,探索了从 GitHub 问题中提取早期漏洞指示的可行性。该数据集的创建标志着在开源软件生态系统中,通过文本分析进行早期漏洞检测的新研究方向。其影响力在于为开发者提供了一个可扩展且计算高效的框架,能够在漏洞被正式披露之前进行预防性检测,从而显著减少漏洞被利用的时间窗口。
当前挑战
GitHub Issues Vulnerability Dataset 面临的挑战主要包括两个方面。首先,在领域问题方面,该数据集旨在解决如何从非结构化的 GitHub 问题中识别出与漏洞相关的讨论。由于 GitHub 问题通常包含大量的非漏洞相关讨论,如何准确区分漏洞与非漏洞问题是一个关键挑战。其次,在数据集构建过程中,研究人员面临数据来源的多样性和复杂性挑战。GitHub 问题的文本格式多样,且涉及的技术领域广泛,如何有效地提取和标注与漏洞相关的信息,同时避免数据偏差,是构建高质量数据集的主要难点。此外,数据集中漏洞相关问题的比例较低,如何在数据不平衡的情况下训练出高效的分类模型,也是该数据集面临的重要挑战。
常用场景
经典使用场景
GitHub Issues Vulnerability Dataset 主要用于自动化检测软件漏洞,特别是在开源软件的开发过程中。通过分析GitHub上的问题讨论,该数据集能够帮助研究人员和开发者识别潜在的漏洞,尤其是在漏洞尚未被正式披露之前。这一数据集的应用场景主要集中在软件安全领域,尤其是在需要快速响应和修复漏洞的开发环境中。
实际应用
在实际应用中,GitHub Issues Vulnerability Dataset 可以集成到持续集成/持续交付(CI/CD)管道中,帮助开发团队在代码提交阶段自动检测潜在的漏洞。此外,该数据集还可以用于安全研究团队,帮助他们监控开源项目中的漏洞讨论,提前预警并采取相应的修复措施,从而减少漏洞被恶意利用的风险。
衍生相关工作
基于该数据集,许多相关研究工作得以展开,尤其是在结合大语言模型(LLMs)和嵌入模型进行漏洞检测的领域。例如,研究者们开发了多种基于Transformer的模型,用于从GitHub问题中提取关键信息并生成漏洞描述。这些工作不仅验证了Transformer模型在漏洞检测中的有效性,还为未来的自动化安全检测工具提供了理论基础和技术支持。
以上内容由遇见数据集搜集并总结生成



