github-issues-vul-detection-gpt-few-vul-desc-gpt-enhanced-prompt-results

Hugging Face2025-06-04 更新2025-06-05 收录

下载链接：

https://huggingface.co/datasets/Eathus/github-issues-vul-detection-gpt-few-vul-desc-gpt-enhanced-prompt-results

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含CVE信息的NLP数据集，提供了CVE的ID、发布日期、详细描述、CVSS评分、引用链接、配置信息、CWE分类、标签和GitHub问题跟踪等相关信息。数据集还包含了使用GPT模型生成的描述和漏洞相关信息的字段。

This NLP dataset encompasses CVE-related information, offering comprehensive details including CVE IDs, release dates, detailed descriptions, CVSS scores, reference links, configuration information, CWE classifications, labels, and GitHub issue tracking. Additionally, the dataset includes fields for descriptions and vulnerability-related information generated using GPT models.

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

在网络安全领域，漏洞检测数据集对于提升自动化分析能力至关重要。该数据集通过整合GitHub平台上的公开漏洞报告（issue）与CVE（通用漏洞披露）数据库中的结构化信息构建而成。采用GPT模型对原始漏洞描述进行增强处理，生成更丰富的语义表达，同时保留了CVE编号、发布时间、描述文本、评分指标等核心字段，并关联了GitHub issue的标题、正文、评论等交互数据，形成多维度关联分析框架。数据采集过程严格遵循标准化协议，确保CVE元数据与GitHub原始数据的完整对应。

特点

该数据集最显著的特征在于其跨平台异构数据的深度融合，既包含CVE官方漏洞库的标准化评估指标（如CVSSv2/v3/v4评分体系、攻击向量、影响范围等），又囊括了GitHub社区讨论中体现的实际漏洞场景描述。结构化字段与自然语言文本的有机结合，为研究漏洞语义理解提供了丰富素材。特别值得注意的是，数据集通过GPT模型对原始漏洞描述进行了语义增强和相关性标注，新增的置信度评分和相关性判断字段为后续研究提供了可量化的参考维度。多版本CVSS评分系统的并行存储也使得纵向对比分析成为可能。

使用方法

该数据集主要适用于基于机器学习的漏洞检测和分类研究。研究者可结合issue_body中的自然语言描述与cve_metrics中的量化指标，构建端到端的漏洞识别模型。gpt_vulnerability字段提供的增强描述可作为监督学习的补充标注，而issue_embedding向量则便于直接进行相似性分析。使用时应特别注意时序特征，cve_published与issue_created_at的时间戳可用于验证漏洞披露的生命周期。对于二分类任务，label字段提供了基准真值，而多分类场景则可利用cve_primary_cwe字段构建类别体系。数据加载推荐使用HuggingFace数据集库的标准接口，通过指定test分割即可获取全部1778条样本。

背景与挑战

背景概述

在网络安全领域，漏洞检测一直是研究热点，随着开源软件的广泛使用，GitHub等平台上的漏洞问题日益凸显。该数据集由专业团队构建，旨在通过整合GitHub问题报告与CVE（通用漏洞披露）数据库，为漏洞检测研究提供丰富资源。数据集涵盖了漏洞描述、严重性评分、影响范围等关键信息，并利用GPT模型增强数据标注，为自动化漏洞识别与分类提供了新的研究视角。其构建不仅反映了当前漏洞检测领域的前沿需求，也为开发更智能的安全分析工具奠定了基础。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性与数据构建的技术难度。漏洞检测本身涉及多维度评估，包括漏洞的严重性、利用难度及潜在影响，这些因素的动态变化增加了模型训练的复杂性。数据构建过程中，如何准确关联GitHub问题与CVE条目是一大难点，需解决文本描述的异构性、信息不完整等问题。此外，GPT生成的增强数据虽然提升了标注效率，但其可靠性与一致性仍需进一步验证，以确保模型训练的准确性。

常用场景

经典使用场景

在网络安全领域，漏洞检测一直是研究的热点问题。该数据集通过整合GitHub上的漏洞报告与CVE数据库的详细信息，为研究者提供了一个丰富的多源漏洞分析平台。经典的使用场景包括训练机器学习模型来自动识别和分类软件漏洞，特别是利用自然语言处理技术分析漏洞描述文本，从而提升漏洞检测的准确性和效率。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。包括基于Transformer的漏洞分类模型、结合图神经网络的漏洞传播分析框架，以及利用Few-shot学习的小样本漏洞检测方法。这些工作不仅扩展了数据集的学术价值，还为工业界提供了可落地的解决方案，例如集成到CI/CD管道中的自动化安全扫描工具。

数据集最近研究