github-issues-vul-detection-gpt-few-results-org-final

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/Eathus/github-issues-vul-detection-gpt-few-results-org-final

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含安全漏洞信息的数据集，提供了CVE的详细描述、评分、影响指标、引用、配置信息以及与GitHub问题跟踪相关的数据。数据集还包含了使用GPT模型生成的描述和漏洞相关性的置信度评分。

This is a dataset containing security vulnerability information, which provides detailed descriptions, scores, impact metrics, citations, configuration details, and data related to GitHub issue tracking for CVEs. The dataset also includes descriptions generated using GPT models and confidence scores for vulnerability relevance.

创建时间：

2025-07-17

原始信息汇总

数据集概述

基本信息

数据集名称: github-issues-vul-detection-gpt-few-results-org-final
下载大小: 35,930,650字节
数据集大小: 52,956,589字节
测试集样本数: 1,778

数据集特征

主要特征

cve_id: 字符串类型，CVE编号
cve_published: 字符串类型，CVE发布时间
cve_descriptions: 字符串类型，CVE描述
cve_metrics: 结构体，包含CVSS评分信息
cve_references: 列表，包含CVE参考信息
cve_configurations: 列表，包含CVE配置信息
cve_primary_cwe: 字符串类型，主要CWE编号
cve_tags: 字符串序列，CVE标签
issue_owner_repo: 字符串序列，GitHub仓库所有者/仓库名
issue_body: 字符串类型，GitHub Issue正文
issue_title: 字符串类型，GitHub Issue标题
issue_comments_url: 字符串类型，GitHub Issue评论URL
issue_comments_count: 整型，GitHub Issue评论数量
issue_created_at: 时间戳类型，GitHub Issue创建时间
issue_updated_at: 字符串类型，GitHub Issue更新时间
issue_html_url: 字符串类型，GitHub Issue HTML URL
issue_github_id: 整型，GitHub Issue ID
issue_number: 整型，GitHub Issue编号
label: 布尔类型，标签
issue_msg: 字符串类型，GitHub Issue消息
issue_msg_n_tokens: 整型，GitHub Issue消息的token数量
issue_embedding: 浮点数序列，GitHub Issue嵌入向量
index_level_0: 整型，索引级别
gpt_description: 字符串类型，GPT生成的描述
gpt_vulnerability: 字符串类型，GPT生成的漏洞描述
gpt_confidence: 整型，GPT生成的置信度
gpt_is_relevant: 布尔类型，GPT生成的相关性判断

CVSS评分信息

cvssMetricV2: CVSS v2评分信息
cvssMetricV30: CVSS v3.0评分信息
cvssMetricV31: CVSS v3.1评分信息
cvssMetricV40: CVSS v4.0评分信息

数据集配置

默认配置:
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在网络安全领域，漏洞检测的准确性至关重要。github-issues-vul-detection-gpt-few-results-org-final数据集通过整合GitHub问题报告与CVE（通用漏洞披露）数据库构建而成。该数据集涵盖了丰富的漏洞信息，包括CVE编号、发布时间、描述、评分指标以及相关配置信息。数据集的构建过程涉及从GitHub提取问题报告，并与CVE数据库中的漏洞信息进行关联，确保数据的全面性和准确性。通过这种方式，数据集为研究人员提供了一个可靠的漏洞检测研究平台。

使用方法

使用该数据集时，研究人员可以通过分析CVE评分指标和GitHub问题报告，构建漏洞检测模型。数据集中的结构化字段，如cvssMetricV2、cvssMetricV30等，可直接用于特征工程。同时，GPT生成的描述和置信度评分可作为辅助信息，提升模型的解释性和准确性。数据集适用于机器学习、自然语言处理以及网络安全领域的研究，尤其适合用于少样本学习（few-shot learning）场景下的漏洞检测任务。

背景与挑战

背景概述

随着开源软件的广泛应用，软件安全问题日益突出，漏洞检测成为网络安全领域的关键研究方向。github-issues-vul-detection-gpt-few-results-org-final数据集由相关研究机构构建，旨在通过分析GitHub平台上的问题报告（issues）来识别潜在的软件漏洞。该数据集整合了CVE（Common Vulnerabilities and Exposures）的详细信息，包括漏洞描述、严重性评分（CVSS）以及相关配置信息，并结合了GitHub issue的文本内容和元数据，为漏洞检测研究提供了丰富的多模态数据支持。其核心研究问题在于如何从非结构化的文本中高效识别漏洞特征，并为自动化漏洞检测模型提供训练和评估基准。该数据集的发布推动了漏洞挖掘与自然语言处理技术的交叉研究，为开源社区的安全防护提供了重要工具。

当前挑战

github-issues-vul-detection-gpt-few-results-org-final数据集在解决漏洞检测问题时面临多重挑战。领域问题的挑战包括：如何从非结构化的GitHub issue文本中准确提取漏洞特征，以及如何区分漏洞报告与非安全相关的issue。由于漏洞描述的多样性和技术术语的复杂性，模型需具备较强的语义理解能力。构建过程中的挑战则体现在数据标注的准确性上，依赖专家知识对漏洞进行标注的成本高昂，且不同CVSS版本的评分标准存在差异，需统一处理。此外，数据集中可能存在的噪声和不平衡分布（如漏洞样本与非漏洞样本的比例）也对模型的泛化性能提出了更高要求。

常用场景

经典使用场景

在网络安全领域，漏洞检测一直是研究与实践的核心议题。github-issues-vul-detection-gpt-few-results-org-final数据集通过整合GitHub问题追踪系统中的漏洞报告与CVE（通用漏洞披露）数据库的详细信息，为研究者提供了一个多维度分析漏洞特征的平台。该数据集常用于训练和评估基于自然语言处理的漏洞检测模型，尤其是结合GPT等大型语言模型的少样本学习能力，显著提升了自动化漏洞识别的效率与准确性。

解决学术问题

该数据集有效解决了漏洞检测领域的两大关键问题：一是传统方法对人工标注数据的依赖，二是跨平台漏洞信息关联的复杂性。通过融合GitHub问题文本与CVE结构化指标，研究者能够探索自然语言描述与标准化漏洞评分之间的映射关系，为基于语义的漏洞风险评估提供了新的研究范式。其多版本CVSS评分数据进一步支持了漏洞威胁动态演化的量化分析。

实际应用

在实际应用中，该数据集被广泛部署于开源软件供应链安全监控系统。安全团队通过分析issue文本与CVE关联模式，可快速识别代码库中的潜在漏洞。企业安全运维中心利用其构建的自动化预警管道，能够将漏洞发现周期从传统的手动审计缩短至分钟级响应，显著提升了关键基础设施的防护能力。

数据集最近研究