github-issues-vul-detection-gpt-few-results-tmp

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/Eathus/github-issues-vul-detection-gpt-few-results-tmp

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含CVE（公共漏洞和暴露）信息的数据集，它详细记录了各种安全漏洞的特征。数据集中的每个条目都包括了CVE ID、发布日期、描述、CVSS评分（包括V2、V3和V4版本）、引用、配置信息、CWE分类、标签和GitHub问题跟踪的相关信息。此外，还包含了GPT模型对漏洞的描述和评估信息。

创建时间：

2025-07-20

原始信息汇总

数据集概述

基本信息

数据集名称: github-issues-vul-detection-gpt-few-results-tmp
数据集地址: https://huggingface.co/datasets/Eathus/github-issues-vul-detection-gpt-few-results-tmp
下载大小: 35,917,779 字节
数据集大小: 52,931,059 字节
测试集样本数: 1,778 个

数据集特征

主要特征

cve_id: 字符串类型，表示CVE ID
cve_published: 字符串类型，表示CVE发布时间
cve_descriptions: 字符串类型，表示CVE描述
cve_metrics: 结构化数据，包含CVSS评分信息
- cvssMetricV2: CVSS v2评分信息
- cvssMetricV30: CVSS v3.0评分信息
- cvssMetricV31: CVSS v3.1评分信息
- cvssMetricV40: CVSS v4.0评分信息
cve_references: 列表类型，包含CVE参考信息
cve_configurations: 列表类型，包含CVE配置信息
cve_primary_cwe: 字符串类型，表示主要CWE ID
cve_tags: 列表类型，包含CVE标签

GitHub Issue相关特征

issue_owner_repo: 列表类型，表示仓库所有者/仓库名
issue_body: 字符串类型，表示Issue正文
issue_title: 字符串类型，表示Issue标题
issue_comments_url: 字符串类型，表示评论URL
issue_comments_count: 整型，表示评论数量
issue_created_at: 时间戳类型，表示创建时间
issue_updated_at: 字符串类型，表示更新时间
issue_html_url: 字符串类型，表示HTML URL
issue_github_id: 整型，表示GitHub ID
issue_number: 整型，表示Issue编号

标签与GPT生成内容

label: 布尔类型，表示标签
issue_msg: 字符串类型，表示Issue消息
issue_msg_n_tokens: 整型，表示消息的token数量
issue_embedding: 浮点数列表，表示Issue的嵌入向量
gpt_description: 字符串类型，表示GPT生成的描述
gpt_vulnerability: 字符串类型，表示GPT生成的漏洞描述
gpt_confidence: 整型，表示GPT置信度
gpt_is_relevant: 布尔类型，表示GPT判断是否相关

数据集配置

默认配置:
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在网络安全领域，漏洞检测的精准性至关重要。该数据集通过整合GitHub平台上公开的issue数据与CVE（通用漏洞披露）数据库信息，构建了一个专注于漏洞检测的多源异构数据集。研究人员从GitHub提取issue标题、正文及元数据，并与NVD（国家漏洞数据库）中的CVE记录进行智能关联，采用GPT模型对漏洞相关性进行标注，形成了包含1778条测试样本的结构化数据。数据构建过程中特别注重跨版本CVSS评分体系的完整性，涵盖了从V2到V4.0的完整度量标准。

使用方法

该数据集适用于基于机器学习的漏洞预测研究，研究者可通过issue_embedding字段获取预处理好的文本特征向量，直接用于模型训练。对于跨模态分析，可利用cve_metrics下的分层数据结构进行细粒度风险评估。测试集已预设分割，加载时指定default配置即可获取标准化数据。使用gpt_vulnerability字段可快速筛选高相关样本，而cve_configurations中的CPE匹配规则则为漏洞影响范围分析提供了标准化接口。需要注意的是，模型验证时应结合gpt_is_relevant字段过滤低质量样本。

背景与挑战

背景概述

github-issues-vul-detection-gpt-few-results-tmp数据集是针对软件安全漏洞检测领域而构建的专业数据集，其核心研究问题聚焦于如何利用GitHub平台上的开源项目issue数据，结合CVE（通用漏洞披露）信息，实现高效且准确的漏洞检测与分类。该数据集由专业研究团队构建，整合了多维度的漏洞特征，包括CVE描述、CVSS评分系统（涵盖V2、V3.0、V3.1及V4.0版本）、CWE分类以及GitHub issue的文本内容。其影响力主要体现在为自动化漏洞检测、自然语言处理（NLP）在安全领域的应用以及基于大语言模型（如GPT）的少样本学习研究提供了标准化数据支持。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，软件漏洞的复杂性和动态性使得检测模型需处理多版本CVSS评分标准的异构性、漏洞描述的语义多样性以及跨平台数据（GitHub与CVE）的关联难题；构建过程层面，数据清洗需解决非结构化文本（如issue正文）与结构化漏洞指标（如CVSS参数）的融合问题，同时需确保标注质量（如GPT生成的标签置信度）与数据规模（当前仅含1778条测试样本）的平衡。此外，CVE配置信息中版本范围的模糊性（如versionStartExcluding字段的空值）进一步增加了数据规范化难度。

常用场景

经典使用场景

在网络安全领域，漏洞检测一直是研究的核心议题。github-issues-vul-detection-gpt-few-results-tmp数据集通过整合GitHub问题追踪系统中的漏洞报告与CVE（通用漏洞披露）数据库的详细信息，为研究者提供了一个丰富的多模态数据源。该数据集最经典的使用场景在于训练和评估基于自然语言处理和机器学习技术的漏洞检测模型，尤其是在小样本学习（few-shot learning）环境下，模型能够从有限的标注数据中识别潜在的软件漏洞。

解决学术问题

该数据集有效解决了网络安全研究中几个关键问题。首先，它弥合了非结构化漏洞描述（如GitHub问题文本）与结构化漏洞指标（如CVSS评分）之间的鸿沟，为跨模态分析提供了可能。其次，通过整合GPT生成的漏洞描述与人工标注数据，缓解了网络安全领域标注数据稀缺的困境。最重要的是，该数据集支持对小样本学习算法的评估，这对于实际场景中难以获取大量标注样本的漏洞检测任务具有重要意义。

实际应用

在实际应用中，该数据集可直接服务于软件开发生命周期的安全防护。开发团队可利用基于该数据集训练的模型，实时扫描GitHub问题追踪系统中的潜在漏洞报告，实现早期风险预警。安全研究人员则可通过分析CVE指标与问题描述的关联模式，建立更精准的漏洞严重性评估体系。此外，该数据集支持构建自动化漏洞分类系统，显著提升企业级软件供应链的安全审计效率。

数据集最近研究