five

github-issues-vul-detection-gpt-few-results-tmp

收藏
Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/Eathus/github-issues-vul-detection-gpt-few-results-tmp
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含CVE(公共漏洞和暴露)信息的数据集,它详细记录了各种安全漏洞的特征。数据集中的每个条目都包括了CVE ID、发布日期、描述、CVSS评分(包括V2、V3和V4版本)、引用、配置信息、CWE分类、标签和GitHub问题跟踪的相关信息。此外,还包含了GPT模型对漏洞的描述和评估信息。
创建时间:
2025-07-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: github-issues-vul-detection-gpt-few-results-tmp
  • 数据集地址: https://huggingface.co/datasets/Eathus/github-issues-vul-detection-gpt-few-results-tmp
  • 下载大小: 35,917,779 字节
  • 数据集大小: 52,931,059 字节
  • 测试集样本数: 1,778 个

数据集特征

主要特征

  • cve_id: 字符串类型,表示CVE ID
  • cve_published: 字符串类型,表示CVE发布时间
  • cve_descriptions: 字符串类型,表示CVE描述
  • cve_metrics: 结构化数据,包含CVSS评分信息
    • cvssMetricV2: CVSS v2评分信息
    • cvssMetricV30: CVSS v3.0评分信息
    • cvssMetricV31: CVSS v3.1评分信息
    • cvssMetricV40: CVSS v4.0评分信息
  • cve_references: 列表类型,包含CVE参考信息
  • cve_configurations: 列表类型,包含CVE配置信息
  • cve_primary_cwe: 字符串类型,表示主要CWE ID
  • cve_tags: 列表类型,包含CVE标签

GitHub Issue相关特征

  • issue_owner_repo: 列表类型,表示仓库所有者/仓库名
  • issue_body: 字符串类型,表示Issue正文
  • issue_title: 字符串类型,表示Issue标题
  • issue_comments_url: 字符串类型,表示评论URL
  • issue_comments_count: 整型,表示评论数量
  • issue_created_at: 时间戳类型,表示创建时间
  • issue_updated_at: 字符串类型,表示更新时间
  • issue_html_url: 字符串类型,表示HTML URL
  • issue_github_id: 整型,表示GitHub ID
  • issue_number: 整型,表示Issue编号

标签与GPT生成内容

  • label: 布尔类型,表示标签
  • issue_msg: 字符串类型,表示Issue消息
  • issue_msg_n_tokens: 整型,表示消息的token数量
  • issue_embedding: 浮点数列表,表示Issue的嵌入向量
  • gpt_description: 字符串类型,表示GPT生成的描述
  • gpt_vulnerability: 字符串类型,表示GPT生成的漏洞描述
  • gpt_confidence: 整型,表示GPT置信度
  • gpt_is_relevant: 布尔类型,表示GPT判断是否相关

数据集配置

  • 默认配置:
    • 测试集路径: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全领域,漏洞检测的精准性至关重要。该数据集通过整合GitHub平台上公开的issue数据与CVE(通用漏洞披露)数据库信息,构建了一个专注于漏洞检测的多源异构数据集。研究人员从GitHub提取issue标题、正文及元数据,并与NVD(国家漏洞数据库)中的CVE记录进行智能关联,采用GPT模型对漏洞相关性进行标注,形成了包含1778条测试样本的结构化数据。数据构建过程中特别注重跨版本CVSS评分体系的完整性,涵盖了从V2到V4.0的完整度量标准。
使用方法
该数据集适用于基于机器学习的漏洞预测研究,研究者可通过issue_embedding字段获取预处理好的文本特征向量,直接用于模型训练。对于跨模态分析,可利用cve_metrics下的分层数据结构进行细粒度风险评估。测试集已预设分割,加载时指定default配置即可获取标准化数据。使用gpt_vulnerability字段可快速筛选高相关样本,而cve_configurations中的CPE匹配规则则为漏洞影响范围分析提供了标准化接口。需要注意的是,模型验证时应结合gpt_is_relevant字段过滤低质量样本。
背景与挑战
背景概述
github-issues-vul-detection-gpt-few-results-tmp数据集是针对软件安全漏洞检测领域而构建的专业数据集,其核心研究问题聚焦于如何利用GitHub平台上的开源项目issue数据,结合CVE(通用漏洞披露)信息,实现高效且准确的漏洞检测与分类。该数据集由专业研究团队构建,整合了多维度的漏洞特征,包括CVE描述、CVSS评分系统(涵盖V2、V3.0、V3.1及V4.0版本)、CWE分类以及GitHub issue的文本内容。其影响力主要体现在为自动化漏洞检测、自然语言处理(NLP)在安全领域的应用以及基于大语言模型(如GPT)的少样本学习研究提供了标准化数据支持。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题层面,软件漏洞的复杂性和动态性使得检测模型需处理多版本CVSS评分标准的异构性、漏洞描述的语义多样性以及跨平台数据(GitHub与CVE)的关联难题;构建过程层面,数据清洗需解决非结构化文本(如issue正文)与结构化漏洞指标(如CVSS参数)的融合问题,同时需确保标注质量(如GPT生成的标签置信度)与数据规模(当前仅含1778条测试样本)的平衡。此外,CVE配置信息中版本范围的模糊性(如versionStartExcluding字段的空值)进一步增加了数据规范化难度。
常用场景
经典使用场景
在网络安全领域,漏洞检测一直是研究的核心议题。github-issues-vul-detection-gpt-few-results-tmp数据集通过整合GitHub问题追踪系统中的漏洞报告与CVE(通用漏洞披露)数据库的详细信息,为研究者提供了一个丰富的多模态数据源。该数据集最经典的使用场景在于训练和评估基于自然语言处理和机器学习技术的漏洞检测模型,尤其是在小样本学习(few-shot learning)环境下,模型能够从有限的标注数据中识别潜在的软件漏洞。
解决学术问题
该数据集有效解决了网络安全研究中几个关键问题。首先,它弥合了非结构化漏洞描述(如GitHub问题文本)与结构化漏洞指标(如CVSS评分)之间的鸿沟,为跨模态分析提供了可能。其次,通过整合GPT生成的漏洞描述与人工标注数据,缓解了网络安全领域标注数据稀缺的困境。最重要的是,该数据集支持对小样本学习算法的评估,这对于实际场景中难以获取大量标注样本的漏洞检测任务具有重要意义。
实际应用
在实际应用中,该数据集可直接服务于软件开发生命周期的安全防护。开发团队可利用基于该数据集训练的模型,实时扫描GitHub问题追踪系统中的潜在漏洞报告,实现早期风险预警。安全研究人员则可通过分析CVE指标与问题描述的关联模式,建立更精准的漏洞严重性评估体系。此外,该数据集支持构建自动化漏洞分类系统,显著提升企业级软件供应链的安全审计效率。
数据集最近研究
最新研究方向
在网络安全领域,漏洞检测技术正经历着从传统规则驱动向人工智能驱动的范式转变。github-issues-vul-detection-gpt-few-results-tmp数据集通过融合GitHub问题追踪系统中的实际漏洞报告与CVE标准漏洞数据库,为基于大语言模型的智能漏洞检测提供了重要研究基础。当前前沿研究聚焦于如何利用该数据集的多维度特征——包括漏洞描述文本、CVSS评分指标、CWE分类以及GPT生成的辅助标注——构建端到端的漏洞预测模型。特别是针对跨版本漏洞关联分析、零日漏洞早期预警等关键场景,研究者们正在探索结合图神经网络与注意力机制的新型架构,以提升对复杂漏洞模式的识别能力。该数据集的独特价值在于其真实世界的问题追踪数据与标准化漏洞特征的有机结合,为验证大模型在网络安全领域的实际效能提供了可靠基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作