github-issues-vul-detection-gpt-few-results-org-final
收藏Hugging Face2025-07-17 更新2025-07-18 收录
下载链接:
https://huggingface.co/datasets/Eathus/github-issues-vul-detection-gpt-few-results-org-final
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含安全漏洞信息的数据集,提供了CVE的详细描述、评分、影响指标、引用、配置信息以及与GitHub问题跟踪相关的数据。数据集还包含了使用GPT模型生成的描述和漏洞相关性的置信度评分。
This is a dataset containing security vulnerability information, which provides detailed descriptions, scores, impact metrics, citations, configuration details, and data related to GitHub issue tracking for CVEs. The dataset also includes descriptions generated using GPT models and confidence scores for vulnerability relevance.
创建时间:
2025-07-17
原始信息汇总
数据集概述
基本信息
- 数据集名称: github-issues-vul-detection-gpt-few-results-org-final
- 下载大小: 35,930,650字节
- 数据集大小: 52,956,589字节
- 测试集样本数: 1,778
数据集特征
主要特征
- cve_id: 字符串类型,CVE编号
- cve_published: 字符串类型,CVE发布时间
- cve_descriptions: 字符串类型,CVE描述
- cve_metrics: 结构体,包含CVSS评分信息
- cve_references: 列表,包含CVE参考信息
- cve_configurations: 列表,包含CVE配置信息
- cve_primary_cwe: 字符串类型,主要CWE编号
- cve_tags: 字符串序列,CVE标签
- issue_owner_repo: 字符串序列,GitHub仓库所有者/仓库名
- issue_body: 字符串类型,GitHub Issue正文
- issue_title: 字符串类型,GitHub Issue标题
- issue_comments_url: 字符串类型,GitHub Issue评论URL
- issue_comments_count: 整型,GitHub Issue评论数量
- issue_created_at: 时间戳类型,GitHub Issue创建时间
- issue_updated_at: 字符串类型,GitHub Issue更新时间
- issue_html_url: 字符串类型,GitHub Issue HTML URL
- issue_github_id: 整型,GitHub Issue ID
- issue_number: 整型,GitHub Issue编号
- label: 布尔类型,标签
- issue_msg: 字符串类型,GitHub Issue消息
- issue_msg_n_tokens: 整型,GitHub Issue消息的token数量
- issue_embedding: 浮点数序列,GitHub Issue嵌入向量
- index_level_0: 整型,索引级别
- gpt_description: 字符串类型,GPT生成的描述
- gpt_vulnerability: 字符串类型,GPT生成的漏洞描述
- gpt_confidence: 整型,GPT生成的置信度
- gpt_is_relevant: 布尔类型,GPT生成的相关性判断
CVSS评分信息
- cvssMetricV2: CVSS v2评分信息
- cvssMetricV30: CVSS v3.0评分信息
- cvssMetricV31: CVSS v3.1评分信息
- cvssMetricV40: CVSS v4.0评分信息
数据集配置
- 默认配置:
- 测试集路径: data/test-*
搜集汇总
数据集介绍

构建方式
在网络安全领域,漏洞检测的准确性至关重要。github-issues-vul-detection-gpt-few-results-org-final数据集通过整合GitHub问题报告与CVE(通用漏洞披露)数据库构建而成。该数据集涵盖了丰富的漏洞信息,包括CVE编号、发布时间、描述、评分指标以及相关配置信息。数据集的构建过程涉及从GitHub提取问题报告,并与CVE数据库中的漏洞信息进行关联,确保数据的全面性和准确性。通过这种方式,数据集为研究人员提供了一个可靠的漏洞检测研究平台。
使用方法
使用该数据集时,研究人员可以通过分析CVE评分指标和GitHub问题报告,构建漏洞检测模型。数据集中的结构化字段,如cvssMetricV2、cvssMetricV30等,可直接用于特征工程。同时,GPT生成的描述和置信度评分可作为辅助信息,提升模型的解释性和准确性。数据集适用于机器学习、自然语言处理以及网络安全领域的研究,尤其适合用于少样本学习(few-shot learning)场景下的漏洞检测任务。
背景与挑战
背景概述
随着开源软件的广泛应用,软件安全问题日益突出,漏洞检测成为网络安全领域的关键研究方向。github-issues-vul-detection-gpt-few-results-org-final数据集由相关研究机构构建,旨在通过分析GitHub平台上的问题报告(issues)来识别潜在的软件漏洞。该数据集整合了CVE(Common Vulnerabilities and Exposures)的详细信息,包括漏洞描述、严重性评分(CVSS)以及相关配置信息,并结合了GitHub issue的文本内容和元数据,为漏洞检测研究提供了丰富的多模态数据支持。其核心研究问题在于如何从非结构化的文本中高效识别漏洞特征,并为自动化漏洞检测模型提供训练和评估基准。该数据集的发布推动了漏洞挖掘与自然语言处理技术的交叉研究,为开源社区的安全防护提供了重要工具。
当前挑战
github-issues-vul-detection-gpt-few-results-org-final数据集在解决漏洞检测问题时面临多重挑战。领域问题的挑战包括:如何从非结构化的GitHub issue文本中准确提取漏洞特征,以及如何区分漏洞报告与非安全相关的issue。由于漏洞描述的多样性和技术术语的复杂性,模型需具备较强的语义理解能力。构建过程中的挑战则体现在数据标注的准确性上,依赖专家知识对漏洞进行标注的成本高昂,且不同CVSS版本的评分标准存在差异,需统一处理。此外,数据集中可能存在的噪声和不平衡分布(如漏洞样本与非漏洞样本的比例)也对模型的泛化性能提出了更高要求。
常用场景
经典使用场景
在网络安全领域,漏洞检测一直是研究与实践的核心议题。github-issues-vul-detection-gpt-few-results-org-final数据集通过整合GitHub问题追踪系统中的漏洞报告与CVE(通用漏洞披露)数据库的详细信息,为研究者提供了一个多维度分析漏洞特征的平台。该数据集常用于训练和评估基于自然语言处理的漏洞检测模型,尤其是结合GPT等大型语言模型的少样本学习能力,显著提升了自动化漏洞识别的效率与准确性。
解决学术问题
该数据集有效解决了漏洞检测领域的两大关键问题:一是传统方法对人工标注数据的依赖,二是跨平台漏洞信息关联的复杂性。通过融合GitHub问题文本与CVE结构化指标,研究者能够探索自然语言描述与标准化漏洞评分之间的映射关系,为基于语义的漏洞风险评估提供了新的研究范式。其多版本CVSS评分数据进一步支持了漏洞威胁动态演化的量化分析。
实际应用
在实际应用中,该数据集被广泛部署于开源软件供应链安全监控系统。安全团队通过分析issue文本与CVE关联模式,可快速识别代码库中的潜在漏洞。企业安全运维中心利用其构建的自动化预警管道,能够将漏洞发现周期从传统的手动审计缩短至分钟级响应,显著提升了关键基础设施的防护能力。
数据集最近研究
最新研究方向
在网络安全领域,漏洞检测技术正经历着从传统规则驱动向智能化、自动化方向的深刻变革。github-issues-vul-detection-gpt-few-results-org-final数据集以其独特的CVE漏洞描述与GitHub问题追踪的跨平台关联特性,为基于大语言模型的漏洞预测研究提供了重要支撑。当前研究热点集中在利用该数据集的多维度特征(包括CVSS评分体系、CWE弱点分类和issue语义分析)构建端到端的漏洞风险评估框架,特别是探索如何将GPT等生成式模型与图神经网络相结合,实现对开源项目安全状态的动态监测。随着软件供应链攻击事件频发,该数据集在漏洞知识图谱构建和跨项目漏洞传播分析方面的价值正日益凸显,为DevSecOps实践提供了关键的数据基础设施。
以上内容由遇见数据集搜集并总结生成



