five

cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt

收藏
Hugging Face2025-06-04 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/Eathus/cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含安全漏洞相关信息的数据库,其中包括漏洞的标识符、名称、摘要、详细描述、引入方式、可能导致的后果、缓解策略、实际观察到的例子、影响的资源、分类映射、相关攻击模式、参考文献以及内容的历史记录等。数据集的结构化字段设计使其适用于安全研究和漏洞分析。
创建时间:
2025-06-03
原始信息汇总

数据集概述

基本信息

  • 数据集名称: cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
  • 数据集地址: https://huggingface.co/datasets/Eathus/cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
  • 下载大小: 2,861,109 字节
  • 数据集大小: 10,474,399 字节
  • 训练集样本数: 940 个

数据集结构

特征

  • ID: 字符串类型
  • Name: 字符串类型
  • Abstraction: 字符串类型
  • Structure: 字符串类型
  • Status: 字符串类型
  • Description: 字符串类型
  • ExtendedDescription: 字符串类型
  • ApplicablePlatforms: 列表类型,包含以下字段:
    • Class: 字符串类型
    • Name: 字符串类型
    • Prevalence: 字符串类型
    • Type: 字符串类型
  • AlternateTerms: 列表类型,包含以下字段:
    • Description: 字符串类型
    • Term: 字符串类型
  • ModesOfIntroduction: 列表类型,包含以下字段:
    • Note: 字符串类型
    • Phase: 字符串类型
  • CommonConsequences: 列表类型,包含以下字段:
    • Impact: 字符串序列
    • Likelihood: 字符串序列
    • Note: 字符串类型
    • Scope: 字符串序列
  • PotentialMitigations: 列表类型,包含以下字段:
    • Description: 字符串类型
    • Effectiveness: 字符串类型
    • EffectivenessNotes: 字符串类型
    • MitigationID: 字符串类型
    • Phase: 字符串序列
    • Strategy: 字符串类型
  • ObservedExamples: 列表类型,包含以下字段:
    • Description: 字符串类型
    • Link: 字符串类型
    • Reference: 字符串类型
  • AffectedResources: 字符串序列
  • TaxonomyMappings: 列表类型,包含以下字段:
    • EntryID: 字符串类型
    • EntryName: 字符串类型
    • MappingFit: 字符串类型
    • TaxonomyName: 字符串类型
  • RelatedAttackPatterns: 字符串序列
  • References: 列表类型,包含以下字段:
    • Authors: 字符串序列
    • Edition: 字符串类型
    • ExternalReferenceID: 字符串类型
    • Publication: 字符串类型
    • PublicationDay: 字符串类型
    • PublicationMonth: 字符串类型
    • PublicationYear: 字符串类型
    • Publisher: 字符串类型
    • Section: 字符串类型
    • Title: 字符串类型
    • URL: 字符串类型
    • URLDate: 字符串类型
  • Notes: 列表类型,包含以下字段:
    • Note: 字符串类型
    • Type: 字符串类型
  • ContentHistory: 列表类型,包含以下字段:
    • ContributionComment: 字符串类型
    • ContributionDate: 字符串类型
    • ContributionName: 字符串类型
    • ContributionOrganization: 字符串类型
    • ContributionReleaseDate: 字符串类型
    • ContributionType: 字符串类型
    • ContributionVersion: 字符串类型
    • Date: 字符串类型
    • ModificationComment: 字符串类型
    • ModificationDate: 字符串类型
    • ModificationName: 字符串类型
    • ModificationOrganization: 字符串类型
    • ModificationReleaseDate: 字符串类型
    • ModificationVersion: 字符串类型
    • PreviousEntryName: 字符串类型
    • SubmissionComment: 字符串类型
    • SubmissionDate: 字符串类型
    • SubmissionName: 字符串类型
    • SubmissionOrganization: 字符串类型
    • SubmissionReleaseDate: 字符串类型
    • SubmissionVersion: 字符串类型
    • Type: 字符串类型
    • Version: 字符串类型
  • MappingNotes_Usage: 字符串类型
  • MappingNotes_Rationale: 字符串类型
  • MappingNotes_Comments: 字符串类型
  • MappingNotes_Reasons: 字符串序列
  • MappingNotes_Suggestions: 列表类型,包含以下字段:
    • Comment: 字符串类型
    • CweID: 字符串类型
  • RelatedWeaknesses: 列表类型,包含以下字段:
    • CweID: 字符串类型
    • Nature: 字符串类型
    • Ordinal: 字符串类型
    • ViewID: 字符串类型
  • WeaknessOrdinalities: 列表类型,包含以下字段:
    • Description: 字符串类型
    • Ordinality: 字符串类型
  • DetectionMethods: 列表类型,包含以下字段:
    • Description: 字符串类型
    • DetectionMethodID: 字符串类型
    • Effectiveness: 字符串类型
    • EffectivenessNotes: 字符串类型
    • Method: 字符串类型
  • DemonstrativeExamples: 列表类型,包含以下字段:
    • Entries: 列表类型,包含以下字段:
      • BodyText: 字符串类型
      • ExampleCode: 字符串类型
      • IntroText: 字符串类型
      • Language: 字符串类型
      • Nature: 字符串类型
      • Reference: 字符串类型
    • ID: 字符串类型
  • FunctionalAreas: 字符串序列
  • Diagram: 字符串类型
  • LikelihoodOfExploit: 字符串类型
  • BackgroundDetails: 字符串序列
  • NumPaths: 整型
  • Paths: 字符串序列的序列
  • Children: 字符串序列
  • Summary: 字符串类型
  • gpt_cwe_description: 字符串类型

数据分割

  • 训练集: 包含 940 个样本,路径为 data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于软件安全领域的常见弱点枚举(CWE)分析,通过结构化方式整合了1000个精选CWE条目。构建过程采用多维度数据采集策略,从MITRE官方CWE数据库提取核心属性,包括弱点抽象层级、结构特征、状态标记等基础元数据,并融合平台适用性、引入模式、缓解措施等实战维度信息。技术实现上采用嵌套式数据结构设计,主条目与子列表形成层次化关联,确保复杂安全概念的完整表达,同时通过GPT模型对原始描述进行语义增强处理。
特点
数据集呈现出显著的多模态特征,既包含标准化的弱点分类标识(ID/Name),又涵盖自然语言描述的扩展信息(ExtendedDescription)。其独特价值体现在三维度信息整合:技术维度收录适用平台和检测方法,风险维度量化常见后果和利用可能性,知识维度提供相关攻击模式及文献参考。特别值得注意的是,每个条目附有GPT生成的增强描述,将专业安全知识转化为更易理解的表述,同时保留原始数据的精确性。数据组织形式采用灵活的分裂式设计,支持按抽象层级、影响范围或平台类型进行多角度检索分析。
使用方法
使用该数据集时建议采用分层解析策略,首先通过ID/Name字段定位目标弱点,继而逐层展开嵌套结构获取详细信息。对于安全分析任务,可重点考察CommonConsequences和PotentialMitigations字段构建威胁模型;开发人员则可聚焦ApplicablePlatforms和DemonstrativeExamples实现针对性防护。研究场景下,TaxonomyMappings与RelatedAttackPatterns支持跨标准的知识关联分析。数据集以标准JSON格式提供,可直接加载至主流数据分析框架,其中gpt_cwe_description字段特别适合作为自然语言处理任务的训练语料,但需注意与原始描述字段进行交叉验证以确保技术准确性。
背景与挑战
背景概述
cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt数据集聚焦于软件安全领域,旨在系统化地整理和描述常见弱点枚举(CWE)条目。该数据集由专业安全研究团队构建,依托MITRE Corporation维护的CWE知识库,通过结构化方式呈现各类软件弱点的抽象定义、适用平台、潜在缓解措施等核心属性。其创新性在于采用GPT模型生成标准化描述,为漏洞分析、安全测试等研究提供了可计算的语义基础,显著提升了安全缺陷分类的自动化水平。
当前挑战
该数据集面临双重挑战:在领域问题层面,软件弱点的多维度特性(如跨平台表现、动态演化模式)导致标准化描述难以全面覆盖;不同抽象层级弱点的关联性建模仍存在语义鸿沟。在构建过程中,需平衡GPT生成内容的准确性与人工校验效率,同时处理CWE条目间复杂的拓扑关系。多源异构数据的归一化整合,以及动态更新的知识同步机制,均为亟待解决的技术难点。
常用场景
经典使用场景
在软件安全研究领域,cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt数据集被广泛用于分析和分类常见弱点枚举(CWE)条目。该数据集通过结构化描述和详细元数据,为研究人员提供了一个全面的框架,用于探索软件漏洞的模式和特征。其经典使用场景包括漏洞模式识别、安全缺陷分类以及自动化漏洞检测系统的训练与评估。
解决学术问题
该数据集有效解决了软件安全研究中缺乏标准化漏洞描述的问题。通过提供详细的CWE条目信息,包括描述、平台适用性、潜在缓解措施等,研究人员能够更系统地分析漏洞成因和影响。这不仅促进了漏洞分类学的发展,还为构建更精确的漏洞预测模型提供了数据基础,推动了软件安全领域的学术进步。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作。例如,基于其漏洞描述数据开发的深度学习模型,能够自动分类和预测软件漏洞。此外,许多研究利用该数据集的CWE条目关系,构建了漏洞知识图谱,进一步探索漏洞之间的关联性。这些工作不仅扩展了数据集的应用范围,也为软件安全研究开辟了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作