cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
收藏Hugging Face2025-06-04 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/Eathus/cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含安全漏洞相关信息的数据库,其中包括漏洞的标识符、名称、摘要、详细描述、引入方式、可能导致的后果、缓解策略、实际观察到的例子、影响的资源、分类映射、相关攻击模式、参考文献以及内容的历史记录等。数据集的结构化字段设计使其适用于安全研究和漏洞分析。
创建时间:
2025-06-03
原始信息汇总
数据集概述
基本信息
- 数据集名称: cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
- 数据集地址: https://huggingface.co/datasets/Eathus/cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
- 下载大小: 2,861,109 字节
- 数据集大小: 10,474,399 字节
- 训练集样本数: 940 个
数据集结构
特征
- ID: 字符串类型
- Name: 字符串类型
- Abstraction: 字符串类型
- Structure: 字符串类型
- Status: 字符串类型
- Description: 字符串类型
- ExtendedDescription: 字符串类型
- ApplicablePlatforms: 列表类型,包含以下字段:
- Class: 字符串类型
- Name: 字符串类型
- Prevalence: 字符串类型
- Type: 字符串类型
- AlternateTerms: 列表类型,包含以下字段:
- Description: 字符串类型
- Term: 字符串类型
- ModesOfIntroduction: 列表类型,包含以下字段:
- Note: 字符串类型
- Phase: 字符串类型
- CommonConsequences: 列表类型,包含以下字段:
- Impact: 字符串序列
- Likelihood: 字符串序列
- Note: 字符串类型
- Scope: 字符串序列
- PotentialMitigations: 列表类型,包含以下字段:
- Description: 字符串类型
- Effectiveness: 字符串类型
- EffectivenessNotes: 字符串类型
- MitigationID: 字符串类型
- Phase: 字符串序列
- Strategy: 字符串类型
- ObservedExamples: 列表类型,包含以下字段:
- Description: 字符串类型
- Link: 字符串类型
- Reference: 字符串类型
- AffectedResources: 字符串序列
- TaxonomyMappings: 列表类型,包含以下字段:
- EntryID: 字符串类型
- EntryName: 字符串类型
- MappingFit: 字符串类型
- TaxonomyName: 字符串类型
- RelatedAttackPatterns: 字符串序列
- References: 列表类型,包含以下字段:
- Authors: 字符串序列
- Edition: 字符串类型
- ExternalReferenceID: 字符串类型
- Publication: 字符串类型
- PublicationDay: 字符串类型
- PublicationMonth: 字符串类型
- PublicationYear: 字符串类型
- Publisher: 字符串类型
- Section: 字符串类型
- Title: 字符串类型
- URL: 字符串类型
- URLDate: 字符串类型
- Notes: 列表类型,包含以下字段:
- Note: 字符串类型
- Type: 字符串类型
- ContentHistory: 列表类型,包含以下字段:
- ContributionComment: 字符串类型
- ContributionDate: 字符串类型
- ContributionName: 字符串类型
- ContributionOrganization: 字符串类型
- ContributionReleaseDate: 字符串类型
- ContributionType: 字符串类型
- ContributionVersion: 字符串类型
- Date: 字符串类型
- ModificationComment: 字符串类型
- ModificationDate: 字符串类型
- ModificationName: 字符串类型
- ModificationOrganization: 字符串类型
- ModificationReleaseDate: 字符串类型
- ModificationVersion: 字符串类型
- PreviousEntryName: 字符串类型
- SubmissionComment: 字符串类型
- SubmissionDate: 字符串类型
- SubmissionName: 字符串类型
- SubmissionOrganization: 字符串类型
- SubmissionReleaseDate: 字符串类型
- SubmissionVersion: 字符串类型
- Type: 字符串类型
- Version: 字符串类型
- MappingNotes_Usage: 字符串类型
- MappingNotes_Rationale: 字符串类型
- MappingNotes_Comments: 字符串类型
- MappingNotes_Reasons: 字符串序列
- MappingNotes_Suggestions: 列表类型,包含以下字段:
- Comment: 字符串类型
- CweID: 字符串类型
- RelatedWeaknesses: 列表类型,包含以下字段:
- CweID: 字符串类型
- Nature: 字符串类型
- Ordinal: 字符串类型
- ViewID: 字符串类型
- WeaknessOrdinalities: 列表类型,包含以下字段:
- Description: 字符串类型
- Ordinality: 字符串类型
- DetectionMethods: 列表类型,包含以下字段:
- Description: 字符串类型
- DetectionMethodID: 字符串类型
- Effectiveness: 字符串类型
- EffectivenessNotes: 字符串类型
- Method: 字符串类型
- DemonstrativeExamples: 列表类型,包含以下字段:
- Entries: 列表类型,包含以下字段:
- BodyText: 字符串类型
- ExampleCode: 字符串类型
- IntroText: 字符串类型
- Language: 字符串类型
- Nature: 字符串类型
- Reference: 字符串类型
- ID: 字符串类型
- Entries: 列表类型,包含以下字段:
- FunctionalAreas: 字符串序列
- Diagram: 字符串类型
- LikelihoodOfExploit: 字符串类型
- BackgroundDetails: 字符串序列
- NumPaths: 整型
- Paths: 字符串序列的序列
- Children: 字符串序列
- Summary: 字符串类型
- gpt_cwe_description: 字符串类型
数据分割
- 训练集: 包含 940 个样本,路径为
data/train-*
搜集汇总
数据集介绍

构建方式
该数据集聚焦于软件安全领域的常见弱点枚举(CWE)分析,通过结构化方式整合了1000个精选CWE条目。构建过程采用多维度数据采集策略,从MITRE官方CWE数据库提取核心属性,包括弱点抽象层级、结构特征、状态标记等基础元数据,并融合平台适用性、引入模式、缓解措施等实战维度信息。技术实现上采用嵌套式数据结构设计,主条目与子列表形成层次化关联,确保复杂安全概念的完整表达,同时通过GPT模型对原始描述进行语义增强处理。
特点
数据集呈现出显著的多模态特征,既包含标准化的弱点分类标识(ID/Name),又涵盖自然语言描述的扩展信息(ExtendedDescription)。其独特价值体现在三维度信息整合:技术维度收录适用平台和检测方法,风险维度量化常见后果和利用可能性,知识维度提供相关攻击模式及文献参考。特别值得注意的是,每个条目附有GPT生成的增强描述,将专业安全知识转化为更易理解的表述,同时保留原始数据的精确性。数据组织形式采用灵活的分裂式设计,支持按抽象层级、影响范围或平台类型进行多角度检索分析。
使用方法
使用该数据集时建议采用分层解析策略,首先通过ID/Name字段定位目标弱点,继而逐层展开嵌套结构获取详细信息。对于安全分析任务,可重点考察CommonConsequences和PotentialMitigations字段构建威胁模型;开发人员则可聚焦ApplicablePlatforms和DemonstrativeExamples实现针对性防护。研究场景下,TaxonomyMappings与RelatedAttackPatterns支持跨标准的知识关联分析。数据集以标准JSON格式提供,可直接加载至主流数据分析框架,其中gpt_cwe_description字段特别适合作为自然语言处理任务的训练语料,但需注意与原始描述字段进行交叉验证以确保技术准确性。
背景与挑战
背景概述
cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt数据集聚焦于软件安全领域,旨在系统化地整理和描述常见弱点枚举(CWE)条目。该数据集由专业安全研究团队构建,依托MITRE Corporation维护的CWE知识库,通过结构化方式呈现各类软件弱点的抽象定义、适用平台、潜在缓解措施等核心属性。其创新性在于采用GPT模型生成标准化描述,为漏洞分析、安全测试等研究提供了可计算的语义基础,显著提升了安全缺陷分类的自动化水平。
当前挑战
该数据集面临双重挑战:在领域问题层面,软件弱点的多维度特性(如跨平台表现、动态演化模式)导致标准化描述难以全面覆盖;不同抽象层级弱点的关联性建模仍存在语义鸿沟。在构建过程中,需平衡GPT生成内容的准确性与人工校验效率,同时处理CWE条目间复杂的拓扑关系。多源异构数据的归一化整合,以及动态更新的知识同步机制,均为亟待解决的技术难点。
常用场景
经典使用场景
在软件安全研究领域,cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt数据集被广泛用于分析和分类常见弱点枚举(CWE)条目。该数据集通过结构化描述和详细元数据,为研究人员提供了一个全面的框架,用于探索软件漏洞的模式和特征。其经典使用场景包括漏洞模式识别、安全缺陷分类以及自动化漏洞检测系统的训练与评估。
解决学术问题
该数据集有效解决了软件安全研究中缺乏标准化漏洞描述的问题。通过提供详细的CWE条目信息,包括描述、平台适用性、潜在缓解措施等,研究人员能够更系统地分析漏洞成因和影响。这不仅促进了漏洞分类学的发展,还为构建更精确的漏洞预测模型提供了数据基础,推动了软件安全领域的学术进步。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作。例如,基于其漏洞描述数据开发的深度学习模型,能够自动分类和预测软件漏洞。此外,许多研究利用该数据集的CWE条目关系,构建了漏洞知识图谱,进一步探索漏洞之间的关联性。这些工作不仅扩展了数据集的应用范围,也为软件安全研究开辟了新的方向。
以上内容由遇见数据集搜集并总结生成



