cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt

Hugging Face2025-06-04 更新2025-06-05 收录

下载链接：

https://huggingface.co/datasets/Eathus/cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含安全漏洞相关信息的数据库，其中包括漏洞的标识符、名称、摘要、详细描述、引入方式、可能导致的后果、缓解策略、实际观察到的例子、影响的资源、分类映射、相关攻击模式、参考文献以及内容的历史记录等。数据集的结构化字段设计使其适用于安全研究和漏洞分析。

创建时间：

2025-06-03

原始信息汇总

数据集概述

基本信息

数据集名称: cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
数据集地址: https://huggingface.co/datasets/Eathus/cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt
下载大小: 2,861,109 字节
数据集大小: 10,474,399 字节
训练集样本数: 940 个

数据集结构

特征

ID: 字符串类型
Name: 字符串类型
Abstraction: 字符串类型
Structure: 字符串类型
Status: 字符串类型
Description: 字符串类型
ExtendedDescription: 字符串类型
ApplicablePlatforms: 列表类型，包含以下字段：
- Class: 字符串类型
- Name: 字符串类型
- Prevalence: 字符串类型
- Type: 字符串类型
AlternateTerms: 列表类型，包含以下字段：
- Description: 字符串类型
- Term: 字符串类型
ModesOfIntroduction: 列表类型，包含以下字段：
- Note: 字符串类型
- Phase: 字符串类型
CommonConsequences: 列表类型，包含以下字段：
- Impact: 字符串序列
- Likelihood: 字符串序列
- Note: 字符串类型
- Scope: 字符串序列
PotentialMitigations: 列表类型，包含以下字段：
- Description: 字符串类型
- Effectiveness: 字符串类型
- EffectivenessNotes: 字符串类型
- MitigationID: 字符串类型
- Phase: 字符串序列
- Strategy: 字符串类型
ObservedExamples: 列表类型，包含以下字段：
- Description: 字符串类型
- Link: 字符串类型
- Reference: 字符串类型
AffectedResources: 字符串序列
TaxonomyMappings: 列表类型，包含以下字段：
- EntryID: 字符串类型
- EntryName: 字符串类型
- MappingFit: 字符串类型
- TaxonomyName: 字符串类型
RelatedAttackPatterns: 字符串序列
References: 列表类型，包含以下字段：
- Authors: 字符串序列
- Edition: 字符串类型
- ExternalReferenceID: 字符串类型
- Publication: 字符串类型
- PublicationDay: 字符串类型
- PublicationMonth: 字符串类型
- PublicationYear: 字符串类型
- Publisher: 字符串类型
- Section: 字符串类型
- Title: 字符串类型
- URL: 字符串类型
- URLDate: 字符串类型
Notes: 列表类型，包含以下字段：
- Note: 字符串类型
- Type: 字符串类型
ContentHistory: 列表类型，包含以下字段：
- ContributionComment: 字符串类型
- ContributionDate: 字符串类型
- ContributionName: 字符串类型
- ContributionOrganization: 字符串类型
- ContributionReleaseDate: 字符串类型
- ContributionType: 字符串类型
- ContributionVersion: 字符串类型
- Date: 字符串类型
- ModificationComment: 字符串类型
- ModificationDate: 字符串类型
- ModificationName: 字符串类型
- ModificationOrganization: 字符串类型
- ModificationReleaseDate: 字符串类型
- ModificationVersion: 字符串类型
- PreviousEntryName: 字符串类型
- SubmissionComment: 字符串类型
- SubmissionDate: 字符串类型
- SubmissionName: 字符串类型
- SubmissionOrganization: 字符串类型
- SubmissionReleaseDate: 字符串类型
- SubmissionVersion: 字符串类型
- Type: 字符串类型
- Version: 字符串类型
MappingNotes_Usage: 字符串类型
MappingNotes_Rationale: 字符串类型
MappingNotes_Comments: 字符串类型
MappingNotes_Reasons: 字符串序列
MappingNotes_Suggestions: 列表类型，包含以下字段：
- Comment: 字符串类型
- CweID: 字符串类型
RelatedWeaknesses: 列表类型，包含以下字段：
- CweID: 字符串类型
- Nature: 字符串类型
- Ordinal: 字符串类型
- ViewID: 字符串类型
WeaknessOrdinalities: 列表类型，包含以下字段：
- Description: 字符串类型
- Ordinality: 字符串类型
DetectionMethods: 列表类型，包含以下字段：
- Description: 字符串类型
- DetectionMethodID: 字符串类型
- Effectiveness: 字符串类型
- EffectivenessNotes: 字符串类型
- Method: 字符串类型
DemonstrativeExamples: 列表类型，包含以下字段：
- Entries: 列表类型，包含以下字段：
  - BodyText: 字符串类型
  - ExampleCode: 字符串类型
  - IntroText: 字符串类型
  - Language: 字符串类型
  - Nature: 字符串类型
  - Reference: 字符串类型
- ID: 字符串类型
FunctionalAreas: 字符串序列
Diagram: 字符串类型
LikelihoodOfExploit: 字符串类型
BackgroundDetails: 字符串序列
NumPaths: 整型
Paths: 字符串序列的序列
Children: 字符串序列
Summary: 字符串类型
gpt_cwe_description: 字符串类型

数据分割

训练集: 包含 940 个样本，路径为 data/train-*

搜集汇总

数据集介绍

构建方式

该数据集聚焦于软件安全领域的常见弱点枚举（CWE）分析，通过结构化方式整合了1000个精选CWE条目。构建过程采用多维度数据采集策略，从MITRE官方CWE数据库提取核心属性，包括弱点抽象层级、结构特征、状态标记等基础元数据，并融合平台适用性、引入模式、缓解措施等实战维度信息。技术实现上采用嵌套式数据结构设计，主条目与子列表形成层次化关联，确保复杂安全概念的完整表达，同时通过GPT模型对原始描述进行语义增强处理。

特点

数据集呈现出显著的多模态特征，既包含标准化的弱点分类标识（ID/Name），又涵盖自然语言描述的扩展信息（ExtendedDescription）。其独特价值体现在三维度信息整合：技术维度收录适用平台和检测方法，风险维度量化常见后果和利用可能性，知识维度提供相关攻击模式及文献参考。特别值得注意的是，每个条目附有GPT生成的增强描述，将专业安全知识转化为更易理解的表述，同时保留原始数据的精确性。数据组织形式采用灵活的分裂式设计，支持按抽象层级、影响范围或平台类型进行多角度检索分析。

使用方法

使用该数据集时建议采用分层解析策略，首先通过ID/Name字段定位目标弱点，继而逐层展开嵌套结构获取详细信息。对于安全分析任务，可重点考察CommonConsequences和PotentialMitigations字段构建威胁模型；开发人员则可聚焦ApplicablePlatforms和DemonstrativeExamples实现针对性防护。研究场景下，TaxonomyMappings与RelatedAttackPatterns支持跨标准的知识关联分析。数据集以标准JSON格式提供，可直接加载至主流数据分析框架，其中gpt_cwe_description字段特别适合作为自然语言处理任务的训练语料，但需注意与原始描述字段进行交叉验证以确保技术准确性。

背景与挑战

背景概述

cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt数据集聚焦于软件安全领域，旨在系统化地整理和描述常见弱点枚举（CWE）条目。该数据集由专业安全研究团队构建，依托MITRE Corporation维护的CWE知识库，通过结构化方式呈现各类软件弱点的抽象定义、适用平台、潜在缓解措施等核心属性。其创新性在于采用GPT模型生成标准化描述，为漏洞分析、安全测试等研究提供了可计算的语义基础，显著提升了安全缺陷分类的自动化水平。

当前挑战

该数据集面临双重挑战：在领域问题层面，软件弱点的多维度特性（如跨平台表现、动态演化模式）导致标准化描述难以全面覆盖；不同抽象层级弱点的关联性建模仍存在语义鸿沟。在构建过程中，需平衡GPT生成内容的准确性与人工校验效率，同时处理CWE条目间复杂的拓扑关系。多源异构数据的归一化整合，以及动态更新的知识同步机制，均为亟待解决的技术难点。

常用场景

经典使用场景

在软件安全研究领域，cwe_view1000_list_gpt_few_cwe_desc_gpt_prompt数据集被广泛用于分析和分类常见弱点枚举（CWE）条目。该数据集通过结构化描述和详细元数据，为研究人员提供了一个全面的框架，用于探索软件漏洞的模式和特征。其经典使用场景包括漏洞模式识别、安全缺陷分类以及自动化漏洞检测系统的训练与评估。

解决学术问题

该数据集有效解决了软件安全研究中缺乏标准化漏洞描述的问题。通过提供详细的CWE条目信息，包括描述、平台适用性、潜在缓解措施等，研究人员能够更系统地分析漏洞成因和影响。这不仅促进了漏洞分类学的发展，还为构建更精确的漏洞预测模型提供了数据基础，推动了软件安全领域的学术进步。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作。例如，基于其漏洞描述数据开发的深度学习模型，能够自动分类和预测软件漏洞。此外，许多研究利用该数据集的CWE条目关系，构建了漏洞知识图谱，进一步探索漏洞之间的关联性。这些工作不仅扩展了数据集的应用范围，也为软件安全研究开辟了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集