five

CWE-Datset-2|软件安全数据集|漏洞检测数据集

收藏
huggingface2025-03-07 更新2025-03-08 收录
软件安全
漏洞检测
下载链接:
https://huggingface.co/datasets/suriya7/CWE-Datset-2
下载链接
链接失效反馈
资源简介:
这是一个包含软件漏洞信息的 dataset,其中包括漏洞的路径、CWE分类、漏洞类型、漏洞描述、严重性、代码片段、扫描器信息、状态以及两个特定模型的状态(gpt_status和gemini_status)。数据集分为训练集,共有19856个示例,总大小为28122905字节。
创建时间:
2025-02-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
CWE-Datset-2数据集的构建,是通过采集软件安全漏洞的相关信息,涵盖了漏洞路径、漏洞类型(CWE)、漏洞标签、漏洞描述、严重性等级、代码片段、扫描器类型、漏洞状态以及两种模型状态(GPT状态与Gemini状态)。该数据集由训练集构成,总计19856个样本,数据格式为字符串类型,便于存储与处理。
使用方法
使用CWE-Datset-2数据集时,用户首先需要下载并解压数据集,随后可根据数据集提供的字段进行数据清洗、预处理等操作。数据集以训练集的形式存在,可直接应用于机器学习模型的训练过程。用户可根据具体研究需求,选取相关字段构建特征集,进而进行安全漏洞的分析、预测或模型评估等研究工作。
背景与挑战
背景概述
CWE-Datset-2数据集是在信息安全领域,针对漏洞研究而构建的。该数据集由一系列研究人员和机构共同开发于近年,旨在提升对软件漏洞的理解和检测能力。其核心研究问题是识别和分类不同类型的漏洞(CWE,即Common Weakness Enumeration),并评估其严重性。该数据集为漏洞检测、安全评估和风险管理等领域的研究提供了宝贵的资源,对促进相关技术的发展具有显著影响。
当前挑战
在领域问题上,CWE-Datset-2数据集面临的挑战包括如何精确地区分和识别各种复杂的漏洞类型,以及如何准确地预测漏洞的严重程度。在构建过程中,数据集的构建者需要克服了数据收集的困难,确保了数据的真实性和多样性;同时,如何有效地标注数据,保持标注的一致性和准确性,也是构建过程中的一大挑战。
常用场景
经典使用场景
在计算机安全领域,CWE-Datset-2数据集因其详尽的漏洞信息而被广泛采用,其经典使用场景主要包括漏洞分类与检测研究。通过对数据集中包含的路径、漏洞类别(CWE)、漏洞详情(vuln_desc)等字段的分析,研究人员能够训练出精确度较高的漏洞分类模型,以自动识别软件中的潜在风险。
解决学术问题
CWE-Datset-2数据集解决了漏洞识别研究中样本缺乏和标注不一致的问题,为学术研究提供了统一和标准的漏洞描述及分类标准。它使得研究者能够基于大量标注数据进行机器学习模型的训练和评估,从而推动了漏洞检测技术的进步,提高了软件安全性。
实际应用
实际应用中,CWE-Datset-2数据集被用于构建自动化漏洞扫描工具,辅助安全专家进行安全审计。通过该数据集训练出的模型能够帮助企业在软件开发过程中及时发现和修复安全漏洞,降低安全风险。
数据集最近研究
最新研究方向
在计算机安全领域,针对漏洞识别与分类的研究日益深入,CWE-Datset-2数据集为此提供了丰富的素材。该数据集包含漏洞路径、CWE分类、漏洞描述、严重性等级等字段,为研究者提供了全方位的分析视角。近期的研究方向主要集中在利用该数据集进行深度学习模型的训练与优化,以提升漏洞检测的自动化与准确性。此外,通过数据集的特征分析,研究者能够挖掘出软件安全性的薄弱环节,从而推动安全防护技术的发展。CWE-Datset-2在促进漏洞研究、加强网络安全方面具有重要意义,其应用亦与当前网络安全事件的应急响应息息相关。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

Shanghai Stock Exchange Composite Index

该数据集包含上海证券交易所综合指数(上证综指)的历史数据,涵盖了指数的每日开盘价、收盘价、最高价、最低价以及成交量等信息。

www.sse.com.cn 收录

中文人名语料库(Chinese-Names-Corpus)

本项目包含多个数据集,如中文常见人名、中文古代人名、中文姓氏等,数据大小从数千到数百万不等,语料来源广泛,经过数据清洗处理,适用于中文分词、人名识别等场景。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录