five

MSR_20_Code_vulnerability_CSV_Dataset|软件安全数据集|漏洞管理数据集

收藏
github2024-05-20 更新2024-05-31 收录
软件安全
漏洞管理
下载链接:
https://github.com/ZeoVan/MSR_20_Code_vulnerability_CSV_Dataset
下载链接
链接失效反馈
资源简介:
该数据集包含从2002年到2019年的CVE条目,每个条目包含21个特征,涵盖了访问复杂度、认证要求、可用性影响等多个方面。数据集以CSV格式发布,详细记录了代码漏洞的相关信息。
创建时间:
2020-06-25
原始信息汇总

数据集概述

数据集名称

A C/C++ Code Vulnerability Dataset with Code Changes and CVE Summaries

数据集描述

数据集内容

  • 时间范围:2002年至2019年
  • 特征数量:21个特征
  • 数据格式:CSV
  • 主要文件all_c_cpp_release2.0.csv

特征详情

特征 列名 描述
Access Complexity access_complexity 反映攻击复杂度
Authentication Required authentication_required 是否需要认证
Availability Impact availability_impact 对可用性的潜在影响
Commit ID commit_id 代码仓库中的提交ID
Commit Message commit_message 开发者提交信息
Confidentiality Impact confidentiality_impact 对保密性的潜在影响
CWE ID cwe_id 常见弱点枚举ID
CVE ID cve_id 常见漏洞和暴露ID
CVE Page cve_page CVE详情网页链接
CVE Summary summary CVE总结信息
CVSS Score score 漏洞的相对严重性
Files Changed files_changed 变更的文件及对应补丁
Integrity Impact integrity_impact 对完整性的潜在影响
Mini-version After Fix version_after_fix 修复后的版本ID
Mini-version Before Fix version_before_fix 修复前的版本ID
Programming Language lang 项目编程语言
Project project 项目名称
Publish Date publish_date CVE发布日期
Reference Link ref_ink CVE页面中的参考链接
Update Date update_date CVE更新日期
Vulnerability Classification vulnerability_classification 漏洞类型

额外数据

  • 分割函数数据:CSV格式,包含函数变更前后的信息及是否为漏洞函数。
  • 中间文件:数据收集和清理过程中的中间文件。
  • JSON格式数据集:提供JSON格式的数据集。

数据集使用建议

  • 工具推荐:使用Pandas(Python包)处理CSV文件。
  • 数据处理:建议使用Python3及相关库(如Beautiful Soup和Pandas)进行数据处理。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过从2002年至2019年的CVE条目中提取代码变更信息,结合代码库中的提交版本补丁,定位了代码文件中被修改的行。具体而言,数据集通过对比修复前后的迷你版本,识别出存在漏洞的代码行,并将修改文件中的函数划分为存在漏洞的函数和无漏洞的函数。这一过程确保了数据集的构建基于实际的代码变更,从而提供了对软件漏洞的精确描述。
特点
该数据集的显著特点在于其详细记录了每个CVE条目的21个特征,涵盖了从访问复杂度到漏洞分类等多个维度。此外,数据集不仅提供了代码变更的具体信息,还包含了修复前后的函数代码,便于研究人员深入分析漏洞的修复过程。数据集以CSV和JSON格式发布,便于不同研究需求的使用。
使用方法
使用该数据集时,建议采用Python的Pandas库进行数据读取和处理,如通过`pandas.read_csv('filepath/file.csv')`加载数据。数据集的脚本部分提供了从CVE页面抓取信息、获取提交消息以及下载源文件和补丁文件的详细步骤,用户可根据需求选择相应的脚本进行操作。此外,数据集还提供了Jupyter Notebook示例,展示了如何对修改文件中的函数进行分割和分析。
背景与挑战
背景概述
MSR_20_Code_vulnerability_CSV_Dataset是由Jiahao Fan、Yi Li、Shaohua Wang和Tien N. Nguyen等研究人员于2020年创建的,旨在为C/C++代码中的漏洞分析提供一个全面的数据集。该数据集涵盖了2002年至2019年间的CVE条目,包含21个特征,详细记录了代码变更、CVE摘要以及漏洞修复前后的代码状态。通过结合代码变更信息与CVE数据,该数据集为研究人员提供了一个强大的工具,用于分析和理解软件漏洞的成因及其修复过程,对软件安全领域具有重要的研究价值。
当前挑战
该数据集在构建过程中面临多项挑战。首先,从代码库中提取和定位漏洞相关的代码变更信息需要复杂的算法和工具支持,确保数据的准确性和完整性。其次,整合CVE数据与代码变更信息,确保两者之间的关联性和一致性,是一项技术难题。此外,数据集的规模和多样性要求高效的存储和处理方法,以支持大规模的分析和研究。最后,如何确保数据集的更新与维护,以反映最新的漏洞信息和修复策略,也是一项持续的挑战。
常用场景
经典使用场景
MSR_20_Code_vulnerability_CSV_Dataset 数据集的经典使用场景主要集中在软件漏洞检测与分析领域。研究者可以利用该数据集中的代码变更信息和CVE摘要,进行漏洞定位、分类以及修复策略的研究。通过分析代码变更前后的函数差异,研究者能够识别出潜在的漏洞函数,并进一步探讨漏洞的成因与修复方法。此外,该数据集还支持对软件安全性的全面评估,帮助开发者在软件开发生命周期的早期阶段发现并修复潜在的安全隐患。
解决学术问题
该数据集解决了软件工程领域中关于漏洞检测与修复的关键学术问题。通过提供详细的代码变更信息和CVE摘要,研究者能够深入分析漏洞的成因、影响范围及修复策略,从而推动漏洞检测技术的进步。此外,该数据集还为软件安全性的量化评估提供了基础,帮助研究者开发更高效的漏洞检测工具和修复方法,对提升软件系统的整体安全性具有重要意义。
衍生相关工作
基于MSR_20_Code_vulnerability_CSV_Dataset 数据集,研究者们开展了一系列相关的经典工作。例如,有研究者利用该数据集开发了自动化的漏洞检测工具,通过机器学习算法识别代码中的潜在漏洞。还有研究者基于数据集中的代码变更信息,提出了新的漏洞修复策略,显著提高了修复效率。此外,该数据集还激发了关于软件安全性评估的新方法研究,推动了软件工程领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录