MSR_20_Code_vulnerability_CSV_Dataset
收藏github2020-12-04 更新2024-05-31 收录
下载链接:
https://github.com/psychomasson/MSR_20_Code_vulnerability_CSV_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2002年至2019年间的CVE条目,每个条目包含21个特征,涵盖了访问复杂度、认证要求、可用性影响等多个方面。数据集以CSV格式发布,详细记录了代码更改和CVE摘要信息。
This dataset encompasses CVE entries from 2002 to 2019, with each entry comprising 21 features that cover various aspects such as access complexity, authentication requirements, and availability impact. The dataset is published in CSV format, meticulously documenting code changes and CVE summary information.
创建时间:
2020-12-04
原始信息汇总
A C/C++ Code Vulnerability Dataset with Code Changes and CVE Summaries
数据描述
-
时间范围:2002年至2019年
-
数据格式:CSV(
all_c_cpp_release2.0.csv) -
特征数量:21个
-
特征详情:
特征 列名 描述 访问复杂度 access_complexity 反映攻击软件特征误用漏洞所需的复杂性 认证要求 authentication_required 是否需要认证以利用漏洞 可用性影响 availability_impact 成功利用误用漏洞对可用性的潜在影响 提交ID commit_id 代码仓库中的提交ID,表示一个小版本 提交消息 commit_message 开发者提交消息 机密性影响 confidentiality_impact 成功利用误用漏洞对机密性的潜在影响 CWE ID cwe_id 通用弱点枚举ID CVE ID cve_id 通用漏洞和暴露ID CVE页面 cve_page CVE详情网页链接 CVE摘要 summary CVE摘要信息 CVSS分数 score 软件缺陷漏洞的相对严重性 文件变更 files_changed 所有变更文件及相应补丁 完整性影响 integrity_impact 成功利用误用漏洞对完整性的潜在影响 修复后小版本 version_after_fix 修复后的小版本ID 修复前小版本 version_before_fix 修复前的小版本ID 编程语言 lang 项目编程语言 项目 project 项目名称 发布日期 publish_date CVE发布日期 参考链接 ref_ink CVE页面中的参考链接 更新日期 update_date CVE更新日期 漏洞分类 vulnerability_classification 漏洞类型 -
代码变更信息:使用提交版本补丁中的代码变更信息,定位文件中哪些代码行被修改。将两个小版本之间的修改行视为缺陷行,将修改文件中的函数分为脆弱函数(如果函数中有修改的缺陷行)和非脆弱函数。
-
清理后的分割函数:即将发布。
搜集汇总
数据集介绍

构建方式
MSR_20_Code_vulnerability_CSV_Dataset的构建过程基于对C/C++代码漏洞的深入分析,涵盖了2002年至2019年间的CVE条目。数据集通过提取代码库中的提交版本补丁信息,定位了文件中被修改的代码行,并将这些修改行视为漏洞行。在此基础上,数据集将被修改文件中的函数划分为易受攻击的函数和非易受攻击的函数。所有数据以CSV格式发布,包含21个特征,每个特征均详细描述了漏洞的不同方面。
特点
该数据集的特点在于其全面性和细致性。它不仅包含了CVE条目的基本信息,如CVE ID、CWE ID、CVSS评分等,还提供了代码变更的详细信息,如提交ID、提交消息、修改文件等。此外,数据集还通过分析代码变更,将函数划分为易受攻击和非易受攻击两类,为研究者提供了丰富的分析维度。数据集的结构化格式和详细的特征描述使其成为研究代码漏洞的宝贵资源。
使用方法
使用该数据集时,首先需要安装Python3、Beautiful Soup和Pandas等依赖库。随后,通过运行提供的脚本文件,如scrape_all_the_cve.py和get_commit_info.py,可以抓取CVE条目并获取提交信息。最后,利用这些提交信息爬取源代码文件和补丁文件,并对修改文件中的函数进行划分。数据集的使用方法详细记录在Jupyter Notebook中,用户可以根据需要进一步分析和处理数据。
背景与挑战
背景概述
MSR_20_Code_vulnerability_CSV_Dataset是由Jiahao Fan、Yi Li、Shaohua Wang和Tien N. Nguyen等研究人员于2020年发布的一个专注于C/C++代码漏洞的数据集。该数据集涵盖了2002年至2019年间的CVE(Common Vulnerabilities and Exposures)条目,每个条目包含21个特征,如访问复杂性、认证需求、漏洞影响等。数据集的核心研究问题在于通过代码变更信息(从提交的版本补丁中提取)定位漏洞代码行,并将修改文件中的函数分为易受攻击函数和非易受攻击函数。该数据集在软件工程领域,尤其是代码漏洞检测和修复方面具有重要影响力,为研究人员提供了丰富的实验数据和分析基础。
当前挑战
MSR_20_Code_vulnerability_CSV_Dataset在解决代码漏洞检测问题时面临多重挑战。首先,从CVE条目中提取并整合代码变更信息需要处理大量异构数据,包括CVE摘要、提交信息、补丁文件等,数据清洗和标准化过程复杂。其次,定位漏洞代码行并准确分类函数需要高精度的算法支持,尤其是在处理大规模代码库时,计算效率和准确性之间的平衡成为关键。此外,构建过程中还需应对数据源的动态更新和版本控制系统的复杂性,确保数据的一致性和完整性。这些挑战不仅考验了数据集的构建技术,也为后续研究提供了改进方向。
常用场景
经典使用场景
MSR_20_Code_vulnerability_CSV_Dataset数据集在软件工程领域中被广泛用于研究代码漏洞的检测与修复。通过分析C/C++代码中的漏洞特征及其修复过程,研究人员能够深入理解漏洞的产生机制及其修复策略。该数据集包含了从2002年至2019年的CVE条目,涵盖了21个特征,如漏洞复杂度、认证需求、影响范围等,为研究者提供了丰富的实验数据。
解决学术问题
该数据集解决了软件工程领域中代码漏洞检测与修复的关键问题。通过提供详细的代码变更信息和CVE摘要,研究者能够准确识别漏洞的位置及其修复方式。这不仅有助于提升代码质量,还为自动化漏洞检测工具的开发提供了数据支持,推动了软件安全领域的研究进展。
衍生相关工作
基于MSR_20_Code_vulnerability_CSV_Dataset,许多经典的研究工作得以展开。例如,研究者利用该数据集开发了基于机器学习的漏洞检测模型,显著提高了漏洞检测的准确率。此外,该数据集还被用于研究代码修复策略的自动化生成,推动了软件工程领域的自动化修复技术的发展。
以上内容由遇见数据集搜集并总结生成



