MSR_20_Code_vulnerability_CSV_Dataset
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/ZeoVan/MSR_20_Code_vulnerability_CSV_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从2002年到2019年的CVE条目,每个条目包含21个特征,涵盖了访问复杂度、认证要求、可用性影响等多个方面。数据集以CSV格式发布,详细记录了代码漏洞的相关信息。
This dataset contains CVE entries from 2002 to 2019. Each entry includes 21 features, covering multiple aspects such as Access Complexity, Authentication Requirements, Availability Impact and others. The dataset is released in CSV format, and thoroughly documents relevant information about code vulnerabilities.
创建时间:
2020-06-25
原始信息汇总
数据集概述
数据集名称
A C/C++ Code Vulnerability Dataset with Code Changes and CVE Summaries
数据集描述
数据集内容
- 时间范围:2002年至2019年
- 特征数量:21个特征
- 数据格式:CSV
- 主要文件:all_c_cpp_release2.0.csv
特征详情
| 特征 | 列名 | 描述 |
|---|---|---|
| Access Complexity | access_complexity | 反映攻击复杂度 |
| Authentication Required | authentication_required | 是否需要认证 |
| Availability Impact | availability_impact | 对可用性的潜在影响 |
| Commit ID | commit_id | 代码仓库中的提交ID |
| Commit Message | commit_message | 开发者提交信息 |
| Confidentiality Impact | confidentiality_impact | 对保密性的潜在影响 |
| CWE ID | cwe_id | 常见弱点枚举ID |
| CVE ID | cve_id | 常见漏洞和暴露ID |
| CVE Page | cve_page | CVE详情网页链接 |
| CVE Summary | summary | CVE总结信息 |
| CVSS Score | score | 漏洞的相对严重性 |
| Files Changed | files_changed | 变更的文件及对应补丁 |
| Integrity Impact | integrity_impact | 对完整性的潜在影响 |
| Mini-version After Fix | version_after_fix | 修复后的版本ID |
| Mini-version Before Fix | version_before_fix | 修复前的版本ID |
| Programming Language | lang | 项目编程语言 |
| Project | project | 项目名称 |
| Publish Date | publish_date | CVE发布日期 |
| Reference Link | ref_ink | CVE页面中的参考链接 |
| Update Date | update_date | CVE更新日期 |
| Vulnerability Classification | vulnerability_classification | 漏洞类型 |
额外数据
- 分割函数数据:CSV格式,包含函数变更前后的信息及是否为漏洞函数。
- 中间文件:数据收集和清理过程中的中间文件。
- JSON格式数据集:提供JSON格式的数据集。
数据集使用建议
- 工具推荐:使用Pandas(Python包)处理CSV文件。
- 数据处理:建议使用Python3及相关库(如Beautiful Soup和Pandas)进行数据处理。
搜集汇总
数据集介绍

构建方式
该数据集通过从2002年至2019年的CVE条目中提取代码变更信息,结合代码库中的提交版本补丁,定位了代码文件中被修改的行。具体而言,数据集通过对比修复前后的迷你版本,识别出存在漏洞的代码行,并将修改文件中的函数划分为存在漏洞的函数和无漏洞的函数。这一过程确保了数据集的构建基于实际的代码变更,从而提供了对软件漏洞的精确描述。
特点
该数据集的显著特点在于其详细记录了每个CVE条目的21个特征,涵盖了从访问复杂度到漏洞分类等多个维度。此外,数据集不仅提供了代码变更的具体信息,还包含了修复前后的函数代码,便于研究人员深入分析漏洞的修复过程。数据集以CSV和JSON格式发布,便于不同研究需求的使用。
使用方法
使用该数据集时,建议采用Python的Pandas库进行数据读取和处理,如通过`pandas.read_csv('filepath/file.csv')`加载数据。数据集的脚本部分提供了从CVE页面抓取信息、获取提交消息以及下载源文件和补丁文件的详细步骤,用户可根据需求选择相应的脚本进行操作。此外,数据集还提供了Jupyter Notebook示例,展示了如何对修改文件中的函数进行分割和分析。
背景与挑战
背景概述
MSR_20_Code_vulnerability_CSV_Dataset是由Jiahao Fan、Yi Li、Shaohua Wang和Tien N. Nguyen等研究人员于2020年创建的,旨在为C/C++代码中的漏洞分析提供一个全面的数据集。该数据集涵盖了2002年至2019年间的CVE条目,包含21个特征,详细记录了代码变更、CVE摘要以及漏洞修复前后的代码状态。通过结合代码变更信息与CVE数据,该数据集为研究人员提供了一个强大的工具,用于分析和理解软件漏洞的成因及其修复过程,对软件安全领域具有重要的研究价值。
当前挑战
该数据集在构建过程中面临多项挑战。首先,从代码库中提取和定位漏洞相关的代码变更信息需要复杂的算法和工具支持,确保数据的准确性和完整性。其次,整合CVE数据与代码变更信息,确保两者之间的关联性和一致性,是一项技术难题。此外,数据集的规模和多样性要求高效的存储和处理方法,以支持大规模的分析和研究。最后,如何确保数据集的更新与维护,以反映最新的漏洞信息和修复策略,也是一项持续的挑战。
常用场景
经典使用场景
MSR_20_Code_vulnerability_CSV_Dataset 数据集的经典使用场景主要集中在软件漏洞检测与分析领域。研究者可以利用该数据集中的代码变更信息和CVE摘要,进行漏洞定位、分类以及修复策略的研究。通过分析代码变更前后的函数差异,研究者能够识别出潜在的漏洞函数,并进一步探讨漏洞的成因与修复方法。此外,该数据集还支持对软件安全性的全面评估,帮助开发者在软件开发生命周期的早期阶段发现并修复潜在的安全隐患。
解决学术问题
该数据集解决了软件工程领域中关于漏洞检测与修复的关键学术问题。通过提供详细的代码变更信息和CVE摘要,研究者能够深入分析漏洞的成因、影响范围及修复策略,从而推动漏洞检测技术的进步。此外,该数据集还为软件安全性的量化评估提供了基础,帮助研究者开发更高效的漏洞检测工具和修复方法,对提升软件系统的整体安全性具有重要意义。
衍生相关工作
基于MSR_20_Code_vulnerability_CSV_Dataset 数据集,研究者们开展了一系列相关的经典工作。例如,有研究者利用该数据集开发了自动化的漏洞检测工具,通过机器学习算法识别代码中的潜在漏洞。还有研究者基于数据集中的代码变更信息,提出了新的漏洞修复策略,显著提高了修复效率。此外,该数据集还激发了关于软件安全性评估的新方法研究,推动了软件工程领域的技术进步。
以上内容由遇见数据集搜集并总结生成



