Real Security Patches Dataset

Name: Real Security Patches Dataset
Creator: 里斯本大学理工学院
Published: 2021-10-19 06:08:29
License: 暂无描述

arXiv2021-10-19 更新2024-06-21 收录

下载链接：

https://github.com/TQRG/security-patches-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Real Security Patches Dataset是由里斯本大学理工学院的Sofia Reis和Rui Abreu创建的一个大型数据集，包含8057个与安全相关的提交，相当于5942个安全补丁，涵盖1339个不同项目，涉及146种不同类型的漏洞和20种编程语言。数据集通过爬取CVE详细数据库并结合其他三个安全相关数据集创建，提供了包括提交消息、提交评论和摘要等自然语言工件，以及元数据和代码更改。该数据集旨在支持使用自然语言、代码更改和代码库的研究，特别适用于安全相关信息的识别、软件工程和安全最佳实践、漏洞检测和修补以及安全程序分析等领域。

The Real Security Patches Dataset is a large-scale dataset created by Sofia Reis and Rui Abreu from the Instituto Superior Técnico, University of Lisbon. It comprises 8,057 security-related commits, which correspond to 5,942 security patches, covering 1,339 unique projects, 146 distinct vulnerability types, and 20 programming languages. This dataset was developed by scraping the CVE Details Database and integrating three additional security-focused datasets. It provides natural language artifacts including commit messages, commit comments and summaries, as well as metadata and code changes. This dataset is designed to support research leveraging natural language, code changes and code repositories, and is particularly applicable to fields such as security-related information identification, software engineering and security best practices, vulnerability detection and patching, as well as security program analysis.

提供机构：

里斯本大学理工学院

创建时间：

2021-10-19

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，构建高质量的真实安全补丁数据集对于推动漏洞识别与修复技术至关重要。Real Security Patches Dataset的构建采用了系统化的多源数据融合方法：首先，通过爬取CVE Details数据库中所有包含GitHub引用的条目，获取了CVE ID、CWE ID、漏洞类型、严重性评分及摘要等元数据；随后，整合了Secbench、Pontas et al.和Big-Vul三个现有安全补丁数据集，以扩充数据规模与多样性。数据经过去重与清洗后，利用GitHub API提取了每个提交的元信息，包括提交消息、作者、日期、文件变更及评论等，并基于文件扩展名推断编程语言。此外，还生成了包含11万条非安全相关提交的负样本数据集，以支持机器学习任务。整个流程确保了数据的真实性与完整性，最终形成了涵盖8057个安全相关提交、涉及20种编程语言和146种漏洞类型的基准数据集。

使用方法

该数据集为软件安全与工程研究提供了灵活的多场景应用支持。在安全补丁识别与分类任务中，研究者可利用数据集中的自然语言数据，如提交消息与CVE摘要，训练基于深度学习的文本挖掘模型，以自动检测安全相关提交。对于漏洞检测与修复研究，数据集提供的代码变更信息与完整代码库下载脚本，使得用户能够分析补丁前后的代码差异，进而开发基于程序分析的漏洞定位或自动修复技术。在软件工程实践分析方面，结合元数据与代码变更记录，可深入探究安全补丁的开发模式、影响范围及潜在风险，评估安全最佳实践的遵循情况。数据集以标准化CSV格式发布，并配备数据处理脚本，用户可通过GitHub仓库直接获取数据，或利用提供的工具进行定制化扩展，从而高效支撑各类实证研究与算法验证。

背景与挑战

背景概述

在软件安全研究领域，构建高质量的真实漏洞修复数据集对于推动机器学习模型在漏洞识别与自动修复方面的应用至关重要。Real Security Patches Dataset由里斯本大学系统与计算机工程研究所的Sofia Reis与Rui Abreu等人于2021年创建，其核心目标在于整合多源安全补丁数据，提供包含自然语言描述、元数据及代码变更的基准数据集。该数据集汇集了来自1339个项目的8057个安全相关提交，涵盖146种漏洞类型与20种编程语言，显著弥补了先前数据集在语言多样性与自然语言信息上的不足，为安全补丁理解、漏洞检测及自动化修复等研究提供了坚实的数据基础。

当前挑战

该数据集旨在解决软件安全领域中漏洞识别与修复的复杂挑战，包括如何从海量提交中准确筛选安全相关补丁，以及如何构建跨编程语言与漏洞类型的通用分析模型。在构建过程中，研究人员面临多重困难：首先，许多安全补丁未公开或缺乏标准标识，导致数据收集不全；其次，提交信息描述不规范，难以通过关键词或机器学习算法有效提取安全修复内容；此外，数据融合时需处理多源异构数据的重复与不一致问题，并需通过文件扩展名推断编程语言，存在一定误分类风险。这些挑战凸显了构建大规模、高质量安全数据集的复杂性与必要性。

常用场景

经典使用场景

在软件安全研究领域，Real Security Patches Dataset 作为真实安全补丁的基准数据集，其经典使用场景聚焦于机器学习模型的训练与验证。该数据集整合了多源安全漏洞信息，涵盖自然语言描述与代码变更，为研究者提供了丰富的训练样本。通过该数据集，学者能够构建精准的漏洞识别模型，分析安全补丁的语义特征，从而推动自动化漏洞检测技术的发展。

解决学术问题

该数据集有效解决了软件安全研究中缺乏大规模真实漏洞数据的核心难题。传统研究常受限于人工标注的不足与数据覆盖面的狭窄，难以验证自动化漏洞检测与修复方法的有效性。通过提供经过专家验证的真实安全补丁，该数据集支持了自然语言处理模型在安全信息识别中的应用，促进了漏洞分类、补丁影响评估等关键学术问题的实证研究，为软件工程与安全实践的交叉研究奠定了数据基础。

实际应用

在实际应用层面，该数据集为软件开发团队与安全分析工具提供了重要参考。企业可利用该数据集训练内部安全扫描系统，提升对代码变更中潜在漏洞的识别能力。安全研究人员能够基于真实补丁模式，开发更精准的漏洞风险评估模型，辅助开发者在软件发布前及时发现并修复安全隐患。此外，该数据集支持对多编程语言漏洞特征的横向比较，为跨平台安全策略的制定提供了实证依据。

数据集最近研究