Improved-SBR-datasets

github2020-10-06 更新2024-05-31 收录

下载链接：

https://github.com/wuxiaoxue/Improved-sbr-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

我们改进了五个公开的SBR（安全漏洞报告）预测数据集的标签正确性，包括Ambari, Camel, Derby, Wicket, 和 Chromium。我们手动分析每个漏洞报告，并重新标记了749个原本被错误标记为非SBR的SBR。

We have enhanced the label accuracy of five publicly available SBR (Security Bug Report) prediction datasets, including Ambari, Camel, Derby, Wicket, and Chromium. Each vulnerability report was manually analyzed, resulting in the re-labeling of 749 SBRs that were previously incorrectly marked as non-SBRs.

创建时间：

2020-06-19

原始信息汇总

数据集概述

数据集名称

Improved-SBR-datasets

数据集描述

本数据集是对五个公开的SBR（安全漏洞报告）预测数据集的改进版本，包括Ambari, Camel, Derby, Wicket, 和 Chromium。通过对每个漏洞报告进行手动分析，我们重新标记了749个原本被错误标记为非SBR（NSBRs）的SBRs。

数据集目的

评估数据标签正确性对SBR预测模型的影响。

数据集维护者

Xiaoxue Wu: wuxiaoxue00@gmail.com

搜集汇总

数据集介绍

构建方式

Improved-SBR-datasets的构建基于对五个公开的安全漏洞报告（SBR）预测数据集（Ambari、Camel、Derby、Wicket和Chromium）的标签准确性改进。研究团队通过人工分析每个漏洞报告，重新识别并纠正了749个原本被错误标记为非安全漏洞报告（NSBRs）的样本，从而提升了数据集的标签质量。这一过程确保了数据集的准确性和可靠性，为后续的安全漏洞预测研究提供了坚实的基础。

特点

该数据集的主要特点在于其标签的高准确性，这是通过人工逐条审查和修正实现的。数据集涵盖了多个开源项目的安全漏洞报告，具有广泛的代表性。此外，数据集的构建不仅关注标签的准确性，还评估了标签正确性对安全漏洞预测模型的影响，为研究者提供了更深入的分析视角。这些特点使得该数据集在安全漏洞预测领域具有重要的参考价值。

使用方法

使用Improved-SBR-datasets时，研究者可以通过加载数据集中的安全漏洞报告和非安全漏洞报告，进行模型训练和评估。数据集中提供了详细的标签信息，便于用户直接用于分类任务。此外，研究团队计划在相关论文被接受后，提供用于评估数据标签正确性影响的脚本，进一步支持用户进行深入分析。用户可通过联系数据集维护者获取更多技术细节或支持。

背景与挑战

背景概述

Improved-SBR-datasets数据集由Xiaoxue Wu、Wei Zheng和Xin Xia等研究人员于近年创建，旨在提升安全漏洞报告（Security Bug Report, SBR）预测的准确性。该数据集基于五个公开的SBR预测数据集（Ambari、Camel、Derby、Wicket和Chromium），通过人工分析每个漏洞报告，重新标注了749个原本被误标为非安全漏洞报告（NSBRs）的样本。这一工作不仅提高了数据标签的准确性，还为安全漏洞预测模型的性能评估提供了更可靠的基础。该数据集的研究成果对软件安全领域具有重要意义，尤其是在漏洞检测和修复的自动化工具开发中，能够显著提升模型的预测精度和可靠性。

当前挑战

Improved-SBR-datasets数据集面临的主要挑战包括两个方面。其一，安全漏洞报告的分类问题本身具有高度复杂性，由于漏洞描述的语言多样性和技术细节的复杂性，准确区分SBR与NSBR需要深厚的领域知识和细致的分析。其二，在数据集的构建过程中，人工标注的准确性和一致性是核心挑战。尽管研究人员通过多人协作和反复验证来确保标签质量，但人工标注仍然可能受到主观判断的影响，导致潜在的偏差。此外，如何将改进后的数据集有效应用于现有预测模型，并验证其对模型性能的提升，也是未来研究需要解决的关键问题。

常用场景

经典使用场景

在软件工程领域，Improved-SBR-datasets主要用于安全漏洞报告（SBR）的预测研究。该数据集通过对Ambari、Camel、Derby、Wicket和Chromium五个开源项目的标签进行修正，显著提升了标签的准确性，为研究者提供了一个更为可靠的基准数据集。通过该数据集，研究者可以训练和评估各种机器学习模型，以识别和分类软件项目中的安全漏洞报告。

实际应用

在实际应用中，Improved-SBR-datasets为软件开发团队提供了更为精确的安全漏洞识别工具。通过使用该数据集训练的模型，开发团队能够更高效地识别和修复软件中的安全漏洞，从而提升软件的整体安全性。这对于需要高安全标准的行业，如金融、医疗和国防，具有重要的实际意义。

衍生相关工作

Improved-SBR-datasets的发布催生了一系列相关研究。基于该数据集，研究者提出了多种改进的安全漏洞预测模型，如基于深度学习的分类器和集成学习方法。这些工作不仅验证了数据集的可靠性，还进一步推动了安全漏洞预测领域的技术进步，为未来的研究提供了丰富的参考和借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集