LorenzH/juliet_test_suite_c_1_3
收藏Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LorenzH/juliet_test_suite_c_1_3
下载链接
链接失效反馈资源简介:
该数据集包含来自NIST的Juliet测试套件的所有测试用例,适用于C和C++编程语言。每个样本都有一个良性和一个缺陷实现,这些实现通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。数据集支持软件缺陷预测和代码克隆检测任务。数据集结构包括数据实例、数据字段和数据分割。数据字段包括索引、文件名、缺陷类别、良性代码和缺陷代码。数据分割包括训练集和测试集的大小。数据集是合成的,所有样本都是手工制作的,因此不完全代表实际软件缺陷。
该数据集包含来自NIST的Juliet测试套件的所有测试用例,适用于C和C++编程语言。每个样本都有一个良性和一个缺陷实现,这些实现通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。数据集支持软件缺陷预测和代码克隆检测任务。数据集结构包括数据实例、数据字段和数据分割。数据字段包括索引、文件名、缺陷类别、良性代码和缺陷代码。数据分割包括训练集和测试集的大小。数据集是合成的,所有样本都是手工制作的,因此不完全代表实际软件缺陷。
提供机构:
LorenzH
原始信息汇总
数据集卡片:Juliet Test Suite 1.3
数据集概述
该数据集包含NIST的Juliet测试套件中所有C和C++编程语言的测试用例。每个样本包含一个良性和一个缺陷的实现,通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。
支持的任务和排行榜
- 软件缺陷预测
- 代码克隆检测
语言
C和C++编程语言
数据集结构
数据实例
数据字段
| 索引 | 名称 | 类型 | 描述 |
|---|---|---|---|
| 0 | index | int | 数据集中每个样本的索引 |
| 1 | filename | str | 测试用例的路径,包括文件名 |
| 2 | class | int | 缺陷的类别,即样本所属的CWE编号集合 |
| 3 | good | str | 良性实现的代码 |
| 4 | bad | str | 缺陷实现的代码 |
数据分割
| 类型 | 大小 |
|---|---|
| train | 80706个案例 |
| test | 20177个案例 |
数据集创建
数据集来源
https://samate.nist.gov/SARD/test-suites/112
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
Juliet测试套件是一个合成数据集,所有样本都是手工制作的,因此不完全代表实际软件缺陷。在真实环境中应用基于这些样本训练的分类器可能会导致预测性能下降和严重误分类,从而可能忽略关键的软件缺陷。
AI搜集汇总
数据集介绍

构建方式
Juliet Test Suite 1.3数据集的构建,是基于NIST的Juliet测试套件,该套件针对C和C++编程语言设计。数据集包含每个样本的良性实现和缺陷实现,这些样本通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取而来,旨在为软件缺陷预测和代码克隆检测任务提供测试用例。
使用方法
使用Juliet Test Suite 1.3数据集,研究者可以按照数据字段中的索引、文件名、缺陷类别、良性代码和缺陷代码等信息,对数据集进行训练和测试。数据集已经预先划分为训练集和测试集,方便研究者进行模型训练和性能评估。用户需遵守CC0-1.0协议使用该数据集,并遵循相关的引用和贡献指南。
背景与挑战
背景概述
Juliet Test Suite 1.3数据集,源自美国国家标准与技术研究院(NIST)的测试套件,专注于C和C++编程语言。该数据集的创建旨在为软件缺陷预测和代码克隆检测提供实验基础,包含了经过精心设计的良性实现和缺陷实现代码样本。自推出以来,它已成为软件工程领域的一个重要研究资源,对提高程序代码质量和安全性检测产生了显著影响。
当前挑战
该数据集的挑战主要体现在两个方面:一是其作为合成数据集,尽管在构造上具有高度的控制性,但可能无法完全代表现实世界中的软件缺陷,这可能导致在实际应用中的预测性能下降;二是数据集构建过程中,如何保证样本的代表性和多样性,以及如何避免引入偏差,确保公平性和有效性,都是当前和未来研究的挑战所在。
常用场景
经典使用场景
在软件工程领域,Juliet Test Suite 1.3数据集的经典使用场景主要聚焦于软件缺陷预测和代码克隆检测。该数据集提供了大量C和C++编程语言中存在缺陷与无缺陷代码对的测试案例,使得研究人员和开发者能够利用这些样本进行模型的训练和评估,以提升软件质量和安全性。
解决学术问题
Juliet Test Suite 1.3数据集解决了在软件工程中如何有效识别潜在缺陷代码的学术研究问题。通过提供标准化的缺陷类别和对应的代码样本,该数据集帮助学者们构建和验证预测模型,从而减少了软件发布后出现的安全漏洞,对于提升软件可靠性和降低维护成本具有重要意义。
实际应用
实际应用中,Juliet Test Suite 1.3数据集被广泛应用于软件开发流程中,以辅助自动化的代码审查过程,识别可能的缺陷和克隆代码,进而提高代码质量和减少冗余。此外,该数据集还可用于教育领域,作为编程课程中关于软件测试和质量保证的教材。
数据集最近研究
最新研究方向
在软件工程领域,Juliet Test Suite 1.3数据集因其包含的C和C++编程语言测试用例而备受关注。近期研究集中于软件缺陷预测和代码克隆检测两大方向。该数据集为研究人员提供了良性实现和缺陷实现的代码样本,有助于构建和评估缺陷预测模型的性能。在此领域中,学者们正探索如何通过深度学习技术提高缺陷检测的准确性,并减少在实际应用中的误分类问题,这对于提升软件质量和安全性具有重大意义。
以上内容由AI搜集并总结生成



