five

LorenzH/juliet_test_suite_c_1_3|软件缺陷检测数据集|代码分析数据集

收藏
hugging_face2023-03-21 更新2024-03-04 收录
软件缺陷检测
代码分析
下载链接:
https://hf-mirror.com/datasets/LorenzH/juliet_test_suite_c_1_3
下载链接
链接失效反馈
资源简介:
该数据集包含来自NIST的Juliet测试套件的所有测试用例,适用于C和C++编程语言。每个样本都有一个良性和一个缺陷实现,这些实现通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。数据集支持软件缺陷预测和代码克隆检测任务。数据集结构包括数据实例、数据字段和数据分割。数据字段包括索引、文件名、缺陷类别、良性代码和缺陷代码。数据分割包括训练集和测试集的大小。数据集是合成的,所有样本都是手工制作的,因此不完全代表实际软件缺陷。

该数据集包含来自NIST的Juliet测试套件的所有测试用例,适用于C和C++编程语言。每个样本都有一个良性和一个缺陷实现,这些实现通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。数据集支持软件缺陷预测和代码克隆检测任务。数据集结构包括数据实例、数据字段和数据分割。数据字段包括索引、文件名、缺陷类别、良性代码和缺陷代码。数据分割包括训练集和测试集的大小。数据集是合成的,所有样本都是手工制作的,因此不完全代表实际软件缺陷。
提供机构:
LorenzH
原始信息汇总

数据集卡片:Juliet Test Suite 1.3

数据集概述

该数据集包含NIST的Juliet测试套件中所有C和C++编程语言的测试用例。每个样本包含一个良性和一个缺陷的实现,通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。

支持的任务和排行榜

  • 软件缺陷预测
  • 代码克隆检测

语言

C和C++编程语言

数据集结构

数据实例

数据字段

索引 名称 类型 描述
0 index int 数据集中每个样本的索引
1 filename str 测试用例的路径,包括文件名
2 class int 缺陷的类别,即样本所属的CWE编号集合
3 good str 良性实现的代码
4 bad str 缺陷实现的代码

数据分割

类型 大小
train 80706个案例
test 20177个案例

数据集创建

数据集来源

https://samate.nist.gov/SARD/test-suites/112

使用数据的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

Juliet测试套件是一个合成数据集,所有样本都是手工制作的,因此不完全代表实际软件缺陷。在真实环境中应用基于这些样本训练的分类器可能会导致预测性能下降和严重误分类,从而可能忽略关键的软件缺陷。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Juliet Test Suite 1.3数据集的构建,是基于NIST的Juliet测试套件,该套件针对C和C++编程语言设计。数据集包含每个样本的良性实现和缺陷实现,这些样本通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取而来,旨在为软件缺陷预测和代码克隆检测任务提供测试用例。
使用方法
使用Juliet Test Suite 1.3数据集,研究者可以按照数据字段中的索引、文件名、缺陷类别、良性代码和缺陷代码等信息,对数据集进行训练和测试。数据集已经预先划分为训练集和测试集,方便研究者进行模型训练和性能评估。用户需遵守CC0-1.0协议使用该数据集,并遵循相关的引用和贡献指南。
背景与挑战
背景概述
Juliet Test Suite 1.3数据集,源自美国国家标准与技术研究院(NIST)的测试套件,专注于C和C++编程语言。该数据集的创建旨在为软件缺陷预测和代码克隆检测提供实验基础,包含了经过精心设计的良性实现和缺陷实现代码样本。自推出以来,它已成为软件工程领域的一个重要研究资源,对提高程序代码质量和安全性检测产生了显著影响。
当前挑战
该数据集的挑战主要体现在两个方面:一是其作为合成数据集,尽管在构造上具有高度的控制性,但可能无法完全代表现实世界中的软件缺陷,这可能导致在实际应用中的预测性能下降;二是数据集构建过程中,如何保证样本的代表性和多样性,以及如何避免引入偏差,确保公平性和有效性,都是当前和未来研究的挑战所在。
常用场景
经典使用场景
在软件工程领域,Juliet Test Suite 1.3数据集的经典使用场景主要聚焦于软件缺陷预测和代码克隆检测。该数据集提供了大量C和C++编程语言中存在缺陷与无缺陷代码对的测试案例,使得研究人员和开发者能够利用这些样本进行模型的训练和评估,以提升软件质量和安全性。
解决学术问题
Juliet Test Suite 1.3数据集解决了在软件工程中如何有效识别潜在缺陷代码的学术研究问题。通过提供标准化的缺陷类别和对应的代码样本,该数据集帮助学者们构建和验证预测模型,从而减少了软件发布后出现的安全漏洞,对于提升软件可靠性和降低维护成本具有重要意义。
实际应用
实际应用中,Juliet Test Suite 1.3数据集被广泛应用于软件开发流程中,以辅助自动化的代码审查过程,识别可能的缺陷和克隆代码,进而提高代码质量和减少冗余。此外,该数据集还可用于教育领域,作为编程课程中关于软件测试和质量保证的教材。
数据集最近研究
最新研究方向
在软件工程领域,Juliet Test Suite 1.3数据集因其包含的C和C++编程语言测试用例而备受关注。近期研究集中于软件缺陷预测和代码克隆检测两大方向。该数据集为研究人员提供了良性实现和缺陷实现的代码样本,有助于构建和评估缺陷预测模型的性能。在此领域中,学者们正探索如何通过深度学习技术提高缺陷检测的准确性,并减少在实际应用中的误分类问题,这对于提升软件质量和安全性具有重大意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录