five

LorenzH/juliet_test_suite_c_1_3|软件缺陷检测数据集|代码分析数据集

收藏
hugging_face2023-03-21 更新2024-03-04 收录
软件缺陷检测
代码分析
下载链接:
https://hf-mirror.com/datasets/LorenzH/juliet_test_suite_c_1_3
下载链接
链接失效反馈
资源简介:
该数据集包含来自NIST的Juliet测试套件的所有测试用例,适用于C和C++编程语言。每个样本都有一个良性和一个缺陷实现,这些实现通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。数据集支持软件缺陷预测和代码克隆检测任务。数据集结构包括数据实例、数据字段和数据分割。数据字段包括索引、文件名、缺陷类别、良性代码和缺陷代码。数据分割包括训练集和测试集的大小。数据集是合成的,所有样本都是手工制作的,因此不完全代表实际软件缺陷。

该数据集包含来自NIST的Juliet测试套件的所有测试用例,适用于C和C++编程语言。每个样本都有一个良性和一个缺陷实现,这些实现通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。数据集支持软件缺陷预测和代码克隆检测任务。数据集结构包括数据实例、数据字段和数据分割。数据字段包括索引、文件名、缺陷类别、良性代码和缺陷代码。数据分割包括训练集和测试集的大小。数据集是合成的,所有样本都是手工制作的,因此不完全代表实际软件缺陷。
提供机构:
LorenzH
原始信息汇总

数据集卡片:Juliet Test Suite 1.3

数据集概述

该数据集包含NIST的Juliet测试套件中所有C和C++编程语言的测试用例。每个样本包含一个良性和一个缺陷的实现,通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。

支持的任务和排行榜

  • 软件缺陷预测
  • 代码克隆检测

语言

C和C++编程语言

数据集结构

数据实例

数据字段

索引 名称 类型 描述
0 index int 数据集中每个样本的索引
1 filename str 测试用例的路径,包括文件名
2 class int 缺陷的类别,即样本所属的CWE编号集合
3 good str 良性实现的代码
4 bad str 缺陷实现的代码

数据分割

类型 大小
train 80706个案例
test 20177个案例

数据集创建

数据集来源

https://samate.nist.gov/SARD/test-suites/112

使用数据的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

Juliet测试套件是一个合成数据集,所有样本都是手工制作的,因此不完全代表实际软件缺陷。在真实环境中应用基于这些样本训练的分类器可能会导致预测性能下降和严重误分类,从而可能忽略关键的软件缺陷。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Juliet Test Suite 1.3数据集的构建,是基于NIST的Juliet测试套件,该套件针对C和C++编程语言设计。数据集包含每个样本的良性实现和缺陷实现,这些样本通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取而来,旨在为软件缺陷预测和代码克隆检测任务提供测试用例。
使用方法
使用Juliet Test Suite 1.3数据集,研究者可以按照数据字段中的索引、文件名、缺陷类别、良性代码和缺陷代码等信息,对数据集进行训练和测试。数据集已经预先划分为训练集和测试集,方便研究者进行模型训练和性能评估。用户需遵守CC0-1.0协议使用该数据集,并遵循相关的引用和贡献指南。
背景与挑战
背景概述
Juliet Test Suite 1.3数据集,源自美国国家标准与技术研究院(NIST)的测试套件,专注于C和C++编程语言。该数据集的创建旨在为软件缺陷预测和代码克隆检测提供实验基础,包含了经过精心设计的良性实现和缺陷实现代码样本。自推出以来,它已成为软件工程领域的一个重要研究资源,对提高程序代码质量和安全性检测产生了显著影响。
当前挑战
该数据集的挑战主要体现在两个方面:一是其作为合成数据集,尽管在构造上具有高度的控制性,但可能无法完全代表现实世界中的软件缺陷,这可能导致在实际应用中的预测性能下降;二是数据集构建过程中,如何保证样本的代表性和多样性,以及如何避免引入偏差,确保公平性和有效性,都是当前和未来研究的挑战所在。
常用场景
经典使用场景
在软件工程领域,Juliet Test Suite 1.3数据集的经典使用场景主要聚焦于软件缺陷预测和代码克隆检测。该数据集提供了大量C和C++编程语言中存在缺陷与无缺陷代码对的测试案例,使得研究人员和开发者能够利用这些样本进行模型的训练和评估,以提升软件质量和安全性。
解决学术问题
Juliet Test Suite 1.3数据集解决了在软件工程中如何有效识别潜在缺陷代码的学术研究问题。通过提供标准化的缺陷类别和对应的代码样本,该数据集帮助学者们构建和验证预测模型,从而减少了软件发布后出现的安全漏洞,对于提升软件可靠性和降低维护成本具有重要意义。
实际应用
实际应用中,Juliet Test Suite 1.3数据集被广泛应用于软件开发流程中,以辅助自动化的代码审查过程,识别可能的缺陷和克隆代码,进而提高代码质量和减少冗余。此外,该数据集还可用于教育领域,作为编程课程中关于软件测试和质量保证的教材。
数据集最近研究
最新研究方向
在软件工程领域,Juliet Test Suite 1.3数据集因其包含的C和C++编程语言测试用例而备受关注。近期研究集中于软件缺陷预测和代码克隆检测两大方向。该数据集为研究人员提供了良性实现和缺陷实现的代码样本,有助于构建和评估缺陷预测模型的性能。在此领域中,学者们正探索如何通过深度学习技术提高缺陷检测的准确性,并减少在实际应用中的误分类问题,这对于提升软件质量和安全性具有重大意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

崂山区失信被执行人名单

崂山区失信被执行人名单

山东公共数据开放网 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录