LorenzH/juliet_test_suite_c_1_3|软件缺陷检测数据集|代码分析数据集
收藏数据集卡片:Juliet Test Suite 1.3
数据集概述
该数据集包含NIST的Juliet测试套件中所有C和C++编程语言的测试用例。每个样本包含一个良性和一个缺陷的实现,通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。
支持的任务和排行榜
- 软件缺陷预测
- 代码克隆检测
语言
C和C++编程语言
数据集结构
数据实例
数据字段
索引 | 名称 | 类型 | 描述 |
---|---|---|---|
0 | index | int | 数据集中每个样本的索引 |
1 | filename | str | 测试用例的路径,包括文件名 |
2 | class | int | 缺陷的类别,即样本所属的CWE编号集合 |
3 | good | str | 良性实现的代码 |
4 | bad | str | 缺陷实现的代码 |
数据分割
类型 | 大小 |
---|---|
train | 80706个案例 |
test | 20177个案例 |
数据集创建
数据集来源
https://samate.nist.gov/SARD/test-suites/112
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
Juliet测试套件是一个合成数据集,所有样本都是手工制作的,因此不完全代表实际软件缺陷。在真实环境中应用基于这些样本训练的分类器可能会导致预测性能下降和严重误分类,从而可能忽略关键的软件缺陷。

PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录
崂山区失信被执行人名单
崂山区失信被执行人名单
山东公共数据开放网 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录