LorenzH/juliet_test_suite_c_1_3|软件缺陷检测数据集|代码分析数据集
收藏数据集卡片:Juliet Test Suite 1.3
数据集概述
该数据集包含NIST的Juliet测试套件中所有C和C++编程语言的测试用例。每个样本包含一个良性和一个缺陷的实现,通过Juliet测试套件的OMITGOOD和OMITBAD预处理器宏提取。
支持的任务和排行榜
- 软件缺陷预测
- 代码克隆检测
语言
C和C++编程语言
数据集结构
数据实例
数据字段
索引 | 名称 | 类型 | 描述 |
---|---|---|---|
0 | index | int | 数据集中每个样本的索引 |
1 | filename | str | 测试用例的路径,包括文件名 |
2 | class | int | 缺陷的类别,即样本所属的CWE编号集合 |
3 | good | str | 良性实现的代码 |
4 | bad | str | 缺陷实现的代码 |
数据分割
类型 | 大小 |
---|---|
train | 80706个案例 |
test | 20177个案例 |
数据集创建
数据集来源
https://samate.nist.gov/SARD/test-suites/112
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
Juliet测试套件是一个合成数据集,所有样本都是手工制作的,因此不完全代表实际软件缺陷。在真实环境中应用基于这些样本训练的分类器可能会导致预测性能下降和严重误分类,从而可能忽略关键的软件缺陷。

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录