pro-test-codellama

Hugging Face2025-11-19 更新2025-11-20 收录

代码缺陷检测

编程安全

数据链接：

https://huggingface.co/datasets/awsuineg/pro-test-codellama 数据链接链接失效反馈

官方服务：

资源简介：

这是一个包含编程代码缺陷及其修复信息的数据集，其中包括编程语言名称、CWE ID列表、问题描述、原始代码、修复后的代码、是否为良性代码的标识、代码语言后缀、CWE名称和描述列表等字段。数据集分为训练集，并提供了详细的字段信息和数据集大小。

创建时间：

2025-11-12

原始信息汇总

数据集概述

基本信息

数据集名称: awsuineg/pro-test-codellama
下载大小: 78,044,595字节
数据集大小: 201,655,419字节
数据格式: 结构化数据集

数据特征

语言名称: 字符串类型
CWE标识: 字符串列表
问题描述: 字符串类型
原始代码: 字符串类型
修复代码: 字符串类型
良性标识: 布尔类型
语言后缀: 字符串类型
答案: 空值类型
CWE名称: 字符串列表
CWE描述: 字符串列表
元代码模型输出: 字符串类型
响应内容: 字符串类型
代码评估语言: 字符串类型

数据划分

训练集:
- 样本数量: 21,720条
- 数据大小: 201,655,419字节

配置信息

默认配置:
- 数据文件路径: data/train-*
- 划分类型: 训练集

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，pro-test-codellama数据集通过系统化方法构建，聚焦于多种编程语言中的常见弱点枚举（CWE）实例。该数据集从真实代码漏洞场景中提取原始代码与修复后代码的配对，涵盖多种语言后缀标识的编程环境。构建过程中整合了CWE标识符与详细描述，并引入大型语言模型CodeLlama-7B的响应数据，通过标准化处理形成包含21720个样本的训练集，确保了数据来源的多样性与技术深度。

特点

该数据集的核心特征体现在其多维度的结构化设计，每个样本均包含语言类型、CWE分类、问题描述及代码变体等完整属性。特别值得注意的是其同时收录原始代码与修复版本，并标注良性代码标识，为漏洞检测研究提供正负样本对比基础。集成模型生成响应与代码质量评估指标，使得数据集兼具静态代码分析与动态生成验证的双重价值，其跨语言特性进一步拓展了适用场景的广度。

使用方法

研究人员可借助该数据集开展代码漏洞检测、程序修复生成等实验，通过解析语言后缀与CWE元数据构建特定漏洞类型的训练任务。使用时应根据benign字段区分类别，结合original_code与fixed_code的对应关系设计代码转换模型。集成后的模型响应字段可作为基线参考，而codebleu_lang指标则为生成代码的质量评估提供量化依据，支持端到端的软件安全研究流程。

背景与挑战

背景概述

在软件工程与代码安全研究领域，漏洞检测与修复始终是核心议题。pro-test-codellama数据集由相关研究团队构建，聚焦于多编程语言环境下的代码漏洞识别与修正问题。该数据集通过整合常见弱点枚举（CWE）标准，系统化标注了原始代码中的安全缺陷及其修复方案，旨在推动自动化代码审计与智能辅助开发工具的发展。其构建深化了代码语义理解与漏洞模式挖掘的研究，为软件质量保障体系提供了关键数据支撑。

当前挑战

该数据集致力于解决代码漏洞自动检测与修复的复杂性挑战，包括多语言语法差异导致的漏洞模式泛化困难、代码上下文语义理解的精确度不足等问题。在构建过程中，面临标注一致性与质量控制的难题，需协调CWE分类与实际代码片段的映射关系，同时确保修复代码的功能等价性。此外，跨语言漏洞特征的统一表示与大规模数据清洗亦构成显著障碍。

常用场景

经典使用场景

在软件工程与代码安全领域，pro-test-codellama数据集为智能代码修复系统提供了关键训练基础。其核心应用聚焦于通过对比原始缺陷代码与修复后代码的配对样本，训练大型语言模型自动识别常见弱点枚举（CWE）相关的漏洞模式。该数据集通过多语言代码样本与漏洞元数据的结合，使模型能够学习从语法错误到逻辑缺陷的多样化代码问题转化规律，为自动化代码质量提升奠定了数据基石。

衍生相关工作

基于该数据集的创新研究已衍生出多个标志性工作。Meta推出的CodeLlama系列模型通过在该数据集上的指令微调，实现了代码生成与漏洞修复能力的协同进化；多项学术研究利用其构建的代码转换基准测试框架，系统评估了Transformer架构在程序理解任务中的泛化性能；近期涌现的神经符号混合方法则结合其结构化漏洞描述，开创了可解释代码修复的新范式，持续推动着智能软件开发工具链的技术革新。

数据集最近研究