pro-test-codellama
收藏Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/awsuineg/pro-test-codellama
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含编程代码缺陷及其修复信息的数据集,其中包括编程语言名称、CWE ID列表、问题描述、原始代码、修复后的代码、是否为良性代码的标识、代码语言后缀、CWE名称和描述列表等字段。数据集分为训练集,并提供了详细的字段信息和数据集大小。
创建时间:
2025-11-12
原始信息汇总
数据集概述
基本信息
- 数据集名称: awsuineg/pro-test-codellama
- 下载大小: 78,044,595字节
- 数据集大小: 201,655,419字节
- 数据格式: 结构化数据集
数据特征
- 语言名称: 字符串类型
- CWE标识: 字符串列表
- 问题描述: 字符串类型
- 原始代码: 字符串类型
- 修复代码: 字符串类型
- 良性标识: 布尔类型
- 语言后缀: 字符串类型
- 答案: 空值类型
- CWE名称: 字符串列表
- CWE描述: 字符串列表
- 元代码模型输出: 字符串类型
- 响应内容: 字符串类型
- 代码评估语言: 字符串类型
数据划分
- 训练集:
- 样本数量: 21,720条
- 数据大小: 201,655,419字节
配置信息
- 默认配置:
- 数据文件路径: data/train-*
- 划分类型: 训练集
搜集汇总
数据集介绍

构建方式
在软件安全研究领域,pro-test-codellama数据集通过系统化方法构建,聚焦于多种编程语言中的常见弱点枚举(CWE)实例。该数据集从真实代码漏洞场景中提取原始代码与修复后代码的配对,涵盖多种语言后缀标识的编程环境。构建过程中整合了CWE标识符与详细描述,并引入大型语言模型CodeLlama-7B的响应数据,通过标准化处理形成包含21720个样本的训练集,确保了数据来源的多样性与技术深度。
特点
该数据集的核心特征体现在其多维度的结构化设计,每个样本均包含语言类型、CWE分类、问题描述及代码变体等完整属性。特别值得注意的是其同时收录原始代码与修复版本,并标注良性代码标识,为漏洞检测研究提供正负样本对比基础。集成模型生成响应与代码质量评估指标,使得数据集兼具静态代码分析与动态生成验证的双重价值,其跨语言特性进一步拓展了适用场景的广度。
使用方法
研究人员可借助该数据集开展代码漏洞检测、程序修复生成等实验,通过解析语言后缀与CWE元数据构建特定漏洞类型的训练任务。使用时应根据benign字段区分类别,结合original_code与fixed_code的对应关系设计代码转换模型。集成后的模型响应字段可作为基线参考,而codebleu_lang指标则为生成代码的质量评估提供量化依据,支持端到端的软件安全研究流程。
背景与挑战
背景概述
在软件工程与代码安全研究领域,漏洞检测与修复始终是核心议题。pro-test-codellama数据集由相关研究团队构建,聚焦于多编程语言环境下的代码漏洞识别与修正问题。该数据集通过整合常见弱点枚举(CWE)标准,系统化标注了原始代码中的安全缺陷及其修复方案,旨在推动自动化代码审计与智能辅助开发工具的发展。其构建深化了代码语义理解与漏洞模式挖掘的研究,为软件质量保障体系提供了关键数据支撑。
当前挑战
该数据集致力于解决代码漏洞自动检测与修复的复杂性挑战,包括多语言语法差异导致的漏洞模式泛化困难、代码上下文语义理解的精确度不足等问题。在构建过程中,面临标注一致性与质量控制的难题,需协调CWE分类与实际代码片段的映射关系,同时确保修复代码的功能等价性。此外,跨语言漏洞特征的统一表示与大规模数据清洗亦构成显著障碍。
常用场景
经典使用场景
在软件工程与代码安全领域,pro-test-codellama数据集为智能代码修复系统提供了关键训练基础。其核心应用聚焦于通过对比原始缺陷代码与修复后代码的配对样本,训练大型语言模型自动识别常见弱点枚举(CWE)相关的漏洞模式。该数据集通过多语言代码样本与漏洞元数据的结合,使模型能够学习从语法错误到逻辑缺陷的多样化代码问题转化规律,为自动化代码质量提升奠定了数据基石。
衍生相关工作
基于该数据集的创新研究已衍生出多个标志性工作。Meta推出的CodeLlama系列模型通过在该数据集上的指令微调,实现了代码生成与漏洞修复能力的协同进化;多项学术研究利用其构建的代码转换基准测试框架,系统评估了Transformer架构在程序理解任务中的泛化性能;近期涌现的神经符号混合方法则结合其结构化漏洞描述,开创了可解释代码修复的新范式,持续推动着智能软件开发工具链的技术革新。
数据集最近研究
最新研究方向
在软件安全与代码质量分析领域,pro-test-codellama数据集聚焦于常见弱点枚举(CWE)相关的漏洞检测与修复任务。前沿研究正探索如何利用大语言模型如CodeLlama,通过生成式方法自动识别代码缺陷并提供修正建议,结合代码相似度指标如CodeBLEU评估修复质量。这一方向与当前软件供应链安全热点紧密关联,推动了智能代码审计工具的发展,对提升软件可靠性和减少安全风险具有深远意义。
以上内容由遇见数据集搜集并总结生成



