pro-test-qwen2_5_coder3b

Hugging Face2025-11-19 更新2025-11-20 收录

下载链接：

https://huggingface.co/datasets/awsuineg/pro-test-qwen2_5_coder3b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含编程语言名称、CWE ID列表、问题描述、原始代码、修复后的代码等多种信息，主要用于编程错误检测和修复研究。数据集分为训练集，提供了大量的代码示例及其修复版本，以及相关的错误描述和分类信息。

创建时间：

2025-11-12

原始信息汇总

数据集概述

基本信息

数据集名称: awsuineg/pro-test-qwen2_5_coder3b
下载大小: 104,766,651 字节
数据集大小: 258,987,911 字节
训练集样本数量: 25,188 条

数据结构

特征字段

language_name: 字符串类型，表示编程语言名称
cwe_id: 字符串列表类型，表示CWE漏洞标识符
problem: 字符串类型，表示问题描述
original_code: 字符串类型，表示原始代码
fixed_code: 字符串类型，表示修复后的代码
benign: 布尔类型，表示是否为良性代码
language_suffix: 字符串类型，表示语言后缀
answer: 空值类型
cwe_names: 字符串列表类型，表示CWE漏洞名称
cwe_descriptions: 字符串列表类型，表示CWE漏洞描述
Qwen_Qwen2_5_Coder_3B_Instruct: 字符串类型
response: 字符串类型
codebleu_lang: 字符串类型

数据划分

训练集: 包含25,188个样本，占用258,987,911字节

数据配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，pro-test-qwen2_5_coder3b数据集通过系统化采集多语言源代码样本构建而成。其核心方法涉及从真实编程场景中提取包含常见弱点枚举标识的代码片段，每个样本均标注原始代码与修复后版本，并辅以语言后缀和良性标记等元数据，形成结构化漏洞检测语料库。

特点

该数据集显著特征体现在其多维标注体系与跨语言覆盖能力。所有样本均关联CWE漏洞分类标准，同时提供自然语言描述与代码度量指标，支持对25,188个样本进行细粒度分析。其字段设计兼顾代码语义与安全属性，特别是通过响应字段保留模型交互轨迹，为研究AI代码修复机制提供完整上下文。

使用方法

研究者可基于该数据集开展智能代码审计与漏洞修复研究。通过解析problem字段描述的安全缺陷，结合original_code与fixed_code的对比分析，能够训练模型识别代码弱点模式。数据集的响应字段可直接用于评估大语言模型在代码转换任务中的表现，其标准化结构也支持跨语言漏洞检测基准测试。

背景与挑战

背景概述

在软件工程与代码安全研究领域，pro-test-qwen2_5_coder3b数据集聚焦于程序漏洞检测与修复任务。该数据集由专业研究团队构建，旨在通过多语言代码样本揭示常见弱点枚举（CWE）相关的安全缺陷。其核心研究问题围绕智能代码分析模型的训练与评估展开，通过对比原始代码与修复后版本，为自动化代码审计技术提供关键支撑。这一资源显著推动了程序理解与软件安全交叉领域的发展，成为验证代码生成模型鲁棒性的重要基准。

当前挑战

该数据集需应对代码安全领域的双重挑战：在领域问题层面，模型需精准识别跨编程语言的复杂漏洞模式，同时区分良性代码与真实威胁；在构建过程中，标注人员面临多维度难题，包括保持漏洞与修复代码的语义一致性、处理不同编程范式的语法差异，以及确保CWE分类体系与具体代码实例的准确映射。这些挑战直接关系到模型在实际部署中的可靠性。

常用场景

经典使用场景

在软件工程与代码安全研究领域，该数据集通过整合多种编程语言的漏洞代码与修复方案，为智能代码审查系统提供了关键训练资源。其典型应用场景涉及构建自动化代码缺陷检测模型，研究人员利用原始代码与修复后代码的对比样本，训练深度学习算法识别常见弱点枚举（CWE）对应的漏洞模式，显著提升了静态代码分析工具的精准度。

衍生相关工作

基于该数据集衍生的经典研究包括多模态代码表示学习框架与自适应修复生成系统。学者们通过融合代码语法树与漏洞描述文本，开发出具有因果推理能力的检测架构；同时涌现出结合强化学习的自动补丁生成方案，这些工作均在顶级软件工程会议上形成系列突破性成果。

数据集最近研究