SeCodePLT-updated-CoT-v4

Hugging Face2025-11-10 更新2025-11-10 收录

下载链接：

https://huggingface.co/datasets/ShethArihant/SeCodePLT-updated-CoT-v4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了任务ID、ID、CWE ID等字段，并且包含提示(prompt)和完成(completion)两个部分的内容和角色信息。数据集被分割为sft、rlvr和test三个部分，每个部分包含不同数量的示例。由于README中未提供详细描述，具体用途和内容不明确。

创建时间：

2025-10-29

原始信息汇总

SeCodePLT-updated-CoT-v4 数据集概述

数据集基本信息

数据集名称: SeCodePLT-updated-CoT-v4
总大小: 5,497,193字节
下载大小: 1,354,573字节
总样本数: 1,411个

数据特征结构

task_id: 字符串类型，任务标识符
id: 字符串类型，样本唯一标识符
CWE_ID: 整型，通用弱点枚举标识符
y_negative: 字符串类型
prompt: 列表结构
- content: 字符串类型
- role: 字符串类型
cot_steps: 字符串类型
completion: 列表结构
- content: 字符串类型
- role: 字符串类型

数据划分

监督微调集 (sft)

样本数量: 526个
数据大小: 2,096,853字节

强化学习验证集 (rlvr)

样本数量: 800个
数据大小: 3,173,600字节

测试集 (test)

样本数量: 85个
数据大小: 226,740字节

配置文件

配置名称: default
数据文件路径:
- sft分割: data/sft-*
- rlvr分割: data/rlvr-*
- test分割: data/test-*

搜集汇总

数据集介绍

构建方式

在软件安全分析领域，SeCodePLT-updated-CoT-v4数据集通过系统化流程构建而成，其基础数据源自代码漏洞检测任务，每个样本均标注了具体的CWE_ID以标识漏洞类型。构建过程中，采用链式思维（CoT）方法生成详细的推理步骤，并整合了提示与补全结构，确保数据逻辑连贯且覆盖多样化的代码安全场景。数据集划分为监督微调、强化验证与测试三个子集，分别包含526、800和85个样本，整体规模达到约549万字节，为模型训练与评估提供了坚实的数据支撑。

特点

该数据集的核心特点体现在其多维特征结构上，每个样本不仅包含任务标识和唯一ID，还精确标注了CWE漏洞编号，辅以负样本描述以增强对比学习能力。提示与补全部分采用角色化对话格式，模拟真实交互场景，而链式思维步骤则提供了可解释的推理路径，提升了数据的教育性和实用性。数据集划分清晰，支持监督学习与强化验证等多种应用模式，整体设计兼顾了代码安全领域的复杂需求和模型泛化能力的培养。

使用方法

针对SeCodePLT-updated-CoT-v4数据集的使用，研究者可依据其划分的子集进行针对性应用：监督微调子集适用于基础模型训练，通过提示与补全对优化模型生成能力；强化验证子集可用于策略评估与迭代优化，测试子集则专门服务于最终性能度量。使用时需加载对应的数据文件路径，并利用链式思维步骤引导模型进行逐步推理，从而在代码漏洞检测任务中实现精准的漏洞识别与修复建议生成。

背景与挑战

背景概述

在软件工程与程序分析领域，代码漏洞检测一直是保障软件安全性的核心议题。SeCodePLT-updated-CoT-v4数据集由专业研究团队构建，聚焦于通过链式思维（Chain-of-Thought）方法提升大型语言模型在代码漏洞识别中的推理能力。该数据集整合了常见弱点枚举（CWE）标准，旨在解决代码语义理解与漏洞模式关联的复杂问题，对推动智能代码审计工具的发展具有显著影响力。

当前挑战

代码漏洞检测面临语义歧义和逻辑推理深度的双重挑战，模型需准确解析代码结构并关联潜在安全风险。数据集构建过程中，标注高质量的链式思维步骤要求领域专家深度参与，确保每一步推理均符合漏洞成因的严谨逻辑，同时平衡数据规模与标注一致性成为关键难点。

常用场景

经典使用场景

在软件安全分析领域，SeCodePLT-updated-CoT-v4数据集被广泛应用于代码漏洞检测任务。其结构化特征如CWE_ID和链式思维步骤（cot_steps）支持模型逐步推理代码中的潜在缺陷，典型场景包括训练大型语言模型识别缓冲区溢出、注入攻击等常见漏洞模式。通过结合提示工程与多轮对话数据，该数据集有效提升了模型在静态代码分析中的逻辑连贯性与准确性。

衍生相关工作

基于该数据集衍生的经典研究包括结合强化学习的自适应漏洞检测框架，以及面向多编程语言的跨域泛化模型。这些工作进一步拓展了数据集的边界，例如通过对抗样本增强提升模型鲁棒性，或利用迁移学习将漏洞模式识别能力迁移至边缘计算场景，形成了软件安全智能分析的技术演进脉络。

数据集最近研究