codepatrol

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/DynaGuard/codepatrol

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含八个配置，主要用于强化学习策略优化（GRPO）和指令微调（SFT）相关任务。数据内容由文本对话或指令及其对应的策略、标签、格式化输入输出等构成。每个配置共享相同的特征结构，包含八个字符串类型字段：policy（策略）、transcript（文本记录/对话）、label（标签）、formatted_input（格式化输入）、formatted_output（格式化输出）、metadata（元数据）、source_dataset（源数据集标识）和id（样本唯一标识）。数据划分为训练集和验证集：对于SFT配置，训练集有50,000个样本，验证集有2,859个样本；对于GRPO配置，训练集有10,000个样本，验证集有2,859个样本。配置名称中的v5、v8和no_abhi可能表示不同数据版本、处理方式或来源子集。该数据集适用于训练和评估大型语言模型在指令遵循、策略生成或对话任务上的性能。

This dataset includes eight configurations, primarily designed for tasks related to reinforcement learning policy optimization (GRPO) and instruction fine-tuning (SFT). The data content consists of text dialogues or instructions along with corresponding policies, labels, formatted inputs, and outputs. Each configuration shares the same feature structure, containing eight string-type fields: policy, transcript, label, formatted_input, formatted_output, metadata, source_dataset, and id (unique sample identifier). The data is divided into training and validation sets: for SFT configurations, the training set has 50,000 samples and the validation set has 2,859 samples; for GRPO configurations, the training set has 10,000 samples and the validation set has 2,859 samples. The terms v5, v8, and no_abhi in the configuration names may indicate different data versions, processing methods, or source subsets. The dataset is suitable for training and evaluating large language models on tasks such as instruction following, policy generation, or dialogue.

创建时间：

2026-05-13

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是关于数据集 DynaGuard/codepatrol 的详细总结：

数据集概述

数据集名称: DynaGuard/codepatrol
数据集地址: https://huggingface.co/datasets/DynaGuard/codepatrol

该数据集包含 8 个子配置（config），分别为 grpo_no_abhi、grpo_v5_only、grpo_v5_v8、grpo_v8_only、sft_no_abhi、sft_v5_only、sft_v5_v8、sft_v8_only。所有子配置均共享相同的特征结构，但在样本数量和数据集大小上有所差异。

所有子配置共同的特征

每个子配置的每条记录均包含以下 8 个字段，数据类型均为字符串（string）：

字段名	数据类型	描述
policy	string	策略信息
transcript	string	对话或过程记录
label	string	标签
formatted_input	string	格式化后的输入
formatted_output	string	格式化后的输出
metadata	string	元数据
source_dataset	string	来源数据集
id	string	唯一标识符

各子配置详情

GRPO 系列（GRPO-based subsets）

子配置名称	训练集样本数	验证集样本数	数据集总大小（bytes）	下载大小（bytes）
grpo_no_abhi	10,000	2,859	53,948,819	19,882,071
grpo_v5_only	10,000	2,859	47,667,395	16,838,023
grpo_v5_v8	10,000	2,859	48,244,121	18,308,416
grpo_v8_only	10,000	2,859	48,746,873	17,168,045

GRPO 系列各子配置的训练集均为 10,000 条样本，验证集均为 2,859 条样本。

SFT 系列（SFT-based subsets）

子配置名称	训练集样本数	验证集样本数	数据集总大小（bytes）	下载大小（bytes）
sft_no_abhi	50,000	2,859	281,372,436	117,070,568
sft_v5_only	50,000	2,859	275,091,012	114,026,520
sft_v5_v8	50,000	2,859	275,667,738	115,496,913
sft_v8_only	50,000	2,859	276,170,490	114,356,542

SFT 系列各子配置的训练集均为 50,000 条样本，验证集均为 2,859 条样本。

数据划分

每个子配置均包含 train（训练集）和 val（验证集）两个划分，其中验证集在所有子配置中保持相同的样本数量（2,859条）和大小（7,188,782 bytes）。

数据文件位置

所有子配置的数据文件均按照以下模式存储在对应路径下：

训练集：{config_name}/train-*
验证集：{config_name}/val-*

例如，grpo_no_abhi 子配置的训练集文件路径为 grpo_no_abhi/train-*，验证集文件路径为 grpo_no_abhi/val-*。

搜集汇总

数据集介绍

构建方式

数据集Codepatrol旨在聚焦于代码审查与策略对齐领域，通过跨不同策略配置（如grpo与sft系列变体）和标签（如no_abhi、v5_only、v5_v8、v8_only）的组合构建而成。每个配置均包含policy、transcript、label、formatted_input、formatted_output、metadata、source_dataset及id等字段，其中formatted_input与formatted_output为模型训练提供了结构化输入输出对。数据划分上，训练集包含10000或50000条样本，验证集统一为2859条样本，确保了实验的可复现性。

使用方法

使用Codepatrol数据集时，可通过HuggingFace Datasets库按配置名称加载对应子集，例如加载grpo_v5_only配置。加载后，可直接利用formatted_input与formatted_output字段进行模型监督学习或强化学习训练，其中policy字段可用于评估不同策略下的生成效果。数据集已划分好训练集与验证集，研究者无需额外分割即可直接用于实验设计与性能评估。

背景与挑战

背景概述

CodePatrol数据集由相关研究团队创建，旨在解决大型语言模型生成代码的安全性评估问题。随着代码生成模型（如GPT系列、Codex等）在软件工程中的广泛应用，自动化生成代码的安全隐患日益凸显，成为制约其在实际部署中可靠性的关键瓶颈。该数据集聚焦于强化学习与监督微调两种训练范式下的策略对齐，通过引入多配置子集（如grpo、sft系列）系统性地评估不同训练策略对代码安全性偏好的影响。其核心研究问题在于如何构建高质量的安全行为标注体系与多样化的红队攻击场景，以促进模型在代码生成任务中规避恶意指令与脆弱性输出。CodePatrol的提出为代码安全领域的基准评测提供了重要数据支撑，推动了对抗性训练与偏好对齐技术在软件安全方向的创新探索。

当前挑战

CodePatrol所解决的领域核心挑战在于代码生成模型的安全对齐问题，即模型在面对精心设计的恶意提示时，能否拒绝生成包含后门、隐私泄露或系统漏洞的代码。传统安全检测方法依赖静态规则，难以应对新型攻击变体与上下文敏感的诱导策略。此外，模型在自由生成场景下对安全边界的理解存在歧义，导致漏报或过度拒绝合法请求。在数据集构建过程中，团队面临多重困难：首先，需要设计覆盖多种攻击意图与编程语言的红队样本，确保对抗样本的多样性；其次，为每个样本赋予精确的多级安全标签需耗费大量专家精力，且存在标注一致性挑战；最后，如何平衡监督微调与强化学习数据之间的分布差异，以避免模型在安全偏好上发生灾难性遗忘，亦是构建过程中的关键难题。

常用场景

经典使用场景

在人工智能与软件工程交叉研究的浪潮中，CodePatrol数据集为代码生成语言模型的偏好对齐与监督微调提供了高质量的训练语料。其经典使用场景聚焦于基于强化学习（如GRPO算法）与监督微调（SFT）两种范式，通过结构化的策略文本、交互日志及标注标签，驱动模型学习如何生成更符合人类偏好的代码片段。该数据集特别适用于对比不同微调策略（如仅使用规则版本或混合版本）对模型行为的影响，为构建安全、可靠且风格可控的代码生成系统奠定了数据基础。

解决学术问题

CodePatrol数据集精准回应了当前代码智能领域中两大核心学术困境：其一，如何通过偏好对齐机制缓解大型语言模型在生成代码时的‘幻觉’与不安全行为；其二，如何量化不同训练策略（如GRPO与SFT）对模型代码生成质量与安全性的提升幅度。借助该数据集，研究者能够系统性地比较多版本策略（如v5、v8及其组合）在控制模型输出倾向上的效果差异，从而揭示出偏好学习在代码合规性与功能性平衡中的关键作用，有力推动了代码生成可信赖度的实证研究。

实际应用

在现实产业场景中，CodePatrol数据集可被广泛应用于智能代码补全工具、自动化代码审查系统以及编程教育辅导平台。开发团队可通过该数据集微调专属的代码生成模型，使其在编写API调用、配置脚本或安全关键函数时，自动规避已知的脆弱模式，并遵循企业级编码规范。此外，该数据集还能支撑人机协作编程场景下的策略对齐优化，帮助模型在提供代码建议时更好地匹配开发者的习惯与项目背后的安全约束。

数据集最近研究