five

t2ance/LCB-Selection-Data-8192

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/t2ance/LCB-Selection-Data-8192
下载链接
链接失效反馈
官方服务:
资源简介:
LCB Selection Data 8192 (VERL格式)是一个用于代码验证和选择的数据集,兼容VERL格式的parquet扁平化数据。数据集包含训练、验证和测试三个分割,分别有3,569、1,904和768行数据。数据集的列包括data_source(常量code_selection)、prompt(法官提示消息)、ability(常量code_verification)、reward_model(包含地面真实标签和样式信息)和extra_info(包含任务ID、领域ID、领域名称和来源模型等额外信息)。数据集用于当前的GRPO训练运行(4B / 8B / bs96-nrp变体),支持传统双层重加权训练堆栈和VERL训练堆栈。

LCB Selection Data 8192 (VERL format) is a dataset for code verification and selection, provided as a VERL-compatible parquet flatten. It includes train, validation, and test splits with 3,569, 1,904, and 768 rows respectively. The dataset columns are data_source (constant: code_selection), prompt (judge prompt messages), ability (constant: code_verification), reward_model (containing ground truth labels and style information), and extra_info (containing additional details like task_id, domain_id, domain_name, and source_model). This dataset serves as the data source for current GRPO training runs (4B / 8B / bs96-nrp variants) on both the legacy bilevel-reweighting training stack and the VERL training stack.
提供机构:
t2ance
搜集汇总
数据集介绍
main_image_url
构建方式
LCB-Selection-Data-8192 数据集源于代码验证领域的自主选样需求,旨在为 GRPO 训练流程提供高质量的评判数据。其构建历经多次迭代与严格验证:首先从多个源模型(如 deepseek、qwen2_5_32b、qwen3_30b 等)生成的选样数据中,收集并整合为三个独立的分片仓库;随后通过无损镜像重建,将每个数据行添加 `extra_info.source_model` 字段以保留源模型信息,最终合并为一个统一规范的 parquet 格式数据集。构建过程借助 SHA256 逐行校验确保与历史版本完全等价,并清除了冗余仓库,形成唯一的规范数据源。
特点
该数据集以代码验证为能力标签,每条样本包含完整的评判提示信息(`prompt`)、奖励模型配置(`reward_model`)以及丰富的额外元数据(`extra_info`),便于追踪数据来源与领域归属。数据集划分为训练集(3,569 行)、验证集(1,904 行)和测试集(768 行),各集合内按源模型分布均衡,覆盖多个主流代码生成模型。其奖励模型采用规则驱动的风格,配合地面真值标签,为强化学习训练提供可靠的反馈信号,特别适用于基于 GRPO 的代码验证任务。
使用方法
用户可通过 HuggingFace Datasets 库直接加载该数据集,默认支持训练、验证和测试三个分片的访问,例如 `load_dataset('t2ance/LCB-Selection-Data-8192', split='train')`。加载后可通过 `extra_info.source_model` 字段按源模型进行灵活筛选,快速获取特定模型生成的子集。此外,数据集提供完整的 Schema 文档,用户可基于 `prompt` 字段构建评判输入,结合 `reward_model` 字段进行奖励计算,适用于搭建端到端的代码验证与强化学习训练流程,如 GRPO 或 VERL 框架下的实验。
背景与挑战
背景概述
LCB-Selection-Data-8192数据集由研究团队于2026年4月创建,旨在服务于代码验证领域的强化学习训练。该数据集聚焦于大语言模型(LLM)在代码选择任务中的自我评判能力,融合了来自DeepSeek、Qwen2.5-32B、Qwen3-30B及O4-Mini等多源模型的生成样本,覆盖训练、验证和测试三部分。其核心研究问题在于如何通过规则奖励模型和GRPO训练策略,提升模型对代码生成结果的精准筛选与评估能力。作为CodeRM-GRPO训练栈的标准数据源,该数据集对代码智能领域的无监督强化学习范式具有重要推动作用,为构建可扩展的代码验证基准提供了关键资源。
当前挑战
该数据集所解决的领域问题在于代码验证任务中,LLM作为评判者(LLM-as-Judge)时面临的主观偏差和评估不一致性,需要构建可复现的规则奖励机制来统一评判标准。在构建过程中,首要挑战是确保来自不同源模型的样本在语义、提示结构和标签格式上的兼容性,以避免数据污染;其次,需通过无损镜像技术保留原始DatasetDict的划分信息(如源模型标签),同时验证全部11个(划分,源模型)对的SHA256一致性;此外,还需处理旧版数据集因提示语义差异和字段缺失导致的兼容性问题,并清理遗留仓库以维护数据源的唯一性与可追溯性。
常用场景
经典使用场景
在代码智能与大规模语言模型的对齐训练中,LCB-Selection-Data-8192数据集扮演着至关重要的角色。该数据集专为代码验证任务设计,通过收集来自DeepSeek、Qwen2.5-32B、Qwen3-30B及O4-Mini等多种先进源模型的生成结果,构建了一套高质量的评判提示。其经典用途在于为GRPO(Group Relative Policy Optimization)强化学习训练提供标准化的数据源,支撑4B至8B参数量级模型的训练迭代。通过损失无损镜像技术,该数据集确保了数据完整性和可溯源性,成为代码选择与验证场景下评判模型训练的核心基准资源。
解决学术问题
该数据集的核心学术价值在于解决了大规模语言模型在代码生成任务中的自我验证与选择难题。传统上,模型生成的候选代码缺乏可靠的自动评判机制,导致强化学习训练中的奖励信号不够精确。LCB-Selection-Data-8192通过结构化评判提示和基于规则的奖励模型,为代码验证任务提供了明确的真值标签,使得研究者能够系统性地探索模型对自身生成结果的质量评估能力。这一数据集推动了代码智能领域从单纯生成向生成-验证闭环的范式转变,为提升代码模型的鲁棒性与可信度提供了数据基础,显著影响了代码对齐研究的方向与评估标准。
衍生相关工作
该数据集衍生出了一系列在代码对齐与强化学习领域具有影响力的经典工作。作为CodeRM-GRPO系列训练栈的核心数据支柱,它支撑了4B/8B参数量级模型的奖励模型训练,这些模型在代码验证准确率上取得了显著提升。数据集构建过程中发展的损失无损镜像技术与数据溯源审计方法,为后续数据集的可复现性研究树立了标杆。此外,该数据集催生了对多源模型行为分析的研究,通过数据中保留的源模型标签,研究者得以深入剖析不同模型在代码选择任务中的偏差与优势,推动了模型集成与自适应评判策略的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作