t2ance/BCB-Selection-Data-8192
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/t2ance/BCB-Selection-Data-8192
下载链接
链接失效反馈官方服务:
资源简介:
BCB选择数据8192(VERL格式)是一个用于代码验证和选择的数据集,以VERL兼容的parquet格式存储。该数据集作为当前GRPO训练运行的数据源,适用于传统双层重加权训练堆栈和VERL训练堆栈。数据集包含数据来源、提示信息、能力类型、奖励模型和额外信息等字段,分为train、val和test三个部分,任务ID在不同部分之间不重叠。数据集的使用方法包括通过HuggingFace的load_dataset函数加载,并支持按来源模型过滤数据。数据集的生成过程和历史沿革在README中有详细描述。
BCB Selection Data 8192 (VERL format) is a dataset for code verification and selection, stored in VERL-compatible parquet format. It serves as the data source for current GRPO training runs, applicable to both the legacy bilevel-reweighting training stack and the VERL training stack. The dataset includes fields such as data source, prompt information, ability type, reward model, and extra info, and is divided into train, val, and test splits with no overlapping task IDs across splits. Usage involves loading the dataset via HuggingFaces load_dataset function and filtering by source model. The README provides detailed information on the datasets generation process and lineage.
提供机构:
t2ance
搜集汇总
数据集介绍

构建方式
BCB-Selection-Data-8192 数据集是大规模代码生成基准 BigCodeBench 的选拔数据(selection data)的规范化与多轮整合产物。其构建历经从按源模型分片的旧版仓库到无损镜像的创建,再依据先前三分割任务 ID 分区重新划分为训练集、验证集与测试集,确保了任务级无重叠。数据以 parquet 格式存储,兼容 VERL 训练框架,每条记录包含 judge 提示消息、能力标签、基于规则的奖励模型以及包含任务和源模型信息的额外字段,实现了从原始数据到标准化训练输入的完整溯源。
特点
该数据集的核心特点在于其三分割任务不相交结构,训练集、验证集与测试集涵盖 186、159 和 61 个唯一任务 ID,严格防止评估污染。数据融合了 qwen2.5_32b、qwen3_30b 及 deepseek 等多种源模型生成的混合样本,并完整保留了每条记录的源模型标签,为后续模型行为分析与跨源对比提供了关键维度。此外,数据历经无损镜像验证、哈希校验等严格审计,版本迭代过程透明可回溯,保证了数据的高质量与可复现性。
使用方法
使用者可通过 HuggingFace Datasets 库加载该数据集:`load_dataset('t2ance/BCB-Selection-Data-8192', split='train')`,并利用 `filter` 方法按源模型(如 `qwen3_30b`)或任务 ID 筛选所需子集。数据可直接用于 VERL 框架的 GRPO 强化学习训练,也可将带有源模型字段的记录重组为旧版 DatasetDict 格式。提示字段为标准的 judge 对话结构,奖励模型字段封装了以 JSON 编码的 ground truth 标签,支持基于规则的自动化评估,便于快速微调与评测代码验证能力。
背景与挑战
背景概述
在代码验证与大型语言模型(LLM)裁判数据集构建的前沿领域,BCB-Selection-Data-8192数据集应运而生,于2026年4月由研究团队在BigCodeBench项目框架下创建,旨在为基于生成式强化学习(如GRPO)的训练提供高质量、任务分离的代码选择数据。该数据集核心聚焦于代码验证能力评估,通过整合来自Qwen2.5-32B、Qwen3-30B及DeepSeek等多种源模型生成的示例,构建了一个包含训练、验证与测试三阶段且任务严格不重叠的数据资源。其独特之处在于保留了源模型信息,并兼容VERL训练栈,为多领域代码验证与LLM裁判能力研究提供了标准化基准,显著推动了代码智能评估范式的演进。
当前挑战
当前数据集面临的核心挑战包括:首先,在领域层面,代码验证任务要求模型精准区分正确与错误的代码片段,然而现有LLM裁判往往在复杂逻辑和跨领域迁移时表现不稳定,亟需高质量选样数据以提升其判别鲁棒性。其次,在构建过程中,研究团队需应对多源模型数据整合的挑战,确保来自不同生成策略的示例在保留原有分布特征的同时,维持任务分离以避免信息泄露;此外,数据版本迭代中需严格验证各批次数据的完整性(如基于SHA256校验),并在保持原目录结构的前提下完成无损镜像转换与三阶段重划分,这要求精确的元数据管理与自动化审计流程,以防止数据污染与版本混乱。
常用场景
经典使用场景
BCB-Selection-Data-8192 数据集专为代码验证任务中的大语言模型(LLM)评判与选择场景而设计。其核心用途在于为基于GRPO(组相对策略优化)的强化学习训练提供标准化的数据源,使研究者能够借助该数据集构建和评估LLM在代码正确性判别上的能力。数据集以VERL兼容的parquet格式存储,包含精心划分的训练、验证和测试三部分,且任务ID完全不相交,从而确保评估结果无泄漏。每个样本均包含评判提示消息、真值标签以及来源模型等元信息,支持灵活筛选和对比不同模型的生成行为,是LLM代码评判研究的标杆性资源。
实际应用
在实际应用中,BCB-Selection-Data-8192可直接用于构建自动化代码审查与质量保障系统。软件工程团队可以利用该数据集训练专门的代码验证模型,在持续集成(CI)流程中自动判别代码提交的正确性,降低人工审查成本。教育领域的编程学习平台也能借助这些模型为学生提供即时、准确的代码反馈。此外,该数据集支持从不同来源模型筛选样本,使得开发者能够定制针对特定代码生成器(如不同参数量级的Qwen系列)的验证器,从而在垂直应用中实现更精准的判错和纠错能力,加速从模型研究到生产部署的转化。
衍生相关工作
该数据集衍生了多个具有影响力的相关工作。首先,其与BigCodeBench项目的紧密结合催生了以代码选择为核心的评判范本系列,后续研究者基于此开发了多轮对话下的代码验证流程,以及用于跨域泛化研究的组合式训练方案(如LCB+BCB混合策略)。其次,数据集的无损镜像与多版本管理经验被总结为数据集维护的最佳实践,被同类资源所借鉴。此外,基于该数据集的GRPO训练成果直接推动了VERL训练栈的迭代优化,使得链式思考与代码验证的协同训练成为可能,并为后续涌现的基于奖励模型的代码评判框架提供了数据和基线参考。
以上内容由遇见数据集搜集并总结生成



