t2ance/selection-lcb-sft-warmup-forcing

Name: t2ance/selection-lcb-sft-warmup-forcing
Creator: t2ance
Published: 2026-04-25 06:40:15
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/t2ance/selection-lcb-sft-warmup-forcing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Selection LCB SFT Warmup (Forcing Mode)，主要用于代码验证和LLM判断任务。数据集通过Qwen3-Coder-30B-A3B-Instruct模型在强制模式下生成，包含多个配置和分割，每个配置对应不同的源模型生成候选解决方案。数据集的结构包括任务ID、问题陈述、判断提示、判断响应等多个列。此外，数据集还提供了详细的使用方法和来源信息。

The dataset is named Selection LCB SFT Warmup (Forcing Mode) and is primarily used for code verification and LLM judgment tasks. The dataset is generated by the Qwen3-Coder-30B-A3B-Instruct model in forcing mode, containing multiple configurations and splits, each corresponding to different source models generating candidate solutions. The dataset structure includes multiple columns such as task ID, problem statement, judge prompt, judge response, etc. Additionally, the dataset provides detailed usage methods and source information.

提供机构：

t2ance

搜集汇总

数据集介绍

构建方式

本数据集旨在为代码验证中的选择判断器（selection judge）提供监督微调（SFT）热身训练数据，其构建基于Qwen3-Coder-30B-A3B-Instruct模型的强制生成模式（forcing mode）。具体而言，在生成过程中，将真实答案（ground truth）直接注入提示词（prompt）中，引导模型输出简洁的判断结果，从而产生高质量的监督信号。数据集整合了来自deepseek、o4_mini、qwen2_5_32b和qwen3_30b四种源模型生成的候选解决方案，每个配置下均划分为训练集和测试集，总计包含5,673条数据。这一构建方式旨在为后续的在线GRPO训练提供初始化阶段的判断能力提升。

特点

该数据集的核心特点在于其强制生成模式，通过在提示词中嵌入真实答案，有效约束模型输出，生成精准且一致的判断结果。数据集中每个样本包含完整的任务信息，如问题陈述、候选解决方案列表、模型选择结果及正确性标签，结构清晰。此外，数据集分为四个独立的配置，分别对应不同的候选解决方案生成模型，便于研究者针对性地进行模型评估与对比。与无强制生成的基线数据集（selection-lcb-baseline）相比，本数据集生成的判断结果在相同任务上存在显著差异，为判断器的多样性与鲁棒性训练提供了独特资源。

使用方法

使用者可通过HuggingFace的datasets库便捷加载数据。首先，指定配置名称（如'qwen3_30b'）和所需的分割（如'train'）即可获取特定子集。若需将多个配置的训练数据合并，可利用concatenate_datasets函数将不同配置加载后拼接成一个完整数据集。数据以Parquet格式存储，支持高效读取。建议研究者在训练前检查各列字段，特别是judge_prompt和judge_response这对输入输出，以及is_correct等标签，以构建自定义的数据管道或进行数据增强操作。

背景与挑战

背景概述

Selection LCB SFT Warmup (Forcing Mode)数据集由研究团队于2026年创建，旨在通过强制引导（forcing mode）生成代码验证任务的监督微调（SFT）数据，以初始化选择评估器（selection judges），为后续的在线GRPO训练奠定基础。该数据集基于Qwen3-Coder-30B-A3B-Instruct模型，在提示中嵌入真实答案（ground truth）来引导模型生成简洁的判断，覆盖了来自DeepSeek、o4_mini、Qwen2.5-32B及Qwen3-30B四种源模型的候选解决方案。数据集的构建聚焦于LiveCodeBench (LCB)问题集，共计5,673条样本，按源模型分为四个配置，每配置包含训练集与测试集。作为t2ance/selection-lcb-baseline的补充，该数据集采用不同的生成策略（强制模式 vs. 非强制模式），为代码选择与验证任务提供了独特的训练资源，推动了代码智能评估领域的发展。

当前挑战

该数据集旨在应对代码选择与验证领域中的核心挑战：大型语言模型在无需真实标签的情况下，准确评估候选代码解决方案优劣的能力不足。具体而言，模型常因缺乏明确的判断基准而陷入模棱两可的决策，导致评估偏差。在数据构建过程中，团队面临多重技术难题：首先，需确保强制模式下生成的判断既简洁又准确，避免模型过度依赖提示中的真实答案而失去泛化能力；其次，不同源模型产生的候选解决方案质量参差不齐，需要统一且公正的评估标准；此外，数据规模（5,673条）相对于目标任务的复杂性仍显有限，可能影响模型训练稳定性；最后，跨配置的一致性维护（如API接口、数据格式的标准化）也是一大挑战，确保数据可合并且不产生冲突。

常用场景

经典使用场景

在代码智能与程序合成研究领域，selection-lcb-sft-warmup-forcing 数据集被设计用于微调大语言模型的候选代码选择能力。其核心使用场景聚焦于“强制引导式”监督微调（SFT Warmup），通过在提示中注入真实标签（ground truth），促使评判模型（judge）在感知候选解空间时形成简洁且精准的判断逻辑。该数据集覆盖 DeepSeek、Qwen2.5-32B 等多个基座模型生成的候选解决方案，共计 5,673 条样本，为评判模型在后续的在线组相对策略优化（GRPO）训练前提供关键的预热阶段，从而显著提升模型对代码正确性的早期辨识力。

实际应用

在实际研发管线中，该数据集可作为自动化代码评审工具链的基础组件。工程团队可基于此数据微调评判模型，将其部署于持续集成（CI）系统中，自动从开发者提交的多个候选补丁中甄别出语法与逻辑均通过测试的代码片段。同时，该数据集生成的评判范例能辅助构建“正确性排序器”，用于优化代码合成模型在自举式迭代（如 STaR 或 Rejection Sampling）中的样本过滤策略，进而提升最终代码生成系统的输出质量与安全合规性。

衍生相关工作

该数据集衍生了多项标志性研究路径。首要贡献是为 t2ance/selection-lcb-baseline 提供了无强迫模式的对比基线，二者结合可系统分析 judge 提示工程与偏好注入对选择准确率的影响。在此基础上，研究者进一步构建了 selection-bcb-sft-warmup 数据集，将候选选择任务从 LiveCodeBench 扩展至 BigCodeBench 场景，验证了强迫训练范式在多样化代码评测基准上的可迁移性。这些衍生工作共同构成了代码智能领域“预训练评判者→在线强化训练”的方法论闭环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集