five

t2ance/selection-bcb-sft-warmup

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/t2ance/selection-bcb-sft-warmup
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含BigCodeBench上的判断推理输出(对候选代码对的选择决策),用于SFT预热。数据是通过强制模式生成的,并于2026-04-24从两个独立的仓库迁移到一个统一的配置+分割结构中。配置代表判断/候选源模型,分割代表训练/测试。前身仓库在2026-04-25删除,已验证字节行级别的等价性(行数、模式、每行SHA256,空值感知)。

Judge inference outputs (selection decisions over paired candidate code) on BigCodeBench, produced with forcing mode for SFT warmup. Migrated 2026-04-24 from 2 separate repos into a unified config+split structure. Config = judge/candidate-source model; split = train/test. Predecessor repos were deleted on 2026-04-25 after byte-row-level equivalence was verified (row count + schema + per-row SHA256, null-aware) for each (model, phase) pair.
提供机构:
t2ance
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集专为代码验证任务中的大语言模型监督微调预热阶段设计,聚焦于候选代码对的筛选决策。数据源自BigCodeBench基准,由评判模型以强制推理模式输出选择结果,从而生成用于训练与测试的样本对。为便于管理,数据集采用统一配置与分割结构:配置(config)指代评判模型与候选代码生成模型的组合,分割(split)则区分为训练集与测试集。为确保数据完整性,研究者对每个模型与阶段组合进行了逐字节行的等价性验证,涵盖行数、模式及空值感知的逐行SHA256哈希比对,并保留了完整的审计脚本与运行日志。
使用方法
用户可通过HuggingFace datasets库便捷调用。加载时需指定配置名称(如qwen3_30b)与目标分割(train或test),代码示例为:`ds = load_dataset("t2ance/selection-bcb-sft-warmup", "qwen3_30b", split="train")`。加载后的数据集可直接用于训练或评估,支持进一步的数据预处理与模型输入适配。该数据集适用于需要代码筛选决策能力的场景,例如代码生成质量评估或自动调试中的候选代码排序,配合微调策略可提升模型在代码验证任务上的表现。
背景与挑战
背景概述
selection-bcb-sft-warmup数据集由研究机构t2ance于2026年创建,专注于代码验证与大型语言模型(LLM)的监督微调热身训练。该数据集的核心研究问题在于利用LLM作为评判者,对BigCodeBench中的候选代码进行选择决策,从而为SFT阶段提供高质量的初始对齐数据。通过将两个独立仓库中的强制推理输出统一为配置与分割结构,该数据集简化了模型微调流程,为代码智能领域中的模型校准与性能评估提供了标准化基准。其影响力体现在促进代码生成验证任务的可靠性和可复现性,尤其为后续更大规模的SFT训练奠定了基础。
当前挑战
该数据集面临的挑战包括:首先,从领域问题看,它旨在解决代码验证任务中模型温启动阶段的样本选择偏差问题,需要确保LLM作为评判者的决策与人类偏好高度一致,避免因强制推理模式引入噪声。其次,在构建过程中,面临数据一致性验证的难题,需通过行数、模式及逐行SHA256哈希对迁移前后数据进行严格校验,防止因仓库删除导致数据丢失或损坏。此外,多模型配置(如Qwen3、Qwen2.5系列)的融合需要统一评测标准,确保不同规模模型在相同测试集上的可比性,这加大了数据组织的复杂性。
常用场景
经典使用场景
在代码智能与软件工程领域,selection-bcb-sft-warmup数据集的核心应用场景聚焦于大语言模型在代码生成验证任务中的选拔决策能力训练。该数据集以BigCodeBench为基准平台,通过强制推理模式生成成对候选代码的选拔判决结果,专为监督微调预热阶段设计。研究者可将其用于训练LLM-Judge模型,使其学习在多个候选代码片段中精准选择最优实现,从而提升模型对代码功能性、正确性及风格一致性的判别能力。这一场景尤其适用于需要高质量代码筛选的软件开发流程,如自动代码审查、代码补全候选排序等任务。
解决学术问题
该数据集精准回应了代码智能研究中一个关键难题:如何让大语言模型具备可靠的代码选拔决策能力,而不仅是生成能力。传统代码生成评测多关注单一输出的正确性,忽视了真实开发场景下从多个候选方案中择优的需求。selection-bcb-sft-warmup通过提供成对候选代码的判决标签,使研究者能够系统性地探究模型在代码质量评估、偏好对齐以及多候选选择中的表现。这一数据资源推动了代码验证从二元正确性判断向多维度择优决策的范式演进,为构建可信任的代码智能评估体系奠定了重要基础。
实际应用
在实际工程场景中,该数据集赋能了自动化代码审核与智能编程助手的核心功能模块。基于此数据集微调的模型可被部署于持续集成/持续交付流水线中,对开发人员提交的多个代码变体进行自动筛选,推荐质量最优、风险最低的实现方案。此外,在集成开发环境中的代码补全和重构建议场景里,模型能够从多个候选片段中做出明智选择,显著提升开发效率与代码质量。该数据集也为大模型在代码竞赛平台及在线编程教育系统中的应用提供了训练支撑,实现对学生提交代码的自动评估与反馈。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型在代码验证任务中的强化学习前监督微调(SFT warmup)阶段,尤其针对基于LLM作为评判者(LLM-as-Judge)的选择性决策过程。最新研究前沿围绕模型在BigCodeBench基准上的候选代码对排序能力展开,通过迫使(forcing)模式对推理输出进行规范化引导,以提升代码评估的鲁棒性与一致性。该数据集从多模型(如Qwen3-30B、Qwen2.5-32B)视角构建训练与测试分片,为探索多裁判模型协同与选择偏差修正提供了关键数据基础。随着代码智能体与自动化评审系统的快速发展,此类针对SFT预热阶段的精细调控正成为提升代码生成与验证可信度的核心方向,对推动开源LLM在编程辅助领域的实际应用具有重要影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作