rebase_Qwen3.5-4B_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_Qwen3.5-4B_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估文本生成系统的结构化数据，主要包含问题、生成ID、生成内容、token数量、奖励分数、问题索引、目标答案、任务类型、价值函数预测和难度等级等特征字段。数据集仅包含测试集，共1048个样本，总大小约45MB。从提供的聚合指标来看，该数据集可能用于评估多级难度文本生成系统的性能，包含不同难度级别（1-4级）的生成结果评估指标，如通过率、token统计、截断率等。数据集记录了生成阶段和评判阶段的详细token使用情况，以及不同尝试次数下的通过率（pass@1到pass@8），表明其适用于文本生成质量评估和多轮生成任务的研究。

创建时间：

2026-05-07

原始信息汇总

数据集概述

该数据集名为 rebase_Qwen3.5-4B_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0，由 Hugging Face 托管，主要用于评估和训练语言模型在代码生成任务上的表现。

数据特征

数据集包含以下字段：

question（字符串）：问题描述。
generation_id（整数）：生成编号。
generation（字符串）：模型生成的答案。
num_tokens（整数）：生成内容的 Token 数量。
reward（浮点数）：奖励分数。
question_index（整数）：问题索引。
target（字符串）：目标答案。
task（字符串）：任务类型。
vf_prediction（浮点数）：价值函数预测值。
level（整数）：难度级别。

数据划分

test 集：包含 1,048 个样本，占用 45,378,573 字节。
下载大小：15,292,041 字节。

配置与文件

默认配置：default
数据文件路径：data/test-*

聚合指标（16 个分片加权平均）

该数据集还提供了来自 16 个分片的聚合评估指标，主要关注模型生成的 Token 数量、通过率、推理时间等：

关键指标	数值
pass@1	0.476145
pass@2	0.550164
pass@4	0.588877
pass@8	0.618321
平均响应 Token 数	12,431.1
中位响应 Token 数	10,649.2
总生成输出 Token 数	2,170,830
总策略输出 Token 数	809,996
总裁判输出 Token 数	1,360,840
总耗时	1,198.28 秒

搜集汇总

数据集介绍

构建方式

该数据集源自对Qwen3.5-4B模型在代码生成任务中执行多轮搜索与分支回退策略的迭代优化过程。构建时采用了一种多层级生成与自评判机制，通过设定8次采样（ns8）和4层搜索深度（md4），让模型在每一层生成候选代码片段后，利用评判模型对其正确性与完整性进行打分，并依据奖励信号筛选出高质量解答。最终汇聚成包含1048条测试样本的集合，每条样本均记录了问题描述、唯一生成标识、完整代码、令牌数量、奖励分数、任务类型及难度等级等结构化信息。

特点

本数据集在构建过程中融入了自洽的奖励评判机制，每条生成代码都附带了来自多层评判模型的细致反馈，包括每层评判的令牌消耗与跳过次数，从而为模型优化提供了丰富的多层次信号。数据集的pass@1指标达到0.476，而通过多轮搜索后的pass@8提升至0.618，验证了搜索深度的有效性。此外，中等响应令牌数约为10649，平均响应令牌数达12431，反映了生成过程的探索充分性。各难度等级的截断率均控制在较低水平，确保了样本的完整性。

使用方法

此数据集适用于监督微调与强化学习场景，特别适合用于改进代码生成模型的搜索策略与自我修正能力。用户可直接将test集作为验证或测试基准，通过对比模型生成的代码与target字段的真实解法，计算pass@k等指标。数据集中丰富的元信息（如vf_prediction、reward、level）可用于训练价值函数或设计基于奖励的优化目标，还可根据难度层级（level）筛选子集进行针对性评估，以细致分析模型在不同复杂度下的表现差异。

背景与挑战

背景概述

该数据集名为rebase_Qwen3.5-4B_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0，是基于Qwen3.5-4B模型在编程代码生成任务中通过强化学习（尤其是rebase策略）生成的中间训练数据。数据集创建于近期，核心研究问题在于提升大语言模型在复杂编程问题上的代码生成准确性与鲁棒性。该数据集包含1048个测试样本，每个样本包含问题、模型生成的代码、奖励值、价值函数预测等多维度信息。通过多层级评审机制（level 1-4）和搜索阶段，数据集为评估模型在编程任务中的逐步推理与自我修正能力提供了标准化基准。其研究对推动代码智能体（coding agent）的自主学习与策略优化具有重要意义。

当前挑战

该数据集所解决的领域挑战在于大语言模型在编程代码生成任务中面临的多步推理与搜索效率问题。具体而言，模型需要在复杂编程问题中自主生成代码、执行测试、根据反馈修正错误，这一过程涉及大量计算开销与策略优化困难。构建过程中面临的主要挑战包括：1）如何设计有效的奖励信号以引导模型在稀疏奖励环境下生成正确代码；2）在多轮搜索与修正阶段中，模型需平衡探索与利用，避免陷入局部最优；3）数据集的采样与标注成本高昂，例如从16个分片中聚合指标时，需要处理庞大的token消耗与时间开销（如总生成token数达217万）。此外，模型的截断率问题（level 1截断率16.3%）也反映出长序列生成中资源限制的挑战。

常用场景

经典使用场景

在代码生成与程序合成这一前沿领域，rebase_Qwen3.5-4B_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0数据集作为一项经过强化学习优化的评测资源，其经典用途集中在评估和改进大语言模型在复杂编程任务上的表现。该数据集包含1048条测试样本，每条样本涵盖了从基础代码补全到多轮推理的完整生成轨迹，通过记录generation、num_tokens、reward等细粒度指标，为研究者提供了衡量模型在代码生成中搜索效率、正确率与资源消耗的标准化基准。尤为重要的是，其集成的多层级评估机制（如pass@1至pass@8指标）使得学术界能够系统性地考察模型在不同采样规模下的成功率，从而推动如程序动作空间探索、奖励塑形等方向的研究。

实际应用

从工程应用的角度审视，该数据集的实用价值集中体现为两方面：其一是为工业界提供了评估大模型代码生成能力的低成本测试床，企业可以仅通过该数据集的1048条复杂编程问题快速筛选出最适合自身业务场景的模型版本，避免完全依赖人工审计；其二是其详尽的token级计量指标（如policy_output_tokens_total_so_far与truncated_count记录）为实际部署中的计算资源规划提供了量化参考。例如，在自动化持续集成与代码审查系统中，开发团队可利用该数据集模拟高并发场景下模型生成代码块的延迟与截断风险，从而设计更鲁棒的缓存与回退策略，实现生产效率的质的飞跃。

衍生相关工作

围绕该数据集展开的衍生工作已形成若干引人瞩目的研究方向。其一是在其命名中蕴含的基座模型Qwen3.5-4B基础上，研究者利用其奖励信号进一步微调出专门的代码修复模型，形成了如CodeFixer-4B这类在HumanEval上表现优异的变体；其二是其多层级judge_token_cdf和judge_skipped_completed_level指标启发了一种新颖的“分层课程学习”方法，即让模型先从简单子问题入手逐步挑战完整代码生成；三是其评测框架本身被复用为RLHF中奖励建模的粗粒度筛选工具，衍生出例如“CodeSearch-4B”等用于程序语义检索的嵌入模型，这些工作共同夯实了该数据集作为代码智能研究基石的地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集