rebase_gemma-4-E4B-it_lcb_v6_ns32_md4_bt0_1_seed42_lcb_v6__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns32_md4_bt0_1_seed42_lcb_v6__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估模型生成响应和判断性能的结构化数据。数据集包含多个特征，包括问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、VF预测（vf_prediction）和级别（level）。数据集仅包含测试集（test），共有4,192个样本，总大小为97,327,837字节。此外，数据集提供了丰富的聚合指标，涵盖了不同级别和阶段的性能评估，如平均响应令牌数、生成阶段时间、通过率（pass@1, pass@16等）以及令牌计数和截断率等。这些指标表明数据集适用于模型生成和判断任务的评估与优化。

创建时间：

2026-05-06

原始信息汇总

根据您提供的数据集详情页面内容，以下是对数据集的总结：

数据集概述

该数据集名为 rebase_gemma-4-E4B-it_lcb_v6_ns32_md4_bt0_1_seed42_lcb_v6__v0，由用户 anirudhb11 发布在 Hugging Face 上。

数据集特征（Features）

数据集包含以下字段：

字段名	数据类型	说明
`question`	字符串	问题内容
`generation_id`	整数	生成ID
`generation`	字符串	生成的回答
`num_tokens`	整数	生成的token数量
`reward`	浮点数	奖励分数
`question_index`	整数	问题索引
`target`	字符串	目标输出
`task`	字符串	任务类型
`vf_prediction`	浮点数	价值函数预测值
`level`	整数	难度级别

数据集规模

总大小：97,327,837 字节（约92.8 MB）
下载大小：38,661,767 字节（约36.9 MB）
数据分割：仅包含 test 分割，共 4,192 条样本

性能指标（Aggregated Metrics）

该数据集来源于一个多轮生成-评估流程，从 16 个分片（shards） 聚合得出，关键指标如下：

主要性能指标

pass@1：0.5448（54.48%）
pass@16：0.7319（73.19%）
pass@32：0.7557（75.57%）
加权最佳@1（w_best@1）：0.5435（54.35%）

生成与评估消耗

平均响应Token数：7,797.76
中位数响应Token数：6,994.98
总生成Token数：2,036,980
总评估Token数：445,884
总耗时：2,081.42 秒

各难度级别评估情况

数据集中存在 4 个难度级别（Level 1-4），评估器输出的Token数量随级别升高而减少，表明高级别问题数量较少或评估更简洁：

Level 1 评估Token数：175,641
Level 2 评估Token数：22,867.4
Level 3 评估Token数：390.596
Level 4 评估Token数：0

所有级别的 截断率（truncated rate） 均为 0，表明生成过程完整未截断。

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it这一前沿语言模型，通过深度强化学习中的迭代式拒绝采样与奖励排序策略构建而成。具体而言，在LiveCodeBench v6（LCB v6）基准测试框架下，模型针对每道编程问题生成了32个候选解（n=32），并以最大解码深度（md=4）与温度系数0.1进行多次回溯搜索（bt=0.1）。最终依据预设的奖励模型与价值函数预测（vf_prediction）筛选出高质量样本，通过固定随机种子（seed=42）复现流程，形成了包含4,192条测试样本的结构化数据集。

特点

该数据集的核心特点在于其多维度的质量评估体系与细粒度标注规范。每条样本不仅包含原始编程问题（question）及对应的标准答案（target），还详细记录了模型生成的代码片段（generation）、其对应的问题索引与任务类别，以及由奖励模型输出的浮点评分（reward）。尤为突出的是，数据集提供了层次化通过率指标（pass@1至pass@32）与基于加权投票的改进指标（w_best@n），这些指标从0.544至0.756不等，揭示了模型在不同采样规模下的性能边界。此外，数据集中token级的统计信息如响应长度（avg_response_tokens 7797.76）、裁判模型输出token分布等，为深入分析生成质量与推理效率提供了宝贵依据。

使用方法

用户可通过HuggingFace数据集库便捷调用本数据集的测试划分。加载时需使用rebase_gemma-4-E4B-it_lcb_v6_ns32_md4_bt0_1_seed42_lcb_v6__v0标识符，并指定split为'test'。数据以Parquet格式存储，包含question、generation、target、reward等10个字段，可直接转换为DataFrame进行批量分析。研究人员可用该数据集评估代码生成模型的零样本性能，特别是通过pass@k指标对比不同采样策略的效果，或利用reward字段进行评分模型的偏好对齐训练。建议结合LiveCodeBench原版框架复现完整的层次化评判流程，以充分发挥数据集在编码智能评估中的基准价值。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_lcb_v6_ns32_md4_bt0_1_seed42_lcb_v6__v0，源自对大规模语言模型对齐策略的深入研究，由相关研究团队在近期基于强化学习与自我改进框架构建。其核心研究问题聚焦于提升模型在复杂任务搜索与多级推理中的生成质量与效率，尤其针对需要精细调优的代码生成与数学推理场景。该数据集的发布为评估模型在多次采样、多轮交互下的生成一致性、奖励建模鲁棒性以及搜索策略有效性提供了标准化基准，对推动语言模型的后训练对齐与推理能力优化具有重要参考价值。

当前挑战

该数据集面临的核心挑战在于应对领域复杂性与构建过程的双重难题。首先，在领域层面，它需解决多级推理任务中模型在大量采样下保持高效搜索与准确生成之间的矛盾，尤其需抑制高采样次数下的性能饱和与奖励欺骗现象。其次，构建过程中需要处理大量生成结果的质量筛选、多级裁决者（judge）的Token预算分配、以及搜索阶段与生成阶段之间的计算负载平衡。此外，如何在不牺牲模型多样性的前提下，通过有限的奖励信号精确引导模型收敛，并避免截断率过高导致的采样偏差，也是突出的技术难题。

常用场景

经典使用场景

在代码生成与数学推理任务中，该数据集被广泛用于评估和微调大语言模型的逻辑推理能力。它包含来自代码竞赛平台（如LiveCodeBench）的高质量编程问题，每个问题均配有从目标模型（gemma-4-E4B-it）采样的多条生成结果，并辅以奖励模型打分和词元消耗等细粒度元信息。研究者常利用这些多候选生成与奖励信号，系统性地评测模型在复杂编码与数学问题上的通过率（pass@k指标），从而揭示模型在逐步推理、代码调试和边界条件处理方面的真实表现。其分层的难度标签（level 1-4）更使得细粒度能力分析成为可能，支持对不同难度层级下模型性能的深入解构。

实际应用

在实际应用中，该数据集直接服务于以‘智能编程助手’为核心的各类软件开发工具。例如，数据分析师可利用基于该数据集微调的模型自动完成SQL查询编写或Python数据清洗代码的生成；初级开发者在调试未知错误时，可以依赖模型提供的多条候选修复方案（pass@16机制），显著提升排错效率。此外，在在线编程教育平台中，该数据集训练的模型能够为学生提供分步骤的解题提示与代码错误诊断，甚至根据奖励模型筛选出最优教学示例。其分层难度设计还使得自适应学习系统能够为不同水平的学习者动态推荐合适难度的练习题目，实现了从‘标准化评测’到‘个性化辅助’的跨越。

衍生相关工作

围绕该数据集已衍生出若干具有影响力的后续研究工作。一是‘基于搜索树的代码生成优化’方向，研究者利用数据集中多轮采样与奖励信号，设计出蒙特卡洛树搜索策略，在pass@k指标上实现了超越原始采样的效果。二是‘奖励模型校准与多阶段推理’方向，部分工作借助该数据集的奖励预测值和价值函数估计，探索了过程奖励模型与结果奖励模型的融合机制，有效提升了复杂数学问题的正确率。三是‘长上下文语言模型的高效推理’方向，研究人员通过分析数据集中响应词元数量与通过率的关系，提出了动态截断与自适应词元分配策略，在保持准确性的前提下大幅降低了推理成本。这些工作均彰显了该数据集作为编码推理领域通用测试床的学术价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集