rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed42_lcb_v6__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed42_lcb_v6__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个测试集，共16,768个样本。数据集的主要特征包括问题文本（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励值（reward）、问题索引（question_index）、目标（target）、任务类型（task）、价值函数预测（vf_prediction）和级别（level）。数据集还提供了从16个分片聚合的多种指标，包括平均响应令牌数、生成阶段时间、法官输出令牌数、跳过完成情况、通过率等。这些指标可用于评估生成模型的性能和质量。

创建时间：

2026-05-06

原始信息汇总

数据集概述：rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed42_lcb_v6__v0

该数据集源自 Hugging Face 平台，是一个用于评估和改进代码生成模型性能的测试数据集，具体针对 Gemma-4-E4B-it 模型在 LCB v6 任务上的表现。

数据集结构

特征：包含 10 个字段，涵盖问题、生成结果、奖励、目标、任务、价值函数预测等核心信息。
- question (string)：问题文本。
- generation_id (int64)：生成ID。
- generation (string)：模型生成的代码或回答。
- num_tokens (int64)：生成内容的 token 数量。
- reward (float64)：奖励值。
- question_index (int64)：问题索引。
- target (string)：目标答案。
- task (string)：任务类型。
- vf_prediction (float64)：价值函数预测值。
- level (int64)：难度等级（1-4）。
数据划分：仅包含 test 集，共 16,768 个样本。
数据大小：下载大小约 154.5 MB，数据集总大小约 390.3 MB。

聚合指标

以下指标基于 16 个分片加权平均计算，展示了模型在测试集上的性能（pass@k 为通过率）：

指标	值	说明
`pass@1`	0.553	单次尝试通过率
`pass@16`	0.748	16次尝试通过率
`pass@128`	0.809	128次尝试通过率
`w_best@1`	0.551	加权最佳单次通过率
`avg_response_tokens`	7814.85	平均响应 token 数
`total_time_s`	7368.24 s	总生成时间
`total_generated_output_tokens`	9.96M	总生成输出 token 数
`total_policy_output_tokens`	8.17M	策略模型总输出 token 数
`total_judge_output_tokens`	1.80M	评判模型总输出 token 数

关键结论

该数据集专用于测试 Gemma-4-E4B-it 模型在 LCB v6 代码生成任务上的性能。
模型在 pass@128 上达到了约 80.9% 的通过率，表明通过多次采样能有效提升成功率。
平均响应 token 数为 7814.85，反映了模型生成的代码长度。
数据集包含 4 个难度等级（Level 1 至 Level 4），其中 Level 1 的 token 数和跳过率最高（judge_skipped_completed_level_1 为 608.78），Level 4 的样本最少（judge_output_tokens_level_4 为 0）。

搜集汇总

数据集介绍

构建方式

本数据集名为rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed42_lcb_v6__v0，源自对Gemma-4-E4B-it模型进行大规模推理与自我评估的生成过程。其构建依托于一个多层级采样与评判框架：模型对来自LCB_v6基准的编程问题生成大量候选解答，每个问题生成最多128个独立样本，并经过包含四个层级的评委模型进行自动化评估与筛选。数据集记录了每个生成样本的原始问题、生成内容、令牌数量、奖励分数以及评委对各层级输出的评判结果，最终通过聚合16个分片的数据形成包含16768条样本的测试集。这种生成式采样与多轮评判机制确保了数据的高覆盖度与质量，同时提供了丰富的中间过程信息，便于后续分析与优化。

特点

该数据集的核心特点在于其细粒度的结构设计与丰富的元信息。每条记录不仅包含问题与对应的生成文本，还囊括了生成ID、令牌数、奖励值、问题索引、目标任务类型、目标答案、价值函数预测以及难度等级等十个字段，为研究模型在不同难度级别上的生成行为提供了多维度的视角。此外，数据集通过聚合指标展示了从pass@1到pass@128的多种通过率，以及各层评委输出的令牌分布与跳过率，直观反映了模型在多次采样下的性能上限与收敛趋势。这些特性使得数据集特别适合用于分析大规模语言模型在编程任务上的推理能力、采样策略的有效性以及资源消耗的权衡。

使用方法

使用该数据集时，用户可通过Hugging Face Datasets库直接加载指定分割，例如使用`load_dataset('rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed42_lcb_v6__v0', split='test')`获取全部测试样本。数据以Parquet格式存储，支持高效读取与筛选。用户可基于`question`字段提取输入问题，利用`generation`字段获得模型生成的解答，并结合`reward`与`vf_prediction`进行强化学习训练中的奖励建模或策略优化。同时，`level`字段可用于按难度分层分析，`generation_id`和`question_index`便于追踪多轮采样中的特定样本。对于需要深入分析模型输出质量与采样效率的研究，该数据集提供了从原始生成到多级评委评判的完整链路，支持灵活的定制化评估与微调实验。

背景与挑战

背景概述

该数据集基于Gemma-4-E4B-it模型在代码生成任务上的多次采样结果构建而成，由研究团队利用强化学习与奖励模型迭代生成，旨在提升大语言模型在复杂编程问题上的生成质量与多样性。数据集创建于2025年，核心研究问题聚焦于如何通过规模化采样与精细化的奖励信号（如分级评判与token效率优化）来突破现有代码生成模型的性能瓶颈。其影响力体现在为后续的自我改进、过程监督及多轮生成策略提供了高保真的训练与评估资源，推动了代码智能领域从单次生成向多步推理与奖励建模的范式演进。

当前挑战

数据集所应对的领域挑战在于代码生成任务中模型常因局部正确性陷入低效搜索，难以确保长链逻辑的自洽性与最终功能性正确。此外，构建过程中面临的挑战包括：大规模采样带来的计算与存储开销（如单条生成平均响应token数高达7814.85），以及如何设计多层级评判标准以区分不同难度下的输出质量，同时避免过度截断（truncated_rate保持接近零）以保留有效信息。最终通过16个分片的聚合统计，展现了pass@128指标达到0.809的显著提升，验证了多轮筛选与奖励引导的有效性。

常用场景

经典使用场景

rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed42_lcb_v6__v0数据集在代码生成与算法推理领域扮演着关键角色，尤其专注于评估大语言模型在复杂编程任务上的表现。其经典使用场景聚焦于利用多层级搜索树（multilevel search）和奖励模型对模型生成的代码进行精炼与甄选，通过从一定数量的生成样本（如ns=128）中提取最优解，以度量模型在多样化编程挑战中的通过率。该数据集精心设计了从简单到困难的多个级别（level 1至4），并辅以详尽的评判令牌分布（judge token distribution）和生成令牌计数（policy output tokens），为研究者提供了深入分析模型推理深度、效率与正确性的标准范式。其结构化的字段如question、target和reward，使得该数据集成为训练与评估基于强化学习或搜索增强型代码生成模型的理想基准。

实际应用

在实际应用层面，该数据集为开发高可靠性的辅助编程工具和自动化代码审查系统提供了坚实的数据支撑。软件工程师可以利用在此数据上训练或验证的模型，在集成开发环境（IDE）中实现实时代码建议、错误检测与修复方案生成。例如，基于该数据集的多步搜索特性，可构建支持用户逐步调试的智能助手，其能够模拟开发者从粗粒度的整体架构到细粒度的语法纠错这一认知过程。此外，数据集中的level分层结构（从基础语法到复杂算法）使其适用于个性化学习平台，能够根据用户能力动态调整题目难度，从而在编程教育领域发挥独特价值。这些应用最终促进了人机协作编程范式的落地，降低了软件开发的准入门槛。

衍生相关工作

围绕该数据集已衍生出一系列影响深远的经典工作，主要集中于搜索增强式推理与多阶段生成评估两大方向。一方面，研究者借鉴其多层级搜索树设计，提出了诸如‘逐步扩展式解码’和‘自适应搜索预算分配’等方法，致力于在固定计算资源下提升代码生成的成功率。另一方面，数据集中丰富的奖励与评判令牌元数据（如judge_token_cdf、truncated_count）激发了关于自动评判器（auto-judge）校准与搜索策略优化的研究，催生了如‘基于置信度阈值的早停机制’和‘动态奖励加权采样’等技术。此外，其w_best@k指标的设计思想被后续工作广泛采纳，用于更公平地比较不同模型在多次尝试中的最佳表现，从而推动了代码智能领域评估体系向更加精细化与实用化的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集