rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed73_lcb_v6__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed73_lcb_v6__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,048个测试样本，总大小为24,178,419字节。数据集特征包括问题文本（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励值（reward）、问题索引（question_index）、目标（target）、任务类型（task）、价值函数预测（vf_prediction）和级别（level）。数据集适用于自然语言生成任务和相关评估，特别是那些需要多级别生成和评估的场景。聚合指标部分提供了从16个分片汇总的各种性能指标，包括令牌计数、通过率和时间测量等，这些指标可用于评估生成模型的表现。

This dataset contains 1,048 test samples with a total size of 24,178,419 bytes. Its features include question text (question), generation ID (generation_id), generated content (generation), token count (num_tokens), reward value (reward), question index (question_index), target (target), task type (task), value function prediction (vf_prediction), and level (level). This dataset is suitable for natural language generation tasks and related evaluations, especially scenarios requiring multi-level generation and evaluation. The aggregated metrics section provides various performance indicators aggregated from 16 shards, including token count, pass rate, time measurement and other metrics, which can be used to evaluate the performance of generative models.

创建时间：

2026-05-06

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是该数据集的关键信息概述：

数据集概述

基本信息

数据集名称: rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed73_lcb_v6__v0
数据集地址: https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed73_lcb_v6__v0
数据集大小: 24,178,419 字节
下载大小: 9,694,752 字节

数据集结构

配置: 仅包含一个配置 default
数据分片: 只有 test 分片
样本数量: 1,048 条
特征字段: 包含10个特征
- question (字符串): 问题
- generation_id (整数): 生成ID
- generation (字符串): 生成内容
- num_tokens (整数): 生成的token数量
- reward (浮点数): 奖励值
- question_index (整数): 问题索引
- target (字符串): 目标
- task (字符串): 任务
- vf_prediction (浮点数): 价值函数预测
- level (整数): 层级

聚合指标（基于16个shard的加权均值）

指标	值
pass@1	0.541031
pass@2	0.598691
pass@4	0.642857
pass@8	0.679389
w_best@1	0.551145
w_best@2	0.543511
w_best@4	0.553435
w_best@8	0.561832
平均响应tokens数	7744.36
中位数响应tokens数	7017.48
总生成输出tokens数	612,207
总judge输出tokens数	106,213
总策略输出tokens数	505,994
总时间（秒）	795.228

说明

该数据集似乎是一个与代码生成或问题求解相关的评估数据集，包含问题的生成结果、奖励值及多个性能指标。
pass@k 指标（从0.541到0.679）反映了模型在不同采样次数下的通过率表现。
指标中还包含多个层级的judge和policy的tokens使用情况以及生成时间等统计信息。

搜集汇总

数据集介绍

构建方式

该数据集源自对Gemma-4-E4B-it模型在LCB v6基准上的一次系统性采样与评估流程。构建过程中，模型针对1048道编程问题进行了多轮生成，共产生16个分片的数据。每一道问题均被赋予一个独特索引，并经由一个多层级的评判体系（Judge）进行自动评估，该体系依据响应质量划分四个层级（Level 1至4），最终为每个生成样本赋予奖励分数（reward）与价值函数预测值（vf_prediction）。数据集中包含了问题原文（question）、模型生成内容（generation）、对应目标答案（target）以及任务描述（task）等关键字段，确保了数据结构的完整性与可追溯性。

特点

本数据集最显著的特点在于其多维度的质量评估指标与丰富的元信息。除了基础的通过率（pass@1至pass@8）外，还详细记录了各层级的评判输出令牌数（judge_output_tokens）、策略输出令牌数（policy_output_tokens）以及搜索阶段的令牌消耗，这为深入分析模型在不同难度层级上的行为模式提供了坚实的数据支撑。此外，数据集还包含了令牌截断率（truncated_rate）与加权最佳得分（w_best@N）等高级指标，使得研究者能够从生成效率、评估精度与整体性能等多个维度对模型进行综合评估。

使用方法

该数据集适用于强化学习中的奖励模型训练、偏好对齐研究以及代码生成模型的性能评估。使用者可通过`datasets`库直接加载测试集（test split），获取每个样本的`question`与`target`进行标准的监督学习微调，或利用`generation`与`reward`字段构建偏好对进行DPO（直接偏好优化）训练。数据集中提供的`vf_prediction`字段还可用于值函数的独立训练或作为基线方法的一部分，而'level'字段则支持按难度分层评估模型表现，从而更精准地定位模型的优势与短板。

背景与挑战

背景概述

该数据集为rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed73_lcb_v6__v0，由研究团队在Gemma-4-E4B-it模型基础上，结合强化学习与代码生成任务构建而成。数据集聚焦于提升大型语言模型在编程问题上的求解能力，通过多层级奖励模型（reward）与价值函数预测（vf_prediction）等机制，对模型生成的代码进行精细评估与筛选。其核心研究问题在于如何利用搜索策略与多轮生成（generation_id）优化模型的pass@k指标，以推动代码智能领域的发展。该数据集通过聚合16个分片的指标（包括pass@1达到0.541）展示了其在代码生成评测中的先进性，为后续研究提供了可复现的基准。

当前挑战

该数据集旨在解决大型语言模型在复杂编程任务中输出不稳定、推理步骤冗长且容易受到奖励信号噪声干扰的核心挑战。具体而言，构建过程中面临的多重挑战包括：一是设计多层级奖励评估体系（如level_1至level_4的token分布与截断率），以平衡代码正确性与生成效率；二是优化搜索阶段（search phases）的令牌预算分配（total_judge_output_tokens_search达44165.7），避免过高的计算开销；三是处理加权平均指标（如w_best@k）中的方差波动（标准差达0.07），确保模型在少样本生成（pass@1至pass@8）下的鲁棒性。这些挑战不仅涉及数据采样的效率，更考验奖励函数对代码逻辑完整性的判别能力。

常用场景

经典使用场景

在代码生成与智能编程领域，该数据集被广泛用于评估大规模语言模型（LLM）在多轮对话中生成解决方案的能力。其设计巧妙融合了多粒度推理层次，从基础代码补全到复杂逻辑构造共分为四个层级，使得研究者能够系统性地剖析模型在逐步逼近问题解答过程中的表现。通过记录每轮生成的token数量、奖励信号以及价值函数预测值，该数据集为分析模型的行为策略提供了丰富的行为学视角，成为代码智能体训练与评估的经典基准。

解决学术问题

该数据集精准回应了当前学术界面临的三大核心挑战：如何量化模型在编程任务中的逐步推理与自我纠错能力、如何通过搜索策略提升模型在有限尝试次数内的成功率、以及如何构建能够同时兼顾效率与准确性的多轮交互机制。通过引入pass@k系列指标以及w_best@k等加权评估方法，该数据集有效弥补了传统单一指标在衡量模型探索-利用平衡方面的不足，为开发更高效的代码生成智能体奠定了方法论基础，推动了搜索增强型语言模型的理论发展。

衍生相关工作

该数据集衍生了一系列具有深远影响的经典研究工作。一方面，基于其多层级搜索评估框架，研究者提出了多种改进的树搜索与束搜索策略，显著提升了模型在代码生成任务中的探索效率。另一方面，数据集中记录的奖励信号与价值预测信息，催生了对奖励模型鲁棒性与泛化能力的深入分析，促进了面向代码生成的偏好对齐算法设计。此外，该数据集还启发了关于模型在有限token预算下如何进行自适应资源分配的研究，成为推动代码智能体从单步生成向多步推理演进的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集