rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含3200个测试样本，主要用于评估模型生成回答的性能。数据集提供了丰富的问题与回答对，每个样本包含问题文本（question）、生成ID（generation_id）、生成内容（generation）、token数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标文本（target）、任务类型（task）、价值函数预测（vf_prediction）和难度等级（level）等特征。数据集特别关注回答的多样性和质量评估，通过聚合指标展示了不同难度级别下的token统计、通过率（pass@1到pass@32）、唯一回答数量（num_unique_answers@1到@32）以及各种加权统计指标。这些指标表明该数据集适用于评估语言模型在多轮对话或复杂问答任务中的表现，特别是对回答多样性、一致性和质量的综合评估。

创建时间：

2026-05-06

原始信息汇总

好的，这是根据您提供的数据集详情页面内容提炼出的关键信息概述：

数据集概述：rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0

该数据集是一个用于评估和衡量模型在特定任务上表现的测试数据集，包含模型生成的响应及其相关的评估指标。

数据集结构

特征 (Features)：
- question: 问题文本 (字符串)
- generation_id: 生成ID (整数)
- generation: 模型生成的回答 (字符串)
- num_tokens: 生成的token数量 (整数)
- reward: 奖励分数 (浮点数)
- question_index: 问题索引 (整数)
- target: 目标答案 (字符串)
- task: 任务类型 (字符串)
- vf_prediction: 价值函数预测值 (浮点数)
- level: 难度等级 (整数)
数据划分 (Splits):
- 测试集 (test): 包含 3,200 个样本，数据大小为 46,346,545 字节。

聚合指标

该数据集汇集了来自 10 个分片的数据，并提供了多项关键评估指标的平均值：

通过率 (Pass Rates):
- pass@1: 0.44 (单次生成的成功率)
- pass@16: 0.65 (16次生成中的成功率)
- pass@32: 0.67 (32次生成中的成功率)
多数投票准确率 (Majority Voting Accuracy):
- maj@1: 0.55
- maj@16: 0.62
- maj@32: 0.62
生成与评估Token消耗:
- 策略模型总输出Token数 (total_policy_output_tokens): 1,972,140
- 评判模型总输出Token数 (total_judge_output_tokens): 647,797
- 总生成输出Token数 (total_generated_output_tokens): 2,619,940
其他指标:
- 平均响应Token数 (avg_response_tokens): 6,162.05
- 总耗时 (total_time_s): 1,981.86 秒
- 各难度等级 (Level 1-4) 存在截断率（truncated_rate），其中 Level 2 的截断率为 0.0018。

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型，通过强化学习与束搜索（beam search）相结合的方式构建而成。具体而言，针对每个输入问题（question），模型在多个搜索层级（level 1至4）上逐步生成候选回答（generation），并利用裁判模型（judge）对每层输出进行评分与筛选。数据集共包含3200条测试样本，每条记录包括原始问题、生成ID、生成文本、对应的奖励值（reward）、价值函数预测值（vf_prediction）以及搜索过程中的多项元信息，如各层级的裁判输出token数、策略输出token数等。

特点

该数据集的核心特点在于其多层级、多粒度的搜索生成架构。数据集不仅记录了最终的生成结果，还详细保存了搜索阶段从低到高四个层级的完整中间状态，包括每个层级的策略输出token数、裁判跳过率及截断率等指标。此外，数据集提供了丰富的聚合评价指标，如pass@k、maj@k及w_best@k等，涵盖从1到32的不同采样规模下的准确率与多样性度量。这些指标使得研究者能够全面分析模型在不同搜索深度下的推理性能与探索能力。

使用方法

该数据集适用于强化学习策略评估、束搜索算法分析及生成模型性能评测等研究场景。用户可直接加载test分片中的question与generation字段作为输入与输出样例，利用reward字段进行偏好学习或奖励建模。同时，基于level、vf_prediction等结构化字段，研究者可复现多层级搜索过程，或计算自定义的pass@k与maj@k指标，以验证新算法相较于基线方法的优势。推荐将数据集与HuggingFace Datasets库结合使用，便于快速访问与过滤。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0，由ReBase团队基于Gemma-4-E4B-it模型构建，旨在评估和改进大型语言模型在多步骤推理任务中的表现。数据集涵盖1,600个测试样本，涉及4个难度层级，通过搜索树扩展和多数投票机制评估模型性能。其核心研究问题聚焦于如何通过多步推理和搜索策略提升模型在复杂游戏或逻辑任务上的准确率。该数据集对多模态推理、搜索增强生成以及语言模型的对齐研究具有重要价值，为后续模型在结构化决策环境中的泛化能力评估提供了基准。

当前挑战

当前挑战包括：1）领域问题层面，需解决语言模型在多步骤推理中易出现逻辑断裂和累积误差的问题，以及如何在有限搜索宽度下平衡探索与利用；2）构建过程中，面临多层级评测标准的设计难题，例如如何合理设定截断率、响应token限制以避免生成内容偏离任务目标；3）评估指标如pass@k、maj@k的统计稳定性受样本量限制，需应对随机性带来的波动；4）数据集仅包含测试集，缺少训练与验证划分，限制了模型调优与泛化分析。

常用场景

经典使用场景

在强化学习与自然语言处理交叉领域中，rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0数据集为多轮交互式生成任务提供了标准化的评测基准。该数据集精心设计了包含不同难度等级（level_1至level_4）的问题，并记录了模型在搜索阶段产生的策略输出令牌（policy_output_tokens_search）与裁判输出令牌（judge_output_tokens_search），使之成为衡量模型在多步推理与探索性生成中性能的理想选择。研究者可利用其中的maj@k与pass@k等聚合指标，评估模型在不同采样规模下的稳健性与成功率。

衍生相关工作

基于该数据集已衍生出一系列关于生成模型自我修正与多步验证的经典研究。其中，加权多数投票策略（w_maj@k）的对比分析促成了多种聚合框架的提出，例如通过融合不同难易级别的裁判反馈来筛选高置信度输出。此外，令牌分布曲线（token_cdf）与生成阶段耗时（generation_phase_time_s）的分析催生了动态层级控制算法，使得模型能根据当前回答质量自动跳过低价值搜索分支，显著优化了推理吞吐量。这些工作在强化学习与生成式AI的交叉点上开辟了新方向。

数据集最近研究