rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed65_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed65_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含12,800个测试样本，主要用于文本生成或问答任务的相关研究。数据集包含多个字段，包括问题文本（question）、生成文本ID（generation_id）、生成的文本内容（generation）、token数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标文本（target）、任务类型（task）、预测值（vf_prediction）和难度等级（level）。数据集还提供了丰富的聚合指标，包括不同难度级别下的token统计、通过率（pass@k）、多数投票准确率（maj@k）等评估指标。这些指标来自10个分片的加权平均值，可用于评估模型在不同配置下的表现。

创建时间：

2026-05-06

原始信息汇总

数据集概述：rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed65_rg_games__v0

该数据集主要用于评估或训练模型在特定任务上的生成能力，特别是通过多轮搜索和投票机制来优化回答质量。数据来源于一个包含10个分片（shards）的生成实验。

数据集结构与特征

数据集包含以下特征字段：

question (string): 问题文本。
generation_id (int64): 生成结果的唯一标识。
generation (string): 模型生成的回答。
num_tokens (int64): 生成回答的令牌数。
reward (float64): 奖励值，用于评估生成质量。
question_index (int64): 问题索引。
target (string): 目标答案或正确回答。
task (string): 任务类型描述。
vf_prediction (float64): 价值函数预测值。
level (int64): 搜索层级（1-4级）。

数据集规模与划分

总样本数: 12,800 条
数据划分: 仅包含 test 集
数据集大小: 约 184 MB（压缩后约 57 MB）
分片数量: 10 个分片

关键性能指标（Aggregated Metrics）

以下是模型在该数据集上的核心性能指标：

回答多样性与准确性

pass@1: 0.4345（单次生成通过率）
pass@128: 0.73（128次生成中至少一次通过）
maj@1: 0.5092（单次投票正确率）
maj@128: 0.6139（128次投票的正确率）
num_unique_answers@1: 0.769（单次生成的平均唯一答案数）
num_unique_answers@128: 7.076（128次生成的平均唯一答案数）

生成与评估资源消耗

总生成输出令牌数: 10,421,000
总评估输出令牌数: 2,597,320
总策略输出令牌数: 7,823,630
总耗时: 6,065.09 秒
平均响应令牌数: 6,111.52
中位数响应令牌数: 4,489.5

搜索层级信息

各级别评估令牌数:
- Level 1: 10,190
- Level 2: 7,040
- Level 3: 4,700
- Level 4: 3,837.5
各级别截断率:
- Level 1: 0.014%
- Level 2-4: 0%

数据用途说明

该数据集主要用于测试和评估语言模型在复杂任务上的生成与推理能力，尤其关注：

多轮搜索与优化（Search Phases）
投票机制（Majority Voting）
生成多样性与通过率

搜集汇总

数据集介绍

构建方式

该数据集源自基于Gemma-4-E4B-it模型进行强化学习与自我博弈训练过程中的生成数据，通过多轮搜索与评判机制构建而成。具体而言，系统针对每个问题生成多达128个候选回答，并经由四级层次化评判器逐级筛选与打分，最终保留最优或多数一致的输出结果。数据集中包含问题文本、模型生成内容、奖励分数、价值函数预测值以及任务类型等字段，共计12,800条测试样本，跨越10个分片文件，确保了数据构建的充分性与多样性。

特点

该数据集的核心特点在于其多维度评估指标的丰富性，涵盖了从响应的生成质量到搜索效率的各个方面。例如，平均响应令牌数达6111.52，而中位数响应令牌数为4489.5，反映出模型生成的细致程度。同时，数据集通过pass@k和maj@k等指标系统地评估了模型在不同采样规模下的表现，如pass@128达到0.73，展现了强大的生成覆盖能力。此外，多级评判器在每一层级的令牌消耗与跳过情况亦被精确记录，为分析模型推理与自我优化过程提供了量化依据。

使用方法

该数据集适用于训练和评估基于强化学习的语言模型，特别是在自我博弈与搜索增强生成场景中。使用者可根据任务类型（task字段）对数据进行分类筛选，并利用奖励分数（reward）与价值预测（vf_prediction）进行模型微调或策略优化。数据集以Parquet格式存储，可通过HuggingFace的datasets库直接加载，或通过提供的JSONL文件进行灵活性处理。评估时，建议采用pass@k或多数投票（maj@k）等指标进行多维度性能衡量，以全面把握模型在不同生成数量下的表现水平。

背景与挑战

背景概述

该数据集基于 Google 的 Gemma 4 模型系列构建，旨在探索通过强化学习与搜索增强技术提升大语言模型在复杂推理任务上的表现。数据集以数学或逻辑推理问题为核心，采用多层级生成与验证策略，记录模型在每个层级上的输出、奖励信号及价值函数预测。由从事强化学习与语言模型交叉领域的研究团队创建，其核心研究问题在于如何利用搜索空间的分层扩展与模型内部评估机制，显著提升 LLM 在开放域推理中的准确性与探索效率。此类数据集的推出，为评估和改进基于搜索的链式推理方法提供了关键的基准参考，推动了交互式智能系统的发展。

当前挑战

该数据集主要面临两大挑战。其一，领域内长期存在的稀疏奖励与长期依赖问题：多数复杂推理任务（如数学证明或策略规划）难以在逻辑链条早期提供有效反馈，模型常因缺乏中间信号而陷入局部最优。其二，构建过程中的评估与采样难题：数据集采用 4 级搜索树，每级扩展 128 条路径，导致生成 Token 数量超过千万，对计算资源消耗巨大；同时，需对不同层级生成的回答质量进行自动化裁判（Judge）评估，而裁判模型的 Token 预算（从高到低递减）与规则一致性之间需要精确平衡，避免过早丢弃有效解。

常用场景

经典使用场景

在探索大规模语言模型推理能力的前沿研究中，rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed65_rg_games__v0数据集构建了一种通过多轮生成与评判机制来评估模型思维链深度的经典范式。该数据集以游戏化任务为媒介，将复杂问题拆解为四个递增难度层级，要求模型在每一层生成回应并接受内置评判器的自动校验，直至抵达最终答案。这种层级递进式的评估框架，为衡量模型在多步推理、自我纠错与策略回溯方面的能力提供了标准化测试基准，尤其适合用于对比不同规模模型在‘搜索-生成’混合架构下的表现差异。

实际应用

在实际产业应用中，该数据集所代表的评估方法论可被直接移植至需要高可靠性、可解释性智能决策的场景。例如，在自动化客户服务系统中，模型可以利用类似的层级生成与验证流程，逐步拆解用户复杂查询，并在每一环节进行正确性校验，从而减少答非所问或逻辑断裂的现象。在代码生成、医疗诊断辅助或法律文书分析等领域，该框架能够帮助系统在给出最终结论前进行多步内部推演与自我完善，显著提升输出结果的稳健性与可信度。

衍生相关工作

围绕该数据集的评测逻辑，已衍生出一系列关于‘搜索增强推理’与‘多轮自我对话’的经典工作。研究者们借鉴其层级评判思想，开发了诸如‘树结构思维搜索’、‘蒙特卡洛树引导的生成策略’以及‘基于奖励模型的动态深度裁剪’等方法。这些衍进工作不仅优化了原始框架中的令牌效率与评判准确率，还将单任务推理扩展到多任务并行场景，催生了更加轻量级的实时推理评估工具。此外，数据集中‘最佳’与‘多数投票’收益的对比分析，也为后续研究在‘集成策略的性价比’这一方向上奠定了实验基础。

以上内容由遇见数据集搜集并总结生成