rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，主要用于评估模型生成内容的质量和多样性。数据集包含以下字段：问题(question)、生成ID(generation_id)、生成内容(generation)、令牌数量(num_tokens)、奖励(reward)、问题索引(question_index)、目标(target)、任务(task)、价值函数预测(vf_prediction)和级别(level)。数据集仅包含测试集，共有3200个样本，总大小为46698979字节。聚合指标显示，数据集评估了不同级别的模型输出令牌数量、跳过率、通过率等，适用于模型响应质量评估和多样性分析任务。

创建时间：

2026-05-06

原始信息汇总

根据您提供的数据集详情页 README 文件内容，以下是对该数据集的总结：

数据集概述

数据集名称：rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0
数据集地址：https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0

数据集特征

该数据集包含以下 10 个特征列，均为结构化数据：

特征名称	数据类型	描述
`question`	字符串	问题内容
`generation_id`	整数	生成 ID
`generation`	字符串	生成的答案
`num_tokens`	整数	生成的 token 数量
`reward`	浮点数	奖励值
`question_index`	整数	问题索引
`target`	字符串	目标答案
`task`	字符串	任务类型
`vf_prediction`	浮点数	价值函数预测值
`level`	整数	难度等级

数据集划分

唯一划分：测试集（test）
测试集：
- 样本数量：3,200 条
- 数据大小：46,698,979 字节
下载大小：14,811,624 字节

配置信息

配置名称：default
数据文件：测试集数据文件路径为 data/test-*（通配符匹配多个分片文件）

聚合指标

数据集包含从 10 个分片聚合的评估指标，关键指标如下：

指标	值	说明
`avg_response_tokens`	6204.68	平均响应 token 数
`median_response_tokens`	4492.35	中位响应 token 数
`pass@1`	0.435937	单次生成通过率
`pass@16`	0.656539	16 次生成通过率
`pass@32`	0.68	32 次生成通过率
`maj@1`	0.51124	单次多数投票准确率
`maj@16`	0.589037	16 次多数投票准确率
`maj@32`	0.614983	32 次多数投票准确率
`total_time_s`	1938.01	总耗时（秒）
`total_generated_output_tokens`	2,641,610	总生成输出 token 数
`total_judge_output_tokens`	655,983	总评判输出 token 数

搜集汇总

数据集介绍

构建方式

该数据集是基于Gemma-4-E4B-it模型，通过强化学习与游戏化搜索（Reinforcement Learning with Games）策略构建而成。具体而言，数据集包含了从多个搜索阶段（共四层）收集的模型生成结果，每一层都经过了严格的质量评判与奖励打分。生成过程采用了32次采样、4次探索深度、0.1的奖励阈值及固定随机种子65等参数配置，最终汇总为10个数据分片，共计3200条测试样本。每条样本均记录了原始问题、生成答案、令牌数量、奖励值、价值函数预测及任务类型等关键信息。

特点

该数据集的核心特色在于其多层次的搜索与评判机制。数据集中不仅包含单一模型的直接生成结果，还覆盖了搜索过程中的中间产出，从而为评估模型在复杂推理任务中的性能提供了丰富视角。伴随数据集的聚合指标显示，模型在多个评价维度（如maj@k、pass@k、num_unique_answers@k）上均呈现出随着采样数增加而性能提升的趋势，体现了集成策略的有效性。此外，数据集还记录了搜索阶段中评判模型消耗的令牌数、跳过判断的次数等细粒度信息，有助于深入分析模型行为的效率与瓶颈。

使用方法

该数据集可直接用于评估和对比不同语言模型在复杂推理任务上的表现。用户可加载测试集中的'question'字段作为输入，将数据集中的'generation'视为参考答案或基线输出，通过计算与自有模型输出的一致性来验证模型性能。数据集提供的'reward'和'vf_prediction'字段可进一步用于强化学习中的奖励建模或价值函数学习。同时，利用'level'和'task'字段，研究者能够针对不同难度层级和任务类型进行细粒度分析，从而更全面地理解模型的推理能力边界。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0，由rebase团队基于Gemma-4-E4B-it模型构建，旨在评估和提升语言模型在复杂多步推理任务中的表现。数据集创建于2025年左右，核心研究问题围绕如何通过多轮生成与评判机制（如搜索阶段的多层次评判）来提升模型在游戏类任务中的准确性与鲁棒性。其技术路线涉及多阶段token生成、奖励信号反馈以及投票聚合策略（如maj@k和pass@k），为探索强化学习与搜索算法在语言模型推理中的应用提供了基准。该数据集在推理增强、模型对齐和搜索策略优化等领域具有潜在影响力，尤其适用于需要逐步决策和探索的问题场景。

当前挑战

数据集所解决的领域问题在于：语言模型在面对需要多步推理和探索的游戏类任务时，常因局部最优或搜索空间过大而难以获得全局正确解，传统单次生成方式易产生错误累积。构建过程中遇到的挑战包括：1）设计有效的多层次评判机制，以在有限的token预算内平衡搜索深度与计算开销；2）确保生成样本的多样性与覆盖度，避免模式坍塌；3）处理评判器在不同难度级别下的判断一致性，如level_1至level_4的token消耗差异可能反映任务复杂度的非均匀分布；4）在聚合多轮生成结果时，需克服投票噪声与稀疏奖励问题，以提升maj@k等指标的稳定性。

常用场景

经典使用场景

该数据集专为评估和提升大规模语言模型在复杂推理任务中的表现而设计，经典使用场景聚焦于多轮搜索与迭代生成策略的效能检验。通过记录模型在四层递进式难度关卡中的生成轨迹、推理步长及奖励信号，研究者得以量化模型在问题求解过程中从浅层匹配到深层逻辑追溯的演进能力。数据集特别适用于测试自洽性采样（如maj@k）与最佳路径筛选（如w_best@k）等聚合策略在强化学习框架下的增益效果，成为解码复杂语言任务中模型行为模式的标准化基准。

解决学术问题

该数据集有效攻克了语言模型在多步推理场景中缺乏细粒度过程监督与动态评测机制的学术瓶颈。传统评测多依赖单次生成结果，难以揭示模型在长链条逻辑中的错误传播与修复潜能。此数据集通过引入分层任务结构、过程奖励信号及多维度采样指标（pass@k、num_unique_answers等），为研究者提供了剖析模型内部搜索空间、探索推理深度与生成多样性之间权衡关系的实证工具。其贡献在于推动了从静态答案评估向动态推理过程诊断的研究范式转变，显著提升了复杂问题求解的透明度与可控性。

衍生相关工作

该数据集催生了一系列关于搜索增强推理与过程奖励建模的经典工作。研究者在此基础上提出了多阶段自一致性修正框架，通过动态调整采样分支的奖励权重来优化推理路径；亦涌现出针对层级搜索策略的对比分析，系统论证了不同深度采样率对maj@k与pass@k指标的差异化影响。此外，数据集中的过程令牌分布与截断信号统计为设计自适应推理预算的轻量级方案提供了实证基础，推动了在token效率与生成质量之间寻求最优平衡的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集