rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估模型生成回答或响应质量的结构化数据。数据集包含12,800个测试样本，每个样本包含问题（question）、生成ID（generation_id）、生成的回答（generation）、token数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标（target）、任务类型（task）、价值函数预测（vf_prediction）和难度等级（level）等特征字段。数据集总大小为183MB，下载大小为56MB。扩展的聚合指标显示了对不同难度级别（1-4级）和搜索阶段的详细评估结果，包括响应token统计、评判输出、通过率和唯一答案数量等指标，表明该数据集可能用于多级响应生成系统的性能评估。

This dataset contains structured data designed to evaluate the quality of model-generated answers or responses. It comprises 12,800 test samples, each with feature fields including question, generation_id, generation, num_tokens, reward, question_index, target, task, vf_prediction, and level. The total size of the dataset is 183 MB, with a download size of 56 MB. Extended aggregate metrics provide detailed evaluation results across different difficulty levels (levels 1-4) and search stages, including indicators such as response token statistics, judge outputs, pass rates and the number of unique answers. These metrics demonstrate that this dataset can be used for performance evaluation of multi-level response generation systems.

创建时间：

2026-05-06

原始信息汇总

数据集概述：rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0

这是一个用于评估和测试语言模型在游戏类任务中推理能力的公开数据集。

数据集结构

数据文件：采用 Parquet 格式存储，路径为 data/test-*。
数据集划分：仅包含一个 test 测试集。
数据规模：
- 测试集样本数：12,800 条
- 数据集总大小：约 183.1 MB
- 下载大小：约 56.5 MB

数据特征

每条数据包含以下字段：

字段名	数据类型	说明
`question`	string	问题文本
`generation_id`	int64	生成ID
`generation`	string	模型生成的内容
`num_tokens`	int64	生成内容的Token数量
`reward`	float64	奖励/得分
`question_index`	int64	问题索引
`target`	string	目标答案
`task`	string	任务类别
`vf_prediction`	float64	价值函数预测值
`level`	int64	游戏关卡等级

核心评估指标

数据集包含丰富的聚合评估指标，反映模型在游戏任务上的表现：

主要性能指标：
- pass@1：0.437 (单次生成正确率)
- pass@128：0.75 (128次生成中至少一次正确的概率)
- maj@1：0.524 (单次多数投票准确率)
- maj@128：0.611 (128次多数投票准确率)
- w_best@1：0.545 (加权最佳单次结果)
- w_maj@1：0.524 (加权多数投票结果)
生成与评判统计：
- 总策略输出Token数：约 775 万
- 总评判器输出Token数：约 259 万
- 平均响应Token数：6,059
- 中位数响应Token数：4,442
- 总处理时间：约 5,997 秒
多样性指标：
- num_unique_answers@1：0.766 (单次生成中唯一答案比例)
- num_unique_answers@128：6.994 (128次生成中平均唯一答案数量)

配置信息

配置名称：default
数据分片：由 10 个 shard 聚合而成，权重为各 shard 的行数。

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型，通过强化生成（Reinforced Generation, RG）方法构建。具体而言，从多种游戏类任务中采样问题，对每个问题生成多个候选回答（generation），并利用层级式评判机制（judge）对回答在多个难度级别（level 1至4）上进行评估。每个生成回答附带奖励分数（reward）、价值函数预测值（vf_prediction）及令牌数（num_tokens）等元数据。数据构建过程涉及多轮搜索与评判，最终筛选出高质量样本，形成包含10个分片（shard）的测试集，总计12,800条示例。

使用方法

该数据集主要用于评估和微调语言模型在多步推理与游戏类任务中的生成能力。用户可直接从HuggingFace加载测试分片（split='test'），利用'question'字段作为输入，'target'字段作为标准答案，并参考'reward'与'vf_prediction'进行强化学习训练或偏好对齐。此外，'generation_id'与'level'字段可用于分析不同采样策略下的模型表现，适用于benchmark测试或消融实验。数据集规模适中（约183 MB），便于快速迭代实验。

背景与挑战

背景概述

该数据集源自Google DeepMind的Gemma系列模型，创建于2025年，由ReBase研究团队构建，旨在探索强化学习与搜索算法在提升语言模型推理能力方面的潜力。核心研究问题聚焦于如何通过多轮生成与评估机制，使预训练语言模型在复杂任务中实现更高的准确性与一致性，例如在数学推理与代码生成等场景下的表现。该数据集通过统计大量生成样本的聚合指标，如maj@k与pass@k，为模型在搜索增强下的性能评估提供了标准化基准。其发布对推理优化与自监督学习领域产生了深远影响，推动了基于搜索的生成策略在语言模型中的应用与推广。

当前挑战

所解决的领域问题在于传统语言模型在单一生成中难以保证推理的准确性与多样性，尤其是在需要探索多个可能解的复杂任务中，如数学证明与算法设计。构建过程中面临的挑战包括：大规模生成样本的管理与存储，涉及超过千万级的输出token；多层级评价系统的设计，需在四个难度等级上平衡计算成本与评估精度；以及搜索阶段中判决模型（judge model）的高频调用，导致显著的资源消耗与延迟。此外，如何有效聚合多次生成结果以避免随机噪声对评估的影响，也是实现可靠性能度量的关键难题。

常用场景

经典使用场景

在强化学习与大规模语言模型交融的前沿领域，rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0数据集扮演着不可或缺的标杆角色。其经典使用场景聚焦于通过多轮、多层次的生成式对抗游戏（RG Games）框架，来评测和优化策略模型的推理与自我修正能力。研究人员利用该数据集中的问题、多粒度生成结果（generation）以及对应的奖励信号（reward），模拟一个从表层答案到深层逻辑溯源的递进式推理环境。这种设定允许在受控条件下，衡量模型在逐步增加的任务难度（level 1至4）中，其最初生成（pass@1）与经过多次采样、择优后（pass@128）的最终性能差异，从而深入探索模型在复杂认知任务中的鲁棒性和搜索效率。

解决学术问题

该数据集精准地切中了当前学术界在评估大型语言模型高阶推理能力时遭遇的瓶颈。传统单一答案的正确率指标（如pass@1）往往无法全面反映模型探索解空间的深度和广度。rebase_gemma-4-E4B-it...数据集通过精心设计的多级游戏结构和丰富的聚合指标（如maj@k、w_best@k），解决了如何量化模型在“生成-评判-修正”循环中的自我改进潜能这一核心难题。其意义在于，它将评估视角从静态的“结果正确性”转向动态的“搜索鲁棒性”，为衡量模型在数学、编程或逻辑谜题等需要深度思考的任务中的真实表现，提供了一套更为严谨和细致的度量体系。这一贡献有力地推动了关于语言模型是否具备真正“推理”还是仅仅进行“模式匹配”的学术辩论，并催生了更贴近人类认知过程的评估范式。

实际应用

在实际应用层面，该数据集构建的游戏框架为构建高质量、可扩展的合成数据生成管线提供了蓝图。其最直接的应用场景在于训练和微调面向复杂问答（如代码生成、数学证明、法律咨询）领域的大语言模型。通过模拟一个具有多层级难度和内在评判机制的博弈环境，开发者可以利用该数据集框架来自动产生大量带有过程奖励信号（process reward）的优质训练样本。这些样本远比简单的“问题-答案”二元组丰富，它们包含了模型在追求正确答案过程中经历的探索路径、失败尝试以及中间推理步骤。这不仅有助于提升模型在首个答案上的准确率（pass@1），更能显著增强其在面对未见难题时，通过内部思维链搜索生成正确解决方案的韧性，从而直接改善对话助手、智能编程工具等产品的用户体验。

数据集最近研究