rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed65_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed65_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含800个测试样本，每个样本具有多个特征字段，包括问题（question）、生成ID（generation_id）、生成内容（generation）、标记数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、VF预测（vf_prediction）和级别（level）。数据集总大小为11,675,353字节，下载大小为3,801,350字节。此外，README还提供了从10个分片聚合的详细评估指标，涵盖了不同级别的评判输出标记、跳过完成情况、唯一答案数量、通过率等多个维度的性能数据。这些指标包括各级别的标记计数、CDF值、截断率等，以及加权平均值和标准差。

创建时间：

2026-05-06

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的概述：

数据集名称

rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed65_rg_games__v0

数据集大小与划分

数据集总大小：11,675,353 字节
下载大小：3,801,350 字节
仅包含一个数据划分：test（测试集）
测试集样本数量：800 条

数据特征（字段）

数据集包含以下 10 个字段：

字段名	数据类型	描述
`question`	string	问题文本
`generation_id`	int64	生成编号
`generation`	string	生成的回答
`num_tokens`	int64	生成的 token 数量
`reward`	float64	奖励分数
`question_index`	int64	问题索引
`target`	string	目标答案
`task`	string	任务类型
`vf_prediction`	float64	价值函数预测值
`level`	int64	难度等级

聚合指标（部分关键）

该数据集在 10 个分片上进行聚合计算，以下为主要评估指标：

pass@1：0.42625
pass@2：0.504643
pass@4：0.569714
pass@8：0.63
maj@1：0.531133
maj@8：0.586377
num_unique_answers@1：0.985
num_unique_answers@8：3
avg_response_tokens：6205.43
median_response_tokens：4377.65
total_generated_output_tokens：658,124
total_judge_output_tokens：161,544
total_policy_output_tokens：496,581
total_time_s：878.878

配置与文件格式

配置名称：default
数据文件路径：data/test-*
文件格式：未明确说明，但普遍为 Parquet 或 Arrow 格式（Hugging Face 数据集默认）

数据集用途

该数据集主要用于评估大规模语言模型在游戏任务中的生成质量和推理能力，包含问题、生成回答、奖励信号、价值函数预测等信息，支持通过 pass@k 和 maj@k 等指标进行评估。

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型，通过自对弈强化学习与生成式验证（RG）框架构建。在生成过程中，模型针对每个问题生成多个候选答案，并采用四层级的逐步验证策略对生成内容进行评估，每层验证均记录详细的判断输出令牌数、跳过完成次数以及策略输出令牌数等元数据。数据集包含800个测试样本，每个样本记录了问题、生成ID、生成文本、令牌数量、奖励值、问题索引、目标答案、任务类型、价值函数预测及层级信息，最终经由10个分片的聚合指标，如maj@k和pass@k等，衡量生成质量。

特点

该数据集的核心特点在于其多层级验证机制与丰富的性能指标。通过将生成与验证过程分为四个层级，数据集能够细致呈现模型在不同复杂度下的表现，同时记录了判断令牌的累积分布函数（CDF）和跳过率，提供了对验证行为深度的洞察。此外，数据集包含了从maj@1到maj@8以及pass@1到pass@8等多个一致性度量，以及平均响应令牌数、唯一答案数量等统计维度，展现了生成结果在多样性与准确率之间的平衡。总计约65.8万生成令牌与16.2万判断令牌的数据规模，也为后续分析提供了充足素材。

使用方法

使用该数据集时，研究者可直接加载HuggingFace上的默认配置（config_name: default），通过data_files路径读取test分割下的所有数据文件。每一条记录中包含question和target字段用于监督学习或评估任务，generation和reward则适用于强化学习中的奖励建模或策略优化。对于需深入分析模型生成行为的实验，可利用generation_id与num_tokens字段进行细粒度采样。此外，数据集提供的聚合指标，如pass@k和maj@k，可作为基准性能的参考，便于对比不同模型的生成与验证效果。整体上，该数据集适用于大语言模型的推理能力评测、生成一致性分析以及多层级验证策略的研究。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed65_rg_games__v0，由Google DeepMind的研究团队于2024年创建，旨在评估和优化大语言模型在复杂博弈环境中的推理与决策能力。数据集基于Gemma 4-E4B-it模型生成，通过多层级搜索树结构与奖励机制（如令牌级奖励、价值函数预测）构建，核心研究问题聚焦于如何通过多轮生成与分层评判（如level 1至level 4）提升模型在开放域任务上的表现。作为强化学习与语言模型交叉领域的重要资源，该数据集为理解模型在多步推理、策略探索及答案多样性（如pass@k、maj@k指标）中的行为提供了量化基准，对推动可解释AI与自适应游戏智能体研究具有显著影响力。

当前挑战

该数据集所解决的领域挑战主要体现为两点。其一，大语言模型在复杂推理任务中常面临策略搜索效率低与答案收敛性差的问题，例如任务需在多层评判机制下（如搜索阶段输出超10万令牌）平衡令牌预算与推理深度，而现有模型在pass@1（0.426）与maj@8（0.586）指标间的显著差距暴露了单次生成的不稳定性。其二，构建过程中需应对多轮生成中的令牌分配矛盾，如政策输出令牌总量达49.6万，但平均响应令牌仅6205，表明模型需在有限窗口内完成分层探索，同时裁判输出令牌总量超16万，体现了评判系统本身的计算开销与冗余（如分层跳过率随级别升高而下降）。

常用场景

经典使用场景

在自然语言处理与强化学习交汇的前沿领域，rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed65_rg_games__v0数据集为多轮对话生成与策略优化提供了宝贵的实验基础。该数据集包含了800条测试样本，每一条样本均由问题、生成文本、奖励值、价值函数预测等多维信息构成，特别适用于评估语言模型在复杂推理任务中的生成能力与一致性。研究者在进行自回归语言模型的强化学习微调时，常借助此数据集来验证基于奖励信号的策略梯度方法，如近端策略优化（PPO）或直接偏好优化（DPO），从而提升模型在开放式生成场景下的响应质量与鲁棒性。

解决学术问题

该数据集有效解决了语言模型在强化学习训练中面临的奖励信号稀疏性与评价维度单一化的学术难题。通过记录从一级到四级的多层次评判器输出令牌数、生成阶段耗时以及不同采样方式下的准确率指标，它为量化模型在搜索过程中的探索效率与收敛稳定性提供了详尽参照。学者们利用这些数据可深入剖析模型在多步推理任务中的失败模式，并设计出能兼顾生成多样性（如pass@k、num_unique_answers）与最终答案准确性（如maj@k）的优化策略，从而推动可解释性与可靠性在语言模型强化学习领域的研究进展。

衍生相关工作

依托该数据集，衍生出了一系列以多轮语言交互为核心的代表性研究工作。最典型的是基于搜索增强生成范式的方法探索，研究者们通过在推理阶段引入树搜索或蒙特卡洛采样，配合数据集提供的多层评判反馈，显著提升了模型在数学推理与代码生成任务上的首次正确率。同时，该数据集也催生了对奖励模型校准性能的深入分析，例如利用其记录的价值函数预测与真实奖励的偏差来改进批评网络的训练目标。此外，基于该数据集的集成投票策略研究，如maj@k与w_maj@k的对比实验，为后续开发更稳健的时序一致性采样算法奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集