rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed42_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed42_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含800个测试样本，总大小为11,684,645字节。数据集包含多个特征字段，包括问题文本(question)、生成ID(generation_id)、生成内容(generation)、token数量(num_tokens)、奖励分数(reward)、问题索引(question_index)、目标(target)、任务类型(task)、价值函数预测(vf_prediction)和难度等级(level)。数据集主要用于多阶段或多层次的任务评估，包含丰富的性能指标数据，如不同级别的token统计、通过率(pass@k)、多数投票准确率(maj@k)等。聚合指标显示数据来自10个分片，包含响应token数、评判输出token数、时间统计等详细指标。

创建时间：

2026-05-06

原始信息汇总

数据集概述

该数据集名为 rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed42_rg_games__v0，托管在 Hugging Face 上。

基本信息

数据集地址：https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed42_rg_games__v0
配置：仅包含一个名为 default 的配置。
数据集大小：约 11.68 MB（下载大小约为 3.88 MB）。
数据划分：仅包含 test 集，共 800 个样本。

数据特征

数据集包含以下字段：

字段名	类型	说明
`question`	string	问题内容
`generation_id`	int64	生成 ID
`generation`	string	生成的文本
`num_tokens`	int64	生成的 token 数量
`reward`	float64	奖励值
`question_index`	int64	问题索引
`target`	string	目标答案
`task`	string	任务类型
`vf_prediction`	float64	值函数预测
`level`	int64	难度等级

聚合指标（摘要）

该数据集汇总了来自 10 个分片的加权平均评估指标，反映了生成与评判过程的性能：

生成阶段：
- 平均响应 tokens：6214.74
- 中位数响应 tokens：4617.3
- 生成阶段时间：772.32 秒
策略输出：
- 总策略输出 tokens：497,189
- 最终完成策略输出 tokens：22,293.8
评判输出：
- 总评判输出 tokens：164,479
- 各等级 token 数量：等级 1 为 5215，等级 2 为 4385，等级 3 为 2725，等级 4 为 2087.5
主要性能指标：
- pass@1: 0.4388 （即一次通过率 43.88%）
- pass@8: 0.62 （即经过 8 次采样后通过率 62%）
- maj@1: 0.5243 （多数投票准确率 52.43%）
- maj@8: 0.5892 （多数投票 8 次准确率 58.92%）
- num_unique_answers@1: 0.985 （平均唯一答案数量接近 1）
- num_unique_answers@8: 3.036 （平均 8 次采样后唯一答案数约 3 个）
截断情况：所有等级（1-4）的截断次数和截断率均为 0。

搜集汇总

数据集介绍

构建方式

该数据集基于强化学习与博弈论（Reinforcement Learning from Game Theory）框架构建，以Gemma-4-E4B-it模型为基础，通过自对弈（self-play）的方式生成数据。在生成过程中，模型针对多样化的游戏任务（task）和难度级别（level）进行回答，每轮生成均包含问题（question）、对应的模型生成（generation）、以及由评判模型（judge）计算得到的奖励信号（reward）与价值函数预测（vf_prediction）。数据集的构建融合了搜索阶段的多层次评审机制，共涉及10个分片（shards），最终汇聚成包含800个样本的测试集，每个样本记录了从初始响应到最终完成的全过程元数据。

特点

数据集的核心特点在于其多层次、多维度的评估指标与丰富的元数据记录。每个样本不仅包含基础的问答对，还涵盖了生成阶段的响应令牌数（num_tokens）、奖励值、生成ID（generation_id）以及问题索引（question_index）。特别地，该数据集提供了从Maj@1到Maj@8、Pass@1到Pass@8、以及加权投票（w_maj@k）等多项聚合指标，反映了模型在不同抽样次数下的表现稳定性和多样性。此外，数据集中还包含了四个难度级别（level 1-4）的评判令牌消耗与截断率统计，为深入分析模型的推理效率与生成质量提供了翔实依据。

使用方法

该数据集可直接用于评估和对比大语言模型在复杂游戏任务中的推理与生成能力。使用时，可通过加载HuggingFace Datasets库中的默认配置（config_name: default）获取测试集（split: test），其中每个样本的字段包括question、generation、reward等。研究人员可基于reward字段筛选高质量响应，或利用target和task字段进行多任务学习。同时，借助num_tokens和vf_prediction字段，可对模型的生成效率与价值估计能力进行定量分析，从而优化模型在博弈场景下的策略表现。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed42_rg_games__v0，由研究机构通过强化学习与游戏化推理框架构建，核心研究问题聚焦于评估大语言模型在多轮搜索与复杂推理任务中的性能。数据集创建于大规模模型微调与对齐研究背景下，旨在探索通过奖励信号引导模型生成高质量响应的机制。其影响力体现在为模型推理能力评估提供了细粒度指标，如maj@k与pass@k等，推动了对生成式模型在结构化任务中鲁棒性研究的深入。

当前挑战

该数据集所解决的领域挑战在于大语言模型在复杂推理任务中存在的生成多样性不足与正确率低的问题，尤其体现在多步搜索策略和答案一致性上。构建过程中面临的具体挑战包括：多层级评价体系的设计以确保生成响应在不同复杂度下的有效性，以及平衡模型响应长度与推理深度之间的权衡。此外，数据集因生成过程中需处理大量token与评价输出，面临计算资源开销大、评价指标多且需归一化的技术难题。

常用场景

经典使用场景

在强化学习与自然语言处理交叉领域，rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed42_rg_games__v0数据集为训练和评估基于Gemma架构的对话式智能体提供了丰富的多层级游戏场景。其核心设计聚焦于通过分阶段搜索任务，模拟现实世界中复杂决策链条，使研究者能够系统性地探究语言模型在递进式推理与奖励驱动下的行为演化。该数据集中高维度的奖励信号与按难度分层的任务设置，成为检验策略网络在多步推理中泛化能力的标杆。

衍生相关工作

该数据集催生了多项创新性研究工作，如对多轮生成过程中奖励模型的层级化设计，以及将搜索阶段token消耗作为效率指标的优化算法。已有工作基于该数据集的‘w_maj@k’与‘num_unique_answers’等统计量，提出了新的投票聚合机制与强化学习策略。此外，针对数据集中的层级指标，研究者开发了动态修剪技术以降低推理成本。

数据集最近研究