rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed73_rg_games__v0
收藏Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed73_rg_games__v0
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含800个测试样本,主要用于问答或文本生成任务的评估。数据集包含以下字段:问题(question)、生成ID(generation_id)、生成内容(generation)、token数量(num_tokens)、奖励分数(reward)、问题索引(question_index)、目标(target)、任务类型(task)、价值函数预测(vf_prediction)和级别(level)。数据集总大小为11.7MB,下载大小为3.8MB。此外,数据集还提供了从10个分片聚合的详细指标,包括平均响应token数、生成阶段时间、不同级别的评判输出token数、通过率等性能指标,适用于文本生成质量评估和模型性能分析任务。
创建时间:
2026-05-06
原始信息汇总
根据您提供的信息,以下是对该数据集的总结:
数据集概述
该数据集名为 rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed73_rg_games__v0,由 Hugging Face 平台托管。
核心信息
- 数据集大小: 约 11.73 MB (11,729,818 bytes)
- 下载大小: 约 3.83 MB (3,831,405 bytes)
- 数据分割: 仅包含 test 集
- 测试集样本数: 800 个示例
- 配置文件: 默认配置 (default)
- 数据文件路径:
data/test-*
- 数据文件路径:
特征字段
数据集包含以下 10 个特征字段:
- question: 字符串类型,表示问题内容
- generation_id: 整数类型,生成的唯一标识
- generation: 字符串类型,表示模型的生成结果
- num_tokens: 整数类型,生成的 token 数量
- reward: 浮点数类型,奖励分数
- question_index: 整数类型,问题的索引
- target: 字符串类型,目标或正确答案
- task: 字符串类型,任务类型
- vf_prediction: 浮点数类型,价值函数预测值
- level: 整数类型,表示层级
聚合指标
该数据集包含来自 10 个分片 的聚合指标,部分关键指标如下:
- maj@1: 0.54833 (多数投票准确率 @1)
- pass@1: 0.44875 (通过率 @1)
- pass@8: 0.62 (通过率 @8)
- 平均响应 Token 数: 6250.52
- 总生成输出 Token 数: 659,738
- 总策略输出 Token 数: 500,074
- 总评估输出 Token 数: 159,665
- 总时间 (秒): 856.697
- 唯一答案数 @1: 0.984
- 唯一答案数 @8: 2.91
搜集汇总
数据集介绍

构建方式
该数据集名为rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed73_rg_games__v0,源自对Gemma-4-E4B-it模型进行强化学习训练过程中的数据收集。具体而言,数据通过RG(Reward Gaming)游戏机制构建,采用ns8(采样8次)、md4(最大深度4)、bt0.1(温度0.1)等参数设置,并固定随机种子73以确保可复现性。每条数据包含一个问题(question)、模型生成的回答(generation)、对应的奖励值(reward)、价值函数预测(vf_prediction)以及任务类型(task)等字段。数据收集过程中记录了多个层次的评判令牌消耗与生成令牌数量,并通过搜索阶段汇总,最终形成包含800个样本的测试集。
特点
该数据集的核心特点在于其多层次的评估体系与丰富的元信息。每条数据不仅包含基础的问答对,还记录了模型生成回答的令牌数、奖励分数、价值函数预测以及问题索引,便于进行细粒度的性能分析。数据集中包含了从简单到复杂四个级别的评判结果,以及针对不同投票策略(如maj@k、pass@k、w_best@k)的聚合指标,展示了模型在不同采样规模下的准确率与多样性。此外,数据集还提供了诸如响应令牌中位数、唯一答案数量等统计量,全面反映了模型生成行为的质量与稳定性。
使用方法
该数据集适用于强化学习、偏好对齐以及生成式模型评估等研究场景。用户可通过加载HuggingFace数据集库,使用默认配置直接读取test分片中的800个样本。每条数据均包含question字段作为输入,generation字段作为模型输出,reward和vf_prediction字段可用于训练奖励模型或价值网络。此外,数据集中的task和level字段支持按任务难度进行分层分析,而question_index则便于追踪同一问题的多次生成结果。研究者还可利用聚合指标中的maj@k与pass@k值,评估模型在不同投票策略下的鲁棒性表现。
背景与挑战
背景概述
在大语言模型与强化学习深度融合的背景下,搜索型推理任务的评估与优化成为提升模型自主决策能力的关键挑战。rebase_gemma-4-E4B-it_rg_games_ns8_md4_bt0_1_seed73_rg_games__v0数据集由研究团队基于Gemma-4B模型构建,旨在通过多轮奖励反馈机制系统性地评估模型在复杂搜索游戏环境中的表现。该数据集记录了800条测试样本,涵盖了从基础问答到多层级搜索任务的完整推理链条,其核心研究问题在于如何利用精细化的奖励信号引导模型产生更具策略性和多样性的生成结果。通过集成多指标评估体系,该数据集为后续探索在线策略优化与离线偏好学习提供了重要的基准支撑,在推动语言模型推理能力向更高层次跃迁方面展现出显著潜力。
当前挑战
该数据集所面临的挑战首先体现在领域问题层面:搜索游戏任务要求模型在有限信息下进行多步推理,并兼顾策略探索与利用,传统监督学习难以模拟此类动态决策过程,导致模型容易陷入局部最优。其次,在构建过程中,需要设计包含四个层级的评判机制,每个层级对生成内容的质量和完成度施加不同约束,这带来了奖励稀疏性与校准精度的矛盾。此外,数据集生成阶段需控制token预算与无效输出比例,从聚合指标可见,平均响应token数高达6250,而测试样本的多样性达到接近1的特征,如何在保证大规模生成效率的同时维持推理路径的稳健性,仍是亟待解决的构建难题。
常用场景
经典使用场景
该数据集专为强化学习与大规模语言模型(LLM)的交互式对齐训练而设计,最经典的使用场景在于利用基于搜索的奖励模型(如蒙特卡洛树搜索或束搜索)对模型生成的多个候选回答进行评分与排序。通过数据集中的多层次评价指标(如maj@k、pass@k、num_unique_answers等),研究者可以系统性地评估不同采样策略与奖励信号对模型输出质量的影响。同时,数据集中包含的`vf_prediction`和`reward`字段使得它成为研究值函数估计与奖励建模的理想资源,特别适用于训练具有自省能力的语言智能体。
解决学术问题
该数据集有效解决了大规模语言模型在复杂推理和生成任务中缺乏细粒度反馈信号的困境。传统监督微调依赖人工标注,难以覆盖多步推理中的局部奖励分配问题。而此数据集通过分层次的搜索奖励机制(level 1至level 4)与详细的token级策略输出统计,为研究者提供了探究‘探索-利用’平衡、响应多样性、以及推理长度与准确率之间内在联系的全新工具。其累积的`judge_token_cdf`与`truncated_rate`等指标,更是衡量模型生成边际效益与效率瓶颈的关键线索。
衍生相关工作
该数据集的衍生工作主要集中在两个方向:其一,基于其奖励排序机制发展出的‘迭代式自改进语言模型’,即利用搜索阶段的高奖励输出作为后续训练的伪标签,形成自我博弈式的强化学习循环;其二,围绕`num_unique_answers`与`truncated_count`等分布特性,出现了探究模型‘思维链长尾效应’与‘隐式知识涌现’的理论研究。此外,数据集中各level的`judge_output_tokens`与`policy_output_tokens`被广泛用于量化分析搜索深度与生成质量之间的权衡,催生了‘自适应计算预算分配’的相关算法。
以上内容由遇见数据集搜集并总结生成



