five

rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于评估模型生成回答或响应质量的结构化数据。数据集包含12,800个测试样本,每个样本包含问题(question)、生成ID(generation_id)、生成的回答(generation)、token数量(num_tokens)、奖励分数(reward)、问题索引(question_index)、目标(target)、任务类型(task)、价值函数预测(vf_prediction)和难度等级(level)等特征字段。数据集总大小为183MB,下载大小为56MB。扩展的聚合指标显示了对不同难度级别(1-4级)和搜索阶段的详细评估结果,包括响应token统计、评判输出、通过率和唯一答案数量等指标,表明该数据集可能用于多级响应生成系统的性能评估。

This dataset contains structured data designed to evaluate the quality of model-generated answers or responses. It comprises 12,800 test samples, each with feature fields including question, generation_id, generation, num_tokens, reward, question_index, target, task, vf_prediction, and level. The total size of the dataset is 183 MB, with a download size of 56 MB. Extended aggregate metrics provide detailed evaluation results across different difficulty levels (levels 1-4) and search stages, including indicators such as response token statistics, judge outputs, pass rates and the number of unique answers. These metrics demonstrate that this dataset can be used for performance evaluation of multi-level response generation systems.
创建时间:
2026-05-06
原始信息汇总

数据集概述:rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0

这是一个用于评估和测试语言模型在游戏类任务中推理能力的公开数据集。

数据集结构

  • 数据文件:采用 Parquet 格式存储,路径为 data/test-*
  • 数据集划分:仅包含一个 test 测试集。
  • 数据规模
    • 测试集样本数:12,800 条
    • 数据集总大小:约 183.1 MB
    • 下载大小:约 56.5 MB

数据特征

每条数据包含以下字段:

字段名 数据类型 说明
question string 问题文本
generation_id int64 生成ID
generation string 模型生成的内容
num_tokens int64 生成内容的Token数量
reward float64 奖励/得分
question_index int64 问题索引
target string 目标答案
task string 任务类别
vf_prediction float64 价值函数预测值
level int64 游戏关卡等级

核心评估指标

数据集包含丰富的聚合评估指标,反映模型在游戏任务上的表现:

  • 主要性能指标

    • pass@1:0.437 (单次生成正确率)
    • pass@128:0.75 (128次生成中至少一次正确的概率)
    • maj@1:0.524 (单次多数投票准确率)
    • maj@128:0.611 (128次多数投票准确率)
    • w_best@1:0.545 (加权最佳单次结果)
    • w_maj@1:0.524 (加权多数投票结果)
  • 生成与评判统计

    • 总策略输出Token数:约 775 万
    • 总评判器输出Token数:约 259 万
    • 平均响应Token数:6,059
    • 中位数响应Token数:4,442
    • 总处理时间:约 5,997 秒
  • 多样性指标

    • num_unique_answers@1:0.766 (单次生成中唯一答案比例)
    • num_unique_answers@128:6.994 (128次生成中平均唯一答案数量)

配置信息

  • 配置名称default
  • 数据分片:由 10 个 shard 聚合而成,权重为各 shard 的行数。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Gemma-4-E4B-it模型,通过强化生成(Reinforced Generation, RG)方法构建。具体而言,从多种游戏类任务中采样问题,对每个问题生成多个候选回答(generation),并利用层级式评判机制(judge)对回答在多个难度级别(level 1至4)上进行评估。每个生成回答附带奖励分数(reward)、价值函数预测值(vf_prediction)及令牌数(num_tokens)等元数据。数据构建过程涉及多轮搜索与评判,最终筛选出高质量样本,形成包含10个分片(shard)的测试集,总计12,800条示例。
使用方法
该数据集主要用于评估和微调语言模型在多步推理与游戏类任务中的生成能力。用户可直接从HuggingFace加载测试分片(split='test'),利用'question'字段作为输入,'target'字段作为标准答案,并参考'reward'与'vf_prediction'进行强化学习训练或偏好对齐。此外,'generation_id'与'level'字段可用于分析不同采样策略下的模型表现,适用于benchmark测试或消融实验。数据集规模适中(约183 MB),便于快速迭代实验。
背景与挑战
背景概述
该数据集源自Google DeepMind的Gemma系列模型,创建于2025年,由ReBase研究团队构建,旨在探索强化学习与搜索算法在提升语言模型推理能力方面的潜力。核心研究问题聚焦于如何通过多轮生成与评估机制,使预训练语言模型在复杂任务中实现更高的准确性与一致性,例如在数学推理与代码生成等场景下的表现。该数据集通过统计大量生成样本的聚合指标,如maj@k与pass@k,为模型在搜索增强下的性能评估提供了标准化基准。其发布对推理优化与自监督学习领域产生了深远影响,推动了基于搜索的生成策略在语言模型中的应用与推广。
当前挑战
所解决的领域问题在于传统语言模型在单一生成中难以保证推理的准确性与多样性,尤其是在需要探索多个可能解的复杂任务中,如数学证明与算法设计。构建过程中面临的挑战包括:大规模生成样本的管理与存储,涉及超过千万级的输出token;多层级评价系统的设计,需在四个难度等级上平衡计算成本与评估精度;以及搜索阶段中判决模型(judge model)的高频调用,导致显著的资源消耗与延迟。此外,如何有效聚合多次生成结果以避免随机噪声对评估的影响,也是实现可靠性能度量的关键难题。
常用场景
经典使用场景
在强化学习与大规模语言模型交融的前沿领域,rebase_gemma-4-E4B-it_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0数据集扮演着不可或缺的标杆角色。其经典使用场景聚焦于通过多轮、多层次的生成式对抗游戏(RG Games)框架,来评测和优化策略模型的推理与自我修正能力。研究人员利用该数据集中的问题、多粒度生成结果(generation)以及对应的奖励信号(reward),模拟一个从表层答案到深层逻辑溯源的递进式推理环境。这种设定允许在受控条件下,衡量模型在逐步增加的任务难度(level 1至4)中,其最初生成(pass@1)与经过多次采样、择优后(pass@128)的最终性能差异,从而深入探索模型在复杂认知任务中的鲁棒性和搜索效率。
解决学术问题
该数据集精准地切中了当前学术界在评估大型语言模型高阶推理能力时遭遇的瓶颈。传统单一答案的正确率指标(如pass@1)往往无法全面反映模型探索解空间的深度和广度。rebase_gemma-4-E4B-it...数据集通过精心设计的多级游戏结构和丰富的聚合指标(如maj@k、w_best@k),解决了如何量化模型在“生成-评判-修正”循环中的自我改进潜能这一核心难题。其意义在于,它将评估视角从静态的“结果正确性”转向动态的“搜索鲁棒性”,为衡量模型在数学、编程或逻辑谜题等需要深度思考的任务中的真实表现,提供了一套更为严谨和细致的度量体系。这一贡献有力地推动了关于语言模型是否具备真正“推理”还是仅仅进行“模式匹配”的学术辩论,并催生了更贴近人类认知过程的评估范式。
实际应用
在实际应用层面,该数据集构建的游戏框架为构建高质量、可扩展的合成数据生成管线提供了蓝图。其最直接的应用场景在于训练和微调面向复杂问答(如代码生成、数学证明、法律咨询)领域的大语言模型。通过模拟一个具有多层级难度和内在评判机制的博弈环境,开发者可以利用该数据集框架来自动产生大量带有过程奖励信号(process reward)的优质训练样本。这些样本远比简单的“问题-答案”二元组丰富,它们包含了模型在追求正确答案过程中经历的探索路径、失败尝试以及中间推理步骤。这不仅有助于提升模型在首个答案上的准确率(pass@1),更能显著增强其在面对未见难题时,通过内部思维链搜索生成正确解决方案的韧性,从而直接改善对话助手、智能编程工具等产品的用户体验。
数据集最近研究
最新研究方向
该数据集聚焦于利用Gemma-4-E4B-it模型进行多轮自博弈强化学习,通过搜索树(Search)与多层级评判机制(Level 1-4)优化策略,提升大语言模型在复杂推理任务中的性能。研究中引入pass@k、maj@k等指标评估生成多样性与准确性,并探索奖励建模与价值函数预测(vf_prediction)的协同作用。近年来,随着RLHF与LLM自我对弈技术的兴起,此类数据集成为推动模型推理能力与对齐水平的重要工具,其意义在于为弱监督信号下的高效学习提供可扩展的实证基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作