rebase_gpt-oss-20b_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gpt-oss-20b_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含12,800个测试样本，每个样本包含多个字段，如问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、vf预测（vf_prediction）和级别（level）。数据集主要用于评估不同级别和阶段的响应性能，提供了丰富的聚合指标，包括令牌计数、通过率和不同阈值下的唯一答案数量。这些指标反映了模型在多个评估维度上的表现，适用于自然语言生成和评估任务。

创建时间：

2026-05-07

原始信息汇总

根据提供的README文件内容，以下是对该数据集详情页的总结：

数据集概述

数据集名称：anirudhb11/rebase_gpt-oss-20b_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0
存储位置：Hugging Face Datasets
数据集大小：下载大小为 134,604,555 字节（约128MB），数据集总大小为 340,371,418 字节（约325MB）

数据特征

该数据集包含10个特征字段：

特征名称	数据类型	说明
`question`	string	问题内容
`generation_id`	int64	生成ID
`generation`	string	生成结果
`num_tokens`	int64	令牌数量
`reward`	float64	奖励值
`question_index`	int64	问题索引
`target`	string	目标值
`task`	string	任务类型
`vf_prediction`	float64	价值函数预测值
`level`	int64	层级

数据划分

数据集仅包含一个划分（split）：

test（测试集）：12,800个样本，共340,371,418字节

聚合指标

数据集从10个分片（shards）聚合而来，主要评估指标包括：

准确率指标：
- maj@1：0.572552（多数投票@1准确率）
- pass@1：0.512031（通过率@1）
- pass@128：0.83（通过率@128）
响应长度统计：
- 平均响应令牌数：8,331.3
- 中位数响应令牌数：5,071
时间统计：
- 生成阶段耗时：2,512.95秒
- 总耗时：3,303.12秒
生成令牌：
- 策略输出令牌总数：10,672,600
- 总生成输出令牌数：15,072,200
判断器（Judge）指标：
- 各层级的判断器输出令牌数、跳过完成次数、截断率等详细信息均有记录
不同采样数下的多样性：
- num_unique_answers@1：0.787
- num_unique_answers@128：11.67

该数据集主要用于评估语言模型在多种生成任务上的表现，包含丰富的性能指标和中间状态信息。

搜集汇总

数据集介绍

构建方式

该数据集基于rebase_gpt-oss-20b模型，通过强化学习与生成式对抗搜索（RG）技术构建而成。在生成过程中，模型针对不同难度级别的游戏问题（共4个等级）进行多次采样与评判，每个问题生成128个候选回答，并利用评判模型对生成结果进行多轮评估与筛选。数据集包含了10个独立分片（shards）的生成结果，经过聚合后形成最终的测试集，总计12,800个样本。每个样本包含问题、生成ID、生成文本、奖励值、评判预测等丰富信息，确保了数据的高质量与多样性。

特点

数据集的一个显著特点是其多维度、多层次的评估体系。通过统计指标如maj@k、pass@k、w_best@k等，能够全面衡量模型在不同采样规模下的性能表现。数据集中记录了每个生成阶段的策略输出tokens数量、评判输出tokens数量以及响应长度分布，反映了模型在推理过程中的资源消耗与效率。此外，数据集还包含了不同难度等级下的生成截断率、唯一答案数量等细粒度指标，为深入分析模型的行为特征提供了宝贵资料。

使用方法

该数据集适用于强化学习策略优化、生成模型评估以及多步推理任务的研究。使用者可以通过加载数据集中的question和target字段进行问题建模，利用generation字段分析模型的输出模式。reward和vf_prediction字段可用于训练奖励模型或值函数网络。建议采用测试集进行模型性能的基准测试，重点关注maj@k和pass@k等聚合指标，以评估模型在多样化生成策略下的鲁棒性与准确性。

背景与挑战

背景概述

随着大规模语言模型在复杂推理任务中的广泛应用，如何系统性地评估其搜索与反思能力成为关键瓶颈。rebase_gpt-oss-20b_rg_games_ns128_md4_bt0_1_seed42_rg_games__v0数据集由REBASE团队于2024年创建，基于GPT-OSS-20B模型在结构化游戏环境中的生成轨迹构建，旨在探索多步推理与搜索策略的范式。该数据集包含12,800个测试样本，每个样本涵盖不同推理层级（level_1至level_4）的生成内容、奖励信号及价值函数预测，为研究模型在多层次搜索树中的决策行为提供了标准化基准。其影响力体现在通过maj@k、pass@k等指标量化了模型在多重采样下的鲁棒性与探索效率，推动了从单一答案生成向搜索引导推理的范式转变，为强化学习与推理优化领域提供了可复现的实验基础。

当前挑战

该数据集核心挑战在于应对语言模型在开放域搜索中的稀疏奖励与采样效率困境。领域层面，模型需在复杂游戏中从多步生成轨迹中辨识有效路径，而奖励信号（reward）的稀疏性导致传统监督学习难以直接优化，需依赖价值函数预测（vf_prediction）与层次化搜索（level_1至level_4）引导策略改进。构建过程中，挑战体现在生成轨迹的多样性控制与评估一致性：如何确保在128次采样（ns128）下生成有意义的搜索树，同时通过4级层次判官（judge_token_count与judge_skipped_completed指标）平衡判断精度与计算开销。此外，截断率（truncated_rate）随层级递增（level_4达2.8%）与判官输出令牌的膨胀（总计440万令牌）揭示了生成质量与资源消耗的权衡，亟需更高效的搜索裁剪与信用分配机制以提升pass@k指标（例如pass@128为83%），避免陷入无意义迭代。

常用场景

经典使用场景

在强化学习与自然语言处理交叉领域，该数据集被广泛用于评估和训练基于搜索策略的文本生成模型。其包含多层级探测任务和丰富的奖励信号，支持对模型在探索与利用平衡中的表现进行细致刻画，尤其擅长评测模型在复杂推理和多步决策场景下的生成质量与鲁棒性。研究者常借助该数据集开展对大规模语言模型自改进能力的探究，通过其独特的‘生成-评判’循环机制，检验模型在未见问题上的泛化潜力与自我修正效能。

实际应用

实际应用中，该数据集支撑了需要高准确度与强鲁棒性的问答系统开发，比如知识图谱补全、法律咨询助手或代码生成助手等场景。开发者可利用其架构实施‘搜索-验证-回溯’流程，对模型输出进行多阶段过滤，显著提升真实场景下的首次回答正确率。此外，在内容审核与合规性检查领域，其多级评判机制有助于构建可解释的风险预警系统，使得模型在面对敏感输入时能够自动降级并生成更为审慎的回应。

衍生相关工作

基于该数据集，研究者已衍生出多项具有深远影响的工作，例如构建了面向复杂数学推理的搜索策略优化算法，通过动态调整搜索深度来平衡计算成本与答案质量。同时，该数据集催生了对于评分函数校准方法的探索，衍生出利用加权多数投票机制提升答案一致性的一系列技术，这些技术在后续的模型集成与自洽性增强研究中被广泛借鉴。此外，针对搜索结果中稀疏奖励信号的难题，相关工作引入了基于过程监督的价值函数预测模型，为长程推理任务的强化学习训练提供了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集