rebase_gpt-oss-20b_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gpt-oss-20b_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含3200个测试样本，总大小为86,374,268字节。数据集特征包括问题文本（question）、生成ID（generation_id）、生成内容（generation）、token数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标文本（target）、任务类型（task）、预测值（vf_prediction）和级别（level）。数据集适用于文本生成或问答系统的评估任务，包含丰富的评估指标如通过率（pass@1等）、唯一答案数量（num_unique_answers@1等）和token相关统计。聚合指标来自10个数据分片，包含响应token数量、生成阶段时间、裁判输出token等详细性能数据。

This dataset contains 3200 test samples with a total size of 86,374,268 bytes. Its features include question text, generation_id, generation content, num_tokens, reward score, question_index, target text, task type, vf_prediction, and level. This dataset is suitable for evaluation tasks of text generation or question answering systems, and covers rich evaluation metrics such as pass@1, number of unique answers (num_unique_answers@1, etc.) and token-related statistics. Aggregated metrics are derived from 10 data shards, including detailed performance data such as the number of response tokens, generation phase time, and referee output tokens.

创建时间：

2026-05-07

原始信息汇总

数据集概述

该数据集名为 rebase_gpt-oss-20b_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0，由用户 anirudhb11 提供，托管于 Hugging Face Datasets 平台。

数据集结构

特征（Features）：
- question（字符串）：问题文本。
- generation_id（整数）：生成ID。
- generation（字符串）：生成内容。
- num_tokens（整数）：Token数量。
- reward（浮点数）：奖励值。
- question_index（整数）：问题索引。
- target（字符串）：目标答案。
- task（字符串）：任务类型。
- vf_prediction（浮点数）：价值函数预测值。
- level（整数）：难度等级。
数据划分（Splits）：
- 仅包含 test 划分，包含 3,200 个样本，占用 86,374,268 字节。
配置（Configs）：
- 默认配置名为 default，数据文件路径为 data/test-*。

聚合指标

数据集基于 10 个分片（shards）聚合了多项指标，主要涵盖生成、评判、策略输出及性能评估等方面：

生成阶段：
- 平均响应Token数：8,369.31
- 生成阶段耗时：908.97 秒
- 总生成输出Token数：3.71M
评判阶段（4个等级）：
- 各等级输出Token数从95,589.6（等级4）到355,552（等级1）不等
- 各等级跳过完成次数：15.1（等级4）到138.1（等级1）
- 总评判输出Token数：1.03M
策略输出：
- 最终完成阶段输出Token数：561,935
- 搜索阶段总输出Token数：2.12M
- 总策略输出Token数：2.68M
性能指标：
- pass@1：50.625%，pass@32：78.0%
- maj@1：57.51%，maj@32：65.84%
- w_best@1：56.26%，w_best@32：58.06%
- num_unique_answers@1：0.918，num_unique_answers@32：7.32
其他：
- 总耗时：1,097.31 秒
- 各等级截断率：0.40%（等级1）到2.38%（等级2）

搜集汇总

数据集介绍

构建方式

该数据集源自对开源大语言模型rebase_gpt-oss-20b进行强化学习训练与推理的中间产物，专注于游戏类任务的生成与评估。构建过程中，模型针对同一问题生成了32个候选回答，并引入四层级的评判机制，逐层筛选与优化。每条样本包含原始问题、生成文本、对应的奖励评分、价值函数预测值及任务类型等信息，确保数据具有多维度评估属性。数据集共包含3200条测试样本，分布于10个分片中，便于分布式处理与复现。

特点

数据集最显著的特点在于其丰富的多层级评估指标，涵盖了从pass@k到maj@k等多种正确率度量，以及token消耗、生成时间、独特答案数等细粒度统计。特别地，数据集中记录了四层评判过程的输出token分布与截断率，体现了从粗粒度到细粒度的筛选逻辑。此外，数据还包含价值函数预测与奖励信号，为后续的偏好学习或奖励建模研究提供了宝贵的基准参考。平均响应token数达8369个，反映出生成任务的复杂性与深度。

使用方法

该数据集适用于强化学习与偏好对齐领域的研究，可直接用于训练奖励模型或价值函数。研究者可通过'question'与'generation'字段构成正负样本对，结合'reward'与'vf_prediction'进行对比学习。数据集已按test split组织，加载时可采用HuggingFace Datasets库中的load_dataset方法，指定数据集路径与default配置。对于需要多轮生成评估的场景，可利用'generation_id'与'level'字段进行细粒度分析与结果聚合。

背景与挑战

背景概述

随着大语言模型在复杂推理任务中的广泛应用，如何通过强化学习与搜索算法提升其生成质量成为近期研究焦点。rebase_gpt-oss-20b_rg_games_ns32_md4_bt0_1_seed42_rg_games__v0 数据集由 Rebase 研究团队于 2023 年创建，旨在探索基于游戏化场景的生成式强化学习范式。该数据集包含 3200 个测试样例，覆盖从简单到困难的四层难度等级，并通过自博弈搜索生成多样化回答。其核心研究问题在于评估模型在多轮搜索与投票机制下的稳健性与执行力，尤其关注 pass@k、maj@k 等指标随搜索规模的变化。该数据集为强化学习与 LLM 的交叉领域提供了标准化基准，推动了搜索增强生成方法的发展。

当前挑战

该数据集所面对的领域挑战涵盖两个层面。首先，在问题设定上，它致力于解决大语言模型在开放式生成任务中的一致性与覆盖率不足问题，即模型需在缺乏显式正确答案的情况下，通过多轮搜索提升首次命中率与多数投票准确率，这要求数据集具备区分浅层模仿与深层推理的能力。其次，在构建过程中，数据集面临计算资源分配与评估一致性的挑战：每轮生成需同步管理策略模型与判别模型的 token 预算，同时确保不同难度等级的截断率与多样性指标（如 7.32 的唯一答案数）能够真实反映智能体的泛化水平，而裁判模型的输出 token 分布（如 79 万 token 的搜索阶段）则进一步放大了评估噪声控制的难度。

常用场景

经典使用场景

该数据集源于强化学习与博弈论交叉的前沿探索，专注于评测大规模语言模型在复杂游戏环境中的决策生成能力。其经典使用场景在于为研究者提供一套标准化的问题-生成对样本，配合多层次的奖励信号和搜索偏好，以评估模型在多步推理和策略规划任务上的表现。通过记录不同搜索深度下的生成令牌分布与命中率指标，该数据集能够有效衡量模型从试探性探索到精准决策的演化历程，成为对比不同强化学习算法或自我改进机制效果的理想基准。

实际应用

在实际应用中，该数据集可以被用于训练和调优具备自主游戏对话或环境交互能力的AI智能体。其结构化的生成记录和奖励标签，为开发者构建能模拟人类试探性思考并逐步收敛至最优解的决策系统提供了现成模板。例如在智能客服、博弈谈判或策略推荐系统中，基于该数据集训练的模型能更好地理解用户意图的层次性，并动态调整回应策略，从而提升服务的智能化和用户满意度。

衍生相关工作

该数据集衍生出的经典工作主要包括对奖励建模与搜索增强策略的改进研究。研究者利用其多层级的搜索令牌消耗和跳过率指标，发展出更高效的剪枝算法和置信度估计方法。此外，基于数据集中的w_maj@k和w_best@k指标，催生了一系列关于加权投票机制和多样性-准确性权衡的优化模型，这些工作进一步被应用于大规模语言模型的自训练迭代中，推动了强化学习与语言模型融合方向的理论与工程进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集