rebase_Qwen3.5-4B_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_Qwen3.5-4B_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，包括问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、VF预测（vf_prediction）和级别（level）。数据集分为一个测试集（test），包含3200个样本，总大小为58353711字节。下载大小为17852636字节。数据集适用于评估生成模型的性能，包含丰富的评估指标和令牌统计信息，如平均响应令牌数、生成阶段时间、不同级别的法官输出令牌数等。这些指标从10个分片聚合而来，提供了全面的模型性能分析。

创建时间：

2026-05-07

原始信息汇总

根据您提供的数据集详情页面README内容，以下是对该数据集的总结概述：

数据集概述

该数据集名为 rebase_Qwen3.5-4B_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0，由用户 anirudhb11 托管于 Hugging Face。

数据特征（Features）

数据集包含以下10个字段：

字段名	数据类型	说明
`question`	string	问题文本
`generation_id`	int64	生成ID
`generation`	string	生成的回答
`num_tokens`	int64	生成回答的token数量
`reward`	float64	奖励值
`question_index`	int64	问题索引
`target`	string	目标答案
`task`	string	任务名称
`vf_prediction`	float64	值函数预测
`level`	int64	游戏等级

数据划分（Splits）

数据集仅包含一个测试集（test split）：

样本数量：3,200 条
数据集大小：58,353,711 字节（约55.6 MB）
下载大小：17,852,636 字节（约17.0 MB）

聚合指标（Aggregated Metrics）

数据集由 10个分片（shards） 聚合而成，以下是关键性能指标：

平均响应Token数：7,069.84
中位数响应Token数：5,759.4
总生成输出Token数：6,307,020
总策略输出Token数：2,262,440
总评判输出Token数：4,044,580
总耗时：1,945.04 秒
生成阶段耗时：1,471.18 秒

主要性能指标（部分）

指标	值
`pass@1`	0.5906
`pass@16`	0.7945
`pass@32`	0.8100
`maj@1`	0.6511
`maj@32`	0.6969
`w_best@32`	0.7120
`w_maj@32`	0.7069
`num_unique_answers@32`	5.353

数据配置（Configs）

默认配置名称：default
数据文件路径：data/test-*（通配符匹配所有测试数据文件）

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3.5-4B模型，通过强化学习与博弈论（RG Games）框架构建而成。具体而言，数据集从多样化的数学推理与问题求解任务中采样，每一条样本包含一个问题（question）、对应的模型生成回答（generation）以及该生成答案的奖励分数（reward）。数据集中还标注了生成答案的token数量（num_tokens）、任务类型（task）及难度等级（level），以支持多维度的分析与评价。构建过程中，模型在多个搜索阶段生成大量候选回答，并通过多层级裁判（judge）进行质量评估，最终筛选出3200条高质量样本组成测试集。

特点

数据集最突出的特点在于其丰富的评价指标与多视角性能度量。它不仅提供了如majority voting accuracy（maj@k）、pass@k、weighted best accuracy（w_best@k）等经典指标，还记录了生成及裁判阶段token消耗的详细统计数据，使得研究者能够深入分析模型的推理效率与输出多样性。此外，数据集涵盖了从简单到高难度的四个等级（level 1至level 4），并记录了每个等级下的生成完成率与截断率，能够真实反映模型在不同难度任务上的表现边界与稳定性。

使用方法

该数据集可直接用于评估生成式语言模型在多步推理任务上的性能。使用者可通过加载test分片中的question与generation字段，运行自己的模型进行对比推理，并利用原始提供的reward和level字段作为基准。数据集支持多种采样策略下的准确率计算，如majority voting和pass@k，便于复现与扩展实验。建议研究者重点关注等级维度的表现差异，以考察模型在复杂推理过程中的鲁棒性。

背景与挑战

背景概述

该数据集名为rebase_Qwen3.5-4B_rg_games_ns32_md4_bt0_1_seed65_rg_games__v0，源自对Qwen3.5-4B模型在推理游戏任务上的强化学习微调实验，由研究团队于近期创建。数据集包含3200条测试样本，每条样本涵盖问题、生成答案、奖励信号及多层级评判信息等字段，旨在评估模型在复杂推理任务中的表现。其核心研究问题聚焦于如何通过强化学习与多步搜索机制提升大语言模型的推理能力，尤其是在需要多步规划和自我纠错的游戏类场景中。该数据集对相关领域的影响力体现在：其提供了细粒度的评判token消耗、搜索阶段输出、以及多种投票策略（如maj@k、pass@k）的评估指标，为研究模型推理稳定性与探索效率提供了标准化基准。

当前挑战

数据集所解决的领域挑战在于：大语言模型在复杂推理任务中常面临生成答案不一致、搜索效率低下及多步规划能力薄弱等问题。例如，传统贪婪解码易导致局部最优，而简单采样又难以平衡探索与利用。本数据集通过引入多层级评判机制（level_1至level_4）和搜索阶段输出统计，量化了模型在逐步推理中的token消耗与截断率，揭示了长链推理中的信息衰减与资源瓶颈。构建过程中遇到的挑战包括：需设计合理的奖励函数以匹配游戏目标的稀疏性，同时控制多步搜索的深度与宽度以避免爆炸性计算。此外，不同评判层级之间的粒度划分与累积分布阈值调整，要求对模型行为进行大量人工校验，以确保评估指标的鲁棒性。

常用场景

经典使用场景

该数据集聚焦于通过强化学习与自博弈机制优化大语言模型的推理生成能力，其经典应用场景在于评估和提升模型在复杂推理任务中的表现。数据集中包含来自多个生成轮次（generation_id）的候选答案，配合奖励信号（reward）与价值函数预测（vf_prediction），为研究者提供了探索多步推理、自我改进与搜索策略的丰富素材。结合聚合指标中的maj@k与pass@k曲线，该数据集常被用于分析模型在不同采样规模下的正确率与多样性，从而验证自博弈训练范式的有效性。

实际应用

在实际应用中，该数据集可服务于需要高可靠性答案的自动化系统，例如智能客服、代码辅助生成与科学文献摘要等场景。通过利用数据集中的多轮生成与奖励信号，开发者能够对部署模型实施后训练阶段的校准与优化，例如选择在maj@16或pass@k指标上表现最优的检查点进行上线。此外，数据集中的token消耗统计信息可辅助工程团队平衡推理延迟与答案质量，从而在资源受限的环境中实现更经济的模型服务。

衍生相关工作

该数据集衍生了一系列关于自博弈强化学习与搜索增强推理的经典工作，例如基于多轮采样的自我一致性方法在大模型中的扩展研究，以及将价值函数预测与树搜索相结合的推理框架。此外，聚合指标中w_best@k与w_maj@k的对比分析催生了关于奖励加权投票机制的探索，推动了不确定性估计与集成策略在语言模型中的应用。这些工作进一步反哺了数据集本身的设计，形成了以互惠共赢为特征的良性学术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集