rebase_gpt-oss-20b_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gpt-oss-20b_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含3,200个测试样本，每个样本包含多个字段，如问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、vf预测（vf_prediction）和级别（level）。数据集由10个分片聚合而成，并提供了丰富的评估指标，包括响应令牌数量、法官输出令牌数量、策略输出令牌数量以及通过率等。这些指标表明该数据集可能用于评估模型在不同级别和任务上的性能。

创建时间：

2026-05-07

原始信息汇总

根据您提供的数据集详情页面 README 文件，以下是对该数据集的总结：

数据集概述

数据集名称: rebase_gpt-oss-20b_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0
提供者: anirudhb11
数据集大小: 74,822,967 字节（约 71.4 MB），下载大小为 26,968,580 字节（约 25.7 MB）
数据划分: 仅包含 test 划分，共 3,200 个样本
配置文件: 一个默认配置 (default)，数据文件路径为 data/test-*

特征字段

字段名	数据类型	说明
`question`	string	问题文本
`generation_id`	int64	生成 ID
`generation`	string	模型生成的回答
`num_tokens`	int64	生成回答的令牌数
`reward`	float64	奖励值
`question_index`	int64	问题索引
`target`	string	目标/参考答案
`task`	string	任务类型
`vf_prediction`	float64	价值函数预测值
`level`	int64	层级

汇总指标（来自 10 个分片）

生成与评估性能

平均响应令牌数: 5,970.99
中位数响应令牌数: 2,759.85
生成阶段耗时: 574.78 秒
总耗时: 725.39 秒

令牌使用统计

总生成输出令牌数: 2,307,530
总策略输出令牌数: 1,911,000
总评估输出令牌数: 396,532
策略输出令牌分布:
- 搜索阶段: 1,568,530
- 级别 1: 750,707
- 级别 2: 395,113
- 级别 3: 248,533
- 级别 4: 174,179
- 最终完成: 342,466

评估指标（多级测试）

Pass@k 指标:
- pass@1: 0.46625
- pass@2: 0.53643
- pass@4: 0.56833
- pass@8: 0.58837
- pass@16: 0.60873
- pass@32: 0.63
Maj@k 指标:
- maj@1: 0.50480
- maj@2: 0.49333
- maj@4: 0.52590
- maj@8: 0.54083
- maj@16: 0.53295
- maj@32: 0.53765
唯一答案数 (num_unique_answers):
- @1: 0.916
- @2: 1.333
- @4: 2.013
- @8: 3.199
- @16: 5.245
- @32: 8.86
加权最佳指标 (w_best):
- w_best@1: 0.50916
- w_best@2: 0.49461
- w_best@4: 0.49852
- w_best@8: 0.49870
- w_best@16: 0.51264
- w_best@32: 0.49814
加权多数投票指标 (w_maj):
- w_maj@1: 0.50480
- w_maj@2: 0.50400
- w_maj@4: 0.52581
- w_maj@8: 0.54307
- w_maj@16: 0.53470
- w_maj@32: 0.53858

评估过程统计（按级别）

评估令牌计数 (judge_token_count):
- 级别 1: 11,320
- 级别 2: 7,195
- 级别 3: 3,445
- 级别 4: 4,005
评估输出令牌 (judge_output_tokens):
- 级别 1: 126,331
- 级别 2: 47,900.2
- 级别 3: 26,584
- 级别 4: 21,260.8
- 搜索阶段: 222,076
跳过已完成评估次数 (judge_skipped_completed):
- 级别 1: 188.4
- 级别 2: 58.6
- 级别 3: 23.2
- 级别 4: 12
截断率 (truncated_rate):
- 级别 1: 0.00318
- 级别 2-4: 0

搜集汇总

数据集介绍

构建方式

该数据集基于rebase_gpt-oss-20b模型，通过一种名为'rg_cognition'的认知增强生成策略构建而成。数据生成过程采用了多层级搜索机制，具体配置为ns32（搜索分支数32）、md4（最大深度4）、bt0_1（分支阈值0.1），并固定随机种子为42以确保可复现性。每个样本包含原始问题、生成文本及其对应的奖励分数，并通过价值函数预测（vf_prediction）对生成结果进行质量评估。数据集的生成过程涉及多层次令牌输出与裁判模型的多轮评判，最终汇聚成3200条测试样本，以检验模型在复杂认知任务上的表现。

特点

数据集的核心特点在于其多维度评估指标体系。除了基础的提问与回答字段外，还包含丰富的生成质量指标，如响应令牌数、裁判令牌分布、聚合准确率（maj@k, pass@k）以及唯一答案数量等。这些指标覆盖了不同搜索规模下的模型性能，例如，maj@1准确率为0.5048，而pass@32达到了0.63，揭示了采样数量的增加对最终答案准确性的提升效果。此外，数据集记录了不同层级的生成与裁判令牌统计，体现出多层次认知推理的结构化特性。

使用方法

该数据集主要适用于评估和比较不同多步推理策略下模型的认知能力。用户可通过读取包含'question'、'generation'、'reward'、'vf_prediction'等字段的JSON格式数据，对模型输出进行多角度分析。建议在分析时利用内置的聚合指标（如maj@k、pass@k）作为基准，并与自定义评估方案进行对照。数据以test集形式提供，共3200条样本，可直接用于评测实验，无需额外划分训练集。

背景与挑战

背景概述

随着大规模语言模型在复杂认知任务中的广泛应用，如何系统性地评估与提升其推理能力成为研究焦点。该数据集由REBASE团队于近期构建，旨在探索基于多轮生成与自我修正机制的模型性能优化。核心研究问题聚焦于通过分层奖励信号与搜索策略，引导模型在开放式问题中产生更准确、更多样的回答。该数据集包含3,200条测试样本，每条样本均关联多层级生成过程与奖励分数，为研究模型在认知任务中的探索-利用平衡提供了宝贵资源。其对相关领域的影响力在于，通过公开的聚合指标（如pass@k与maj@k）为后续工作建立了可复现的基准，推动了强化学习与语言模型结合的研究边界。

当前挑战

该数据集所解决的领域挑战在于，现有评估范式往往忽视模型在开放式生成中的中间推理过程，难以捕捉其真实认知能力。具体而言，数据集通过设计四层级的生成与评判流程，要求模型逐步细化答案，同时需应对长文本生成中的语义一致性维持与资源效率平衡问题。构建过程中面临的挑战包括：如何定义合理且可扩展的分层奖励信号以指导模型自我改进，如何在大规模搜索空间中控制计算开销（如评判令牌总数达数十万），以及如何确保多层级评判结果的有效聚合与去噪——例如，聚合指标显示尽管pass@1仅为46.6%，但通过增加采样次数（pass@32达63%）可显著提升性能，这揭示了单次生成与多次尝试间的显著差距，也凸显了评估稳定性与效率之间的张力。

常用场景

经典使用场景

在大型语言模型的强化学习与推理能力评估领域，rebase_gpt-oss-20b_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0数据集凭借其精细化的认知推理任务设计，成为衡量模型多步逻辑推理与生成质量的标杆。该数据集包含3200条测试样本，每条样本涵盖问题、多轮生成结果、奖励评分及多个层级的判断信息，尤其适用于评估模型在复杂推理场景下的通过率（pass@k）、多数投票准确率（maj@k）以及生成结果的唯一性。研究者常利用该数据集测试模型在不同采样规模下（如k=1至32）的推理稳定性与一致性，从而揭示模型在认知任务中的真实泛化能力。

实际应用

在实际工业落地中，此数据集为构建高可靠性认知助手系统提供了关键的测试基准。企业可借助数据集中的奖励评分（reward）与值函数预测（vf_prediction）指标，筛选出在复杂问题下兼具高准确率与低冗余度的生成策略。例如，在智能客服、多轮对话系统或复杂任务规划场景中，开发者可通过该数据集模拟真实用户的多步推理需求，对模型进行压力测试，确保其在面对模糊或分层次问题时仍能生成逻辑连贯的回应。此外，数据集包含的token分布与时间成本数据（如generation_phase_time_s）可辅助运营团队在部署前权衡推理质量与计算资源消耗，从而优化线上服务的经济性与用户满意度。

衍生相关工作

围绕该数据集已衍生出一系列探索认知推理边界与强化学习优化的工作。其中，基于search_phases的多级迭代生成方法受到了广泛关注，研究者利用数据集中judge_skipped_completed_level等指标设计动态截断策略，显著提升了推理效率。此外，maj@k与pass@k曲线的对比分析催生了关于投票加权机制（如w_maj@k）的改进研究，这些工作通过平衡生成结果的多样性与鲁棒性，有效提升了模型在长尾问题上的表现。数据集中truncated_rate的统计也为设计更合理的注意力缓存与生成终止规则提供了实证支撑，推动了token级推理加速技术的进步，使得大规模认知模型在资源受限环境下的部署成为可能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集