rebase_gpt-oss-20b_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gpt-oss-20b_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含800个测试样本，每个样本包含多个字段，如问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、VF预测（vf_prediction）和级别（level）。数据集主要用于评估响应质量，涵盖了不同级别和阶段的判断和政策输出。聚合指标包括响应令牌的平均值和中间值、各级别的法官输出令牌数量、通过率（如pass@1、pass@2等）以及唯一答案数量等。这些指标反映了模型在生成响应时的性能表现。

创建时间：

2026-05-07

原始信息汇总

根据您提供的数据集详情页面信息，以下是对该数据集的总结：

数据集概述

数据集名称：rebase_gpt-oss-20b_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0

数据集地址：https://huggingface.co/datasets/anirudhb11/rebase_gpt-oss-20b_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0

该数据集包含共 800 条测试样本，总大小为 18.4 MB（下载大小为 6.7 MB）。

数据特征

数据集包含以下 10 个字段：

字段名	数据类型	描述
`question`	string	问题文本
`generation_id`	int64	生成 ID
`generation`	string	生成的回答
`num_tokens`	int64	令牌数量
`reward`	float64	奖励值
`question_index`	int64	问题索引
`target`	string	目标答案
`task`	string	任务名称
`vf_prediction`	float64	价值函数预测值
`level`	int64	级别

数据集划分

仅包含 test 划分，共 800 条样本。

配置信息

配置名称：default
数据文件路径：data/test-*

聚合指标

该数据集基于 10 个分片 聚合生成，主要指标包括：

生成阶段：平均生成时间约 287.8 秒，总耗时约 332.2 秒
令牌使用：平均响应令牌数 5939.95，总生成输出令牌数 568,574
性能指标：
- pass@1：0.46375
- maj@1：0.49105
- maj@2：0.499538
- maj@4：0.519471
- maj@8：0.527283
- w_maj@8：0.536183
答案多样性：num_unique_answers@1 为 0.903，num_unique_answers@8 为 3.04
截断率：所有级别截断率均为 0

该数据集常用于基于强化学习或偏好优化的生成式模型评估，包含多级奖励、价值函数预测以及多种聚合性能指标。

搜集汇总

数据集介绍

构建方式

该数据集名为rebase_gpt-oss-20b_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0，源自对大型语言模型认知能力的深度评测。其构建过程依托于一个多层次的生成与评判框架：首先，基于特定问题（question）索引生成多个候选回答（generation），每个回答伴随其token数量（num_tokens）与奖励分数（reward）；随后，通过一个四级评判体系（level 1至level 4）对生成内容进行逐层筛选与打分，并记录各阶段评判的token消耗与跳过情况。最终，从10个分片中聚合数据，形成一个包含800个测试样本的结构化评测集，每个样本涵盖问题、生成ID、目标答案、任务类型及价值函数预测（vf_prediction）等字段。

特点

本数据集展现出独特的多维特性。它不仅记录了模型在不同采样策略下（如maj@1至maj@8）的准确率与多样性指标，还精确追踪了从策略模型（policy）到评判模型（judge）的完整token消耗链，包括生成阶段、搜索阶段及最终完成的token数量。尤为突出的是，数据集包含了不同认知层级（level 1-4）的独立评判结果，如各层的评判token累积分布（cdf）与跳过完成次数，这为分析模型推理的深度与效率提供了微观视角。此外，诸如pass@k、w_maj@k及num_unique_answers等指标，全面刻画了模型在重复采样与加权投票下的表现稳定性与答案丰富性。

使用方法

用户可通过HuggingFace Datasets库加载该数据集，指定default配置下的test分片即可获取800条评测样本。每条样本包含question、generation、target等关键字段，可直接用于评估大语言模型的认知推理能力。研究人员可利用reward与vf_prediction字段分析强化学习中的奖励模型对齐效果，或通过level字段分层探究模型在简单至复杂任务上的表现差异。此外，数据集中丰富的聚合指标（如avg_response_tokens、total_time_s）可作为基准，对比不同模型或训练策略在token效率与推理准确性上的权衡。建议用户在处理时关注generation_id以区分同一问题的多个生成结果，并利用task字段按任务类型进行分组分析。

背景与挑战

背景概述

该数据集名为rebase_gpt-oss-20b_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0，由REBASE研究团队创建，专注于评估与增强大规模语言模型的推理与认知能力。数据集构建于2024年，核心研究问题在于如何通过多轮生成与分层评判机制，系统性地提升模型在复杂认知任务上的表现。其影响力体现在提供了一套包含800个测试样例的精细标注数据，覆盖从低到高的多层级推理难度，并引入了诸如maj@k、pass@k等聚合指标，为认知科学导向的AI评估开辟了新路径。

当前挑战

该数据集面临的挑战首先源于领域问题：大型语言模型在复杂认知任务中常出现逻辑断裂、多步推理错误及答案多样性不足，传统单次评测难以捕捉模型深层能力的局限性。其次，构建过程中需应对多项技术难题，包括设计合理的问题层级划分以平衡任务难度，确保评判模型（judge）输出的稳定性与一致性，以及优化多轮生成策略（如搜索阶段token分配）以避免资源浪费。此外，数据集的仅有800条样本在统计显著性与泛化能力上仍构成潜在制约，需通过扩展样本量与跨任务迁移来进一步验证其鲁棒性。

常用场景

经典使用场景

在认知科学与强化学习交叉领域，rebase_gpt-oss-20b_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0数据集被广泛应用于评估和优化生成式语言模型的推理与决策能力。通过记录大规模模型在多层次任务上的生成内容、奖励信号及价值函数预测，研究者能够系统性地分析模型在不同认知难度级别下的行为表现，尤其是探索策略的多样性与正确率之间的权衡关系。该数据集为基于搜索和采样思想的多步推理机制提供了标准化的测试平台，成为验证树搜索、束搜索等高级解码策略有效性的重要基准。

解决学术问题

该数据集核心解决了大规模语言模型在复杂认知任务中缺乏精细化评估标准的问题。传统方法常以最终正确率衡量模型性能，却忽略了推理过程中策略的鲁棒性与效率。通过引入分层次的奖励信号和多样化的生成样本，该数据集使得研究者能够量化模型在多个可能答案中自发进行探索与择优的能力，进而深入理解自监督学习环境下认知架构的演化规律。它所揭示的pass@k与maj@k指标变化模式，为设计更具泛化性和经济性的训练范式提供了理论依据和实证支撑。

衍生相关工作

基于该数据集的评测框架，学术界涌现出一系列富有启发性的延伸工作。研究者开始深入探讨奖励模型在不同认知层级上的校准效果，并提出了动态调整搜索深度的自适应算法，以应对不同难度问题的差异化需求。同时，多任务联合训练的方法论被引入，将该数据集中的生成数据作为预训练阶段与推理阶段之间的桥梁。此外，基于该数据集中价值函数预测的波动规律，涌现出面向长文本生成和复杂推理链的置信度评估模型，进一步推动了语言模型可解释性和可控性的发展浪潮。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集