rebase_gpt-oss-20b_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gpt-oss-20b_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于模型生成评估的结构化数据，主要特征包括问题文本（question）、生成ID（generation_id）、生成内容（generation）、token数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标文本（target）、任务类型（task）、价值函数预测（vf_prediction）和难度等级（level）。数据集仅包含测试集（test split），共有12,800个样本，总大小约294MB。从聚合指标来看，该数据集记录了多层次的生成评估结果，包括不同难度级别的token统计、跳过率、通过率等综合性能指标，适用于生成模型的质量评估和比较研究。

创建时间：

2026-05-07

原始信息汇总

数据集概述

该数据集是一个用于评估和训练认知相关任务的多轮生成与奖励数据集，汇集了来自10个分片（shards）的聚合指标。

基本信息

数据集名称: rebase_gpt-oss-20b_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0
数据集大小: 下载大小约为103.35 MB，解压后数据集大小约为294.28 MB。
数据划分: 仅包含一个测试集（test），共有12,800个样本。
数据特征:
- question (string): 问题文本。
- generation_id (int64): 生成ID。
- generation (string): 生成的响应文本。
- num_tokens (int64): 生成的令牌数量。
- reward (float64): 奖励分数。
- question_index (int64): 问题索引。
- target (string): 目标答案或标签。
- task (string): 任务类型。
- vf_prediction (float64): 价值函数预测值。
- level (int64): 层级（如1-4级）。

聚合指标（基于10个分片）

该数据集提供了丰富的性能聚合指标，涵盖响应质量、令牌使用、多样性及多轮搜索表现。

核心性能指标:

maj@1: 0.485 (主要投票准确率@1)
maj@128: 0.524 (主要投票准确率@128)
pass@1: 0.461 (通过率@1)
pass@128: 0.650 (通过率@128)
w_best@1: 0.490 (加权最佳得分@1)
w_maj@1: 0.485 (加权主要投票@1)

令牌与时间统计:

平均响应令牌数: 5,813.23
中位数响应令牌数: 2,874
总生成输出令牌数: 约899.9万
总策略输出令牌数: 约744.2万
总评判输出令牌数: 约155.8万
总时间消耗: 约1,986.89秒
生成阶段时间: 约1,336.84秒

多样性指标:

num_unique_answers@1: 0.771 (每个问题平均唯一答案数@1)
num_unique_answers@128: 16.96 (每个问题平均唯一答案数@128)

层级相关指标:

各层级评判输出令牌数: Level 1最多（480,832），Level 4最少（78,290.7）。
各层级策略输出令牌数: Level 1最多（约303.6万），Level 4最少（约63.9万）。
截断率: Level 1和2有微量截断（<0.1%），Level 3和4无截断。

搜索阶段指标:

搜索阶段总评判输出令牌数: 850,052
搜索阶段总策略输出令牌数: 约626.1万
搜索阶段令牌累积分布: 1.0 (所有令牌均被使用)

该数据集主要服务于认知任务的自动化生成、多轮搜索与奖励评估，适用于强化学习、序列生成及评判模型的相关研究。

搜集汇总

数据集介绍

构建方式

该数据集基于rebase_gpt-oss-20b模型，通过多层级推理搜索树（Search Tree）进行生成与评判，构建过程包含四个认知层级：从初始响应生成到逐步扩展，每层均经过策略模型（Policy Model）和价值函数（Value Function）的联合评估。数据集共整合10个数据分片（shard），每个分片包含12800条测试样本，每条记录涵盖问题、生成内容、奖励分数、价值函数预测及任务标签等关键信息。最终通过加权平均与多粒度投票机制（如maj@1至maj@128）筛选高质量答案，形成结构化评测资源。

使用方法

该数据集适用于强化学习与推理模型的评估与微调。用户可直接加载HuggingFace上的test分片，利用'question'与'target'字段进行监督学习，也可借助'reward'和'vf_prediction'字段开展偏好对齐或价值函数学习。建议结合搜索树结构，按'level'字段筛选特定推理层级的生成结果，或使用'maj@k'指标复现投票集成性能。对于计算资源有限的研究，推荐优先使用maj@16或maj@32设置，以平衡评估准确性与开销。

背景与挑战

背景概述

该数据集是由REBASE项目构建的高质量推理数据集，旨在提升大语言模型在复杂认知任务中的表现。数据集创建于2024年，由匿名研究团队主导，核心研究问题是如何通过结构化奖励和分级推理过程增强模型的生成质量与答案多样性。数据集包含12,800个测试样本，每个样本包含多级推理生成、奖励分数和任务标签等丰富字段。其系统化的多层级搜索策略和奖励校准机制，为探索强化推理与自一致性采样提供了宝贵资源，在开源社区中具有重要影响力。

当前挑战

该数据集主要解决大语言模型在复杂推理任务中易产生幻觉、答案不连贯及多样性不足的问题。通过引入多级搜索与裁判模型，数据集构建过程面临两大挑战：一是如何设计可靠的奖励函数以平衡生成质量与搜索效率，二是如何控制各级生成的Token预算和截断阈值，以避免过度计算。此外，确保裁判模型在不同难度级别上的打分一致性，也是构建过程中需要克服的关键难题。

常用场景

经典使用场景

在认知科学与人工智能交叉领域，rebase_gpt-oss-20b_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0数据集的核心经典用途在于评估与强化大规模语言模型的多层级推理与决策能力。该数据集通过精心设计的四层递进式问题结构（level 1至level 4），以及内嵌的奖励信号（reward）与价值函数预测（vf_prediction），为研究者提供了一个无偏的基准测试平台。其多轮生成的回答（generation）及对应的token量（num_tokens）与多样性指标（如num_unique_answers@k），使得研究者可以系统地考察模型从简单到复杂问题的泛化性能。特别是，该数据集支持以不同采样规模（maj@k、pass@k）评估模型的鲁棒性与一致性，因而成为剖析开放式生成模型推理深度与搜索策略效率的理想工具。

解决学术问题

该数据集精准地解决了当前大型语言模型研究中一个关键学术难题——如何可靠地衡量模型在认知密集型任务上的真实表现与泛化稳定性。传统基准往往只关注单次回答的正确率（pass@1），而忽视了模型在面对复杂、非线性问题时的迭代推理与自我校正过程。此数据集通过引入多层难度分级、多轮生成样本以及投票一致性指标（maj@k），将评估维度从单一正确率拓展到了推理深度、答案多样性与搜索策略效能。这直接回应了关于模型智能是否仅是肤浅模式匹配的质疑，推动了对于语言模型认知架构的深度解析，其影响体现在为后续发展更具认知合理性的推理算法奠定了量化实验基础。

实际应用

在实际应用层面，该数据结构天然适配于构建高鲁棒性的智能决策系统与对话式推理引擎。其中的value function prediction（vf_prediction）与reward元组可以训练模型在执行复杂任务时自主评估自身输出质量，形成内省式纠正机制。具体而言，在自动化编程辅助、复杂法律文书分析、医疗诊断推理链审查等需要多步验证的场景中，该数据集提供的多级搜索与投票机制（如maj@k、w_maj@k）直接转化为工程上的容错与择优策略。通过部署经该数据集微调的模型，系统能够以较低的计算开销实现接近人类专家水平的错误检出率与决策置信度，从而显著降低关键任务中AI幻觉带来的风险。

数据集最近研究