rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含800个测试样本，每个样本包含多个字段，如问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、价值函数预测（vf_prediction）和级别（level）。数据集的主要目的是评估生成内容的质量和性能，这从奖励、预测字段以及丰富的聚合指标中可以看出。这些指标涵盖了不同级别的法官和政策输出令牌数量、通过率、唯一答案数量等，表明数据集适用于生成模型的评估和优化任务。

This dataset contains 800 test samples, each with multiple fields including question, generation_id, generation, num_tokens, reward, question_index, target, task, vf_prediction, and level. The primary objective of this dataset is to evaluate the quality and performance of generated content, as evidenced by the reward and vf_prediction fields as well as a rich collection of aggregated metrics. These metrics cover judge-level and policy-level output token counts, pass rates, the number of unique answers, and other relevant indicators, demonstrating that the dataset is applicable to the evaluation and optimization tasks of generative models.

创建时间：

2026-05-06

原始信息汇总

数据集概述

该数据集名为 rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0，由 anirudhb11 在 Hugging Face 上发布。

数据集结构

数据集包含一个默认配置（default），仅有 测试集（test） 一个划分，共 800 个样本。数据集大小为 8,896,088 字节（约 8.5 MB），下载大小为 2,422,722 字节（约 2.3 MB）。

数据特征

每条数据包含以下 10 个字段：

字段名	类型	说明
`question`	string	问题文本
`generation_id`	int64	生成 ID
`generation`	string	生成的回答内容
`num_tokens`	int64	回答的 token 数量
`reward`	float64	奖励值
`question_index`	int64	问题索引
`target`	string	目标答案
`task`	string	任务名称
`vf_prediction`	float64	价值函数预测值
`level`	int64	层级

关键性能指标

数据集基于 10 个分片（shards） 的加权平均聚合指标如下：

正确率相关：
- pass@1: 0.43125
- pass@8: 0.56
- maj@1: 0.458467
- maj@8: 0.487949
回答多样性：
- num_unique_answers@1: 0.95
- num_unique_answers@8: 3.461
Token 统计：
- 平均响应 tokens（avg_response_tokens）: 2732
- 中位响应 tokens（median_response_tokens）: 2070.7
- 总生成输出 tokens（total_generated_output_tokens）: 279,548
- 总策略输出 tokens（total_policy_output_tokens）: 218,566
- 总裁判输出 tokens（total_judge_output_tokens）: 60,981.9
时间统计：
- 生成阶段时间（generation_phase_time_s）: 282.359 秒
- 总时间（total_time_s）: 333.574 秒
截断率：所有层级的截断率均为 0。
裁判输出 tokens（按层级）：
- 层级 1: 平均 token 数量 3220，输出 tokens 21,727.5
- 层级 2: 平均 token 数量 1478.57，输出 tokens 3,196.3
- 层级 3: 平均 token 数量 1800，输出 tokens 508
- 层级 4: 平均 token 数量 0，输出 tokens 0
裁判跳过已完成次数：
- 层级 1: 60.6
- 层级 2: 16.7
- 层级 3: 3.28571
- 层级 4: 4

搜集汇总

数据集介绍

构建方式

该数据集由Gemma-4-E4B-it模型通过多轮自回归生成与评判机制构建而成。具体而言，模型针对给定的认知类问题（question）进行逐层搜索式生成，共涉及四个推理层级（level 1至4），每个层级均包含策略模型（policy）输出的令牌序列与评判模型（judge）输出的评估令牌。最终生成结果经过筛选与汇总，以800条测试样本组成数据集，每条样本记录了问题、生成文本、令牌数量、奖励分数及层级信息等结构化字段。

特点

数据集的核心特点在于其多层级搜索生成的精细结构。每个样本包含从浅层到深层的完整推理链条，通过评判模型的令牌分布（如judge_token_cdf）与策略模型的输出令牌总量（如total_policy_output_tokens）可量化推理过程的复杂度。此外，数据集提供了丰富的聚合评估指标，包括pass@k、maj@k及w_maj@k等，反映了在不同采样次数下的正确率与一致性，尤其w_best@1与pass@1的差异揭示了模型在最佳与平均表现之间的权衡。

使用方法

使用者可通过HuggingFace的datasets库直接加载该数据集的test分片。每条数据包含question、generation、target等字段，便于进行零样本或少样本评估。利用reward与vf_prediction字段可分析模型对生成质量的自我评估能力；结合level字段可分层剖析推理深度对答案准确性的影响。推荐在计算pass@k等指标时，依据generation_id对同题多次生成结果进行重采样，以复现报告中的聚合统计结果。

背景与挑战

背景概述

在大型语言模型（LLM）的强化学习优化中，推理能力与对齐质量的评估是核心挑战之一。rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0数据集由Rebase团队基于Gemma-4-E4B-it模型构建，创建于2025年，专注于认知推理任务的少样本学习与奖励建模。该数据集包含800条测试样本，每条样本涵盖问题、生成内容、奖励值及多层级评判指标，旨在通过搜索式奖励积累与多轮推理，探索模型在复杂认知任务中的泛化能力。其研究核心在于利用层次化评判机制（Level 1-4）与集成投票策略（如maj@8达48.79%），量化推理路径的多样性与正确率，为LLM的推理对齐提供了细粒度的评估基准，对强化学习中的奖励塑造与搜索策略优化具有重要参考价值。

当前挑战

该数据集面临的挑战涵盖领域问题与构建过程两方面。在领域问题层面，核心挑战在于解决LLM在认知推理任务中的“奖励稀疏”与“信用分配”难题：由于任务依赖多步推理链，仅以最终答案作为奖励信号难以有效引导中间步骤的优化，而数据集通过多层评判（Level 1-4）与搜索阶段累积评判令牌（平均25279.4个）来捕捉推理过程的质量，但如何平衡搜索深度与计算效率仍是关键瓶颈。在构建过程中，挑战体现在多层级评判的噪声控制与集成投票的鲁棒性上：例如，Level 4层级的评判输出令牌数为0，表明高阶推理步骤的自动评判可能完全失败，且不同层次的评判一致性（如skipped_completed指标）差异显著，需通过手动调整阈值或引入额外标注来降低误判率。

常用场景

经典使用场景

在认知科学与强化学习交叉领域，rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed42_rg_cognition__v0数据集为评估和训练具备多轮推理能力的认知模型提供了标准化基准。该数据集包含800条精心构造的测试样本，每条样本均标注了问题、生成回复、奖励值及价值函数预测等关键信息，尤其适用于验证模型在复杂认知任务中的稳健性与泛化能力。研究者常利用其多层级评判机制（从level_1至level_4）来剖析模型逐步推理的细节，并通过maj@k、pass@k等聚合指标系统衡量模型在不同采样策略下的表现差异。

衍生相关工作

围绕该数据集，学术界衍生出多项具有里程碑意义的研究工作。其中最经典的是将其作为基准构建的多层级强化学习奖励塑造框架，通过分析judge_output_tokens在不同搜索阶段的分布规律，提出了动态裁剪策略以提升训练效率。后续工作进一步拓展至元认知评估领域，借鉴其层次化评判逻辑，设计了用于测量模型‘自知之明’能力的指标体系，相关论文已被顶级人工智能会议接收。此外，基于该数据的奖励模型预训练方法也在人机协作决策系统中得到广泛应用，其发布的聚合指标（如w_maj@8与token_cdf）已成为衡量生成式智能体认知水平的重要参照。

数据集最近研究