rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed73_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed73_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个测试集，共12,800个样本，主要用于评估生成模型或问答系统的性能。数据集包含多个特征字段，如问题文本（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标文本（target）、任务类型（task）、价值函数预测（vf_prediction）和难度等级（level）。数据集还提供了丰富的聚合指标，包括不同难度级别的令牌统计、响应时间、通过率（pass@k）和多样性指标（num_unique_answers@k）等。这些指标来自10个分片的加权平均值，可用于全面评估模型在不同参数配置下的表现。

创建时间：

2026-05-06

原始信息汇总

根据您提供的README文件内容，以下是对该数据集的详细概述：

数据集名称

rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed73_rg_cognition__v0

数据集描述

该数据集是一个用于评估和测试语言模型在认知任务上表现的基准数据集，基于Gemma-4-E4B-it模型进行生成和评测。数据集包含了模型的生成结果、奖励值、任务类型以及多层次的评测指标。

数据特征

数据集包含以下10个字段：

question (string): 问题文本
generation_id (int64): 生成ID
generation (string): 模型生成的回答
num_tokens (int64): 生成内容的token数量
reward (float64): 奖励值
question_index (int64): 问题索引
target (string): 目标答案
task (string): 任务类型
vf_prediction (float64): 价值函数预测值
level (int64): 难度级别

数据集划分

test 集：包含12,800个样本，总字节数为142,068,520

数据集大小

下载大小：35,706,350 字节
数据集总大小：142,068,520 字节

配置信息

配置名称：default
数据文件路径：data/test-*

聚合指标（Aggregated Metrics）

该数据集基于10个分片（shards）的加权平均聚合了以下关键指标：

回答多样性指标

num_unique_answers@1: 0.754 (单次生成唯一答案数量)
num_unique_answers@128: 17.67 (128次生成唯一答案数量)
num_unique_answers@16: 3.335 (16次生成唯一答案数量)
num_unique_answers@2: 0.987 (2次生成唯一答案数量)
num_unique_answers@32: 5.657 (32次生成唯一答案数量)
num_unique_answers@4: 1.383 (4次生成唯一答案数量)
num_unique_answers@64: 9.871 (64次生成唯一答案数量)
num_unique_answers@8: 2.095 (8次生成唯一答案数量)

多数投票准确率 (maj@)

maj@1: 0.481181
maj@16: 0.493481
maj@32: 0.508164
maj@64: 0.514285
maj@128: 0.489259
maj@8: 0.501366

通过率 (pass@)

pass@1: 0.450937
pass@16: 0.630696
pass@32: 0.65396
pass@64: 0.667187
pass@128: 0.68
pass@8: 0.597073

加权指标 (w_)（加权平均版本）

w_maj@1: 0.481181
w_maj@8: 0.502406
w_maj@16: 0.499273
w_maj@32: 0.511084
w_maj@64: 0.515645
w_maj@128: 0.505131
w_best@1: 0.493757
w_best@8: 0.475252
w_best@16: 0.478433
w_best@32: 0.471539
w_best@64: 0.491054
w_best@128: 0.486278

生成与评测token统计

total_generated_output_tokens: 4,446,870
total_judge_output_tokens: 955,028
total_policy_output_tokens: 3,491,850
avg_response_tokens: 2,727.93
median_response_tokens: 2,040.40
token_count: 18,250
total_time_s: 2,487.52
generation_phase_time_s: 1,691.06

多层次评测信息

数据集包含4个难度级别（level 1-4），每个级别都有相应的评测token、跳过次数和截断率指标：

judge_token_count_level_1: 8,500
judge_token_count_level_2: 4,880
judge_token_count_level_3: 6,980
judge_token_count_level_4: 5,850
truncated_rate_level_1: 0.00137
truncated_rate_level_2: 0.00234
truncated_rate_level_3: 0.01256
truncated_rate_level_4: 0.08

数据用途

该数据集主要用于评估语言模型在认知相关任务上的表现，通过多层次的奖励信号、价值函数预测和多种聚合指标（如多数投票、通过率）来分析模型生成答案的质量和多样性。

搜集汇总

数据集介绍

构建方式

该数据集源于对Gemma模型进行强化学习与推理阶段调控（ReBase）策略的产物，具体基于gemma-4-E4B-it模型，采用精心设计的认知推理任务（rg_cognition）生成。构建过程中，模型对每个问题独立进行128次采样，生成多样化的回答序列，并经由多层次评估体系进行筛选与标注。数据字段涵盖了原始问题、生成标识、回答文本、令牌数量、奖励信号、问题索引、目标答案、任务类型、价值函数预测值以及难度等级，最终汇聚成包含12800条样本的测试集，每个样本均附有详尽的元信息。

特点

该数据集的核心特色在于其高度结构化的多层级评估指标与丰富的生成多样性。数据集中包含了从1到128个样本的各种多数投票准确率（maj@k）与通过率（pass@k）指标，展现了在不同采样规模下模型的性能稳定性。此外，通过价值函数预测（vf_prediction）与多层级评估令牌分布（judge_token_count_level_1至4）等指标，揭示了模型在复杂推理任务中的分步求解策略。数据集还记录了生成过程的令牌消耗与时间开销等工程细节，为深入分析模型推理效率提供了宝贵依据。

使用方法

该数据集专为多轮推理与强化学习研究设计，可直接用于评估和改进生成式语言模型在复杂认知任务上的表现。使用者可通过加载'question'字段作为输入，比对'generation'与'target'字段评估生成质量，利用'reward'与'vf_prediction'字段进行强化学习方法的训练或验证。借助于丰富的'maj@k'与'pass@k'指标，研究人员能够系统地对比不同采样策略或模型微调方法的效果。数据集的'level'字段允许按难度分层分析，而'task'字段则支持跨任务泛化能力的研究。

背景与挑战

背景概述

该数据集源自对Gemma-4-E4B-it模型进行强化学习微调的研究，旨在提升大语言模型在复杂认知任务上的推理能力。研究团队通过多轮生成与奖励反馈机制构建了该数据集，其核心问题在于如何利用可扩展的强化学习框架（如REBASE）使模型在数学推理、多步搜索等任务中实现从部分正确到完全正确的认知跃迁。数据集包含12800条测试样本，每一条均记录问题、生成答案、代币消耗及多层级奖励评判指标，为评估模型在搜索空间中的泛化能力提供了细粒度视角。该工作对强化学习驱动的语言模型对齐研究具有重要方法论价值，尤其在理解模型如何在逐步推理中放弃错误路径、采纳更优策略方面，为后续研究树立了可量化的评估基准。

当前挑战

构建该数据集的核心挑战在于两层面：首先，语言模型面对复杂认知任务（如数学证明、逻辑推理）时极易产生局部正确但全局错误的推理路径，如何设计奖励机制以精准识别并引导模型突破此类认知瓶颈是根本难题，数据集上0.45的pass@1与0.68的pass@128之间巨大差距正体现了从一次成功到多次探索的能力鸿沟。其次，构建过程中需处理多轮生成与评判的高昂计算成本——实验累计生成440余万代币、评判代币超95万，且需在4个难度层级上平衡回答的完整性（truncated_rate从0.14%升至8%），确保输出不因长度截断而丧失价值。技术层面，如何聚合10个分片的多维度量（如多样性、加权投票）以避免评测偏差，亦是确保数据集可靠性的重要挑战。

常用场景

经典使用场景

该数据集在认知推理与语言模型对齐研究中扮演着关键角色，其核心应用场景是通过多轮搜索树结构与分层级评估机制，对大语言模型在复杂认知任务中的生成质量进行系统性评测。每条数据包含问题、生成文本、奖励信号及层级标签，特别适合用于训练和评估模型在需要深层推理、多步规划与自我纠错的任务上的表现。典型使用方式是利用其多样化的生成样本和丰富的中间状态指标（如令牌消耗、剪枝率）来构建强化学习中的奖励模型，或作为监督微调阶段的高质量正负样本来源，从而提升模型在数学、逻辑推理等认知密集型场景下的生成与决策能力。

实际应用

在实际工程应用中，该数据集可直接服务于需要高可靠性推理输出的系统，例如智能教育辅导、自动化科研助手及复杂决策支持平台。凭借其细粒度的过程监督信号，开发者能够训练出具备更强自我校验与路径优化能力的对话代理，使其在解答多步骤数学题、撰写结构化论证文章或编写复杂代码时，显著减少逻辑脱轨与幻觉现象。此外，数据集中不同搜索层级对应的资源消耗统计，还能为生产环境下的推理效率优化提供参考，助力在保证生成质量的同时降低计算成本。

衍生相关工作

围绕该数据集的特性，已催生了一系列具有影响力的后续研究路径。其层级化搜索设计思想启发了许多关于树搜索与语言模型推理结合的工作，例如将蒙特卡洛树搜索（MCTS）变体用于改进模型的探索策略，以及利用过程奖励模型（Process Reward Model）替代传统结果奖励模型来提供更细腻的训练信号。同时，数据集中‘奖励’与‘价值函数预测’字段为偏好对齐领域的研究提供了基础，相关工作者在此基础上发展出基于搜索轨迹的强化学习算法，显著提升了模型在指令遵循与安全对齐方面的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集