rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed65_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed65_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估模型生成响应或执行特定任务性能的结构化数据。数据集主要包含以下字段：问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、VF预测（vf_prediction）和级别（level）。数据集规模为测试集3,200个样本，总大小约35.2MB。此外，数据集提供了丰富的聚合指标，包括不同级别的响应令牌数量、生成阶段时间、法官输出令牌数量、跳过完成情况、令牌累计分布、唯一答案数量、通过率等，这些指标适用于评估生成模型的多方面性能，特别是在多级别任务和搜索阶段的表现。

创建时间：

2026-05-06

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是该数据集的总结：

数据集概述

该数据集名为 rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed65_rg_cognition__v0，由用户 anirudhb11 上传至 Hugging Face。

数据集特征

数据集包含 3,200 个测试样本，每个样本具有以下字段：

question (string): 问题文本
generation_id (int64): 生成ID
generation (string): 模型生成的回答
num_tokens (int64): 生成回答的token数量
reward (float64): 奖励值
question_index (int64): 问题索引
target (string): 目标答案
task (string): 任务类型
vf_prediction (float64): 价值函数预测值
level (int64): 难度级别

数据划分

数据集仅包含 test 划分，共 3,200 个样本，总大小为 35,248,610 字节（约 33.6 MB），下载大小为 8,973,311 字节（约 8.6 MB）。

聚合指标

数据集基于 10 个分片 计算了聚合指标，关键指标包括：

maj@1: 0.505 (多数投票准确率@1)
pass@1: 0.455 (通过率@1)
pass@16: 0.619 (通过率@16)
maj@32: 0.528 (多数投票准确率@32)
num_unique_answers@32: 10.07 (平均唯一答案数@32)
total_time_s: 706.545 秒（总生成时间）
average_response_tokens: 2675.01 (平均响应token数)
median_response_tokens: 2015.4 (中位数响应token数)
total_policy_output_tokens: 856,021 (策略总输出token数)
total_judge_output_tokens: 232,547 (评判总输出token数)

搜集汇总

数据集介绍

构建方式

该数据集名为rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed65_rg_cognition__v0，基于Gemma-4-E4B-it模型与RLHF训练框架，通过多级认知推理（RGCognition）任务生成。数据集构建采用多轮搜索-评判机制，在四个递进层级上展开，每层级由模型生成候选解答，经评判器筛选后进入下一层，直至达成终止条件。最终采集3200条测试样本，每条样本包含原始问题、模型生成文本、奖励分数、价值函数预测及任务层级等结构化信息，并聚合了10个分片的数据以确保统计稳健性。

特点

数据集具备鲜明的多层级、多粒度特性。每个样本均关联明确的认知难度等级（level 1至4），并记录模型在不同搜索阶段（search phases）的生成与评判token消耗，如policy_output_tokens_level_1达728k，而level_4仅4.6k，反映层级加深后搜索空间的快速收敛。关键评估指标囊括pass@k、maj@k及w_best@k等，其中pass@32达0.64，maj@32为0.528，显示出模型在高召回率设置下的潜力。此外，数据集中未出现任何截断样本（truncated_count为0），保障了生成过程的完整性。

使用方法

该数据集主要面向强化学习与推理模型的基准测试。使用者可将question字段作为输入，配合target字段验证模型生成的对齐程度；reward与vf_prediction字段便于计算策略梯度或进行价值函数的回归分析。task字段允许按认知任务类型进行子集划分，而level字段支持逐级评估模型在不同推理深度上的表现。推荐的评估协议包括计算pass@k与maj@k指标，并利用multiplicity（num_unique_answers）衡量生成多样性，从而全面度量模型在复杂推理场景中的稳健性与创造性。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed65_rg_cognition__v0，源自对大型语言模型推理能力的深度探索。近年来，如何提升语言模型在复杂认知任务中的表现成为研究前沿，其中搜索树与多轮生成策略被广泛关注。本数据集由基于Gemma-4-E4B-it的模型生成，采用分层次的评判机制与多轮搜索采样技术，旨在强化模型在多层次推理中的准确性和鲁棒性。数据集包含3200条测试样本，每条样本涵盖从问题到目标答案的完整生成链，并记录了各层代的输出与奖励值。研究团队通过聚合10个分片数据，评估了模型在不同采样规模下的多数投票与通过率指标，为语言模型的认知能力评估提供了新的基准。该数据集的出现，对于推动模型在自动推理与决策领域的应用具有重要参考价值。

当前挑战

该数据集所面临的挑战主要体现在两个层面。在领域问题层面，如何提升语言模型在复杂认知任务中的推理准确率仍是核心难题，当前maj@1准确率仅为0.505，表明单次生成存在较大不确定性，模型需在更高层次的逻辑判断中减少错误。构建过程中，数据生成依赖于四层评判体系，每层均需大量token消耗，例如第一层平均每样本消耗75068个评判token，导致计算资源开销巨大。此外，不同采样规模下的通过率与唯一答案数量差异显著，说明模型生成多样性低，易陷入局部最优，难以覆盖完整解空间。如何平衡生成质量与计算成本，同时增强模型对多步推理的泛化能力，是当前构建该数据集及类似项目时面临的主要挑战。

常用场景

经典使用场景

在大型语言模型的对齐与强化学习研究中，`rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed65_rg_cognition__v0` 数据集以其精细的结构化设计，成为评估模型生成推理能力的重要基准。该数据集包含问题、生成文本、奖励信号及多层级评判输出等字段，尤其适用于测试模型在复杂认知任务中的表现。通过记录多轮搜索阶段的策略输出令牌和法官评判令牌，研究者可以深入分析模型在多层次推理过程中的行为模式，从而衡量其思维链的质量与一致性。这一数据集为探索语言模型在认知科学领域的应用提供了标准化评估框架。

衍生相关工作

围绕该数据集的特性，已有若干衍生工作聚焦于多层次推理过程中的奖励模型设计以及搜索策略优化。部分研究借鉴其多级评判架构，改进了基于好奇心驱动的探索式学习算法；另一些工作则利用数据集提供的`vf_prediction`（价值函数预测）字段，开发了更精准的模型自我评估方法。此外，该数据集在统一不同任务描述（`task`字段）下的认知评估标准方面起到了示范作用，催生了诸如跨任务推理一致性评测、多轮对话中元认知能力分析等一系列前沿课题。

数据集最近研究