rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估生成模型表现的测试集，共包含12,800个样本。每个样本包含多个字段：问题（question）、生成ID（generation_id）、生成内容（generation）、token数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、vf预测（vf_prediction）和级别（level）。数据集还提供了丰富的聚合指标，包括响应token的平均值和中位数、不同级别的judge输出token数量、policy输出token数量以及多种性能指标（如pass@1、pass@128等）。这些指标是从10个分片聚合而来，可用于评估生成模型的表现。

创建时间：

2026-05-06

原始信息汇总

数据集概述

该数据集名为 rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0，由用户 anirudhb11 上传至 Hugging Face。

数据集结构

特征 (Features):
- question: 问题文本 (string)
- generation_id: 生成ID (int64)
- generation: 生成内容 (string)
- num_tokens: 令牌数量 (int64)
- reward: 奖励值 (float64)
- question_index: 问题索引 (int64)
- target: 目标答案 (string)
- task: 任务名称 (string)
- vf_prediction: 价值函数预测 (float64)
- level: 层级 (int64)
数据分割 (Splits):
- 仅包含一个 test 集，其中包含 12,800 个样本，总数据大小为 141,687,934 字节（约135 MB）。下载大小为 35,647,709 字节（约34 MB）。
配置 (Configs):
- 默认配置 default，数据文件路径为 data/test-*。

聚合指标 (Aggregated Metrics)

该数据集报告了从 10 个分片聚合的指标，包括：

平均响应令牌数: 2698.54
中位响应令牌数: 2038.95
性能指标 (如 maj@1, pass@1 等): 展示了在不同采样数量（如1, 2, 4, 8, 16, 32, 64, 128）下的多数投票准确率 (maj@k) 和通过率 (pass@k)。
- 例如: maj@1 为 0.471, pass@1 为 0.453, maj@128 为 0.523, pass@128 为 0.670。
唯一答案数量: 在不同采样数量下的唯一答案数，例如 num_unique_answers@1 为 0.743, num_unique_answers@128 为 17。
令牌使用量: 包括策略输出令牌、法官输出令牌、总生成令牌等，例如 total_policy_output_tokens 为 3.454e6, total_judge_output_tokens 为 943,461。
层级相关指标: 记录了不同层级（Level 1-4）的法官输出令牌数、跳过完成次数、截断率等，例如 judge_output_tokens_level_1 为 319,963, truncated_rate_level_1 为 0.0006。

搜集汇总

数据集介绍

构建方式

本数据集基于强化学习与生成式认知推理框架构建而成，其命名中的“rg_cognition”暗示了数据生成过程融合了奖励引导（reward-guided）的搜索策略。具体而言，数据集源自对Gemma-4-E4B-it模型进行多次采样与评估的结果。通过设置不同的搜索深度（level 1至4）和采样数量（ns128），利用多轮生成与评判（judge）机制，对模型输出进行逐层筛选与奖励打分，最终汇集为包含问题、生成文本、奖励值及价值函数预测等多种字段的测试集。

使用方法

用户可直接通过HuggingFace的datasets库加载该数据集，仅包含一个名为“test”的分割。每条数据包含question、generation、reward、target等字段，适用于评估或训练语言模型的认知推理能力。研究人员可依据level字段过滤不同复杂度的问题子集，或利用reward和vf_prediction字段进行强化学习中的奖励建模与价值函数对标研究。聚合指标如maj@k、pass@k可用于快速对比不同采样策略下模型性能的优劣。

背景与挑战

背景概述

该数据集由REBASE项目创建，旨在评估和提升大型语言模型的推理能力，其命名暗示了基于Gemma-4-E4B-it模型进行思维链或搜索式推理生成。数据集构建于Gemma系列模型基础之上，聚焦于认知任务中的推理质量评估。通过引入多级评判机制和搜索策略，数据集系统性地衡量模型在多个推理层级上的表现，如maj@k和pass@k指标所示。其核心研究问题在于如何有效度量模型在复杂认知任务中的一致性、多样性及准确性，为语言模型在高级推理领域的应用提供了标准化评估基准，对提升模型在科学问题解答、编程任务等领域的表现具有重要推动作用。

当前挑战

数据集面临的核心挑战包括：1）所解决的领域问题中，如何设计一个能够精确分离模型正确推理与偶然正确的评估框架，尤其是在需要多步逻辑推导的复杂认知任务中，避免简单答案匹配导致的评估偏差。2）构建过程中的挑战在于多层级评判机制的设计与实现：需要平衡不同层级评判的粒度与计算成本，确保从基础回答到高阶搜索推理的逐步验证既全面又高效。3）数据集还面临评判一致性的挑战，如数据中显示的judge_skipped_completed指标表明不同层级存在跳过的样本，需保证最终评估的可靠性。此外，大规模生成与评判过程中高昂的token消耗和计算资源需求也是实际应用中的难点。

常用场景

经典使用场景

在认知科学与人工智能的交汇领域，rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed42_rg_cognition__v0数据集以其精巧的多层次评判架构，为评估大语言模型的认知推理能力提供了标准化的测试平台。该数据集涵盖从简单事实检索到复杂多步推理的四个难度层级，并针对每个问题采样128次生成，辅以多元化的奖励信号与价值函数预测。其经典使用场景聚焦于模型在开放域问答中的鲁棒性与一致性测量，研究者可藉由maj@k、pass@k及num_unique_answers等指标，系统考察模型在不同采样规模下的表现波动，从而揭示其内在的认知边界与置信校准特性。

解决学术问题

该数据集精准回应了当前大语言模型研究中关于推理深度与可靠性的核心困境：如何量化模型在长链推理中的逐步搜索行为并评估其最终答案的稳健性。通过记录从初始回答到多轮自我修正的完整输出轨迹与裁判逻辑的token级分析，它解决了传统基准难以捕捉的“伪推理”现象——即模型表面正确却逻辑断裂的回答。其引入的层次化评判机制，能够区分模型在无需探索、局部搜索、全局搜索乃至回溯推理等不同复杂度任务上的表现，为分析模型何时依赖记忆、何时真正进行逻辑推理提供了可复现的实证基础，对推动认知对齐研究具有方法论意义。

实际应用

在实际部署层面，该数据集的设计直接服务于需要高可靠性输出的应用场景，如智能教育辅导中的自动答疑系统、法律或医疗领域的决策支持工具。其丰富的生成多样性指标（如num_unique_answers）可帮助开发者评估模型在敏感问题上的回答一致性，避免因随机采样导致的矛盾输出。同时，基于奖励信号（reward）与价值函数预测（vf_prediction）的分析，能够为强化学习微调提供监督信号，指导模型在探索新知识（如科学研究写作）与保守已知事实之间取得平衡，从而提升人机协作场景中模型输出的可信赖度和实际可用性。

数据集最近研究