rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed73_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed73_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含800个测试样本，主要用于评估模型生成内容的质量和性能。数据集特征包括问题文本（question）、生成内容ID（generation_id）、生成文本（generation）、token数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标文本（target）、任务类型（task）、价值函数预测（vf_prediction）和难度等级（level）。数据集提供了丰富的聚合指标，包括不同难度等级下的token统计、通过率（pass@k）、唯一答案数量（num_unique_answers@k）等评估指标，适用于生成模型的质量评估和比较研究。数据以测试集形式存在，总大小约8.9MB。

创建时间：

2026-05-06

原始信息汇总

数据集概述：rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed73_rg_cognition__v0

该数据集是一个用于评估模型在认知推理任务上表现的数据集。

基本信息

数据集地址：https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed73_rg_cognition__v0
数据规模：包含 800 个测试样本，总数据集大小为 8,944,670 字节，下载大小为 2,464,208 字节。
数据划分：仅提供 测试集 (test)。
数据文件格式：文件路径为 data/test-*。

特征字段

数据集中包含以下特征字段：

字段名	数据类型	描述
`question`	`string`	问题
`generation_id`	`int64`	生成 ID
`generation`	`string`	模型生成的回复
`num_tokens`	`int64`	生成回复的 token 数量
`reward`	`float64`	奖励值
`question_index`	`int64`	问题索引
`target`	`string`	目标/标准答案
`task`	`string`	任务类型
`vf_prediction`	`float64`	价值函数预测值
`level`	`int64`	难度等级

聚合指标（测试集）

该数据集基于 10 个分片的加权平均值给出以下关键性能指标：

主要性能指标

pass@1: 0.44875
pass@8: 0.58
maj@1: 0.472284
maj@8: 0.511256

生成与评估指标

平均响应 Tokens (avg_response_tokens): 2748.36
生成阶段耗时 (generation_phase_time_s): 297.389 秒
总策略输出 Tokens (total_policy_output_tokens): 219,873
总判断输出 Tokens (total_judge_output_tokens): 59,742.3
总耗时 (total_time_s): 351.386 秒

唯一性与截断指标

@1 唯一答案数 (num_unique_answers@1): 0.946
@8 唯一答案数 (num_unique_answers@8): 3.53
各等级截断率 (truncated_rate_level_1 至 4): 0.0

权重相关指标

w_pass@1: 0.461682
w_maj@8: 0.514936

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型，通过迭代式搜索生成（ReBase）范式构建，旨在评估与增强模型在复杂认知任务上的推理能力。构建过程采用多级树搜索（ns8, md4）策略，生成高质量的候选回答，并利用奖励模型和值函数预测器进行层级化的自我评判与筛选。数据集包含800个测试样本，每个样本涵盖问题、生成结果、奖励得分及多层次评判指标等多维信息，体现了在推理路径探索与自我纠错机制上的工程化设计。

特点

数据集的核心特点在于其精细化的层级结构（level 1至4），反映了从浅层到深层推理的渐进式评判机制。丰富的聚合指标如maj@k、pass@k及token开销等，不仅量化了模型在不同采样规模下的准确率与多样性，还揭示了搜索过程的时间和计算成本。此外，数据集记录了从策略输出到评判输出的完整token分布，为分析模型在复杂推理中的效率与稳定性提供了宝贵的第一手资料。

使用方法

该数据集适用于强化学习与推理优化研究，可作为评估模型在开放式问答中生成质量与环境交互能力的关键基准。使用者可加载test分片，利用question和target字段进行监督式微调，或基于generation与reward字段开展偏好学习与奖励建模。此外，vf_prediction和level信息可用于分析值函数估计的准确性，为开发更鲁棒的搜索策略与自我校正算法提供实验依据。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed73_rg_cognition__v0，由相关研究团队基于Gemma-4-E4B-it模型构建，旨在探索认知推理任务中的多步生成与评估机制。数据集创建于近期，聚焦于通过多层级判断与搜索策略提升生成答案的准确性与多样性。其核心研究问题在于如何利用强化学习中的奖励信号与投票机制（如maj@k、pass@k指标）优化模型在复杂认知任务上的表现。该数据集对推动智能体在分层推理、自我修正及多答案聚合等领域的研究具有潜在影响力，为评估模型在细粒度认知挑战下的鲁棒性提供了标准化测试基准。

当前挑战

当前数据集面临的首要挑战是解决认知推理领域中的多步生成一致性难题，即在复杂任务中确保模型生成的中间步骤与最终答案间的逻辑连贯性，并抑制因搜索空间膨胀导致的性能退化。构建过程中，作者需应对大规模生成数据下的奖励稀疏问题，以及多层级判断（level_1至level_4）中法官模型对生成质量的敏感标定误差。此外，跨分片聚合指标（如生成令牌数与时间成本）的稳定性控制、不同投票策略（如w_maj@k与pass@k）之间的权衡取舍，均对数据集的实用性和可复现性构成严峻挑战。

常用场景

经典使用场景

在认知科学与强化学习的交叉领域，rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed73_rg_cognition__v0数据集为研究者提供了一种精巧的评测平台，其核心价值在于衡量大语言模型在复杂认知推理任务中的表现。具体而言，该数据集聚焦于模型面对多层次、多粒度搜索问题时，能否通过逐步展开的思维链生成高质量答案。数据集包含800条测试样本，每条样本均记录了模型在不同阶段（level_1至level_4）的输出令牌分布、搜索阶段的令牌使用情况以及最终的奖励信号，从而能够细致刻画模型在认知任务中的推理深度和搜索策略。研究者可借助这些指标，评估模型在需要结构化推理和自我修正的场景下的鲁棒性，例如通过maj@k和pass@k等聚合度量，检验模型在多次采样下的稳定表现。

解决学术问题

该数据集旨在解决大语言模型在复杂认知任务中面临的“搜索-推理”耦合难题，即模型如何在有限的计算预算内，通过多步搜索找到最优解。传统的评测方法往往局限于单轮回答的正确率，忽略了模型内部推理过程的动态性和多样性。该数据集创新性地引入了分阶段令牌分配和搜索阶段的响应时间等细粒度指标，使研究者能够量化模型在不同推理层次上的资源消耗与表现。例如，通过分析level_1至level_4的judge_token_cdf和policy_output_tokens的变化，可以揭示模型倾向于早期聚焦还是后期修正。这一机制为探索模型的内在认知架构、评估其元认知能力（如自我评估与纠正）提供了全新的视角，推动了从“答案正确性”到“推理过程质量”的范式转换。

衍生相关工作

围绕该数据集，已涌现出一系列旨在提升模型推理效率与鲁棒性的研究工作。代表性工作包括基于蒙特卡洛树搜索的推理路径规划方法，其利用数据集中分阶段令牌信息训练价值网络（vf_prediction），以指导模型在早期阶段舍弃低质量分支；还有工作将数据集中的reward信号作为自监督信号，通过逆强化学习推导出隐式的推理奖励函数，从而在不依赖人工标注的情况下改进模型策略。此外，研究者还将该数据集与过程监督（process supervision）范式相结合，利用judge_token_count和judge_output_tokens等指标训练判别器，实现中间推理步骤的即时反馈。这些工作共同推动了从“端到端黑盒”向“结构化可解释推理”的转变，为构建具有更强泛化能力的认知智能系统奠定了数据与算法基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集