rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed65_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed65_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，如问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励（reward）、问题索引（question_index）、目标（target）、任务（task）、vf预测（vf_prediction）和级别（level）。数据集分为一个测试集（test），包含12,800个样本。聚合指标来自10个分片，涵盖了模型响应和任务评估的各种性能指标和令牌相关统计。该数据集适用于模型响应评估和相关任务的研究。

创建时间：

2026-05-06

原始信息汇总

根据您提供的数据集详情页面 README 文件内容，以下是对该数据集的总结：

数据集概述

数据集名称: rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed65_rg_cognition__v0
数据集页面: https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed65_rg_cognition__v0

数据特征

该数据集包含 10 个特征字段，具体如下：

特征名称	数据类型	描述
`question`	字符串	问题的内容
`generation_id`	整数	生成的唯一标识
`generation`	字符串	模型生成的回答
`num_tokens`	整数	生成的回答的令牌数
`reward`	浮点数	奖励值
`question_index`	整数	问题的索引
`target`	字符串	目标回答
`task`	字符串	任务类型
`vf_prediction`	浮点数	值函数预测
`level`	整数	层级

数据划分

数据集仅包含 测试集，具体划分信息如下：

划分	样本数量	字节数
测试集 (test)	12,800 个样本	142,449,303 字节

下载大小: 35,720,738 字节
数据集总大小: 142,449,303 字节

数据配置

该数据集有一个默认配置 default，其数据文件路径为 data/test-*。

聚合指标

该数据集从 10 个分片 中聚合了以下评估指标（加权平均值）：

核心评估指标

maj@1: 0.472968 (多数投票 @1 准确率)
maj@128: 0.520553 (多数投票 @128 准确率)
pass@1: 0.4525 (通过率 @1)
pass@128: 0.68 (通过率 @128)
w_best@1: 0.476762 (加权最佳 @1)
w_maj@1: 0.471968 (加权多数投票 @1)

生成与资源消耗指标

total_time_s: 2440.21 秒 (总运行时间)
total_policy_output_tokens: 3,499,100 令牌 (策略输出总令牌数)
total_judge_output_tokens: 958,089 令牌 (评判输出总令牌数)
total_generated_output_tokens: 4,457,190 令牌 (生成输出总令牌数)
avg_response_tokens: 2733.6 (平均回答令牌数)
median_response_tokens: 2041.3 (中位数回答令牌数)

唯一答案数量 (不同规模)

num_unique_answers@1: 0.752 (单一生成中的平均唯一答案数量)
num_unique_answers@128: 18.16 (128 次生成中的平均唯一答案数量)

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型在认知推理任务上的生成结果构建而成。具体而言，通过向模型输入特定问题（question字段），利用多层级搜索与判别机制，生成128个候选回复（generation字段），并附带token数量、奖励分数（reward）及价值函数预测（vf_prediction）等元信息。每个样本还包含了问题索引、目标任务类型、难度等级以及标准答案（target），形成了一套结构化的评测数据。数据集共包含12,800条测试样本，分布于10个分片中，总计约142MB。

特点

数据集的核心特色在于其多维度评测指标与层级化设计。从聚合指标来看，涵盖了从pass@1到pass@128、maj@1到maj@128等多种成功率度量，以及响应token分布、唯一答案数量等统计量，能够全面评估模型在不同采样规模下的推理稳健性。此外，数据集还记录了四个层级的判别器输出token数、跳过次数和截断率，为分析模型在复杂推理过程中的中间状态提供了精细的粒度。这种层级结构使得研究者不仅能评估最终答案的正确性，还能追踪推理路径的效率与完整性。

使用方法

该数据集可直接用于评测与对比不同推理策略或模型变体的认知能力。使用时，可通过加载HuggingFace数据集库中的test分割，获取question、generation、target等字段，以计算各类准确率指标。借助预计算的多层级判别结果和奖励分数，用户能够复现加权多数投票（w_maj）与加权最优选择（w_best）等高级集成方法。此外，通过改变采样数量（如@1、@16、@128），可以系统性地研究模型在面对不确定性时的性能提升规律，适用于推理增强算法的消融实验与基准测试。

背景与挑战

背景概述

该数据集源于对大语言模型认知推理能力的深度探索，由相关研究团队基于Gemma模型构建，旨在评估和提升模型在复杂推理任务中的表现。数据集创建于近年大模型快速发展的背景下，核心研究问题聚焦于如何通过多轮搜索与自我纠错机制增强模型的推理稳定性与准确性。数据集内嵌了多层次评价指标，如maj@k和pass@k，为衡量模型在多次采样下的推理一致性提供了量化基准，对推动可解释与可信赖的人工智能系统具有重要影响。

当前挑战

当前主要挑战在于大语言模型在认知推理任务中面临的不确定性与多样性困境。一方面，模型在单次推理中易受随机性干扰，导致准确率波动显著，如maj@1仅为0.47，而pass@128提升至0.68，反映出单次推理与多轮投票之间的性能鸿沟。另一方面，数据集构建过程面临计算资源与时间成本的高昂挑战，包含多层级搜索与判读流程，平均每个样本需生成数万tokens，导致生成阶段耗时逾1600秒，对工程效率和资源调度提出了严峻考验。

常用场景

经典使用场景

rebase_gemma-4-E4B-it_rg_cognition_ns128_md4_bt0_1_seed65_rg_cognition__v0数据集，作为认知科学导向下的强化生成评测资源，其经典使用场景集中在多轮推理与搜索式生成任务的评估上。该数据集收录了模型在多层递进式评判（judge）体系中，生成回答的多样性、准确性与覆盖率等关键指标，尤其适用于对比不同采样策略（如maj@k与pass@k）对最终性能的影响。研究者可利用其丰富的token级与样本级统计信息，深入剖析模型在认知密集型问题下的生成行为，从而推动对智能系统推理能力的量化理解。

实际应用

在实际应用中，该数据集为智能客服、辅助决策系统以及教育评估平台等场景提供了坚实的性能标尺。开发者可以依据其中的maj@k与pass@k曲线，优化模型在有限计算资源下的采样输出策略，例如在知识问答中平衡回答的多样性与准确性。同时，其所记录的judge推理路径与响应token消耗信息，可用于指导推理时计算效率的改进，帮助部署更经济且有效的交互式人工智能服务，确保在复杂认知任务中实现稳定、可预期的输出质量。

衍生相关工作

围绕该数据集已衍生出若干具有影响力的研究方向，尤其在强化学习与搜索生成模型的交叉领域。已有工作基于其提供的多层次评判指标，探索了价值函数预测（vf_prediction）与奖励建模的精细化融合方法。此外，开源社区中出现了针对其采样策略（如温度系数、保留项数）进行系统性消融分析的研究，旨在揭示模型在不同置信度阈值下的行为规律。这些衍生工作不仅拓展了数据集本身的应用边界，也为后续构建自我修正与迭代优化的生成系统提供了宝贵的参照框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集