rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含3200个测试样本，主要字段包括问题文本(question)、生成ID(generation_id)、生成内容(generation)、token数量(num_tokens)、奖励分数(reward)、问题索引(question_index)、目标(target)、任务类型(task)、价值函数预测(vf_prediction)和难度等级(level)。数据集总大小为35.8MB，下载大小为9.1MB。从聚合指标来看，数据涉及多级评估（1-4级），包含丰富的生成和评判指标，如平均响应token数(2755.79)、各级别评判token数、通过率(pass@1为0.444到pass@32为0.63)和唯一答案数量等指标，表明这可能是一个与多级生成任务评估相关的数据集。

创建时间：

2026-05-06

原始信息汇总

基于您提供的数据集详情页 README 文件内容，以下是该数据集的详细信息总结：

数据集名称

rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0

数据特征

该数据集包含以下10个字段：

question （字符串）：问题内容
generation_id （整型）：生成ID
generation （字符串）：生成的回答
num_tokens （整型）：生成回答的token数量
reward （浮点型）：奖励值
question_index （整型）：问题索引
target （字符串）：目标答案
task （字符串）：任务名称
vf_prediction （浮点型）：价值函数预测值
level （整型）：难度等级

数据集规模

数据集划分：仅包含测试集（test）
测试集样本数：3200条
数据集总大小：35,809,756 字节（约34.16 MB）
下载大小：9,122,818 字节（约8.70 MB）

数据配置

配置名称：default（默认配置）
数据文件路径：data/test-*

聚合指标（摘要）

该数据集来自10个分片（shards）的聚合结果，关键性能指标如下：

指标类别	关键指标	数值
推理效率	平均生成响应token数	2755.79
推理效率	中位数生成响应token数	2067
推理效率	总生成输出token数	1,124,130
推理效率	总策略输出token数	881,872
推理效率	总评估器输出token数	242,257
推理效率	总耗时（秒）	923.445
推理效率	生成阶段耗时（秒）	702.967
准确性	pass@1	0.4447
准确性	pass@32	0.6300
准确性	maj@1	0.4835
准确性	maj@32	0.5014
多样性	num_unique_answers@1	0.922
多样性	num_unique_answers@32	9.92

搜集汇总

数据集介绍

构建方式

该数据集源自对Gemma-4-E4B-it模型进行强化学习训练后的推理轨迹采样，旨在探索认知类多步推理任务的性能边界。构建过程中，研究团队针对同一组问题进行了32次独立生成，每次生成均记录完整的逐步推理链、价值函数预测及多层级裁判模型的打分结果。数据集的测试集共包含3200条样本，每条样本存储了问题、生成ID、完整生成文本、token数量、奖励值等结构化字段，形成了丰富的行为分析基础。

使用方法

使用者可通过HuggingFace Datasets库加载默认配置下的测试集，利用question字段作为输入，generation字段作为模型输出进行下游分析。数据集中提供的reward与vf_prediction字段可直接用于强化学习中的奖励建模或批评者网络的训练与评估。建议研究者重点关注level字段及对应的truncated_rate指标，以诊断模型在复杂推理步骤中的过早终止现象，并结合pass@k曲线制定最优的采样策略。

背景与挑战

背景概述

rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0 数据集诞生于大规模语言模型（LLM）认知推理能力评估与强化学习的交叉前沿，由研究团队基于 Gemma-4 模型构建，专注于探索多步推理任务中的生成式智能。该数据集包含3,200个测试样本，涵盖从基础到高难度的多层次认知任务，通过细粒度的奖励信号和推理链追踪，揭示了模型在复杂逻辑链中的行为模式。其核心研究问题在于如何量化与提升LLM在结构化推理场景中的可靠性，为可解释人工智能与认知架构的融合提供了宝贵的实证基础，对语言模型对齐与推理优化领域产生了深远影响。

当前挑战

该数据集所解决的领域挑战集中于多步推理中模型生成的稳定性与精确性，例如在四层级难度任务下，Maj@1准确率仅为48.4%，而Pass@32提升至63.0%，揭示出单次采样与多轮探索间的显著鸿沟。构建过程中的挑战则体现在多层次奖励建模的复杂性：研究需协调四个级别的裁判模型，其输出Token分布差异达数十倍，同时需处理因推理深度增加所致的截断率攀升（从0.1%升至11.1%），要求高效平衡计算资源与评估粒度。此外，鲁棒性指标（如w_maj@1_std为7.1%）暗示模型输出对随机种子敏感，为可复现性建设带来额外挑战。

常用场景

经典使用场景

在认知科学与大语言模型交叉领域，rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed42_rg_cognition__v0数据集为评估模型在复杂推理任务中的认知能力提供了重要基准。该数据集包含3200个测试样本，每个样本都记录了模型在不同推理层次下的生成响应、奖励值及价值函数预测，能够系统地衡量模型从基础问答到多层次搜索推理的表现。研究人员通常利用该数据集进行多轮生成与评判的闭环实验，通过分析模型在不同响应数量（如maj@1至maj@32）下的准确率变化，深入探究模型在认知任务中的鲁棒性与一致性。

解决学术问题

该数据集有效解决了大语言模型在认知推理任务中缺乏细粒度评估标准的问题。传统评估方法往往仅关注最终答案的正确性，而该数据集通过记录每个问题的多层级生成过程、搜索阶段的令牌消耗以及截断率等指标，使得研究者能够量化模型在推理过程中的中间状态与决策路径。此数据集的出现促进了学术界对模型内在认知机制的理解，尤其在探索模型如何在不同难度层级间切换策略、如何平衡探索与利用等关键问题上提供了可复现的实验平台，对推动认知启发式人工智能理论的发展具有深远意义。

实际应用

在实际应用中，该数据集可直接服务于智能问答系统、教育培训辅助工具以及复杂决策支持平台的性能迭代。例如，在构建需要层次化推理的客服机器人时，开发者可利用数据集中的多级评判指标来优化模型在逐层深度搜索时的响应质量。此外，数据集中提供的奖励函数与价值预测信息能够辅助强化学习场景下的奖励模型训练，从而提升系统在金融分析、医疗诊断等高风险领域的推理可靠性。其多层次的结构化数据也为自适应学习系统中的个性化难度调节提供了有价值的参考基准。

数据集最近研究