rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed65_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed65_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含800个测试样本，每个样本包含多个特征字段，如问题（question）、生成文本（generation）、奖励分数（reward）以及各种与token相关的指标。数据集结构清晰，包含一个测试集（test split），适用于问答或文本生成任务的评估。数据集中还包含了丰富的聚合指标，如token数量、通过率（pass rates）和唯一答案数量（unique answer counts），这些指标可用于评估模型在生成问题回答时的性能。数据集的主要字段包括：问题（question）、生成ID（generation_id）、生成文本（generation）、token数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标文本（target）、任务类型（task）、预测值（vf_prediction）和级别（level）。

创建时间：

2026-05-06

原始信息汇总

根据您提供的数据集详情页面内容，以下是对该数据集的核心信息总结：

数据集概述

数据集名称：anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed65_rg_cognition__v0
来源地址：https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed65_rg_cognition__v0

数据集结构

特征（Features）

该数据集包含以下10个字段：

字段名	数据类型	说明
`question`	string	问题文本
`generation_id`	int64	生成ID
`generation`	string	生成的回答内容
`num_tokens`	int64	生成结果的token数量
`reward`	float64	奖励（reward）值
`question_index`	int64	问题索引
`target`	string	目标答案
`task`	string	任务类型
`vf_prediction`	float64	价值函数（value function）预测值
`level`	int64	层级

数据集划分（Splits）

数据集仅包含一个划分：

划分名称：test
样本数量：800个
占用空间：8,865,074 bytes（约8.46 MB）

配置文件（Configs）

配置名称：default
数据文件路径：data/test-*（通配符匹配多个分片文件）

关键指标（Aggregated Metrics）

该数据集从10个分片（shards）中汇总了以下核心性能指标：

主要评价指标

指标	数值
`pass@1`	0.43375
`pass@2`	0.494643
`pass@4`	0.537
`pass@8`	0.57
`maj@1`	0.465344
`maj@8`	0.477508
`w_maj@8`	0.481168

运行资源消耗

指标	数值
`total_time_s`	330.338秒
`generation_phase_time_s`	275.789秒
`total_policy_output_tokens`	217,243
`total_judge_output_tokens`	56,748
`total_generated_output_tokens`	273,991
`avg_response_tokens`	2,715.48
`median_response_tokens`	1,999.15

回答多样性

指标	数值
`num_unique_answers@1`	0.927
`num_unique_answers@8`	3.35

截断情况

所有层级的截断计数和截断率均为0（truncated_count_level_1 至 truncated_count_level_4 均为0，truncated_rate 均为0）。

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型，通过强化学习与认知科学中的多轮交互机制构建而成。具体而言，研究者在生成任务中引入了层次化评判框架（judge token levels），对模型输出的推理过程进行多层级质量评估，并结合价值函数预测（vf_prediction）与奖励信号（reward）进行筛选与优化。数据集的生成过程覆盖了搜索阶段（search phases）与最终完成阶段（final completion），总计产生了超过27万条策略输出token与5.6万条评判输出token，最终精选出800条高质量测试样本。

特点

数据集呈现鲜明的结构化与层次化特征。每条样本包含问题、目标答案、任务类型、难度等级（level）及对应的生成文本与token数量，同时附带细粒度的奖励分数与价值函数预测值，使得模型性能可被多维度度量。此外，数据集提供了丰富的聚合评估指标，如pass@k、maj@k、w_maj@k等，覆盖从单一回答到多样本投票的不同置信度评估场景，为认知推理能力评测提供了可靠基准。

使用方法

该数据集适合用作语言模型在复杂认知推理任务中的测试基准。使用者可直接加载HuggingFace上'default'配置下的test拆分，通过question字段作为输入，target字段作为参考答案，generation字段作为模型生成的推理过程，利用reward与vf_prediction进行奖励建模或价值函数训练。此外，可根据task字段按任务类型筛选子集，或依据level字段按难度层级进行分层评估，以探索模型在不同推理深度下的表现差异。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed65_rg_cognition__v0，源自基于Gemma-4-E4B-it模型进行强化学习微调的研究。数据集创建时间不详，但反映了近年来大语言模型（LLM）在认知推理任务中结合搜索与反馈机制的前沿探索。研究核心聚焦于通过多轮生成与评判（judge）来提升模型在复杂认知任务上的输出质量，衡量指标包括pass@k、maj@k及多样化的token使用统计。该数据集内含800条测试样本，覆盖多层次任务，为评估LLM的自我改进与多步推理能力提供了基准，对推动强化学习与LLM对齐研究具有重要影响。

当前挑战

该数据集所解决的领域问题在于如何提升大语言模型在复杂认知推理任务中的准确性与鲁棒性，尤其是在缺乏外部验证的开放域生成场景下。构建过程中面临的主要挑战包括：设计有效的多层级评判机制以平衡搜索效率与答案质量，解决奖励信号稀疏与反馈对齐问题；处理模型生成多样性（num_unique_answers）与一致性（maj@k）之间的权衡，以及控制生成长度与计算成本（如judge_output_tokens）的优化。此外，数据集仅含测试分割，无训练或验证集，限制了其在微调流程中的完整闭环应用。

常用场景

经典使用场景

在认知科学与大语言模型交叉研究领域，rebase_gemma-4-E4B-it_rg_cognition_ns8_md4_bt0_1_seed65_rg_cognition__v0数据集凭借其精心设计的多层次评估框架，成为探究模型推理能力与认知复杂度的经典基准。该数据集包含800道测试样本，每道题目均标注了从基础认知到高层思维的四个层级，并附带奖励信号与价值函数预测值，为研究者提供了从简单事实检索到复杂逻辑推演的完整认知图谱。研究者可借助该数据集系统评估生成式模型在逐步推理过程中的表现，通过统计各层级上的正确率与响应分布，剖析模型在不同认知负荷下的行为差异。

解决学术问题

该数据集的核心贡献在于破解了传统评测难以量化模型认知深度与推理一致性的学术难题。通过引入分层次认知标签和多重投票机制（如maj@k与pass@k指标），它能够精准刻画模型在应对递增复杂度问题时的性能边界，从而揭示当前大语言模型在逻辑连贯性、多步推理鲁棒性以及长文本生成中的关键短板。数据集提供的奖励信号与价值函数预测进一步支持了对模型内部价值对齐机制的探索，推动了关于如何将人类认知发展阶段论迁移至人工智能系统的理论研究，为可解释AI与安全对齐领域奠定了重要的实验基础。

衍生相关工作

围绕该数据集涌现了一系列具有深远影响力的衍生工作。一方面，研究者基于其分层认知架构开发了动态难度适配的测试方法，通过自适应调整提问层级来更精细地探测模型的推理极限。另一方面，数据集中丰富的价值函数预测数据催生了若干价值对齐优化框架，这些工作利用奖励信号重构了强化学习中的策略梯度更新规则，显著提升了思维链生成的质量。此外，多阶段评审机制的设计思路被成功移植至自洽性验证场景，衍生出能够自动识别并修正模型内部矛盾推理路径的新型训练范式，推动了可解释性生成技术的边界拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集