rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed73_rg_cognition__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed73_rg_cognition__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个测试集，共3,200个样本。数据集特征包括问题文本、生成ID、生成内容、令牌数量、奖励值、问题索引、目标、任务类型、价值函数预测和层级信息。数据集适用于评估模型生成内容的质量和多样性，特别是在多层级任务和响应评估场景中。聚合指标部分提供了从10个分片汇总的详细性能指标，涵盖了响应令牌数、生成阶段时间、裁判输出令牌数、跳过完成率、通过率等多个维度，为模型性能评估提供了全面的数据支持。

创建时间：

2026-05-06

原始信息汇总

数据集概述：rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed73_rg_cognition__v0

该数据集是一个用于评估和测试模型在认知任务上表现的数据集合，基于 Gemma-4-E4B-it 模型进行强化生成（RG）实验。数据集包含 3200 个测试样本，总数据量约为 35.5 MB。

数据集特征

数据集包含以下 10 个字段：

question：字符串类型，表示提出的问题。
generation_id：整型，表示生成的唯一标识符。
generation：字符串类型，表示模型生成的答案。
num_tokens：整型，表示生成答案的 token 数量。
reward：浮点型，表示模型生成答案的奖励值。
question_index：整型，表示问题在数据集中的索引。
target：字符串类型，表示标准答案或目标输出。
task：字符串类型，表示所属的任务类型。
vf_prediction：浮点型，表示价值函数（Value Function）的预测值。
level：整型，表示任务或问题的难度级别。

数据集划分

数据集仅包含一个 test（测试）划分，包含 3200 个样本，占用 35,526,441 字节（约 35.5 MB）。下载大小为 9,104,708 字节（约 9.1 MB）。

聚合性能指标

数据集汇总了从 10 个分片（shards）聚合的评估指标，反映了模型在测试集上的性能。关键指标包括：

准确率指标：
- pass@1：0.455
- pass@32：0.670
- maj@1：0.489
- maj@32：0.531
多样性指标：
- num_unique_answers@1：0.92
- num_unique_answers@32：9.95
计算资源消耗：
- total_generated_output_tokens：1,095,090
- total_policy_output_tokens：865,216
- total_judge_output_tokens：229,878
- total_time_s：746.058
均值响应 token 数：2703.73
中位数响应 token 数：2042.5
各难度级别截断率：均为 0，表示没有发生截断

配置与数据文件

数据集配置名为 default，数据文件路径为 data/test-*。所有测试数据可通过该文件路径获取。

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型，通过递归生成（Recursive Generation, RG）与认知（Cognition）机制构建而成。在生成过程中，采用了层级化搜索策略（Level 1至Level 4），并对每一层的生成结果进行评审与筛选，最终产出包含问题（question）、生成ID、生成文本、奖励值（reward）及多项评价指标的高质量样本。数据集共包含3200条测试样本，涵盖了10个分片，每个样本均附带了详细的token消耗与评判结果。

特点

数据集的一大特色在于其丰富的元信息与多维度评价体系。除了基础的问题与目标字段外，还提供了生成奖励、价值函数预测（vf_prediction）、任务类型及难度等级（level）等关键指标。此外，数据集中集成了如pass@k、maj@k等多种聚合度量，直观反映了模型在不同采样规模下的正确率与多样性。这些特征使得该数据集不仅适用于模型训练，更便于进行深度性能剖析与对比研究。

使用方法

该数据集以HuggingFace格式发布，包含标准的‘test’划分，用户可通过加载‘default’配置直接使用。使用时，建议首先关注‘question’与‘target’字段作为输入输出对，利用‘reward’和‘level’字段进行难度分层评估。结合附带的聚合度量（如pass@k）可辅助分析模型在不同采样策略下的表现。数据集中各指标均基于10个分片加权聚合，用户亦可依据分片信息进行更细粒度的分析。

背景与挑战

背景概述

rebase_gemma-4-E4B-it_rg_cognition_ns32_md4_bt0_1_seed73_rg_cognition__v0 数据集诞生于大语言模型推理与搜索增强生成研究的前沿领域，由致力于提升模型认知能力的团队构建。该数据集围绕多层次评判与策略生成的协同优化问题，旨在通过细粒度的推理过程监督，推动语言模型在复杂认知任务中的表现。其影响力体现在为强化学习与搜索策略的融合提供了标准化的评测基准，尤其是通过多轮生成与评判交互，量化了模型在逐步推理中的准确性、鲁棒性与自我纠错能力。数据集涵盖了从问题定义到目标标注的完整链路过，为探索超越传统单轮生成的认知架构奠定了数据基础。

当前挑战

该数据集所解决的领域核心挑战在于，传统语言模型在复杂推理场景中常因缺乏深度思考与自我修正机制而陷入局部最优。具体而言，模型需应对多层级搜索空间中奖励信号稀疏与评判标准不一致的问题，同时克服生成多样化与准确性之间的平衡难题。在构建过程中，挑战在于设计高效的多阶段生成-评判流水线，以模拟人类认知的递归推理过程，并确保每个层级的评判粒度足以区分有效推理与表面凑合。此外，如何在不同种子与超参数设置下稳定采集高质量、可复现的生成样本，以及如何避免评判器在长链推理中产生偏差，均是数据集构建中亟待克服的难点。

常用场景

经典使用场景

该数据集源自Gemma-4模型在强化学习与生成式推理任务中的系统化评测，其设计精巧地捕捉了模型在多轮搜索与自我修正场景下的表现。典型使用场景聚焦于评估大语言模型在复杂推理任务中的鲁棒性和多样性，尤其是通过多层级生成与评判机制，衡量模型在逐步递进的问题求解中的一致性与准确性。研究人员常借助该数据集中的question、generation及reward字段，深入分析模型从初始回答到最终输出的演化路径，探讨模型在面临不确定任务时如何调整策略以提升性能。

衍生相关工作

基于该数据集，一系列后续工作围绕推理链的动态优化与多阶段生成策略展开。研究者借鉴其分层评判框架，提出了自适应采样与搜索剪枝算法，在降低计算开销的同时保持了高推理准确率。此外，该数据集衍生的奖励分配与价值函数预测范式，催生了关于强化学习中信用分配机制的新研讨。部分工作进一步探索了将生成过程中的中间奖励信号用于跨任务迁移学习，拓宽了模型在低资源场景下的泛化边界。这些衍生研究共同深化了对语言模型在结构化推理任务中行为规律的理解。

数据集最近研究