mv_gemma-4-E4B-it_rg_cognition_ns256_md1_seed42_rg_cognition

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/mv_gemma-4-E4B-it_rg_cognition_ns256_md1_seed42_rg_cognition

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含25,600个测试样本，总大小为292,688,453字节。数据集包含以下字段：问题（字符串类型）、生成ID（整型）、生成内容（字符串）、令牌数量（整型）、奖励分数（浮点型）、问题索引（整型）、目标（字符串类型）和任务（字符串类型）。数据集还提供了从10个分片聚合的丰富评估指标，包括平均响应令牌数（2,853.93）、生成阶段时间（2,263.43秒）、各种通过率指标（如pass@1为44.5%，pass@256为69%）以及不同阈值下的唯一答案数量统计。这些指标表明该数据集可能用于评估问答或文本生成系统的性能，特别是关注生成多样性、响应长度和准确率等方面。

创建时间：

2026-05-05

原始信息汇总

数据集详情总结：mv_gemma-4-E4B-it_rg_cognition_ns256_md1_seed42_rg_cognition

基本信息

数据集地址：https://huggingface.co/datasets/anirudhb11/mv_gemma-4-E4B-it_rg_cognition_ns256_md1_seed42_rg_cognition
数据集大小：83,074,747 字节（下载大小），292,688,453 字节（数据集总大小）
配置：仅包含一个配置 default
数据拆分：仅包含 test 拆分，共 25,600 条样本

特征字段

该数据集包含以下 8 个字段：

字段名	数据类型	说明
`question`	string	问题文本
`generation_id`	int64	生成 ID
`generation`	string	模型生成的回答
`num_tokens`	int64	生成回答的 token 数量
`reward`	float64	奖励分数
`question_index`	int64	问题索引
`target`	string	目标/标准答案
`task`	string	任务名称

聚合指标

该数据集是从 10 个分片 聚合而来，并提供了以下关键评估指标（加权均值）：

响应统计

平均响应 token 数：2853.93
中位数响应 token 数：2040.80
总策略输出 token 数：7,306,070
总裁判输出 token 数：1,125,880
生成阶段耗时：2263.43 秒
总耗时：3590.26 秒

准确率指标

指标	值
`pass@1`	0.444961
`pass@128`	0.680645
`pass@256`	0.690000
`maj@1`	0.471850
`maj@128`	0.502253
`maj@256`	0.517617
`w_maj@1`	0.472850
`w_maj@256`	0.516617
`w_best@1`	0.470306
`w_best@256`	0.471518

答案多样性

指标	值
`num_unique_answers@1`	0.735
`num_unique_answers@128`	16.572
`num_unique_answers@256`	30.590

其他指标

裁判提取失败率：0.000195313
裁判截断率：0.000195313
token 累积分布函数：1.0
token 总数：25,700

搜集汇总

数据集介绍

构建方式

该数据集由Gemma-4-E4B-it模型在认知推理任务上进行推理生成，并通过评委模型对生成结果进行奖励评分。数据集的构建过程涉及对25600个测试样本的生成与评估，每个样本包含原始问题、生成标识符、模型生成文本、令牌数量、奖励分数、问题索引、目标任务类别等信息。数据经过分片处理，共分为10个分片，以支持大规模并行评测。

特点

数据集的核心特点在于其丰富的奖励反馈与多尺度性能评估指标。数据集不仅记录了模型生成的回答，还提供了从maj@1到maj@256、pass@1到pass@256等多种集成策略下的准确率，以及唯一答案数量等多样性指标。此外，数据集还包含平均响应令牌数、生成时间、评委模型截断率等细粒度元数据，为深入分析模型在认知任务上的表现提供了全面数据基础。

使用方法

该数据集适用于评估和比较不同语言模型在认知推理任务上的生成质量与鲁棒性。研究者可直接加载测试分片数据，利用其中的question字段作为输入，generation字段作为模型输出，并结合reward分数进行质量排序或最佳答案选取。数据集的多样答案与多尺度指标可支持自洽性投票、多数投票及最佳采样等多种评估范式的复现与扩展研究。

背景与挑战

背景概述

该数据集名为 mv_gemma-4-E4B-it_rg_cognition_ns256_md1_seed42_rg_cognition，是面向大语言模型认知推理能力评估的合成数据集。该数据集由研究机构基于Gemma模型构建，创建于近期，旨在探索模型在复杂推理任务中的表现。数据集包含25600条测试样本，涵盖问答对、生成结果、奖励值等丰富字段，专门用于评估模型在认知任务下的多轮生成与自我修正能力。通过对模型生成结果进行多维度指标监控（如pass@k、maj@k、num_unique_answers等），该数据集为分析大语言模型的推理深度、答案多样性及一致性提供了标准化评测平台，对推动认知科学与大模型交叉领域的研究具有重要意义。

当前挑战

该数据集面临的挑战主要体现在两个方面。在领域问题层面，大语言模型在处理认知类推理任务时，常暴露出逻辑一致性不足、对复杂语义理解浅表化等缺陷，精确衡量模型的推理能力与决策过程成为难题。在数据集构建过程中，需从单一模型输出中经由采样与评估实现大规模、高质量的数据生成，如何确保生成样本的多样性与代表性、避免奖励模型引入偏差，以及应对计算开销与时间成本（本数据集构建耗时约1小时），均是构建过程中的关键挑战。

常用场景

经典使用场景

本数据集专为认知科学领域的推理与生成任务设计，聚焦于评估语言模型在多步推理、逻辑判断及知识溯源中的表现。其典型应用在于，通过包含问题、目标答案及模型生成的文本与奖励信号的结构化数据，支持研究者对模型生成质量进行量化分析。例如，利用‘pass@k’与‘maj@k’等指标，可系统评估模型在多次采样下的正确率与鲁棒性，尤其适用于探索思维链（Chain-of-Thought）与自我纠错机制在复杂认知任务中的有效性。

实际应用

在实际应用中，该数据集可服务于智能辅导系统、自动化知识问答平台及对话式人工智能产品的质量监控。例如，教育科技领域可借助其多轮生成与奖励标注，训练辅导机器人提供逻辑严谨的解题步骤；金融咨询场景中则能利用其鲁棒性指标，筛选出对复杂法规问题回答最稳定的模型版本。此外，‘num_unique_answers’等统计量也为客服系统评估生成回复的多样性提供了量化依据，助力企业平衡创新表达与信息准确性。

衍生相关工作

以此为基石，衍生出多项经典研究方向，包括基于奖励信号的偏好对齐算法、多模态认知一致性建模以及自适应采样策略设计。研究者已将此数据集与强化学习从人类反馈（RLHF）框架结合，探索如何通过边际奖励最大化来提升模型的长文本推理能力。同时，其‘pass@k’评估范式被广泛借鉴，催生了诸如树搜索增强生成（Tree-of-Thought）与推理时计算最优分配（Inference-time Compute Scaling）等前沿工作，深刻影响了当前生成式AI的可信推理范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集