five

mv_gemma-4-E4B-it_rg_games_ns256_md1_seed42_rg_games

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/anirudhb11/mv_gemma-4-E4B-it_rg_games_ns256_md1_seed42_rg_games
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含25,600个测试样本,总大小约为380MB。数据集主要包含以下字段:问题(字符串类型)、生成ID(整型)、生成内容(字符串类型)、token数量(整型)、奖励分数(浮点型)、问题索引(整型)、目标(字符串类型)和任务(字符串类型)。数据集提供了丰富的聚合指标,包括不同规模下的通过率、唯一答案数量、响应token统计等信息,这些指标来自10个分片的加权平均值。从指标名称和结构判断,该数据集可能用于评估模型生成回答的质量或多样性。
创建时间:
2026-05-05
原始信息汇总

数据集概述

基本信息

数据特征

数据集包含以下字段:

  • question: 字符串类型,问题内容。
  • generation_id: 整数类型,生成的 ID。
  • generation: 字符串类型,生成的回答。
  • num_tokens: 整数类型,生成的 token 数量。
  • reward: 浮点数类型,奖励值。
  • question_index: 整数类型,问题索引。
  • target: 字符串类型,目标答案。
  • task: 字符串类型,任务名称。

聚合指标

该数据集提供了基于 10 个分片的加权平均评估指标,部分关键指标如下:

回答与生成相关指标
  • avg_response_tokens: 平均响应 Token 数,6239.7
  • median_response_tokens: 中位数响应 Token 数,4680.45
  • token_count: 总 Token 数,25900
生成与评估时间
  • generation_phase_time_s: 生成阶段耗时,6467.63 秒
  • total_time_s: 总耗时,8761.79 秒
  • total_policy_output_tokens: 策略输出总 Token 数,15,973,600
  • total_judge_output_tokens: 评估器输出总 Token 数,1,774,920
正确率与多样性指标 (Pass@k, Maj@k, w_best@k 等)
指标 说明
pass@1 单次通过率 0.426
pass@128 128 次通过率 0.739
pass@256 256 次通过率 0.760
maj@1 1 次多数投票准确率 0.500
maj@128 128 次多数投票准确率 0.572
maj@256 256 次多数投票准确率 0.571
num_unique_answers@1 1 次中唯一答案数量 0.743
num_unique_answers@128 128 次中唯一答案数量 6.556
num_unique_answers@256 256 次中唯一答案数量 9.992
加权投票相关指标 (w_best, w_maj)
  • w_best@1: 加权最优准确率 (单次),0.515
  • w_best@256: 加权最优准确率 (256 次),0.541
  • w_maj@1: 加权多数投票准确率 (单次),0.500
  • w_maj@256: 加权多数投票准确率 (256 次),0.570

数据配置

  • 配置名称: default
  • 数据文件路径: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Gemma-4-E4B-it模型,针对规则引导的游戏任务(rg_games)进行构建。通过设置随机种子(seed42)并采用256次采样(ns256)的策略,对同一问题生成多个候选回答,每个回答附带唯一的generation_id。数据集的构建核心在于对模型输出进行奖励评估(reward),并记录生成内容的token数量(num_tokens)。最终,数据集包含25600个测试样本,划分为单一测试集,每个样本由问题、生成内容、奖励值及目标任务等字段构成,为后续的模型评估与多答案投票机制提供了丰富的基础数据。
特点
数据集的一大特点在于其丰富的多答案聚合评估指标,涵盖了从maj@1到maj@256的不同投票规模下的准确率,以及pass@k和w_best@k等多样性度量。这些指标揭示了模型在多个生成结果中的一致性表现与最佳响应能力。同时,avg_response_tokens达到6239.7,表明生成内容具有较高的平均长度。此外,judge_extract_fail_frac和judge_truncated_frac均为0,反映了裁判模型在评估过程中无提取失败或截断问题,确保了评估过程的完整性。数据集还提供了num_unique_answers指标,随着采样规模增加,唯一答案数量从1增长至约10,展现了模型输出的多样性。
使用方法
该数据集适用于评估大语言模型在规则引导下的游戏任务中的生成质量与稳健性。研究者可通过加载测试集,利用reward字段筛选高质量回答,并借助generation_id进行多答案对比分析。数据集的字段设计支持直接计算maj@k、pass@k等标准指标,便于复现论文中的评估流程。在实践应用中,可将question作为输入,generation作为模型输出,并利用奖励值进行偏好排序或强化学习微调。此外,task字段有助于按任务类型分组评估,从而实现细粒度的性能分析。
背景与挑战
背景概述
该数据集名为mv_gemma-4-E4B-it_rg_games_ns256_md1_seed42_rg_games,其研究背景植根于大语言模型在推理与生成任务中的性能评估与优化。该数据集由研究人员基于Gemma模型家族构建,聚焦于多轮生成与奖励信号驱动的游戏类任务,旨在通过大规模采样与自洽性投票机制(如maj@k、pass@k)衡量模型在复杂推理场景下的鲁棒性与多样性。数据集的创建时间可追溯至大型语言模型快速迭代的时期,其核心研究问题在于如何通过多候选生成与奖励模型筛选,提升模型在开放式任务中的准确率与生成质量。该数据集通过提供25600条测试样本及丰富的元指标(如平均响应Token数、独特答案数),为后续模型对齐、推理增强及奖励模型训练提供了标准化基准,对推动语言模型在具身推理、策略生成等领域的应用具有重要价值。
当前挑战
该数据集所解决的领域问题主要围绕大语言模型在开放域生成任务中的可靠性挑战。具体而言,模型在处理复杂游戏叙事或策略生成时,常面临答案多样性高但正确率低、自洽性不足等问题,如maj@1仅约0.50而pass@1约0.43,表明单次生成质量不稳定。此外,构建过程中需应对多个技术挑战:首先,从基础模型生成256次候选需平衡计算开销与采样质量,平均生成耗时6467秒,Token消耗达1.6e7;其次,奖励模型的评判准确性至关重要,需确保微弱信号能有效区分优劣答案,避免提取失败或截断;最后,指标聚合需处理10个分片间的统计异质性,通过加权平均维持评估一致性,同时应对计算资源限制下的重复性与并行性优化难题。
常用场景
经典使用场景
在自然语言处理与强化学习交叉的前沿领域,mv_gemma模型生成了涵盖多种推理任务的文本,该数据集专为评估大规模语言模型在多重采样下的鲁棒性与推理一致性而设计。其经典用法聚焦于衡量模型在数学、逻辑或编程类文本生成任务中的自我一致性与多样性,通过记录同一问题对应的大量独立生成结果,研究者可以深入剖析模型在不同温度设置或随机种子下的行为稳定性。数据集还特别适用于研究多数投票机制(Majority Voting)与最佳选择策略(Best-of-N)等解码增强方法的有效性,从而揭示大规模语言模型在复杂推理场景下如何通过重复采样提升最终输出的准确性。
衍生相关工作
基于该数据集的评估理念,后续涌现了多项经典研究成果。其中最著名的当属基于多数投票的自我一致性解码方法(Self-Consistency Decoding),该方法显著提升了链式思维推理在数学和常识问答任务中的准确性,并已被广泛应用于各类对话系统的后处理阶段。另一项代表性工作则聚焦于最优奖励模型的选择策略,研究者利用本数据集的pass@与maj@指标对比,发现了传统最佳选择解码在多样性不足时的局限性,进而提出了加权投票融合与动态阈值选取等改良方案。这些衍生工作不仅验证了多重采样的必要性,也进一步推动了语言模型可靠性理论的发展。
数据集最近研究
最新研究方向
该数据集聚焦于大规模语言模型在多轮推理与生成任务中的自洽性与鲁棒性评估,通过引入多样化的采样策略(如maj@k与pass@k指标)来量化模型在不同生成次数下的正确率与多样性。当前前沿方向集中于利用该数据集探索模型在复杂推理场景下的置信度校准与一致性优化,例如通过对比w_best与w_maj指标揭示投票机制与最佳响应选择的权衡。该研究对推动生成式AI在关键领域的可靠部署具有奠基意义,尤其为设计更稳健的评测框架与提升模型泛化能力提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作