five

rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含问答或文本生成任务的相关数据,主要用于评估生成模型的表现。数据集包含1048个测试样本,总大小为23,995,260字节。每个样本包含多个特征:问题文本(question)、生成ID(generation_id)、生成文本(generation)、token数量(num_tokens)、奖励分数(reward)、问题索引(question_index)、目标文本(target)、任务类型(task)、价值函数预测(vf_prediction)和难度等级(level)。数据集提供了丰富的聚合指标,包括不同级别的token统计、通过率(pass@1到pass@8)、生成质量评分(w_best系列指标)以及时间消耗等性能指标。这些指标来自16个数据分片的加权平均值,可用于全面评估生成模型的性能表现。
创建时间:
2026-05-06
原始信息汇总

数据集详情:rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0

基本信息

  • 数据集地址:https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0

特征字段

该数据集包含以下10个特征:

字段名 数据类型 说明
question 字符串 问题内容
generation_id 整数(int64) 生成ID
generation 字符串 生成的回答
num_tokens 整数(int64) 回答的token数量
reward 浮点数(float64) 奖励值
question_index 整数(int64) 问题索引
target 字符串 目标答案
task 字符串 任务类型
vf_prediction 浮点数(float64) 价值函数预测值
level 整数(int64) 难度等级

数据集划分

  • 唯一划分test(测试集)
  • 测试集样本数:1,048 条
  • 数据集大小:约 23.99 MB(下载大小约 9.57 MB)

聚合指标

数据集从 16 个分片 聚合得到,关键评估指标如下:

主要性能指标

指标
pass@1 0.555344
pass@2 0.624864
pass@4 0.675027
pass@8 0.709924
w_best@1 0.562595
w_best@8 0.564885

生成与计算资源指标

指标
平均回答token数(avg_response_tokens 7,715.45
总策略输出token数(total_policy_output_tokens 503,976
总裁判输出token数(total_judge_output_tokens 103,172
总生成输出token数(total_generated_output_tokens 607,149
生成阶段耗时(generation_phase_time_s 581.892 秒
总耗时(total_time_s 774.442 秒
各层级截断率(truncated_rate_level_1/2/3 均为 0

难度层级输出token数

层级 token数
level 1 378,756
level 2 114,396
level 3 17,506
搜索阶段 503,976

其他说明

  • 数据集包含一个默认配置(default),数据文件路径为 data/test-*
  • 聚合指标中的 w_best 系列值标准差均在 0.07 左右,表明结果较为稳定。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对Gemma-4-E4B-it模型在多轮代码生成任务中的深入探索与评估。构建过程依托于LCB_v6基准测试集,通过精心设计的搜索生成策略,为每个问题生成多达8个候选答案,并借助多层级的评判机制对答案质量进行筛选与打分。最终,数据集收录了1048条高质量测试样本,每条样本均包含问题、生成答案、奖励值、价值函数预测及题目难度等级等丰富信息,形成了结构化的评估闭环。
使用方法
使用者可通过Hugging Face Datasets库便捷加载,默认配置下仅包含test划分,直接调用load_dataset即可获得包含question、generation、reward、target等字段的样本。该数据集特别适用于代码生成模型的性能评估、奖励模型的效果验证以及搜索策略的对比分析。研究人员可以借助其中的多指标评分体系,快速衡量模型在代码合成任务中的真实能力,并基于详细的令牌与时间记录进行效率分析。
背景与挑战
背景概述
该数据集名为rebase_gemma-4-E4B-it_lcb_v6_ns8_md4_bt0_1_seed65_lcb_v6__v0,由相关研究团队基于Gemma-4-E4B-it模型构建,旨在探索大规模语言模型在代码生成任务中的表现。数据集创建于近期,核心研究问题聚焦于如何通过多轮搜索与奖励信号优化模型生成代码的质量与效率。通过包含1048个测试样本,每个样本涵盖问题、多轮生成结果、奖励值及目标答案等特征,该数据集为评估模型在代码基准测试(如LCB v6)上的pass@k指标提供了标准化平台。其影响力体现在推动代码生成领域从单一生成向多步推理与自评机制的演进,并通过细粒度指标(如judge token分布、truncated rate)揭示了模型生成行为的复杂性。
当前挑战
该数据集所解决的领域问题主要围绕代码生成任务的智能化评估,即如何准确衡量模型在复杂编程问题上的能力,避免了传统单次生成评估的片面性。在构建过程中,挑战包括:1)设计多级判断机制(如level 1/2/3)以平衡计算成本与评估精度,避免judge_output_tokens过度消耗资源;2)处理生成阶段的时间效率与token预算控制,例如generation_phase_time_s需在有限资源下优化;3)应对reward信号的不稳定性,确保奖励模型对生成质量的判别一致性;4)解决数据规模与多样性的矛盾,在1048个测试例中涵盖足够的难度层级与问题类型,以支持统计显著的pass@k指标。
常用场景
经典使用场景
在代码智能与程序合成领域,该数据集专为评估和优化大语言模型的代码生成能力而设计。其经典应用在于利用包含完整问题描述、多轮生成样本及奖励信号的测试集,对模型进行指令微调与强化学习训练。研究人员通过分析不同采样策略下的pass@k指标,能够精准衡量模型在复杂编程任务上的零样本泛化表现,从而推动代码生成模型从简单语法补全向复杂逻辑推理的跃迁。
解决学术问题
该数据集的核心价值在于解决了代码生成任务中评估指标单一、缺乏多维度反馈的学术难题。通过引入层次化奖励信号与token级效率指标(如judge_output_tokens、policy_output_tokens),它让研究者得以量化模型在搜索空间中的探索成本与生成质量。这直接推动了两个关键问题的突破:如何通过动态token预算控制来平衡输出长度与正确率,以及如何利用奖励模型实现从单次采样到多轮自博弈的算法优化。
实际应用
在工业级软件工程场景中,该数据集可显著提升自动化代码审查与缺陷修复系统的效率。例如,企业可基于其奖励信号对内部代码生成模型进行针对性微调,在持续集成流水线中实现智能代码补全的延迟降低与准确率提升。此外,教育科技领域可借助其多级难度标签(level字段)构建自适应编程训练平台,为学习者动态生成符合当前水平的编程挑战题。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型在代码生成领域的强化学习微调与自修正能力评估,特别是针对复杂编程任务的推理深度与迭代优化。通过引入多阶段判断器(judge)机制和搜索阶段策略,数据集不仅记录模型的多轮生成与修正过程,还量化了响应长度、令牌消耗及通过率(pass@k)等关键指标。这一方向与当前大语言模型在自主调试、反思性生成及代码助手领域的突破性进展紧密关联,例如OpenAI的o1系列推理模型以及基于AlphaCodium的迭代改进框架。数据集所揭示的0.56-0.71的通过率范围,反映了模型在未经显式纠错指导下的内生修正能力,为构建更鲁棒的编程智能体提供了重要基准。其采用的分层评价体系(level 1-3)和令牌预算追踪,更是推动了可扩展监督与计算最优化的研究前沿。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作