five

rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed73_lcb_v6__v0

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed73_lcb_v6__v0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于评估模型生成结果的结构化数据,主要特征包括问题文本、生成ID、生成内容、令牌数量、奖励分数、问题索引、目标文本、任务类型、价值函数预测和难度级别。数据集仅包含测试集,共有16,768个样本,总大小为388MB。数据集中还包含了丰富的聚合指标,如不同级别的令牌统计、通过率(pass@1到pass@128)以及生成和评估阶段的令牌数量和时间消耗。这些指标表明该数据集可能用于多级生成任务的模型性能评估和比较。
创建时间:
2026-05-06
原始信息汇总

根据您提供的数据集详情页面内容,以下是该数据集的详细信息概述:

数据集概述

该数据集名为 rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed73_lcb_v6__v0,由用户 anirudhb11 托管在 Hugging Face 上。数据集包含通过某种生成流程产生的模型输出及其相关评估指标。

主要特征

  • 问题 (question): 字符串类型,表示输入的问题或提示。
  • 生成ID (generation_id): 整数类型,生成过程的唯一标识符。
  • 生成内容 (generation): 字符串类型,模型生成的输出文本。
  • 令牌数 (num_tokens): 整数类型,生成内容中的令牌数量。
  • 奖励 (reward): 浮点数类型,关联的奖励分数。
  • 问题索引 (question_index): 整数类型,数据集中问题的索引。
  • 目标 (target): 字符串类型,预期的目标或正确答案。
  • 任务 (task): 字符串类型,所属任务类型。
  • 价值函数预测 (vf_prediction): 浮点数类型,价值函数(value function)的预测值。
  • 等级 (level): 整数类型,任务或生成的难度等级。

数据划分

该数据集仅包含 测试集 (test),具体统计信息如下:

划分 样本数量 数据大小
test 16,768 个样本 388,452,631 字节
  • 下载大小: 152,949,328 字节
  • 数据集总大小: 388,452,631 字节

聚合指标

数据集的聚合指标基于 16 个分片 (shards) 的加权平均值计算得出,以下为关键性能指标:

模型表现 (Pass@k)

指标 数值
pass@1 0.550573
pass@2 0.617436
pass@4 0.667349
pass@8 0.704671
pass@16 0.735041
pass@32 0.759701
pass@64 0.780348
pass@128 0.801527

加权最佳表现 (w_best@k)

指标 数值
w_best@1 0.554962
w_best@2 0.539695
w_best@4 0.554962
w_best@8 0.539695
w_best@16 0.553435
w_best@32 0.548855
w_best@64 0.571756
w_best@128 0.545802

令牌统计信息

  • 平均响应令牌数 (avg_response_tokens): 7,766.06
  • 中位数响应令牌数 (median_response_tokens): 7,015.65
  • 总生成输出令牌数 (total_generated_output_tokens): 9,821,630
  • 总策略输出令牌数 (total_policy_output_tokens): 8,113,430
  • 总评判输出令牌数 (total_judge_output_tokens): 1,708,190

其他指标

  • 生成阶段时间 (generation_phase_time_s): 4,469.55 秒
  • 总时间 (total_time_s): 7,240.17 秒
  • 各等级的截断率 (truncated_rate_level_1 至 4): 均为 0

配置信息

该数据集仅包含一个默认配置 default,其数据文件路径为 data/test-*

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Gemma-4-E4B-it模型,通过强化学习与自搜索框架构建。具体而言,在LCB_v6基准上,采用64次搜索分支(ns=128)与4层搜索深度(md=4),并设置温度参数bt=0.1,于固定随机种子seed=73下,为每个问题生成大量候选代码解。随后,引入多层级评判机制(judge)对生成结果进行筛选与奖励打分(reward),最终筛选出高质量代码样本。数据集共包含16768条测试样本,每条记录涵盖原始问题、唯一生成ID、代码文本、Token数、奖励值、任务类型及价值函数预测等多维度信息。
特点
本数据集的核心特色在于其多粒度评价体系与丰富的性能指标。数据集中不仅存储了每个生成代码的具体内容,还提供了从pass@1到pass@128的全面通过率指标(如在64次搜索下pass@1达55.06%),以及基于加权统计的w_best系列指标。此外,数据集详细记录了各搜索层级(level_1至level_4)的评判Token消耗、策略输出Token数及截断率等信息,为分析模型在复杂编程任务中的搜索效率与收敛行为提供了珍贵的数据支撑。
使用方法
用户可直接通过HuggingFace Datasets库加载该数据集的test分片,使用Python的`load_dataset`函数指定路径即可。每条数据包含`question`字段作为输入问题,`generation`字段为模型生成的候选代码,`reward`字段为评判器给出的奖励分数,便于研究者根据需要对生成结果进行筛选或排序。数据集还提供了`target`字段记录标准答案,支持自动评估。建议研究者结合`vf_prediction`(价值函数预测值)与`level`字段,对搜索树中各层级节点的决策质量进行深入分析或可视化。
背景与挑战
背景概述
该数据集名为rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed73_lcb_v6__v0,源于一项针对大型语言模型(LLM)代码生成能力的系统性评估与优化研究。数据集由机器学习研究机构创建,旨在探索多轮采样与奖励模型引导下的代码生成策略。核心研究问题聚焦于如何通过调整采样参数(如温度)与多阶段判断机制,提升模型在编程基准上的pass@k指标。该数据集包含16768个测试样本,涵盖多难度级别的编程问题,并记录了详细的响应令牌数、判断令牌数及通过率等指标。其在代码生成领域具有重要影响力,为评估LLM的搜索与生成能力提供了精细化的定量分析工具。
当前挑战
该数据集面临的主要挑战包括:首先,在领域问题层面,代码生成任务要求模型不仅理解自然语言描述,还需生成精确符合语法与逻辑的代码,而上下文长度限制与多轮判断的复杂性常导致生成的解在边缘测试用例上失败。其次,在构建过程中,数据集需通过多阶段奖励模型对生成结果进行筛选与加权,但奖励模型的偏差与采样策略的随机性(如seed值的敏感性)会显著影响pass@k评估的稳定性。此外,数据集中的判断令牌分布不均(如level 4任务经常被跳过),反映出高难度问题自动评判的可靠性不足,进而影响整体指标的可比性。
常用场景
经典使用场景
在代码生成与程序合成领域,rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed73_lcb_v6__v0 数据集为评估和提升大语言模型的代码推理能力提供了宝贵的测试资源。该数据集记录了模型在多次采样生成(如ns128表示128次采样)及多轮搜索(md4表示4层深度)过程中的输出轨迹,包含生成代码、奖励信号、价值函数预测与任务等级。研究者常利用该数据集进行pass@k指标的精准测算,衡量模型在不同采样次数下的正确率,从而深入理解模型在复杂编程任务上的鲁棒性与搜索效率。数据集中的等级划分(level)与裁判令牌分布,使得研究者能够剖析模型在不同难度层级上的表现差异,是代码智能领域基准测试与模型优化的重要基石。
实际应用
在实际工程应用中,该数据集可指导代码辅助工具与自动化编程系统的开发与调优。基于数据集中展现的模型生成质量与搜索深度关系,开发者可以设计更智能的集成开发环境插件,当检测到模型在低难度任务上高置信度时,自动减少采样次数以降低延迟;而在高难度任务上则增加搜索深度以提升准确率。数据集中的通过率指标(如pass@1至pass@128)为设定代码生成服务的质量门禁提供了量化标准,企业可据此确定模型上线所需的采样配置,平衡响应速度与正确性。同时,奖励信号可供强化学习微调流程使用,使得模型在实际业务场景中不断迭代,更快适应特定领域的编码规范与需求。
衍生相关工作
围绕该数据集衍生了一系列具有影响力的研究工作。在算法层面,研究者基于其多轮搜索轨迹提出了改进的蒙特卡洛树搜索与动态beam search策略,显著提升了代码生成的成功率与计算效率。在评估方法论上,数据集中通行的pass@k指标与w_best@k衍生指标被广泛采纳为代码生成社区的标准评估范式,催生了诸如CodeContests、APPS等进一步细化的基准数据集。在模型训练方面,该数据集促成了基于过程监督与结果监督的混合强化学习方法,通过利用搜索过程中的中间奖励信号来优化策略网络,相关成果已在多项顶级人工智能会议(如NeurIPS、ICML)上发表,推动了代码智能领域的系统性进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作