rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed65_lcb_v6__v0

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/anirudhb11/rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed65_lcb_v6__v0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估模型生成或回答性能的结构化数据。数据集包含16768个测试样本，总大小为390575186字节。每个样本包含多个字段：问题（question）、生成ID（generation_id）、生成内容（generation）、令牌数量（num_tokens）、奖励分数（reward）、问题索引（question_index）、目标（target）、任务类型（task）、价值函数预测（vf_prediction）和级别（level）。数据集还提供了从16个分片聚合的详细指标，包括平均响应令牌数、各级别的法官输出令牌数、通过率（pass@1到pass@128）以及各种令牌统计信息。这些指标表明该数据集可能用于评估和比较不同模型在生成任务中的表现。

创建时间：

2026-05-06

原始信息汇总

数据集概述

该数据集名为 rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed65_lcb_v6__v0，由用户 anirudhb11 上传至 Hugging Face。数据集主要用于评估或训练模型在代码生成任务上的表现，包含问题、生成结果及多种评估指标。

数据集特征

数据集包含以下 10 个字段：

字段名	数据类型	说明
`question`	string	问题文本
`generation_id`	int64	生成结果的唯一标识
`generation`	string	模型生成的回答或代码
`num_tokens`	int64	生成结果的 token 数量
`reward`	float64	奖励分数
`question_index`	int64	问题索引
`target`	string	目标答案或参考结果
`task`	string	任务类型
`vf_prediction`	float64	价值函数预测值
`level`	int64	难度等级

数据集划分

该数据集仅包含 test 集，具体信息如下：

划分	样本数	大小
`test`	16,768	390,575,186 bytes

下载大小：154,456,911 bytes
数据集总大小：390,575,186 bytes

聚合评估指标

数据集在测试集上聚合了来自 16 个分片的加权平均指标，部分关键指标如下：

指标	值
`pass@1`	0.5476
`pass@128`	0.8168
`avg_response_tokens`	7807.79
`median_response_tokens`	7091.68
`total_time_s`	7436.54

详细指标（包括不同级别的 token 数量、跳过率、截断率等）可在数据集的 README 文件中查看 Aggregated Metrics 表格。

搜集汇总

数据集介绍

构建方式

该数据集基于Gemma-4-E4B-it模型，针对LCB v6版本代码生成任务，采用束搜索策略进行构建。具体流程为：对每个问题生成128个候选答案（num_tokens为代币数量），并通过四层级的奖励模型（reward）与价值函数预测（vf_prediction）进行筛选与评分。数据集共包含16,768条测试样本，每条记录涵盖问题、生成ID与目标值等字段，最终借助聚合指标（如pass@k）验证生成质量。

使用方法

本数据集可直接通过HuggingFace的datasets库加载，指定默认配置后读取test分片。每条数据包含question（字符串）、generation（模型输出）及target（标准答案）等字段，适配代码生成任务的评估与微调。研究人员可依据reward与vf_prediction进行强化学习，或利用level字段按难度进行分层分析。结合pass@k聚合指标，可系统性地对比不同基线模型在代码合成任务上的表现。

背景与挑战

背景概述

该数据集名为rebase_gemma-4-E4B-it_lcb_v6_ns128_md4_bt0_1_seed65_lcb_v6__v0，由ReBase团队创建，旨在评估和提升大型语言模型在竞赛级编程任务上的性能。核心研究问题围绕如何通过多次采样与奖励模型筛选，提高模型在复杂代码生成中的准确率与鲁棒性。数据集包含16,768条测试样本，每条含问题、多代答案及对应奖励值，涉及从简单到困难的多级编程挑战。其发布对于推动代码智能、强化学习在编程领域的应用具有重要价值，为后续模型训练与评估提供了标准化基准。

当前挑战

所解决的领域问题在于大型语言模型在面对高难度、多步骤编程问题时，常因推理路径单一或错误累积而失败，数据集通过多级难度划分与多次生成评估，有效度量模型在多样解空间中的表现。构建过程中面临的主要挑战包括：生成高质量、多样化的代码解答需耗费大量计算资源（平均每条生成超7000个token）；设计可靠的多级奖励判断机制需处理语义等价但语法不同的代码；同时，确保不同难度层级样本的均衡覆盖和评估一致性，避免因截断或奖励偏差导致模型性能低估。

常用场景

经典使用场景

该数据集源自对Gemma-4-E4B-it模型在代码生成任务上的强化学习微调实验，专门用于评估和提升大语言模型在编程问题求解中的表现。其经典使用场景聚焦于多轮搜索与自修正机制的代码生成评测，通过记录模型在不同难度层级（level 1至level 4）的生成轨迹、奖励信号及价值函数预测，为研究者提供细粒度的模型行为分析素材。数据集包含16768条测试样本，每条样本涵盖问题、生成内容、token数量及多层级通过率指标（如pass@1、pass@128），是衡量模型在复杂编程挑战中探索与收敛能力的理想基准。

解决学术问题

该数据集有效解决了代码生成领域中模型自修正能力与搜索效率的量化评估难题。传统评测通常仅关注最终答案的正确率，而忽视了模型在迭代生成过程中的推理轨迹与决策质量。通过引入多层级评判（judge）机制和搜索阶段token消耗的细粒度统计，数据集揭示了模型在解决逻辑复杂问题时如何利用逐步逼近的策略提升准确性。它推动了从单一生成质量到过程优化研究范式的转变，为探索强化学习中的探索-利用权衡、奖励稀疏性下的策略学习等学术问题提供了实证基础，显著促进了代码智能体自进化领域的理论发展。

实际应用

在实际应用中，该数据集直接服务于自动化代码生成与智能编程助手的性能调优。数据集中记录的pass@k指标（如pass@16达74.5%）可用于指导工业级代码补全工具的迭代开发，帮助工程团队选择最优的生成策略与搜索深度。其分层难度设计（level 1至level 4）使得开发者能够针对不同复杂度的编程任务定制模型微调方案，例如对简单题追求高成功率的轻量生成，而对困难题则采用多轮自修正架构。此外，统计的token消耗与响应时间数据为边缘设备部署时的计算资源分配提供了量化参考，助力实现在线编程教育平台或低延迟IDE插件中的高效推理。

数据集最近研究