mv_gpt-oss-20b_lcb_v6_ns256_md1_seed42_lcb_v6
收藏Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/anirudhb11/mv_gpt-oss-20b_lcb_v6_ns256_md1_seed42_lcb_v6
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括问题(question)、生成ID(generation_id)、生成内容(generation)、令牌数量(num_tokens)、奖励(reward)、问题索引(question_index)、目标(target)和任务(task)。数据集分为测试集(test),包含33,536个样本,总大小为986,259,910字节。下载大小为447,493,145字节。此外,数据集提供了丰富的聚合指标,如平均响应令牌数(avg_response_tokens)、生成阶段时间(generation_phase_time_s)、通过率(pass@1到pass@256)等,这些指标可用于评估数据集在不同任务中的性能。
This dataset includes multiple feature fields, namely question, generation_id, generation, num_tokens, reward, question_index, target, and task. The dataset is split into a test set, which contains 33,536 samples, with a total size of 986,259,910 bytes and a download size of 447,493,145 bytes. Additionally, the dataset provides a rich set of aggregated metrics, such as average number of response tokens (avg_response_tokens), generation phase time (generation_phase_time_s), pass rates (pass@1 to pass@256), and so on. These metrics can be utilized to evaluate the dataset's performance across diverse tasks.
创建时间:
2026-05-07
原始信息汇总
根据您提供的数据集详情页面内容,以下是该数据集的关键信息总结:
数据集概述
- 数据集名称:
anirudhb11/mv_gpt-oss-20b_lcb_v6_ns256_md1_seed42_lcb_v6 - 来源地址:https://huggingface.co/datasets/anirudhb11/mv_gpt-oss-20b_lcb_v6_ns256_md1_seed42_lcb_v6
数据特征
该数据集包含以下字段:
| 字段名 | 数据类型 | 描述 |
|---|---|---|
question |
string | 问题文本 |
generation_id |
int64 | 生成ID |
generation |
string | 生成的回答 |
num_tokens |
int64 | 生成的令牌数量 |
reward |
float64 | 奖励分数 |
question_index |
int64 | 问题索引 |
target |
string | 目标答案 |
task |
string | 任务类型 |
数据划分
- 唯一数据集划分:
test(测试集) - 测试集样本数:33,536 条
- 测试集大小:986,259,910 字节(约 941 MB)
- 下载大小:447,493,145 字节(约 427 MB)
聚合性能指标
数据集基于 16 个分片 计算,主要性能指标如下:
| 指标 | 值 |
|---|---|
| 平均响应令牌数 | 7,304.21 |
| 中位数响应令牌数 | 5,129.66 |
| pass@1 | 0.6295 |
| pass@128 | 0.9054 |
| pass@256 | 0.9237 |
| 总生成时间 | 2,387.06 秒 |
| 总时间 | 5,163.22 秒 |
| 生成提取失败比例 | 0.0223 |
| 生成截断比例 | 0.0024 |
搜集汇总
数据集介绍

构建方式
该数据集源于对开源语言模型mv_gpt-oss-20b进行大规模代码生成任务的评测实验。在构建过程中,研究者从LiveCodeBench V6基准中抽取了33,536道编程问题,并为每个问题生成最多256个候选解决方案以探索其多样性与正确性。数据集的每条样本包含原始问题文本、候选代码生成内容、对应的token数量以及通过自动评判机制获取的奖励分数,同时记录了生成任务的标识信息与目标代码。整个数据集划分为单一测试集,共占用约986 MB的存储空间。
特点
数据集的核心特点在于其详尽的多层次评测指标。通过聚合16个分片的评测结果,数据集提供了从pass@1到pass@256的一系列通过率指标,展示了模型在不同抽样规模下的编程能力。同时,数据集中包含了丰富的统计信息,如平均响应token数为7,304、中位数响应token数约为5,130,以及自动评判提取失败比例仅为2.23%,表明评判机制具有较高的可靠性。此外,w_best系列指标及其标准差揭示了模型在多次采样中最佳解质量的稳定性,权重最佳指标在128次采样下达到65.88%,为评估模型鲁棒性提供了重要参考。
使用方法
该数据集适用于编程语言模型(Code LLM)的离线评测与能力分析。用户可通过HuggingFace的datasets库加载指定配置,获取包含问题、生成代码及奖励分数的完整样本。对想要评估模型代码生成能力的开发者,可利用pass@k等指标进行多维度性能对比。此外,由于数据集中含有每个生成的token数量与奖励分数,研究人员可基于这些信息进行生成效率与质量的相关性分析,从而深入理解模型在复杂编程任务中的行为模式。
背景与挑战
背景概述
在大规模语言模型(LLM)的演进过程中,强化学习与自回归生成技术的融合催生了以代码生成为代表的复杂推理任务评估新范式。mv_gpt-oss-20b_lcb_v6_ns256_md1_seed42_lcb_v6数据集诞生于这一背景下,由研究团队基于20亿参数的GPT模型架构开发,旨在系统性地评估模型在多轮次、高难度的编程挑战(LiveCodeBench)中的表现。该数据集包含逾3.3万个测试样本,每个样本均由模型生成答案并经过多维度奖励打分,其创建时间反映了2024年前后该领域对高效、可复现评测基准的迫切需求。通过引入pass@k指标(如pass@1达0.629,pass@256达0.924)及聚合响应时间等细粒度统计,该数据集为研究代码生成中模型能力饱和点、采样效率与质量权衡提供了关键支撑,对推动开源LLM在竞赛级编程任务的优化具有显著影响力。
当前挑战
该数据集主要面临三大挑战:首先,在领域问题层面,代码生成任务的核心难点在于如何准确衡量模型在有限样本下对复杂算法逻辑与约束的泛化能力,传统的测试通过率指标往往难以捕捉语义等价但实现路径不同的解法多样性,导致评价体系存在偏差。其次,构建过程中,从海量模型输出中筛选高质量答案需依赖自动化评判系统,而judge_extract_fail_frac(0.0223)和judge_truncated_frac(0.0024)表明,现有评判器在处理长序列、嵌套结构代码时仍存在提取失败与截断风险,直接影响数据标定可靠性。此外,模型生成响应平均高达7304个token,导致总计算成本与时间成本(超过5100秒)居高不下,如何在平衡采样深度(如256次)与资源消耗之间设计更高效的奖励模型,成为制约该数据集扩展应用的关键瓶颈。
常用场景
经典使用场景
在代码生成与程序合成的研究领域,mv_gpt-oss-20b_lcb_v6_ns256_md1_seed42_lcb_v6数据集被广泛用于评估与提升大语言模型的编程能力。该数据集包含了大量由多轮采样生成的编程问题及其候选解,每一条记录都附有采样策略参数、回答的奖励信号以及原始问题描述,为研究者提供了一个结构完整、粒度精细的基准测试平台。经典用法是将其作为pass@k指标的评测集,通过考察模型在多候选解采样下的正确率,衡量其在复杂编程任务中的稳健性与生成质量。这一场景使得该数据集成为代码智能领域中不可或缺的试验场。
实际应用
在实际工程领域,该数据集为构建与优化面向开发者的代码助手提供了坚实的实证基础。基于其丰富的评测结果,研究者和工程师可直接评估不同规模模型在真实编程场景下的表现,从而指导模型选型、采样参数调优及推理加速等工程决策。例如,通过分析w_best@k指标及其标准差,团队可以量化模型的稳定性与风险,进而设计更鲁棒的候选回答排序机制。此外,该数据集还可用于训练奖励模型或偏好对齐策略,推动从开发生成到代码审查的自动化流程落地,显著提升软件开发的效率与质量。
衍生相关工作
围绕该数据集,已衍生出一系列富有影响力的研究方向与经典工作。其中,以采样策略优化为焦点的研究利用该数据集的高粒度统计信息,系统比较了贪心解码、束搜索与温度采样对通过率的影响,提出了自适应采样策略。另一类工作则聚焦于奖励模型训练,将该数据集中的奖励信号作为偏好对齐的训练目标,提升了模型在多候选择优中的泛化能力。还有工作借鉴其多轮采样架构,构建了面向更复杂软件工程场景的新基准,如跨文件代码编辑与单元测试生成等任务,推动了整个代码智能领域从单轮输出向交互式、工程级应用的演进。
以上内容由遇见数据集搜集并总结生成



