five

kodcode-v1-verl

收藏
Hugging Face2025-11-05 更新2025-11-06 收录
下载链接:
https://huggingface.co/datasets/sungyub/kodcode-v1-verl
下载链接
链接失效反馈
官方服务:
资源简介:
KodCode-V1 VERL Format数据集是一个预处理的Python编码挑战数据集,格式化为VERL训练使用。该数据集包含高质量的Python编码挑战,以及综合测试用例和质量指标。数据集结构遵循VERL训练模式,并包含数据来源、提示、任务类型、奖励模型和额外信息等字段。数据集适用于强化学习训练,并提供了过滤和子集的选项。数据集遵循CC-BY-NC-4.0许可协议,仅限非商业用途。
创建时间:
2025-11-03
原始信息汇总

KodCode-V1 VERL Format 数据集概述

数据集基本信息

  • 名称: KodCode-V1 VERL Format
  • 来源: https://huggingface.co/datasets/KodCode/KodCode-V1
  • 原始论文: https://arxiv.org/abs/2406.09433
  • 格式: VERL兼容模式,适用于强化学习训练
  • 许可证: CC-BY-NC-4.0(仅限非商业用途)
  • 语言: 代码(Python)
  • 规模: 434,896个训练样本
  • 保留率: 89.8%(从原始484,097个样本中保留)

数据结构

核心字段

  • data_source: 数据源标识符(字符串)
  • prompt: 提示信息列表(仅用户角色)
  • ability: 任务类型(始终为"code")
  • reward_model: 奖励模型信息
  • extra_info: 额外信息

详细结构

python prompt: [ { role: user, content: 编码挑战/问题描述 } ] reward_model: { style: rule, ground_truth: 包含测试用例的JSON字符串 } extra_info: { index: 示例索引, pass_percentage: GPT-4通过率, test_coverage: 测试覆盖率, pass_trial_num: 通过试验次数, original_difficulty: 难度等级, original_subset: 源子集, question_id: 原始问题标识符, test_parsed: 测试用例解析状态 }

数据来源分布

  • Leetcode: 竞争性编程挑战
  • HumanEval: 标准代码生成基准
  • Docs: Python库文档示例
  • TACO: 额外编码挑战

质量指标

  • 通过百分比: GPT-4在问题上的成功率(0.0-1.0)
  • 通过试验次数: 成功的GPT-4试验计数
  • 测试覆盖率: 选定解决方案试验的代码覆盖率
  • 难度等级: 简单、中等或困难(GPT-4评估)

数据准备流程

处理步骤

  1. 从KodCode/KodCode-V1流式加载源数据
  2. 将pytest断言转换为LeetCode风格的检查函数
  3. 映射到VERL格式并强制执行键排序
  4. 保留原始质量指标
  5. 通过PyArrow模式转换确保结构一致性

测试用例生成

  • 从原始测试代码解析pytest断言
  • 转换为check(candidate)函数格式
  • 将函数名称替换为candidate参数
  • ground_truth字段中编码为JSON

使用方式

加载数据集

python from datasets import load_dataset dataset = load_dataset("sungyub/kodcode-v1-verl", split="train")

流式加载(内存高效)

python dataset = load_dataset("sungyub/kodcode-v1-verl", split="train", streaming=True)

过滤和子集

按难度过滤

python easy_examples = dataset.filter( lambda x: x[extra_info][original_difficulty] == easy )

按质量过滤

python high_quality = dataset.filter( lambda x: x[extra_info][pass_percentage] > 0.5 )

按来源过滤

python leetcode_only = dataset.filter( lambda x: x[extra_info][original_subset] == Leetcode )

技术特性

字典键排序

  • 使用PyArrow模式转换强制执行一致的字典键排序
  • prompt消息键顺序:[role, content]
  • reward_model键顺序:[style, ground_truth]

测试用例验证

  • 测试用例从pytest格式解析但未预先验证
  • 训练期间通过沙箱执行进行验证

排除标准

  • 无法从测试元数据中提取函数名称
  • 测试用例解析失败
  • 必需字段缺失

保留统计

  • 总保留:434,896 / 484,097(89.8%)
  • 成功解析测试用例:394,336(81.5%)
  • 因缺少函数名称排除:49,201(10.2%)
  • 解析失败:40,560(8.4%)

相关数据集

  • https://huggingface.co/datasets/sungyub/skywork-or1-code-verl
  • https://huggingface.co/datasets/sungyub/eurus-2-code-verl
  • https://huggingface.co/datasets/KodCode/KodCode-V1

版本信息

  • 版本: 1.0
  • 发布日期: 2025-11-03
  • 特点: 初始发布,模式统一,测试用例转换,质量指标保留
搜集汇总
数据集介绍
main_image_url
构建方式
在代码生成研究领域,KodCode-V1 VERL数据集通过精心设计的预处理流程构建而成。该数据集从原始KodCode-V1数据集中提取了434,896个高质量Python编程示例,采用流式处理技术确保大规模数据的高效转换。构建过程中,研究团队将原始测试用例从pytest格式转化为LeetCode风格的验证函数,并通过PyArrow模式强制实施字典键排序,以保证数据结构的一致性。数据保留率高达89.8%,仅排除了无法提取函数名或测试用例解析失败的样本,从而确保了数据的完整性和可用性。
特点
该数据集在代码智能研究领域展现出多重显著特征。其核心优势在于整合了来自LeetCode、HumanEval和Python文档等多种真实编程场景的多样化题目来源。每个样本均附带详尽的元数据,包括GPT-4通过率、测试覆盖率和题目难度等级等质量指标。特别值得注意的是,数据集采用VERL兼容格式设计,具备标准化的奖励模型结构,其中ground_truth字段以JSON格式封装了完整的测试用例。这种设计使得数据集能够直接适配强化学习训练流程,为代码生成模型的优化提供了强有力的支持。
使用方法
在实践应用层面,研究者可通过Hugging Face数据集库直接加载该数据集进行模型训练。数据集支持流式加载模式,有效解决了内存资源受限环境下的处理难题。使用者可根据难度级别、题目来源或质量指标对样本进行灵活筛选,构建定制化的训练子集。与VERL训练框架的深度整合是该数据集的重要特性,其内置的规则型奖励机制能够基于测试用例执行结果自动计算奖励信号。这种设计使得研究者能够快速构建端到端的代码生成强化学习系统,大幅提升实验效率和研究可复现性。
背景与挑战
背景概述
随着人工智能在代码生成领域的快速发展,对高质量编程数据集的需求日益增长。KodCode-V1数据集于2024年由研究团队基于现实场景构建,聚焦Python代码生成任务,整合了LeetCode竞赛题目、HumanEval基准测试及多源编程挑战。该数据集通过结构化测试用例与质量评估指标,为强化学习训练提供了标准化数据支撑,显著推进了智能编程助手的研发进程。
当前挑战
在代码生成领域,模型需同时满足功能正确性与算法效率的双重要求,而测试用例的覆盖度与边界条件处理构成核心难点。数据集构建过程中面临多源数据格式统一、测试代码解析转换等技术瓶颈,特别是从pytest断言到LeetCode格式的自动化转换存在语义保真挑战,导致约10.2%样本因函数名缺失而被筛除。
常用场景
经典使用场景
在代码智能生成领域,该数据集通过VERL强化学习框架为模型训练提供结构化支持。其核心应用场景聚焦于Python编程任务的自动化解决,涵盖从LeetCode算法题到实际库函数实现等多样化编码挑战。每个样本包含完整的测试用例和质量指标,使模型能够通过规则奖励机制学习代码功能正确性与风格规范性。
实际应用
在工业界实践中,该数据集支撑着智能编程助手、自动化代码审查与教育辅助系统的开发。基于其构建的模型能实时生成符合规范的代码片段,帮助开发者提升编程效率;在技术教育场景中,可生成个性化编程练习题并提供即时反馈,重塑传统编程教学模式。
衍生相关工作
该数据集的发布催生了系列创新研究,包括基于VERL框架的代码优化模型、多模态编程助手系统,以及结合符号推理的混合增强学习方法。其标准化的测试用例格式更成为后续代码评估基准的重要参考,推动形成了以执行正确率为核心的代码质量评估体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作