rstar-coder-verl

Hugging Face2025-11-05 更新2025-11-06 收录

下载链接：

https://huggingface.co/datasets/sungyub/rstar-coder-verl

下载链接

链接失效反馈

官方服务：

资源简介：

rStar-Coder VERL数据集包含386,640个编码问题，这些问题是从microsoft/rStar-Coder集合中转换而来的，适用于强化学习训练的VERL格式。每个问题都包括用于代码执行验证的基于测试用例的地面真实值。

创建时间：

2025-10-28

原始信息汇总

rStar-Coder VERL 数据集概述

基本信息

数据集名称：rStar-Coder VERL Dataset
许可证：CC BY 4.0
任务类别：文本生成、强化学习
语言：代码
标签：代码、编码、推理、强化学习、RLHF、rstar-coder、基于测试用例、VERL
规模类别：100K-1M条目
数据量：386,640个编码问题

数据来源

原始数据集：microsoft/rStar-Coder (synthetic_rl_testcase配置)
原始许可证：https://choosealicense.com/licenses/cc-by-4.0/

数据集结构

特征字段

data_source (字符串)：问题来源("rstar-coder")
prompt (列表)：包含角色和内容字段
- role：用户指定
- content：编码问题陈述
ability (字符串)：问题分类("coding")
reward_model (字典)：基于测试的评估标准
- style：评估方法("rule")
- ground_truth：包含测试输入和预期输出的JSON字符串
extra_info (字典)：额外元数据
- index：记录标识符
- question_id：源数据集中的原始问题标识符

数据划分

训练集：386,640个示例

技术规格

格式：Parquet文件
分片数量：241个Parquet分片
处理批次：387个批次

处理流程

流式处理：使用流式模式高效处理大型数据集
大小过滤：过滤测试用例超过5MB的示例（约2.9%被过滤）
批处理：以1,000个示例为批次进行优化内存管理
模式转换：转换为VERL提示格式，解析输入/输出到ground_truth JSON字符串
键重排序：应用PyArrow模式转换确保字典键顺序匹配参考VERL数据集

数据集统计

总示例数：386,640
源示例数：约398,000（过滤前）
过滤示例数：约11,400（2.9%，大小>5MB）

主要特点

测试用例覆盖：每个问题包含包含输入和预期输出的全面测试用例
大小过滤：移除大型问题示例以确保训练稳定性
模式统一：完全兼容其他VERL代码数据集
流式就绪：优化支持批处理和流式数据加载

使用示例

python from datasets import load_dataset

加载数据集

dataset = load_dataset("sungyub/rstar-coder-verl", split="train")

流式模式

dataset = load_dataset("sungyub/rstar-coder-verl", split="train", streaming=True)

质量保证

字典键顺序匹配标准VERL格式
Ground truth JSON结构一致
转换过程中无数据丢失
与现有VERL训练管道模式兼容

创建信息

创建者：sungyub kim
发布日期：2025-10-29
访问地址：https://huggingface.co/datasets/sungyub/rstar-coder-verl

搜集汇总

数据集介绍

构建方式

在代码生成与强化学习交叉领域，该数据集通过精心设计的转换流程构建而成。原始数据源自microsoft/rStar-Coder集合的synthetic_rl_testcase配置，采用流式处理模式高效处理大规模数据，避免了完整下载的需求。构建过程中实施了严格的质量控制，通过5MB大小阈值过滤了约2.9%的异常样本，确保训练稳定性。数据以1000个样本为批次进行批量处理，并应用PyArrow模式转换确保字典键顺序与标准VERL数据集完全匹配，最终形成包含386,640个编码问题的标准化数据集。

使用方法

在实践应用层面，该数据集支持多样化的加载方式以适应不同计算环境。通过Hugging Face Datasets库可直接加载完整数据集，或采用流式模式逐例处理以优化内存使用。典型应用流程包括解析prompt字段获取编程问题描述，提取reward_model中的ground_truth信息构建测试用例，进而执行代码生成与验证循环。数据集兼容Dask和Polars等现代数据处理框架，其分片存储结构（241个Parquet文件）支持高效分布式处理，为代码生成模型的强化学习训练提供了完整的技术基础。

背景与挑战

背景概述

在人工智能编程辅助领域，代码生成模型的优化始终是核心研究方向。rStar-Coder-VERL数据集由微软研究院于2025年创建，基于rStar-Coder项目的合成测试用例配置构建，旨在通过强化学习框架提升大语言模型的代码推理能力。该数据集包含38.6万条编程问题，采用火山引擎强化学习格式重构，通过测试用例验证机制为模型提供精确的反馈信号，显著推动了自动化代码生成与程序验证的融合发展。

当前挑战

该数据集致力于解决代码生成领域的两大核心挑战：一是如何构建具备高覆盖率的测试用例验证体系，确保生成代码的功能正确性；二是在数据构建过程中需应对海量测试用例的内存管理难题，通过流式处理与5MB容量过滤机制，有效消除了2.9%的超规格样本。此外，维持VERL格式的架构一致性，确保与既有强化学习训练管道的无缝兼容，亦是工程实现中的重要技术壁垒。

常用场景

经典使用场景

在代码生成与强化学习交叉领域，rStar-Coder-VERL数据集为基于测试用例的代码生成模型训练提供了标准化实验平台。其核心价值在于通过386,640个编程问题的测试用例验证机制，构建了代码功能正确性的自动化评估体系。研究人员可借助该数据集开展大规模代码生成模型的强化学习训练，通过执行生成的代码与预设测试用例的匹配度来优化模型性能，这种基于动态验证的范式显著提升了代码生成任务的可靠性与可复现性。

解决学术问题

该数据集有效解决了代码生成领域长期存在的语义正确性验证难题。传统代码生成模型仅关注语法合规性，而本数据集通过结构化测试用例提供了功能正确性的量化标准，使得模型能够学习到更深层次的编程逻辑。其引入的规则化奖励机制为强化学习在代码生成任务中的应用建立了理论基础，推动了从文本匹配到功能等价的质量评估范式转变，为程序合成领域的可验证人工智能研究提供了关键基础设施。

实际应用

在工业界实践中，该数据集支撑的代码生成技术已渗透到软件开发全生命周期。智能编程助手能够基于测试用例验证生成代码的可靠性，显著提升开发效率；在线编程教育平台利用其构建自适应学习系统，通过实时测试反馈指导学习者修正代码逻辑；企业级代码审查工具集成该数据集的验证机制，实现了自动化代码质量检测。这些应用场景共同推动了软件工程智能化进程，降低了软件开发与维护的技术门槛。

数据集最近研究