rStar-Coder

Name: rStar-Coder
Creator: 微软亚洲研究院、大连理工大学、上海交通大学
Published: 2025-05-27 23:00:57
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://github.com/microsoft/rStar

下载链接

链接失效反馈

官方服务：

资源简介：

rStar-Coder 是一个大规模、经过验证的数据集，包含 418,000 个竞赛级别的代码问题，以及 580,000 个长期推理解决方案，并配有丰富、难度各异的测试案例。该数据集通过以下三个核心贡献构建：首先，我们从竞赛编程平台（如 IOI、Codeforces）收集和清理了 37,700 个专家编写的具有标准解决方案的问题，并使用它们作为种子来合成新的可解问题；其次，我们引入了一个可靠的输入-输出测试案例合成管道，将生成过程分为三步输入生成方法和一个相互验证机制，以有效地进行输出标注；最后，我们用高质量、经过测试案例验证的长期推理解决方案增强了问题。在 Qwen 模型（1.5B-14B）上的广泛实验表明，rStar-Coder 数据集具有优越性，即使在较小的模型规模下，也能实现与前沿推理 LLM 相当的领先性能。

rStar-Coder is a large-scale, validated dataset containing 418,000 contest-level coding problems and 580,000 long-form reasoning solutions, paired with rich test cases of varying difficulty levels. This dataset is constructed through three core contributions: First, we collected and curated 37,700 expert-written problems with standard solutions from competitive programming platforms such as IOI and Codeforces, and used them as seeds to synthesize new solvable problems. Second, we introduced a reliable input-output test case synthesis pipeline, which divides the generation process into a three-step input generation method and a mutual verification mechanism to efficiently conduct output annotation. Finally, we augmented the problems with high-quality, test case-validated long-form reasoning solutions. Extensive experiments on Qwen models (1.5B–14B) demonstrate the superiority of the rStar-Coder dataset: even at smaller model scales, it achieves leading performance comparable to state-of-the-art reasoning large language models (LLMs).

提供机构：

微软亚洲研究院、大连理工大学、上海交通大学

创建时间：

2025-05-27

原始信息汇总

rStar-Math数据集概述

基本信息

名称: rStar-Math
论文标题: "rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking"
作者: Xinyu Guan*, Li Lyna Zhang*, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
论文链接: https://huggingface.co/papers/2501.04519
代码状态: 已开源

核心内容

目标: 通过蒙特卡洛树搜索(MCTS)实现小型语言模型(SLMs)在数学推理任务上的优异表现
方法: 使用基于SLM的过程奖励模型指导数学策略SLM进行测试时搜索
特点: 无需从上级模型蒸馏知识

数据集来源

主要数学问题来源:
- NuminaMath: https://huggingface.co/datasets/AI-MO/NuminaMath-CoT
- MetaMath: https://huggingface.co/datasets/meta-math/MetaMathQA

开源训练数据集

评估任务

支持以下任务的评估:

gsm8k
math
math500
aime2024
amc23
collegemath
gaokao2023en
olympiadbench
omni-math

引用格式

bibtex @misc{guan2025rstar, title={rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking}, author={Xinyu Guan and Li Lyna Zhang and Yifei Liu and Ning Shang and Youran Sun and Yi Zhu and Fan Yang and Mao Yang}, year={2025}, eprint={2501.04519}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在竞争性编程领域，高质量数据集的稀缺性一直是制约大语言模型代码推理能力提升的关键瓶颈。rStar-Coder通过创新性的三阶段构建方法解决了这一挑战：首先从IOI、Codeforces等权威平台精选37.7K专家设计的问题作为种子，结合结构化提示引导GPT-4o生成可解的衍生问题；其次开发了包含输入生成函数与验证函数的三步测试用例合成管道，通过CYaRon库实现约束感知的多样化输入生成；最后采用多数表决的互验证机制，通过QWQ-32B生成的16个候选解决方案在50+测试输入上的一致性来验证输出标签的可靠性。这种严谨的构建流程最终产生了包含418K验证问题的规模化数据集。

特点

作为当前最具挑战性的代码推理数据集，rStar-Coder展现出三大核心特征：其问题库覆盖动态规划、图论等12类算法主题，包含从青铜级到白金级的全难度谱系，其中USACO铂金级问题占比达18%；测试用例具有显著的复杂度梯度，单个问题的输入规模参数可调控10^0至10^5量级，较传统数据集提升3个数量级；解决方案包含580K经严格验证的长链推理样本，每个方案平均包含23步算法推导与5次自我修正过程。特别值得注意的是，数据集中37%的问题采用多模态命题形式，将几何直观与符号推理有机结合。

使用方法

该数据集支持端到端的代码推理模型训练与评估，研究者可通过GitHub仓库获取标准化的数据加载接口。训练阶段建议采用课程学习策略，按USACO难度分级分批加载数据，并配合FlashAttention-2优化长序列处理。评估时需注意：对于标准输入输出类问题，应使用子进程封装执行环境以严格约束CPU时间（2s）和内存（256MB）；函数式问题则需通过动态模块导入验证返回值。在LiveCodeBench等动态基准测试中，推荐配置temperature=0.6的多数投票机制，从16个生成样本中选择最一致解。数据集已内置去重处理，与HumanEval等评估集的16-gram重叠率低于0.7%。

背景与挑战

背景概述

rStar-Coder是由微软亚洲研究院于2025年推出的专注于提升大语言模型（LLMs）代码推理能力的大规模验证数据集。该数据集包含41.8万个竞赛级编程问题和58万个长推理解决方案，每个问题均配备多样化的测试用例。研究团队通过三个核心创新实现了这一目标：1）基于竞赛平台原始问题合成新问题；2）开发输入-输出测试用例合成流水线；3）为问题附加高质量的长推理解决方案。实验表明，该数据集能显著提升模型在LiveCodeBench等基准上的表现，使7B模型达到57.3%的准确率，超越同类32B模型。

当前挑战

在领域问题方面，rStar-Coder致力于解决竞赛级代码推理中高质量数据稀缺的挑战，特别是需要验证输入输出测试用例的复杂编程问题。传统数据集如CodeContests缺乏全面的测试覆盖，而合成数据集如WizardCoder主要关注函数级代码生成。在构建过程中，研究团队面临三大挑战：1）生成符合问题约束且复杂度可变的测试输入；2）在没有参考实现的情况下准确标注测试输出；3）确保合成问题的可解性，避免因前沿模型能力限制产生无效问题。通过三阶段输入生成方法和多数表决验证机制，最终实现了96.8%的测试标注准确率。

常用场景

经典使用场景

在大型语言模型（LLM）的代码推理能力研究中，rStar-Coder数据集通过提供大量经过验证的高难度编程问题和长推理解决方案，成为评估和提升模型性能的关键工具。该数据集特别适用于测试模型在竞争级编程问题上的表现，如算法设计、复杂逻辑实现和高效代码生成。研究者可以利用rStar-Coder中的多样化测试案例，全面验证模型在不同难度和规模输入下的表现，从而推动代码推理技术的发展。

解决学术问题

rStar-Coder数据集解决了当前代码推理研究中的两个核心问题：高难度数据集的稀缺性和解决方案验证的可靠性。通过构建包含418K竞争级编程问题和580K长推理解决方案的大规模数据集，该数据集为研究者提供了丰富的资源，用于训练和评估模型在复杂代码任务上的表现。此外，其独特的三步测试案例生成方法和互验证机制，确保了解决方案和测试输出的高准确性，为代码推理领域的严谨研究奠定了坚实基础。

衍生相关工作

rStar-Coder数据集不仅推动了代码推理领域的研究，还衍生出多项经典工作。例如，基于该数据集的互验证机制，研究者开发了更高效的测试案例生成方法，进一步提升了代码验证的可靠性。此外，数据集中的长推理解决方案为模型蒸馏和强化学习提供了宝贵资源，促进了如OpenThinker和OlympicCoder等先进模型的发展。这些工作共同推动了代码推理技术的进步，为未来的研究开辟了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集