DELTA-Code

Name: DELTA-Code
Creator: 加州大学伯克利分校、威斯康星大学麦迪逊分校、华盛顿大学、Ai2
Published: 2025-09-25 19:20:56
License: 暂无描述

arXiv2025-09-25 更新2025-11-21 收录

下载链接：

https://github.com/sunblaze-ucb/rl-grok-recipe

下载链接

链接失效反馈

官方服务：

资源简介：

DELTA-Code是一个用于研究大型语言模型（LLMs）在算法编码中学习能力和迁移能力的控制基准数据集。该数据集包含合成编程问题家族，旨在探索LLMs通过强化学习（RL）解锁和迁移新编程算法的能力。数据集包含多个领域的问题，如Manufactoria、BouncingSim、竞争编程、SQL和LEAN，每个问题家族都通过模板生成器自动生成，具有可调难度和清晰的分布控制。

提供机构：

加州大学伯克利分校、威斯康星大学麦迪逊分校、华盛顿大学、Ai2

创建时间：

2025-09-25

搜集汇总

数据集介绍

构建方式

DELTA-Code数据集通过模板化问题生成器构建了受控的编程问题家族，涵盖制造工厂模拟、物理仿真和竞争性编程等多个领域。每个问题家族均采用参数化模板生成，通过调整离散参数（如字符串模式、逻辑条件）和数值参数（如阈值、偏移量）来创建多样化的实例，确保问题在保持核心推理技能的同时实现分布控制。数据生成过程依赖严格的验证机制，包括测试用例执行和几何可行性检查，以消除数据混淆并支持对学习性和泛化性的系统研究。

使用方法

使用DELTA-Code时，研究者可通过其分阶段训练框架探索强化学习在编程任务中的表现：首先利用密集奖励（如测试用例通过率）进行预热训练，引导模型突破零奖励区域；随后切换至二元奖励（完全通过率）以强化精确解。评估时需遵循严格的数据划分，分别在训练分布内和分布外（如更高难度、组合任务或转化场景）测试模型性能。数据集支持多轴泛化分析，包括参数化扩展、技能整合及策略创新，为理解模型推理能力的边界提供系统化实验环境。

背景与挑战

背景概述

DELTA-Code数据集由加州大学伯克利分校、华盛顿大学及Ai2等机构的研究团队于2025年提出，旨在探究强化学习能否使大语言模型掌握超越预训练知识边界的新型编程算法。该数据集通过合成编程问题族构建受控实验环境，聚焦于可学习性与泛化能力两大核心问题，填补了传统代码基准在分布外推理能力评估上的空白。其创新性体现在采用模块化问题生成器与完全分布外任务设计，为理解模型推理机制的边界提供了标准化测试平台。

当前挑战

该数据集需解决编程算法创新领域的双重挑战：在领域问题层面，需验证模型能否通过强化学习突破预训练知识局限，实现从零到一的策略发现；在构建过程中，需克服合成问题族的语义一致性控制、奖励信号稀疏性缓解，以及跨问题族泛化评估的复杂性。具体表现为设计能隔离特定推理技能的模板化生成器，建立从密集奖励到二元奖励的渐进训练机制，并构建探索性、组合性与变革性三大泛化维度的系统性评估框架。

常用场景

经典使用场景

在编程算法研究领域，DELTA-Code通过构建合成编程问题族，为探索大语言模型在强化学习环境下学习新推理策略的能力提供了标准化测试平台。该数据集设计了Manufactoria等完全分布外问题，要求模型掌握自定义语法和有限状态自动机构建技能，从而在受控环境中评估模型从零掌握程序化解决方案的潜力。

解决学术问题

DELTA-Code系统性地解决了大语言模型能否通过强化学习获得超越预训练知识的新推理能力这一核心学术争议。通过设计具有严格训练-测试分割的问题族，该数据集首次实证揭示了强化学习中的顿悟现象：模型在经过长期探索后突然实现从完全失败到近乎完美准确率的相位跃迁，证明了强化学习能够突破参考模型的固有能力边界。

实际应用

该数据集在智能编程助手开发和自动化代码生成领域具有重要应用价值。其分阶段训练范式——先使用测试用例级密集奖励引导探索，再切换为二进制完全通过奖励——为实际工业场景中训练可靠代码生成模型提供了可行方案。特别是在需要处理新颖编程范式或复杂算法合成的应用场景中，这种训练方法显著提升了模型的泛化能力。

数据集最近研究