DELTA Benchmark Suite

github2025-10-13 更新2025-10-14 收录

下载链接：

https://github.com/sunblaze-ucb/rl-grok-recipe

下载链接

链接失效反馈

官方服务：

资源简介：

DELTA基准套件是一个受控的合成编程家族集合，包含完全分布外分割（Manufactoria）和可验证奖励。该套件包含五个不同的问题家族：1) Manufactoria - 基于经典Flash游戏的纯OOD可学习性测试平台，使用仅有两个原语的最小DSL；2) BouncingSim - 用于测试组合和转换泛化的物理模拟；3) 其他问题领域（SQL/CompetitionCode/Lean）用于可学习性测试

The DELTA benchmark suite is a collection of controlled synthetic programming families, featuring fully out-of-distribution (OOD) splits (Manufactoria) and verifiable rewards. The suite includes five distinct problem families: 1) Manufactoria — a pure OOD learnability testbed based on the classic Flash game, which uses a minimal domain-specific language (DSL) with only two primitives; 2) BouncingSim — a physics simulation designed for testing compositional and transformative generalization; 3) Other problem domains (SQL/CompetitionCode/Lean) for learnability testing

创建时间：

2025-09-25

原始信息汇总

RL Grokking Recipe 数据集概述

数据集基本信息

数据集名称：DELTA Benchmark Suite
研究主题：RL如何解锁和传递LLMs中的新算法
核心贡献：提供受控的合成编程问题集合，用于测试强化学习的可学习性和可转移性

数据集组成

1. Manufactoria

类型：纯分布外可学习性测试平台
基础：基于2010年经典Flash游戏
编程语言：最小化领域特定语言（DSL）
核心指令：PULLER（读取）和PAINTER（写入）
特点：全新文本DSL，互联网上从未出现过
难度：10+个问题家族，从基础模式匹配到GPT-5成功率为0%的计算任务
数据位置：https://huggingface.co/manufactoria

2. BouncingSim

类型：物理模拟测试平台
功能：合成模拟二维弹性碰撞在多边形容器中精确轨迹的程序
问题家族：6种物理场景（旋转物体、旋转盒子、移动盒子、重力、多球/盒子）
泛化维度：
- 探索性：更复杂场景（更多顶点、更高弹性）
- 组合性：重新组合原语（多球+移动盒子）
- 变换性：质变动力学（周期性轨迹）
数据位置：https://huggingface.co/bouncingsim

3. 其他问题领域

SQL：数据库查询语言问题
CompetitionCode：竞赛编程问题
Lean：定理证明问题
特点：这些领域LLMs已接受大量训练，主要用于小参数模型（小于0.5B）的可学习性测试

核心发现

Grokking相变：在多个pass@128=0的问题家族中，RL表现出类grokking的相变行为
两阶段奖励调度：关键训练方法
- 阶段1：密集单测试奖励，突破零奖励区域
- 阶段2：二进制全通过奖励，巩固精确解

训练方法

代码仓库：https://github.com/sunyiyou/open-instruct/tree/merge-code-utils
阶段1设置：SCORE_MODE=pass_rate（单测试准确率）
阶段2设置：SCORE_MODE=full_pass（二进制全通过率）

引用信息

bibtex @misc{sun2025rlgrok, title = {RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?}, author = {Yiyou Sun and Yuhan Cao and Pohao Huang and Haoyue Bai and Hannaneh Hajishirzi and Nouha Dziri and Dawn Song}, year = {2025}, month = {sep}, eprint = {2509.21016}, archivePrefix = {arXiv}, primaryClass = {cs.LG}, doi = {10.48550/arXiv.2509.21016}, url = {https://arxiv.org/abs/2509.21016} }

搜集汇总

数据集介绍

构建方式

在强化学习与大型语言模型交叉研究领域，DELTA基准套件通过构建五个合成编程问题家族实现严格评估框架。该数据集采用完全分布外划分策略，基于经典游戏Manufactoria设计出包含PULLER与PAINTER两种原语的文本领域专用语言，其语法结构从未在互联网训练语料中出现。BouncingSim组件则通过六类物理场景模拟弹性碰撞轨迹，系统覆盖探索性、组合性与转化性三大泛化维度。所有问题均配备可验证奖励机制，确保评估结果的数学严谨性。

特点

该基准套件最显著的特征在于其严格的零样本起点设定，在多个问题家族中GPT-5模型均呈现零通过率，为研究算法发现能力提供纯净实验环境。数据集设计蕴含三重泛化检验机制：Manufactoria侧重有限状态机与磁带重组策略的原始学习，BouncingSim考察物理规则的组合推理能力，而SQL等组件则用于验证已知领域的知识迁移。特别值得注意的是，该基准首次在强化学习场景中观测到顿悟式相变现象，模型经过长期奖励平台期后突然实现近乎完美的准确率跃升。

使用方法

研究者可通过HuggingFace平台获取各组件数据集，利用配套的双阶段训练框架开展实验。第一阶段采用稠密逐测试奖励模式，通过部分正确率维持梯度流动以突破零奖励困境；第二阶段切换至二元全通过奖励机制，促使模型形成精确解决方案。训练基础设施基于RLVR框架实现，支持参考模型替换与评分模式调整。实验表明仅使用二元奖励会导致训练停滞，单纯稠密奖励则难以达成完全准确，唯有阶梯式奖励调度能诱发顿悟相变，该发现为算法发现研究提供了可复现的方法论范本。

背景与挑战

背景概述

DELTA Benchmark Suite是由加州大学伯克利分校等机构的研究团队于2025年推出的合成编程基准测试套件，旨在探索强化学习在大型语言模型中的算法发现与迁移能力。该数据集通过构建包含Manufactoria、BouncingSim等五个问题家族的受控环境，聚焦于完全分布外场景下的程序合成与推理任务，其核心研究问题在于验证强化学习能否在基础模型零初始性能的条件下解锁新型算法，并评估所学程序的泛化能力。这一基准为人工智能领域的符号推理与组合泛化研究提供了可验证的评估框架，推动了程序合成与机器学习交叉领域的方法创新。

当前挑战

该数据集主要面临两大挑战：在领域问题层面，需解决分布外程序合成中LLMs的零样本学习瓶颈，例如Manufactoria任务要求模型掌握未见于训练数据的文本化领域特定语言，而BouncingSim需实现物理模拟的组合式泛化；在构建过程中，研究者需设计具有严格可验证奖励的合成任务家族，同时克服强化学习训练初期的奖励稀疏困境，这促使开发两阶段奖励机制——通过稠密测试奖励突破零奖励区域，再转换为二元全通奖励以触发顿悟式性能跃迁。

常用场景

经典使用场景

在强化学习与大型语言模型融合的前沿领域中，DELTA基准套件作为合成编程任务的标准化测试平台，其经典应用聚焦于评估模型在完全分布外场景下的算法发现能力。该套件通过Manufactoria等模块构建了从未在互联网出现过的文本化领域特定语言，要求模型在零初始成功率的基础上，通过强化学习机制自主推导出有限状态机或物理模拟等复杂计算策略，从而为研究神经网络的结构化推理能力提供了可控的实验环境。

解决学术问题

该数据集有效解决了机器学习领域关于分布外泛化与算法涌现的核心学术难题。通过设计具有可验证奖励机制的合成任务族，它使得研究者能够精确量化模型从零开始学习新算法的潜力，并揭示强化学习触发‘顿悟式’性能跃迁的内在规律。其意义在于突破了传统监督学习在未知领域适应性上的局限，为理解神经网络如何通过交互式训练获得超越预训练知识的推理能力提供了实证基础。

衍生相关工作

基于该数据集衍生的经典研究主要集中于强化学习训练范式的创新与泛化理论探索。其中两阶段奖励调度机制启发了后续关于课程学习与稀疏奖励破解的研究方向，而其在分布外泛化测试中观察到的‘顿悟’现象，则推动了神经网络动力学分析与相变理论的发展。这些工作共同深化了人们对语言模型中算法表征形成机制的理解，并为构建具备持续学习能力的智能系统提供了方法论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集