five

Block-R1

收藏
github2026-05-11 更新2026-05-12 收录
下载链接:
https://github.com/YanJiangJerry/Block-R1
下载链接
链接失效反馈
官方服务:
资源简介:
Block-R1是一个用于基于块扩散大语言模型的多领域强化学习的基准,旨在增强dLLMs中的基于块推理生成。该数据集通过比较学生和教师dLLM在不同块大小下构建基于块的训练数据,覆盖推理、代码、谜题和知识等领域,支持动态块大小生成方法b1。

Block-R1 is a benchmark for multi-domain reinforcement learning targeting block-based diffusion large language models (dLLMs), designed to enhance block-based inference generation in dLLMs. This dataset constructs block-based training data by comparing student and teacher dLLMs across different block sizes, covering domains such as reasoning, code, puzzles, and general knowledge, and supports the dynamic block size generation method b1.
创建时间:
2026-04-24
原始信息汇总

Block-R1 数据集详情

数据集概述

Block-R1 是一个面向基于块的扩散大语言模型(dLLM)的多领域强化学习基准,旨在增强 dLLM 中基于块的推理生成能力。该代码库包含基于块的推理数据集以及动态块大小生成方法 b1

Block-R1 标准化了强化学习训练流程、Block-R1 数据集构建流程,以及跨推理、代码、谜题和知识领域的评估流程,其中不同领域可能偏好不同的块大小以实现 dLLM 中的半自回归解码。

主要组件

  • 多领域强化学习:在同一基准协议下,训练和比较最新的 dLLM 强化学习算法在多个领域和指标上的表现
  • 基准覆盖范围:涵盖代码、数学、谜题、通用知识和高级推理的多样化领域
  • Block-R1 数据集构建:通过比较不同块大小下的学生 dLLM 和教师 dLLM 来构建基于块的训练数据
  • 动态块大小生成:支持 b1,一种为 dLLM 设计的动态大小推理块方法
  • dLLM 强化学习方法:在统一代码库下复现多种强化学习算法家族
  • 主干 dLLM:支持 LLaDA、LLaDA 1.5、LLaDA2 mini、Dream、SDAR 和 TraDo
  • 跨供应商 GPU:支持 NVIDIA CUDA 和 AMD ROCm 环境

基准领域与数据

Block-R1 支持 15 个数据集配置:

类别 数据集 训练集大小 测试集大小
代码生成 MBPP 374 500
代码生成 HumanEval N/A 164
代码生成 KodCode 9,285 500
数学推理 GSM8K 7,473 1,319
数学推理 MATH500 7,500 500
数学推理 Countdown 240,632 256
逻辑谜题 Knights-and-Knaves 6,200 700
逻辑谜题 Sudoku 1,000,000 256
通用能力 HellaSwag 39,905 10,003
通用能力 MMLU N/A 14,042
通用能力 ARC-E 2,251 2,376
高级推理 MMLU-Pro N/A 12,032
高级推理 ARC-C 1,119 1,172
高级推理 GPQA N/A 448
LLM 跨领域强化学习 GURU 91.9K N/A

Block-R1 数据集

Block-R1 数据集已在 Hugging Face 上发布:

  • 数据集地址:https://huggingface.co/datasets/dLLM-R1/Block-R1

主要训练数据集文件为 train.jsonl。每个样本通过多块信号构建,并根据最佳 A 减 B 块进行选择。该数据集专为扩散大语言模型的多领域强化学习训练而设计。

支持的 dLLM 模型

Block-R1 支持 10 个 dLLM 主干模型:

系列 Hugging Face 模型 ID
GSAI-ML / LLaDA v1 GSAI-ML/LLaDA-8B-Base
GSAI-ML / LLaDA v1 GSAI-ML/LLaDA-8B-Instruct
GSAI-ML / LLaDA 1.5 GSAI-ML/LLaDA-1.5
InclusionAI / LLaDA 2 Mini inclusionAI/LLaDA2.0-mini
InclusionAI / LLaDA 2 Mini inclusionAI/LLaDA2.1-mini
Dream-org / Dream v0 Dream-org/Dream-v0-Base-7B
Dream-org / Dream v0 Dream-org/Dream-v0-Instruct-7B
JetLM / SDAR JetLM/SDAR-8B-Chat-b32
Gen-Verse / TraDo Gen-Verse/TraDo-8B-Instruct
Gen-Verse / TraDo Gen-Verse/TraDo-8B-Thinking

支持的 dLLM 强化学习方法

Block-R1 支持 7 种最新的 dLLM 强化学习方法:

目录 论文标题
reproduce/d1/ d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
reproduce/grpo/ d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
reproduce/wd1/ WD1: Weighted Policy Optimization for Reasoning in Diffusion Language Models
reproduce/gdpo/ Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization
reproduce/mdpo/ MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models
reproduce/stable_drl/ Stabilizing Reinforcement Learning for Diffusion Language Models
reproduce/espo/ Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

动态块大小:b1

除上述七种强化学习方法外,Block-R1 还支持来自 b1 的动态大小推理块。对应的论文为:Break the Block: Dynamic-size Reasoning Blocks for Diffusion Large Language Models via Monotonic Entropy Descent with Reinforcement Learning

评估指标

Block-R1 专注于单次评估,支持报告以下内容:

  • 基础或指令主干模型性能
  • 单领域强化学习性能
  • 多领域强化学习性能
  • Block-R1 训练性能
  • b1 动态块大小性能

数据集获取与使用

数据集可通过 Hugging Face 下载,地址为:https://huggingface.co/datasets/dLLM-R1/Block-R1

训练数据集文件 train.jsonl 需放置于 dataset/multi/block_r1_A_gt_B_multi_train 目录下。

许可协议

该数据集采用 Apache 2.0 许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
Block-R1数据集的构建遵循一套精巧的两阶段流程。第一阶段,驱动脚本在多个骨干扩散大语言模型上,针对不同块大小执行多块评估,以收集丰富的奖励信号。第二阶段,通过对比学生模型与教师模型在不同块大小下的性能差异,精心挑选出模型A表现优于模型B且两者差异最大的样本,从而导出最终的训练数据集。这一对比筛选机制确保了数据集中每条样本都蕴含着能够显著提升模型性能的块级推理优势。
特点
该数据集的核心亮点在于其多领域覆盖与动态块大小生成的深度融合。它横跨代码生成、数学推理、逻辑谜题与通用知识等十五个数据集,为多领域强化学习提供了广阔的试验场。特别地,数据集原生支持b1动态推理块方法,允许模型在半自回归解码过程中自适应地选择最优块大小,打破了固定块大小的局限。此外,它统一了七种前沿强化学习算法的训练流程,并兼容多种主流扩散语言模型及跨厂商GPU环境。
使用方法
使用者可通过简洁的命令行接口快速上手。首先,需克隆代码仓库并配置虚拟环境与依赖库,根据硬件平台选择NVIDIA或AMD版本。随后,执行`block_r1_dataset.sh`脚本即可自动完成数据集的构建与导出。对于多领域强化学习训练,可运行`run_block_r1.sh`启动代表性实验,或使用`run_benchmark.sh`进行全面的算法扫描。模型评估则通过`eval_backbone.sh`脚本实现,支持对基座模型与强化学习检查点的零样本性能评价。
背景与挑战
背景概述
Block-R1基准数据集于2026年由Jiang等研究者提出,旨在解决基于块的扩散大语言模型(dLLMs)在多领域强化学习中的标准化评估问题。随着dLLMs在推理、代码生成、逻辑谜题及知识问答等领域的快速发展,不同任务对模型解码时采用的块大小(Block Size)展现出各有偏好的需求。Block-R1应运而生,为dLLMs的强化学习训练与动态块大小生成方法(b1)提供了统一的基准协议。该数据集整合了15个覆盖广泛领域的子数据集,支持多种主流dLLM骨干模型及七种前沿强化学习算法,显著推动了dLLMs在跨领域推理能力上的标准化研究。
当前挑战
Block-R1核心面临的挑战在于,不同领域任务对块大小的偏好差异巨大,导致固定块大小的半自回归解码策略难以同时兼顾各领域的生成效率与推理精度。构建过程中,研究者需要处理来自学生模型与教师模型在不同块大小下的奖励信号对比,精心筛选出最优的(A减B)块配置以生成训练数据,这一过程涉及大量计算资源与精细的奖励建模。此外,如何在多领域强化学习框架下,确保动态块大小方法b1与多种RL算法(如GRPO、GDPO)稳定协同工作,避免训练不稳定或收敛困难,亦是该数据集构建与运用中的关键难题。
常用场景
经典使用场景
在扩散大语言模型(dLLM)的强化学习研究领域,Block-R1数据集作为首个覆盖代码生成、数学推理、逻辑谜题与通用知识等多领域的块状基准测试,其经典使用场景集中于动态块大小推理能力的评测与训练。研究者利用该数据集,通过构建学生-教师模型在不同块大小下的对比信号,筛选出最优(A-B)块,从而生成块级训练数据。这一过程为半自回归解码提供了自适应块调度策略,尤其适用于需要平衡计算效率与生成质量的复杂推理任务,如数独求解与GSM8K数学难题。
实际应用
在实际应用层面,Block-R1数据集为工业级扩散大语言模型的部署提供了关键支撑。其动态块大小生成方法b1可在NVIDIA与AMD异构GPU环境中无缝运行,适用于资源受限的实时推理场景,如智能代码补全、自动化数学辅导及逻辑谜题求解。此外,数据集支持跨领域强化学习训练(如GURU范式),使得模型能够同时掌握代码编写与数学证明等多技能,显著提升对话式AI在复杂任务中的适应性。这一特性对构建通用人工智能助手具有重要工业价值。
衍生相关工作
Block-R1数据集衍生了一系列具有影响力的经典工作。基于其提供的标准化协议,研究者开发了动态块大小推理方法b1,通过单调熵下降机制优化半自回归解码效率。同时,七大强化学习算法(如Diffusion-GRPO、WD1、ESPO)在该基准上完成了系统性对比,其中StableDRL提出了状态渐进梯度与归一化重要性采样目标以稳定训练,而MDPO则攻克了掩码扩散模型的训练-推理不一致问题。这些工作均以Block-R1为统一实验平台,形成了扩散语言模型强化学习研究的完整生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作