Block-R1
收藏Block-R1 数据集详情
数据集概述
Block-R1 是一个面向基于块的扩散大语言模型(dLLM)的多领域强化学习基准,旨在增强 dLLM 中基于块的推理生成能力。该代码库包含基于块的推理数据集以及动态块大小生成方法 b1。
Block-R1 标准化了强化学习训练流程、Block-R1 数据集构建流程,以及跨推理、代码、谜题和知识领域的评估流程,其中不同领域可能偏好不同的块大小以实现 dLLM 中的半自回归解码。
主要组件
- 多领域强化学习:在同一基准协议下,训练和比较最新的 dLLM 强化学习算法在多个领域和指标上的表现
- 基准覆盖范围:涵盖代码、数学、谜题、通用知识和高级推理的多样化领域
- Block-R1 数据集构建:通过比较不同块大小下的学生 dLLM 和教师 dLLM 来构建基于块的训练数据
- 动态块大小生成:支持 b1,一种为 dLLM 设计的动态大小推理块方法
- dLLM 强化学习方法:在统一代码库下复现多种强化学习算法家族
- 主干 dLLM:支持 LLaDA、LLaDA 1.5、LLaDA2 mini、Dream、SDAR 和 TraDo
- 跨供应商 GPU:支持 NVIDIA CUDA 和 AMD ROCm 环境
基准领域与数据
Block-R1 支持 15 个数据集配置:
| 类别 | 数据集 | 训练集大小 | 测试集大小 |
|---|---|---|---|
| 代码生成 | MBPP | 374 | 500 |
| 代码生成 | HumanEval | N/A | 164 |
| 代码生成 | KodCode | 9,285 | 500 |
| 数学推理 | GSM8K | 7,473 | 1,319 |
| 数学推理 | MATH500 | 7,500 | 500 |
| 数学推理 | Countdown | 240,632 | 256 |
| 逻辑谜题 | Knights-and-Knaves | 6,200 | 700 |
| 逻辑谜题 | Sudoku | 1,000,000 | 256 |
| 通用能力 | HellaSwag | 39,905 | 10,003 |
| 通用能力 | MMLU | N/A | 14,042 |
| 通用能力 | ARC-E | 2,251 | 2,376 |
| 高级推理 | MMLU-Pro | N/A | 12,032 |
| 高级推理 | ARC-C | 1,119 | 1,172 |
| 高级推理 | GPQA | N/A | 448 |
| LLM 跨领域强化学习 | GURU | 91.9K | N/A |
Block-R1 数据集
Block-R1 数据集已在 Hugging Face 上发布:
- 数据集地址:https://huggingface.co/datasets/dLLM-R1/Block-R1
主要训练数据集文件为 train.jsonl。每个样本通过多块信号构建,并根据最佳 A 减 B 块进行选择。该数据集专为扩散大语言模型的多领域强化学习训练而设计。
支持的 dLLM 模型
Block-R1 支持 10 个 dLLM 主干模型:
| 系列 | Hugging Face 模型 ID |
|---|---|
| GSAI-ML / LLaDA v1 | GSAI-ML/LLaDA-8B-Base |
| GSAI-ML / LLaDA v1 | GSAI-ML/LLaDA-8B-Instruct |
| GSAI-ML / LLaDA 1.5 | GSAI-ML/LLaDA-1.5 |
| InclusionAI / LLaDA 2 Mini | inclusionAI/LLaDA2.0-mini |
| InclusionAI / LLaDA 2 Mini | inclusionAI/LLaDA2.1-mini |
| Dream-org / Dream v0 | Dream-org/Dream-v0-Base-7B |
| Dream-org / Dream v0 | Dream-org/Dream-v0-Instruct-7B |
| JetLM / SDAR | JetLM/SDAR-8B-Chat-b32 |
| Gen-Verse / TraDo | Gen-Verse/TraDo-8B-Instruct |
| Gen-Verse / TraDo | Gen-Verse/TraDo-8B-Thinking |
支持的 dLLM 强化学习方法
Block-R1 支持 7 种最新的 dLLM 强化学习方法:
| 目录 | 论文标题 |
|---|---|
reproduce/d1/ |
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning |
reproduce/grpo/ |
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning |
reproduce/wd1/ |
WD1: Weighted Policy Optimization for Reasoning in Diffusion Language Models |
reproduce/gdpo/ |
Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization |
reproduce/mdpo/ |
MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models |
reproduce/stable_drl/ |
Stabilizing Reinforcement Learning for Diffusion Language Models |
reproduce/espo/ |
Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective |
动态块大小:b1
除上述七种强化学习方法外,Block-R1 还支持来自 b1 的动态大小推理块。对应的论文为:Break the Block: Dynamic-size Reasoning Blocks for Diffusion Large Language Models via Monotonic Entropy Descent with Reinforcement Learning。
评估指标
Block-R1 专注于单次评估,支持报告以下内容:
- 基础或指令主干模型性能
- 单领域强化学习性能
- 多领域强化学习性能
- Block-R1 训练性能
- b1 动态块大小性能
数据集获取与使用
数据集可通过 Hugging Face 下载,地址为:https://huggingface.co/datasets/dLLM-R1/Block-R1
训练数据集文件 train.jsonl 需放置于 dataset/multi/block_r1_A_gt_B_multi_train 目录下。
许可协议
该数据集采用 Apache 2.0 许可证。




