Zigeng/DMax-LLaDA-2.0-Mini-Code-Trajectories

Name: Zigeng/DMax-LLaDA-2.0-Mini-Code-Trajectories
Creator: Zigeng
Published: 2026-04-20 04:54:52
License: 暂无描述

Hugging Face2026-04-20 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/Zigeng/DMax-LLaDA-2.0-Mini-Code-Trajectories

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-generation tags: - code - dLLM - diffusion-language-models --- <div align="center"> <h1>🚀 DMax: Aggressive Parallel Decoding for dLLMs</h1> <div align="center"> <a href="https://github.com/czg1225/DMax/blob/main/LICENSE"> <img alt="Apache" src="https://img.shields.io/badge/License-Apache-4E94CE.svg"> </a> <a href="https://arxiv.org/pdf/2604.08302"> <img src="https://img.shields.io/badge/Paper-Arxiv-darkred.svg" alt="Paper"> </a> <a href="https://github.com/czg1225/DMax"> <img src="https://img.shields.io/badge/GitHub-Code-blue.svg?logo=github&" alt="GitHub"> </a> </div> </div> ## DMax Code Training Data This dataset is used for the On-Policy Uniform Training process in **DMax**, as presented in the paper [DMax: Aggressive Parallel Decoding for dLLMs](https://huggingface.co/papers/2604.08302). We construct all training data through self-distillation. Specifically, we take prompts from public datasets and use LLaDA-2.0-mini to generate responses as training targets. For code, prompts are drawn from a subset of OpenCodeInstruct. Responses are generated with a confidence threshold of 0.95, a block size of 32, and a maximum generation length of 2048 tokens. We discard incomplete generations that do not finish within the length budget. This yields 1.0M code samples. Notably, we do not use any external high-quality responses; all supervision is obtained from the model's own generations. ## 💻 Model and Datasets | Model | Description | Source Model | Link | | --- | --- | --- | --- | | 🤖 DMax-Math-16B | Highly parallel dLLM for math and reasoning. | LLaDA-2.0-mini | [HF](https://huggingface.co/Zigeng/DMax-Math-16B) | | 🤖 DMax-Coder-16B | Highly parallel dLLM for code generation. | LLaDA-2.0-mini | [HF](https://huggingface.co/Zigeng/DMax-Coder-16B) | | Dataset | Description | Link | | --- | --- | --- | | 📊 DMax-Math-Training-Data | math trajectories generated by LLaDA-2.0-mini | [HF](https://huggingface.co/datasets/Zigeng/DMax-LLaDA-2.0-Mini-Math-Trajectories) | | 📊 DMax-Code-Training-Data | code trajectories generated by LLaDA-2.0-mini | [HF](https://huggingface.co/datasets/Zigeng/DMax-LLaDA-2.0-Mini-Code-Trajectories) | ## Citation ```bibtex @article{chen2026dmax, title={DMax: Aggressive Parallel Decoding for dLLMs}, author={Chen, Zigeng and Fang, Gongfan and Ma, Xinyin and Yu, Ruonan and Wang, Xinchao}, journal={arXiv preprint arXiv:2604.08302}, year={2026} } ```

提供机构：

Zigeng

搜集汇总

数据集介绍

构建方式

在代码生成领域，高质量的训练数据对于提升扩散语言模型的性能至关重要。DMax-LLaDA-2.0-Mini-Code-Trajectories数据集通过自蒸馏技术构建，其过程体现了模型自我优化的前沿理念。具体而言，研究团队从公开的OpenCodeInstruct数据集中选取提示词，并利用LLaDA-2.0-mini模型生成相应的代码响应作为训练目标。生成过程设置了0.95的置信度阈值、32的块大小以及2048个令牌的最大生成长度，确保输出具备较高的确定性与结构性。任何超出长度预算的不完整生成样本均被剔除，最终形成了包含一百万条代码样本的纯净数据集。值得注意的是，整个构建过程完全依赖于模型自身的生成能力，并未引入任何外部的高质量监督信号，这为研究模型内部知识蒸馏提供了独特视角。

使用方法

该数据集主要用于支持DMax框架下的“同策略均匀训练”过程，旨在优化扩散语言模型在代码生成任务上的并行解码能力。研究人员或开发者可直接通过HuggingFace平台加载该数据集，将其应用于训练类似DMax-Coder-16B这样的专用代码生成模型。在使用时，数据集中每条样本的提示词与模型生成的代码响应构成了标准的监督学习对，可直接用于模型的前向传播与损失计算。鉴于数据完全由模型自生成，它特别适合于研究自蒸馏训练范式、模型内部知识巩固以及无需外部标注的持续预训练等场景。用户需注意遵循Apache 2.0许可协议，并可在相关研究中引用提供的原始论文以明确数据来源。

背景与挑战

背景概述

在人工智能领域，扩散语言模型（dLLMs）作为新兴架构，正推动着序列生成任务的范式革新。DMax-LLaDA-2.0-Mini-Code-Trajectories数据集由Zigeng Chen等研究人员于2026年构建，旨在支持论文《DMax: Aggressive Parallel Decoding for dLLMs》中提出的激进并行解码方法。该数据集专注于代码生成任务，其核心研究问题在于探索如何通过自蒸馏技术，利用基础模型LLaDA-2.0-mini生成的高质量轨迹数据，来训练具备高效并行解码能力的专用代码生成模型。这一工作为提升代码生成模型的训练效率与推理速度提供了关键数据支撑，对程序合成与软件工程自动化领域具有显著的推动作用。

当前挑战

在代码生成领域，模型需准确理解自然语言指令并输出语法正确、功能完备的代码片段，这要求处理长序列依赖、复杂逻辑结构及多样编程语言范式带来的挑战。DMax-LLaDA-2.0-Mini-Code-Trajectories数据集的构建过程亦面临特定困难：通过自蒸馏方式从公开数据集中提取提示，并依赖LLaDA-2.0-mini生成响应作为监督信号，此过程需严格设定置信度阈值与生成长度限制，以确保数据质量；同时，生成长度预算内未完成的生成样本被丢弃，这可能导致数据覆盖范围受限，且完全依赖模型自身生成而非外部高质量响应，可能引入模型固有偏差与错误模式的循环强化风险。

常用场景

经典使用场景

在代码生成领域，DMax-LLaDA-2.0-Mini-Code-Trajectories数据集主要用于训练高度并行的扩散语言模型（dLLMs）。该数据集通过自蒸馏技术构建，以OpenCodeInstruct子集中的提示为输入，利用LLaDA-2.0-mini生成高质量代码响应作为训练目标，从而支持模型在代码生成任务中进行高效的并行解码优化。

解决学术问题

该数据集致力于解决扩散语言模型在代码生成任务中面临的并行解码效率与生成质量平衡问题。通过提供大规模、自蒸馏的代码轨迹数据，它促进了dLLMs在保持生成连贯性和准确性的同时，实现更快速的推理过程，为代码智能领域的模型训练与评估提供了关键的数据支撑。

实际应用

在实际应用中，该数据集可用于开发智能编程助手、自动化代码补全工具以及代码审查系统。基于其训练的模型能够辅助开发者高效生成、优化和调试代码，提升软件工程的生产力与代码质量，尤其在处理复杂编程逻辑和大型代码库时展现出显著优势。

数据集最近研究