Zigeng/DMax-LLaDA-2.0-Mini-Math-Trajectories

Name: Zigeng/DMax-LLaDA-2.0-Mini-Math-Trajectories
Creator: Zigeng
Published: 2026-04-20 04:55:20
License: 暂无描述

Hugging Face2026-04-20 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/Zigeng/DMax-LLaDA-2.0-Mini-Math-Trajectories

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-generation language: - en tags: - math - reasoning - dllm - trajectories --- <div align="center"> <h1>🚀 DMax: Aggressive Parallel Decoding for dLLMs</h1> <div align="center"> <a href="https://github.com/czg1225/DMax/blob/main/LICENSE"> <img alt="Apache" src="https://img.shields.io/badge/License-Apache-4E94CE.svg"> </a> <a href="https://arxiv.org/pdf/2604.08302"> <img src="https://img.shields.io/badge/Paper-Arxiv-darkred.svg" alt="Paper"> </a> <a href="https://github.com/czg1225/DMax"> <img src="https://img.shields.io/badge/GitHub-Code-blue.svg?logo=github&" alt="GitHub"> </a> </div> </div> ## DMax Math Training Data This dataset is used for the On-Policy Uniform Training process in DMax, as presented in the paper [DMax: Aggressive Parallel Decoding for dLLMs](https://huggingface.co/papers/2604.08302). We construct all training data through self-distillation. Specifically, we take prompts from public datasets and use LLaDA-2.0-mini to generate responses as training targets. For math, prompts are collected from GSM8K trainset, PRM12K, a subset of Numina-Math and a subset of OpenThoughts. Responses are generated with a confidence threshold of 0.95, a block size of 32, and a maximum generation length of 2048 tokens. We discard incomplete generations that do not finish within the length budget. This yields 0.7M math samples. Notably, we do not use any external high-quality responses; all supervision is obtained from the model's own generations. ## 💻 Model and Datasets | Model | Description | Source Model | Link | | --- | --- | --- | --- | | 🤖 DMax-Math-16B | Highly parallel dLLM for math and reasoning. | LLaDA-2.0-mini | [HF](https://huggingface.co/Zigeng/DMax-Math-16B) | | 🤖 DMax-Coder-16B | Highly parallel dLLM for code generation. | LLaDA-2.0-mini | [HF](https://huggingface.co/Zigeng/DMax-Coder-16B) | | Dataset | Description | Link | | --- | --- | --- | | 📊 DMax-Math-Training-Data | math trajectories generated by LLaDA-2.0-mini | [HF](https://huggingface.co/datasets/Zigeng/DMax-LLaDA-2.0-Mini-Math-Trajectories) | | 📊 DMax-Code-Training-Data | code trajectories generated by LLaDA-2.0-mini | [HF](https://huggingface.co/datasets/Zigeng/DMax-LLaDA-2.0-Mini-Code-Trajectories) | ## Citation ```bibtex @article{chen2026dmax, title={DMax: Aggressive Parallel Decoding for dLLMs}, author={Chen, Zigeng and Fang, Gongfan and Ma, Xinyin and Yu, Ruonan and Wang, Xinchao}, journal={arXiv preprint arXiv:2604.08302}, year={2026} } ```

提供机构：

Zigeng

搜集汇总

数据集介绍

构建方式

在数学推理领域，高质量训练数据的构建是提升模型性能的关键环节。DMax-LLaDA-2.0-Mini-Math-Trajectories数据集通过自蒸馏技术构建而成，其过程体现了数据生成的严谨性。研究者从公开数据集如GSM8K训练集、PRM12K、Numina-Math子集和OpenThoughts子集中采集提示词，随后利用LLaDA-2.0-mini模型生成相应回答作为训练目标。生成过程中设置了0.95的置信度阈值、32的块大小以及2048个令牌的最大生成长度，并剔除了超出长度预算的不完整生成内容，最终获得了约70万条数学样本。整个流程不依赖任何外部高质量答案，所有监督信号均源于模型自身的生成结果。

特点

该数据集的核心特征在于其纯粹的自蒸馏来源与严格的筛选机制。所有训练样本均由基础模型LLaDA-2.0-mini自主生成，确保了数据分布与模型能力的内在一致性。通过设定较高的置信度阈值，有效过滤了低质量或不确定的推理路径，从而提升了训练目标的可靠性。数据集专注于数学推理任务，覆盖了多种数学问题来源，形成了规模可观且质量统一的轨迹集合。这种设计使得数据集特别适用于训练具有高度并行解码能力的扩散语言模型，为数学领域的推理研究提供了专门化的数据支撑。

使用方法

该数据集主要用于支持DMax框架下的策略均匀训练过程。研究人员可直接加载数据集，将其作为训练扩散语言模型的监督数据。在使用时，提示词与模型生成的回答轨迹构成了标准的输入-目标对，可用于优化模型在数学问题求解上的生成能力。鉴于数据已通过置信度筛选和长度过滤，使用者无需进行额外的清洗或标注工作。该数据集与DMax-Math-16B等模型配合，能够有效探索自蒸馏训练在提升模型并行解码与数学推理性能方面的潜力，为相关实验提供了即用型的高质量资源。

背景与挑战

背景概述

在大型语言模型（LLM）向解码器专用大型语言模型（dLLM）演进的背景下，DMax-LLaDA-2.0-Mini-Math-Trajectories数据集应运而生，旨在支持数学推理领域的模型训练。该数据集由研究团队于2026年提出，核心研究聚焦于通过自蒸馏技术构建高质量的训练轨迹，以优化模型在复杂数学问题上的推理能力。其构建过程整合了GSM8K、PRM12K等多个公开数学数据集，利用LLaDA-2.0-mini模型生成响应，摒弃了外部人工标注，体现了自监督学习在专业领域的前沿探索。这一工作为提升dLLM的并行解码效率与数学问题解决能力提供了关键数据支撑，推动了推理专用模型的发展。

当前挑战

该数据集致力于应对数学推理任务中模型生成轨迹的精确性与可靠性挑战。数学问题求解要求严格的逻辑连贯与步骤正确，传统方法依赖人工标注，成本高昂且难以扩展。自蒸馏虽能自动化生成数据，但需确保生成响应的置信度与完整性，避免错误或未完成的推理链污染训练集。在构建过程中，研究面临如何设定合理的置信阈值与生成长度以平衡数据质量与数量的难题，同时需从异构数据源中筛选有效提示，并处理模型自身生成偏差带来的潜在风险。这些挑战共同指向了高质量、可扩展的自动化训练数据合成这一核心问题。

常用场景

经典使用场景

在数学推理领域，DMax-LLaDA-2.0-Mini-Math-Trajectories数据集为训练高度并行的解码器大型语言模型提供了关键支持。该数据集通过自蒸馏技术构建，利用LLaDA-2.0-mini模型对来自GSM8K、PRM12K等公开数学问题提示生成高质量响应轨迹，专门用于DMax框架中的On-Policy Uniform Training过程。这种设计使得模型能够在数学问题求解任务中学习到连贯的推理路径，为提升模型在复杂数学场景下的并行解码能力奠定了数据基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在并行解码架构与自我蒸馏训练范式的拓展上。DMax框架本身作为核心成果，展示了如何利用此类轨迹数据训练出高效并行的解码器大型语言模型。后续研究可能在此基础上探索多模态数学推理、跨领域知识迁移，或是将自蒸馏策略应用于其他专业领域如代码生成与科学计算，进一步推动高效推理模型的发展与优化。

数据集最近研究