DAPO-Math-17k

github2025-03-18 更新2025-03-19 收录

下载链接：

https://github.com/BytedTsinghua-SIA/DAPO

下载链接

链接失效反馈

官方服务：

资源简介：

一个精心策划和处理的数学数据集，用于DAPO训练。

A carefully curated and processed mathematics dataset intended for DAPO training.

创建时间：

2025-03-17

原始信息汇总

DAPO数据集概述

数据集基本信息

名称: DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization)
开发者: ByteDance Seed和Tsinghua AIR
类型: 强化学习系统（包含算法、代码基础设施和数据集）
基础框架: 基于verl框架

数据集内容

训练数据集: DAPO-Math-17k（经过精心筛选和处理的数学数据集）
验证数据集: AIME 2024

模型权重

模型名称: DAPO-Qwen-32B
基础模型: Qwen2.5-32B
下载地址: DAPO-Qwen-32B

性能表现

AIME 2024得分: 50分（基于Qwen2.5-32B基础模型）
比较优势: 比之前的SoTA DeepSeek-R1-Zero-Qwen-32B少用50%的训练步骤

训练记录

早期版本训练记录: wandb记录（AIME得分44分）

训练脚本

数据集准备脚本: prepare_dapo_data.sh
早期版本训练脚本: run_dapo_early_qwen2.5_32b.sh（AIME 44分）
完整版本训练脚本: run_dapo_qwen2.5_32b.sh（AIME 50分）

使用说明

环境配置: 推荐使用conda创建Python 3.10环境
推理代码: 提供了基于vllm的模型推理示例代码

搜集汇总

数据集介绍

构建方式

DAPO-Math-17k数据集的构建基于大规模语言模型强化学习（RL）的需求，结合了字节跳动与清华大学AIR实验室的合作成果。该数据集通过精心筛选和处理数学问题，确保了数据的多样性和复杂性。构建过程中，采用了Decoupled Clip和Dynamic Sampling Policy Optimization（DAPO）算法，以优化模型的训练效果。数据集的生成依托于verl框架，确保了数据处理的高效性和可扩展性。

特点

DAPO-Math-17k数据集的特点在于其专注于数学问题的多样性和复杂性，涵盖了广泛的数学领域。数据集的构建旨在支持大规模语言模型的强化学习，通过动态采样策略优化，确保了模型在训练过程中的稳定性和性能提升。此外，数据集还提供了详细的训练和验证集，便于研究人员进行模型训练和性能评估。数据集的高质量和多样性使其成为数学领域强化学习研究的重要资源。

使用方法

DAPO-Math-17k数据集的使用方法包括数据准备、模型训练和性能验证。研究人员可以通过提供的脚本快速启动训练过程，脚本涵盖了数据准备、模型训练和验证的完整流程。数据集的使用依托于verl框架，确保了训练过程的可重复性和高效性。此外，数据集还提供了详细的训练日志和性能评估指标，便于研究人员进行模型优化和性能分析。通过开源的方式，研究人员可以轻松访问和使用该数据集，推动数学领域强化学习的研究进展。

背景与挑战

背景概述

DAPO-Math-17k数据集是由字节跳动Seed团队与清华大学AIR实验室联合开发的一个开源强化学习系统的重要组成部分。该数据集于2024年发布，旨在推动大规模语言模型（LLM）在数学推理任务中的应用。通过引入解耦裁剪和动态采样策略优化（DAPO）算法，该数据集在AIME 2024竞赛中取得了显著成绩，超越了此前的最先进模型。DAPO-Math-17k的发布不仅为研究社区提供了高质量的数学推理数据，还推动了强化学习在复杂任务中的可扩展性和实用性。

当前挑战

DAPO-Math-17k数据集在构建和应用过程中面临多重挑战。首先，数学推理任务本身具有高度的复杂性和多样性，要求模型具备强大的逻辑推理和泛化能力。其次，数据集的构建需要确保数据的多样性和质量，以避免模型在训练过程中出现过拟合或欠拟合现象。此外，动态采样策略的引入虽然提升了模型的探索能力，但也增加了训练过程的计算复杂性和资源消耗。最后，如何在实际应用中验证模型的泛化性能，尤其是在不同数学领域的适应性，仍然是一个亟待解决的问题。

常用场景

经典使用场景

DAPO-Math-17k数据集在强化学习领域中被广泛用于训练和验证大规模语言模型（LLM）。该数据集特别适用于数学问题的求解任务，通过提供高质量的数学问题和答案对，帮助模型在复杂的数学推理任务中表现出色。研究人员可以利用该数据集进行模型训练，以提升模型在数学竞赛如AIME中的表现。

衍生相关工作

DAPO-Math-17k数据集的发布催生了一系列相关研究工作，特别是在强化学习算法优化和数学推理模型开发方面。基于该数据集，研究人员提出了多种改进的强化学习算法，如DAPO算法，这些算法在AIME等数学竞赛中取得了显著的成绩。此外，该数据集还激发了更多关于数学问题自动求解和智能教育系统的研究，推动了相关领域的进一步发展。

数据集最近研究