five

DAPO-Math-17k|数学学习数据集|算法训练数据集

收藏
github2025-03-18 更新2025-03-19 收录
数学学习
算法训练
下载链接:
https://github.com/BytedTsinghua-SIA/DAPO
下载链接
链接失效反馈
资源简介:
一个精心策划和处理的数学数据集,用于DAPO训练。
创建时间:
2025-03-17
原始信息汇总

DAPO数据集概述

数据集基本信息

  • 名称: DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization)
  • 开发者: ByteDance Seed和Tsinghua AIR
  • 类型: 强化学习系统(包含算法、代码基础设施和数据集)
  • 基础框架: 基于verl框架

数据集内容

  • 训练数据集: DAPO-Math-17k(经过精心筛选和处理的数学数据集)
  • 验证数据集: AIME 2024

模型权重

  • 模型名称: DAPO-Qwen-32B
  • 基础模型: Qwen2.5-32B
  • 下载地址: DAPO-Qwen-32B

性能表现

  • AIME 2024得分: 50分(基于Qwen2.5-32B基础模型)
  • 比较优势: 比之前的SoTA DeepSeek-R1-Zero-Qwen-32B少用50%的训练步骤

训练记录

  • 早期版本训练记录: wandb记录(AIME得分44分)

训练脚本

  1. 数据集准备脚本: prepare_dapo_data.sh
  2. 早期版本训练脚本: run_dapo_early_qwen2.5_32b.sh(AIME 44分)
  3. 完整版本训练脚本: run_dapo_qwen2.5_32b.sh(AIME 50分)

使用说明

  • 环境配置: 推荐使用conda创建Python 3.10环境
  • 推理代码: 提供了基于vllm的模型推理示例代码
AI搜集汇总
数据集介绍
main_image_url
构建方式
DAPO-Math-17k数据集的构建基于大规模语言模型强化学习(RL)的需求,结合了字节跳动与清华大学AIR实验室的合作成果。该数据集通过精心筛选和处理数学问题,确保了数据的多样性和复杂性。构建过程中,采用了Decoupled Clip和Dynamic Sampling Policy Optimization(DAPO)算法,以优化模型的训练效果。数据集的生成依托于verl框架,确保了数据处理的高效性和可扩展性。
特点
DAPO-Math-17k数据集的特点在于其专注于数学问题的多样性和复杂性,涵盖了广泛的数学领域。数据集的构建旨在支持大规模语言模型的强化学习,通过动态采样策略优化,确保了模型在训练过程中的稳定性和性能提升。此外,数据集还提供了详细的训练和验证集,便于研究人员进行模型训练和性能评估。数据集的高质量和多样性使其成为数学领域强化学习研究的重要资源。
使用方法
DAPO-Math-17k数据集的使用方法包括数据准备、模型训练和性能验证。研究人员可以通过提供的脚本快速启动训练过程,脚本涵盖了数据准备、模型训练和验证的完整流程。数据集的使用依托于verl框架,确保了训练过程的可重复性和高效性。此外,数据集还提供了详细的训练日志和性能评估指标,便于研究人员进行模型优化和性能分析。通过开源的方式,研究人员可以轻松访问和使用该数据集,推动数学领域强化学习的研究进展。
背景与挑战
背景概述
DAPO-Math-17k数据集是由字节跳动Seed团队与清华大学AIR实验室联合开发的一个开源强化学习系统的重要组成部分。该数据集于2024年发布,旨在推动大规模语言模型(LLM)在数学推理任务中的应用。通过引入解耦裁剪和动态采样策略优化(DAPO)算法,该数据集在AIME 2024竞赛中取得了显著成绩,超越了此前的最先进模型。DAPO-Math-17k的发布不仅为研究社区提供了高质量的数学推理数据,还推动了强化学习在复杂任务中的可扩展性和实用性。
当前挑战
DAPO-Math-17k数据集在构建和应用过程中面临多重挑战。首先,数学推理任务本身具有高度的复杂性和多样性,要求模型具备强大的逻辑推理和泛化能力。其次,数据集的构建需要确保数据的多样性和质量,以避免模型在训练过程中出现过拟合或欠拟合现象。此外,动态采样策略的引入虽然提升了模型的探索能力,但也增加了训练过程的计算复杂性和资源消耗。最后,如何在实际应用中验证模型的泛化性能,尤其是在不同数学领域的适应性,仍然是一个亟待解决的问题。
常用场景
经典使用场景
DAPO-Math-17k数据集在强化学习领域中被广泛用于训练和验证大规模语言模型(LLM)。该数据集特别适用于数学问题的求解任务,通过提供高质量的数学问题和答案对,帮助模型在复杂的数学推理任务中表现出色。研究人员可以利用该数据集进行模型训练,以提升模型在数学竞赛如AIME中的表现。
衍生相关工作
DAPO-Math-17k数据集的发布催生了一系列相关研究工作,特别是在强化学习算法优化和数学推理模型开发方面。基于该数据集,研究人员提出了多种改进的强化学习算法,如DAPO算法,这些算法在AIME等数学竞赛中取得了显著的成绩。此外,该数据集还激发了更多关于数学问题自动求解和智能教育系统的研究,推动了相关领域的进一步发展。
数据集最近研究
最新研究方向
在强化学习领域,DAPO-Math-17k数据集的发布标志着大规模语言模型(LLM)在数学推理任务中的应用迈出了重要一步。该数据集由字节跳动与清华大学AIR实验室联合开发,旨在通过解耦剪辑和动态采样策略优化(DAPO)算法,提升模型在复杂数学问题上的表现。DAPO算法在AIME 2024竞赛中取得了显著成绩,基于Qwen2.5-32B模型的表现超越了之前的SoTA模型,展示了其在训练稳定性和性能提升方面的优势。这一成果不仅推动了强化学习在数学推理任务中的应用,也为研究社区提供了可复现的训练框架和数据集,进一步促进了该领域的技术进步与创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

MECCANO

MECCANO数据集是首个专注于工业类似环境中第一人称视角下人类-物体交互的研究数据集。该数据集由20名参与者在模拟工业场景中构建摩托车玩具模型的视频组成,包含299,376帧视频数据。数据集不仅标注了时间上的动作片段,还标注了空间上的活跃物体边界框,涵盖了12种动词、20种名词和61种独特动作的分类。MECCANO数据集旨在推动工业环境中第一人称视角下人类动作识别、活跃物体检测、活跃物体识别及第一人称视角下人类-物体交互检测等任务的研究。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中性笔商品在不同地区天猫平台的销售渗透率分析数据

销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。

浙江省数据知识产权登记平台 收录