five

DAPO-Math-17K|数学问题解答数据集|教育技术数据集

收藏
arXiv2025-03-19 更新2025-03-20 收录
数学问题解答
教育技术
下载链接:
https://dapo-sia.github.io/
下载链接
链接失效反馈
资源简介:
DAPO-Math-17K数据集是由清华大学知识工程实验室和香港大学共同创建的开源数据集,包含17,000个数学问题,每个问题都配有一个整数形式的答案。该数据集是通过从AoPS网站和官方竞赛主页进行网页抓取和人工注释的方式获得的。数据集的答案是多样化的,例如表达式、公式和数字,为了准确使用规则提供奖励信号并最小化公式解析器引入的错误,数据集的答案被选择并转换为整数形式。
提供机构:
清华大学知识工程实验室(AIR)和香港大学
创建时间:
2025-03-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
DAPO-Math-17K数据集的构建基于AoPS网站和官方竞赛主页的数学问题,通过网页抓取和手动标注相结合的方式获取原始数据。由于数学问题的答案格式多样,如表达式、公式和数字等,设计全面的解析规则具有挑战性。为了提供准确的奖励信号并减少公式解析器引入的错误,研究团队选择将答案转换为易于解析的整数形式。例如,若原始答案为a+√b/c,则通过指导大语言模型修改问题,使预期答案变为a+b+c。经过筛选和转换,最终构建了包含17K个提示及其对应整数答案的DAPO-Math-17K数据集。
特点
DAPO-Math-17K数据集的特点在于其专注于数学推理任务,尤其是复杂数学问题的求解。数据集中的每个问题都经过精心处理,确保答案格式的统一性,便于后续的强化学习训练。此外,数据集的构建过程中引入了链式思维(CoT)推理框架,鼓励模型进行全面的推理,避免幻觉生成。通过提供明确的思维框架和详细的推理步骤,数据集能够有效支持大语言模型在数学推理任务中的表现提升。
使用方法
DAPO-Math-17K数据集主要用于大语言模型的强化学习训练,尤其是在长链式思维(long-CoT)推理场景中。通过结合DAPO算法,数据集能够为模型提供准确的奖励信号,帮助模型在数学推理任务中逐步优化其推理能力。具体使用方法包括:首先,将数据集中的问题输入模型,生成多个推理路径;其次,根据规则计算每个推理路径的奖励,并通过DAPO算法进行策略优化;最后,通过动态采样和剪裁策略等技术,确保训练过程的稳定性和效率。数据集的使用不仅提升了模型的推理能力,还为大规模强化学习系统的开发提供了可复现的实验基础。
背景与挑战
背景概述
DAPO-Math-17K数据集由字节跳动Seed团队、清华大学AIR研究院、香港大学以及SIA-Lab联合开发,发布于2025年3月17日。该数据集旨在支持大规模语言模型(LLM)在数学推理任务中的强化学习(RL)训练,特别是在长链思维(Chain-of-Thought, CoT)场景中的应用。数据集的核心研究问题是如何通过强化学习技术提升LLM在复杂数学问题中的推理能力,尤其是在AIME等数学竞赛任务中的表现。DAPO-Math-17K的发布填补了现有研究中关于大规模RL训练细节的空白,推动了LLM在数学推理领域的可复现性和技术进步。
当前挑战
DAPO-Math-17K数据集在构建和应用过程中面临多重挑战。首先,数学问题的答案形式多样,包括表达式、公式和数字等,如何设计统一的规则解析这些答案并生成准确的奖励信号是一个关键问题。其次,在强化学习训练中,模型容易陷入熵崩溃(entropy collapse)和训练不稳定的困境,导致推理能力的提升受限。此外,长链思维场景下的奖励噪声和生成样本的多样性控制也是亟待解决的难题。最后,如何在不牺牲训练效率的前提下,动态调整采样策略以保持梯度信号的稳定性,是构建大规模RL系统的核心挑战之一。
常用场景
经典使用场景
DAPO-Math-17K数据集在数学推理任务中展现了其独特的价值,尤其是在复杂数学问题的求解过程中。该数据集通过提供大量经过精心筛选和转换的数学问题及其答案,为大规模语言模型的强化学习训练提供了坚实的基础。其经典使用场景包括数学竞赛题目的自动求解、数学推理能力的评估以及数学教育领域的智能辅导系统。通过该数据集,研究者能够训练出具备高级数学推理能力的模型,从而在数学竞赛中取得优异成绩。
解决学术问题
DAPO-Math-17K数据集解决了大规模语言模型在数学推理任务中面临的多个关键学术问题。首先,它通过提供标准化的数学问题及其答案,解决了模型在复杂数学推理任务中的训练数据不足问题。其次,该数据集通过将答案转换为整数形式,简化了奖励信号的设计,避免了公式解析带来的误差,从而提高了强化学习的稳定性和效率。此外,该数据集还为研究者提供了可复现的实验环境,推动了大规模语言模型强化学习领域的开放性和透明性。
衍生相关工作
DAPO-Math-17K数据集的发布催生了一系列相关研究工作。首先,基于该数据集,研究者提出了Decoupled Clip和Dynamic Sampling Policy Optimization (DAPO)算法,显著提升了大规模语言模型在数学推理任务中的表现。其次,该数据集还推动了数学推理领域的开源工具和框架的发展,如verl框架的广泛应用。此外,该数据集还激发了更多关于数学推理能力的研究,如数学定理的自动证明、数学问题的自动求解等。这些工作不仅丰富了数学推理领域的研究内容,也为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录