five

orz_math_57k_collection|数学推理数据集|强化学习数据集

收藏
huggingface2025-04-06 更新2025-04-07 收录
数学推理
强化学习
下载链接:
https://huggingface.co/datasets/Open-Reasoner-Zero/orz_math_57k_collection
下载链接
链接失效反馈
资源简介:
Open-Reasoner-Zero是一个大规模推理导向的强化学习训练项目,包含原始57k数据和扩展72k数据,以及从这些数据中挖掘的13k难题数据。数据集涵盖了AIME、MATH、Numina-Math collection和Tulu3 MATH等多个来源,用于训练和评估Open-Reasoner-Zero模型。
创建时间:
2025-03-25
原始信息汇总

数据集概述:Open-Reasoner-Zero orz_math_57k_collection

基本信息

  • 许可证: MIT
  • 任务类别: 问答(question-answering)
  • 标签: 强化学习(reinforcement-learning)

数据集内容

  • 数据量: 57k条数学相关数据
  • 数据来源: 包括AIME(至2023年)、MATH、Numina-Math collection和Tulu3 MATH等多个来源
  • 数据文件: original 57k data

相关资源

用途

  • 用于训练Open-Reasoner-Zero模型,提升数学推理能力
  • 可作为强化学习研究的基准数据集

相关模型

AI搜集汇总
数据集介绍
main_image_url
构建方式
在数学推理与强化学习交叉领域的研究中,orz_math_57k_collection数据集通过整合多源高质量数学问题构建而成。其核心数据来源于AIME(截至2023年)、MATH基准测试、Numina-Math系列以及Tulu3 MATH题库,采用严格的清洗流程确保题目完整性。该数据集构建过程中特别注重问题难度梯度分布,通过专家标注和自动化评估相结合的方式,最终形成包含57,000条数学推理问题的标准化集合,为后续扩展至129k规模的数据生态奠定基础。
特点
该数据集以数学推理任务为核心特色,覆盖代数、几何、数论等多元数学分支,题目设计兼具经典性与前沿性。其显著特征在于标注体系包含多步骤解题过程与强化学习所需的奖励信号,支持端到端的推理链建模。数据分布上呈现难度递进特性,既包含基础训练题也囊括AIME等竞赛级难题,13k硬核子集的独立标注进一步提升了模型在复杂场景下的泛化能力,为不同规模基座模型提供适配的训练素材。
使用方法
使用者可通过HuggingFace平台直接加载数据集,或从项目GitHub仓库获取原始JSON文件。该数据集适配主流强化学习框架如OpenRLHF,支持分布式训练环境配置。典型应用场景包括:基于PPO算法的策略模型微调、批评家模型训练以及多节点协同推理。项目提供的Dockerfile可快速复现训练环境,开发者可根据不同模型规模(如0.5B至32B参数)选择对应脚本启动训练流程,调试模式下还支持小规模参数模型的快速验证。
背景与挑战
背景概述
Open-Reasoner-Zero项目于2025年由StepFun与清华大学联合推出,标志着开源社区在基于强化学习的大规模推理模型训练领域取得重要突破。该数据集作为项目核心组成部分,聚焦数学推理任务,整合了AIME、MATH等权威竞赛题库以及Numina-Math、Tulu3等开放数据集,形成包含57k高质量样本的初始集合。研究团队通过创新性地应用单控制器训练架构,实现了从5亿到320亿参数模型的稳定扩展,在AIME2024等数学推理基准上显著超越同类模型性能,为通用人工智能的发展提供了可复现的算法框架与数据基础。
当前挑战
数学推理领域长期面临复杂多步推理的泛化能力不足问题,该数据集通过构建覆盖代数、几何、数论等子领域的多样化题目集合,旨在解决模型在跨领域迁移与抽象推理中的性能瓶颈。数据构建过程中需攻克三大技术难点:原始数据清洗时需处理竞赛题特有的非标准化表述,扩展数据整合时需平衡不同来源的难度分布,硬样本挖掘阶段需设计动态阈值算法从百万级响应中筛选13k高价值样本。模型训练层面,32B参数规模的分布式强化学习面临响应长度波动与奖励稀疏性的双重挑战,研究团队通过响应长度归一化与阶段式课程学习策略维持了训练稳定性。
常用场景
经典使用场景
在数学推理和问答领域,orz_math_57k_collection数据集为大规模强化学习训练提供了丰富的数学问题资源。该数据集整合了来自AIME、MATH、Numina-Math和Tulu3 MATH等多个来源的高质量数学问题,广泛应用于训练和评估强化学习模型在复杂数学推理任务中的表现。通过这一数据集,研究者能够深入探索模型在数学问题求解中的推理能力和泛化性能。
实际应用
在实际应用中,该数据集为开发智能数学辅导系统和自动化解题工具提供了重要支持。基于该数据集训练的模型能够辅助学生理解复杂数学概念,提供分步解题指导。同时,这些模型也可应用于在线教育平台,实现个性化学习路径推荐和即时问题解答,提升数学学习效率。
衍生相关工作
围绕该数据集已衍生出多项重要研究工作,包括Open-Reasoner-Zero系列模型的开发。这些工作探索了不同规模模型在数学推理任务中的表现,提出了创新的训练方法和评估标准。相关研究还推动了强化学习在复杂认知任务中的应用,为后续AGI研究奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录