orz_math_13k_collection_hard

Hugging Face2025-04-06 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/Open-Reasoner-Zero/orz_math_13k_collection_hard

下载链接

链接失效反馈

官方服务：

资源简介：

Open-Reasoner-Zero是一个大规模推理导向的强化学习训练的开源实现，旨在通过可扩展性、简洁性和可访问性来推动人工智能通用智能（AGI）的研究。

Open-Reasoner-Zero is an open-source implementation of large-scale, reasoning-oriented reinforcement learning training, designed to advance research in artificial general intelligence (AGI) via scalability, simplicity, and accessibility.

创建时间：

2025-03-25

原始信息汇总

数据集概述

基本信息

数据集名称: orz_math_13k_collection_hard
许可证: MIT
任务类别: 问答

数据集内容

数据来源: 从129k数据中挖掘出的13k困难数据
用途: 用于ORZ-32B训练的"annealing"阶段，提升AIME2024性能从~41%到~48%
关联数据集:
- 原始57k数据
- 扩展72k数据

相关资源

论文: Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
代码库: Open-Reasoner-Zero GitHub
模型:
- Open-Reasoner-Zero-7B
- Open-Reasoner-Zero-32B

搜集汇总

数据集介绍

构建方式

在数学推理领域的高质量数据稀缺背景下，orz_math_13k_collection_hard数据集通过严格筛选流程构建而成。该数据集从Open-Reasoner-Zero项目前期训练的12.9万条数学题解数据中，基于模型训练过程中的表现指标，精选出最具挑战性的1.3万道难题。数据来源融合了AIME、MATH等权威数学竞赛题库，以及Numina-Math和Tulu3等专业数学数据集，通过多阶段质量验证确保每道题目的推理难度和学术价值。

特点

作为数学推理领域的专项数据集，其核心价值体现在题目难度分布的独特性。数据经过32B大模型训练过程中的表现筛选，集中了传统题库中最具挑战性的问题类型。题目涵盖代数、几何、数论等多元数学分支，每道题目均包含完整的推理步骤和精确解答，为模型提供清晰的思维链监督信号。特别值得注意的是，该数据集在ORZ-32B模型的训练中展现出显著效果，将AIME2024基准测试性能提升了7个百分点。

使用方法

该数据集专为强化学习框架下的数学推理训练优化设计。研究人员可通过项目提供的标准化流程加载数据，配合Open-Reasoner-Zero训练脚本实现端到端训练。数据采用JSON格式存储，可直接集成到PPO等强化学习算法中。对于不同规模模型，项目文档详细说明了从单GPU到多节点集群的配置方案，包括针对0.5B到32B模型的差异化训练策略。数据集特别适用于模型微调阶段的难题攻坚训练，建议采用课程学习策略逐步引入高难度样本。

背景与挑战

背景概述

Open-Reasoner-Zero项目由StepFun与清华大学联合支持，于2025年正式发布，旨在推动大规模推理导向的强化学习研究。该项目核心团队包括Jingcheng Hu、Yinmin Zhang等研究者，基于Qwen2.5系列基础模型构建，专注于数学推理领域的高难度问题求解。数据集包含从AIME、MATH等权威竞赛中精选的13k高难度数学题，通过强化学习框架显著提升了32B模型在AIME2024等基准测试中的表现，为通用人工智能的发展提供了重要数据支撑。

当前挑战

该数据集主要解决数学推理领域的高复杂度问题，其核心挑战在于如何有效处理多步骤逻辑推导与抽象概念建模。构建过程中面临数据质量控制的难题，需从22万条原始数据中筛选出1.3万条最具挑战性的题目；同时需解决强化学习训练中的奖励稀疏问题，通过设计分层奖励机制确保模型能捕捉到解题过程中的关键推理步骤。多节点分布式训练带来的计算资源协调与梯度同步问题，也是实现模型性能突破的重要技术瓶颈。

常用场景

经典使用场景

在数学推理与问答领域，orz_math_13k_collection_hard数据集作为Open-Reasoner-Zero项目的核心组成部分，主要用于训练和评估大规模语言模型在复杂数学问题上的推理能力。该数据集精选了13,000道高难度数学题目，涵盖了从基础算术到高级数学竞赛题的广泛范围，为模型提供了丰富的训练素材。通过这一数据集，研究者能够深入探索模型在数学逻辑推理、问题分解和步骤推导等方面的表现，从而推动数学智能助手的发展。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，包括Open-Reasoner-Zero项目中的多尺度模型训练、强化学习算法的优化以及数学推理能力的评估框架。这些工作不仅在学术界引起了广泛关注，还为后续研究提供了重要的技术基础和参考。例如，基于该数据集的ORZ-32B模型在AIME2024等数学竞赛中表现优异，成为数学推理领域的标杆之一。

数据集最近研究