OpenR1-Math-220k

github2025-03-12 更新2025-03-13 收录

下载链接：

https://github.com/leosongwei/GRDPO

下载链接

链接失效反馈

官方服务：

资源简介：

数据集`OpenR1-Math-220k`包含了220,000道数学题，从中选取了能够通过取最后一行来用math-verify验证结果的两千多道题。训练数据包括前面的519道题，验证数据包括第1000到1100道题。

The dataset `OpenR1-Math-220k` contains 220,000 mathematical problems. Over 2,000 questions were selected from this corpus, whose results can be verified via math-verify by extracting their last line. The training set consists of the first 519 questions, while the validation set includes questions from the 1000th to the 1100th.

创建时间：

2025-03-11

原始信息汇总

GRDPO数据集概述

数据集基本信息

硬件需求：1片4090（未完全使用全部显存）
基模型：Qwen2.5-1.5B-Instruct
训练方式：LoRA微调
模型文件存储：
- HuggingFace: https://huggingface.co/leosong/Qwen2.5-1.5B-GRDPO
- Modelscope: https://www.modelscope.cn/models/leosongwei/Qwen2.5-1.5B-GRDPO/summary

数据集来源

数据集：datasets/OpenR1-Math-220k中的两千多道题目，选取能通过math-verify验证结果的两千道题目。

训练数据

训练数据：前519道题目（因意外中断导致）
验证数据：第1000到1100道题目

数据集采样

难度分为三档：容易、中等、困难
每一步给予模型5个问题，容易的2个，中等的2个，困难的1个

训练过程

每个问题生成20个例子，按奖励高低排序，好的取前10个，坏的取后10个
每一步调一次优化器，总共500个损失
梯度裁剪后调用优化器

奖励规则

正确性：0与1
是否有answer tag：1/3分
answer tag位置：1/3分
长度惩罚：默认1/3分，800开始衰减，到1000不得分

模型表现

Qwen2.5-3B-Instruct：0.6
Qwen2.5-1.5B-GRDPO：0.46
Qwen2.5-1.5B-Instruct：0.1

局限

模型可能在控制输出长度和在结尾生成answer tag的能力上有所增强，但数学能力提升有限。

搜集汇总

数据集介绍

构建方式

OpenR1-Math-220k数据集的构建基于对OpenR1-Math-220k中特定题目的筛选，选取能够通过math-verify验证结果的两千多道题目作为数据集主体。训练数据为前519道题目，验证数据为第1000至1100道题目。数据集的构建采用了问题难度分级的方式，针对不同难度的题目进行不同比例的采样，以适应模型的训练需求。

特点

该数据集的特点在于其针对数学 reasoning 任务进行了优化，题目难度的分级使得模型可以在不同层次的挑战中学习。此外，数据集结合了强化学习的方法，通过奖励机制来指导模型输出更符合要求的答案。数据集还体现了对模型输出风格的调整，使得答案更加简洁明了。

使用方法

使用OpenR1-Math-220k数据集时，用户需要准备相应的硬件环境，如配备4090显卡的计算机。训练过程中，采用LoRA微调技术对基模型Qwen2.5-1.5B-Instruct进行微调。训练数据按照难度分为容易、中等、困难三档，并按一定比例混合，每一步训练中生成多个例子，通过奖励机制排序后进行损失计算，进而更新模型。

背景与挑战

背景概述

OpenR1-Math-220k数据集是在Large Reasoning Model时代背景下，由研究人员针对数学问题解决领域构建的数据集。该数据集的创建旨在通过强化学习提升模型在数学问题解答上的性能，其核心研究问题聚焦于如何通过微调预训练语言模型，增强其解决复杂数学问题的能力。数据集的构建时间为近期，由研究人员Leo Song主导，并在GitHub上公开了相关模型和代码。该数据集的发布对于自然语言处理和数学教育领域具有一定的研究价值和影响力。

当前挑战

OpenR1-Math-220k数据集面临的挑战主要包括：1) 在领域问题上，如何更有效地提升模型对数学问题的理解和解答能力，尤其是在复杂问题上的表现；2) 在构建过程中，数据集面临着硬件资源限制，如显存不足导致无法处理全部数据，以及模型训练中存在的稳定性问题。此外，模型输出的答案风格和准确性也需进一步优化，以确保模型能够生成正确且格式规范的数学解答。

常用场景

经典使用场景

OpenR1-Math-220k数据集主要被用于数学公式推理任务中，其经典使用场景在于训练数学公式生成模型，通过强化学习技术优化模型输出数学题的解答过程及结果，进而提升模型在数学公式处理方面的准确性和效率。

解决学术问题

该数据集解决了数学公式推理中的准确性问题，以及模型生成答案的格式化和完整性问题。通过精确的奖励机制和梯度裁剪优化，模型能够生成符合学术规范的数学解答，并对难以处理的题目进行有效学习，从而推动数学公式理解与生成的学术研究。

衍生相关工作

基于OpenR1-Math-220k数据集，研究者们已开展了一系列相关工作，如开发出能够生成结构化数学解答的模型，以及通过强化学习进一步优化数学问题解答流程的研究，为数学教育和技术融合领域贡献了新的研究成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集