Big-Math

Name: Big-Math
Creator: 斯坦福大学
Published: 2025-02-25 02:14:01
License: 暂无描述

arXiv2025-02-25 更新2025-02-26 收录

下载链接：

https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified

下载链接

链接失效反馈

官方服务：

资源简介：

Big-Math是一个由SynthLabs和斯坦福大学合作创建的大型、高质量的数学问题数据集，包含超过25万个经过验证的答案的高质量数学问题，专为强化学习而设计。数据集通过严格的筛选和清洗流程，确保了问题的唯一可验证解决方案、开放性问题形式以及闭式解答，适合各种能力和训练要求模型的下游应用。

Big-Math is a large, high-quality mathematical problem dataset co-developed by SynthLabs and Stanford University, containing over 250,000 high-quality math problems with verified answers, and is specifically designed for reinforcement learning. The dataset adopts a strict filtering and cleaning pipeline to ensure that each problem has a uniquely verifiable solution, follows an open-ended question format and features closed-form answers, making it suitable for downstream applications of models with various capabilities and training requirements.

提供机构：

斯坦福大学

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

Big-Math 数据集的构建过程涉及从公开可用的数学数据集中提取和筛选问题。研究人员首先选择了三个常用的数学问题数据集，包括 HARP、Omni-MATH 和 NuminaMath。他们应用了一系列严格的筛选和清洗流程，确保提取的问题满足三个核心标准：具有唯一可验证的解决方案、开放式问题格式以及具有封闭形式的解决方案。为了提高数据质量，研究人员在筛选过程中进行了人工验证，并迭代改进了筛选器。此外，他们还引入了 Big-Math-Reformulated 子集，这是一个由 47,000 个问题组成的新子集，通过系统性的改革算法将封闭式问题（即选择题）重新制定为开放式问题。

特点

Big-Math 数据集的特点在于其规模庞大，包含超过 250,000 个高质量的数学问题，以及可验证的答案。与现有的数学推理开源数据集 GSM8k 和 MATH 相比，Big-Math 的规模更大，提供了更多的问题，同时保持了问题的质量。数据集涵盖了广泛的数学领域和难度级别，为各种能力和训练要求的模型提供了广泛的应用。

使用方法

Big-Math 数据集适用于强化学习（RL）训练。研究人员可以将其用于训练语言模型的推理能力，通过探索和细化推理策略来提高模型的泛化能力。数据集的难度和多样性使其适用于不同规模和训练要求的模型。研究人员可以根据模型的性能选择不同难度级别的问题进行训练。此外，数据集还支持子集选择，以便于在 RL 训练中进行难度控制。

背景与挑战

背景概述

随着对推理模型兴趣的增加，数学已经成为算法和方法论改进的重要测试场。然而，现有的公开数学数据集要么包含少量高质量的人工编写的题目，要么包含大量不确定质量的机器生成的题目，这迫使研究人员在质量与数量之间做出选择。在这项工作中，我们介绍了Big-Math，这是一个包含超过250,000个高质量数学问题的数据集，这些问题都有可验证的答案，专门为强化学习（RL）而设计。为了创建Big-Math，我们严格筛选、清洗和整理公开可用的数据集，提取满足我们三个 desiderata 的问题：（1）具有唯一可验证解决方案的问题，（2）开放式问题，（3）具有封闭形式解决方案的问题。为了确保Big-Math的质量，我们手动验证我们筛选过程中的每个步骤，并在多个回合中迭代改进我们的筛选器。基于我们的筛选过程的发现，我们引入了47,000个带有验证答案的新问题，Big-Math-Reformulated：通过系统改革算法将封闭式问题（即多项选择题）改革为开放式问题。与GSM8k和MATH等最常用的现有开源数学推理数据集相比，Big-Math在数量上要大一个数量级（250,000个问题与GSM8k中的8,000个问题和MATH中的12,000个问题），而我们严格的筛选确保我们保留了最适合RL的问题。我们还提供了对数据集的严格分析，发现Big-Math在问题领域上具有高度的多样性，并包含了广泛的问题难度，这使得各种能力和训练要求的模型都能够得到广泛的应用。总之，这项工作介绍了我们的新数据集Big-Math，这是迄今为止最大的适用于RL训练的公开数学问题数据集。通过弥合数据质量和数量之间的差距，Big-Math为LLMs中的推理进步奠定了坚实的基础。Big-Math和Big-Math-Reformulated可在https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified上获取。

当前挑战

Big-Math数据集的创建旨在解决强化学习模型在数学推理任务中的数据质量和数量之间的权衡问题。然而，创建这样一个数据集也带来了一系列挑战。首先，现有的数学数据集要么在数量上有限，要么在质量上不确定，这迫使研究人员在数据集中做出选择。其次，构建过程中需要严格筛选和清洗数据，以确保数据集符合强化学习的需求。具体挑战包括：1）确保问题具有唯一可验证的解决方案；2）确保问题是开放式的，需要非平凡的推理步骤；3）确保答案可以表达为封闭形式。为了解决这些挑战，我们采用了一系列严格的筛选和清洗流程，包括人工参与和迭代改进筛选器，以确保数据集的质量和适用性。此外，我们还引入了Big-Math-Reformulated，通过将多项选择题改革为开放式问题，以重新引入有价值的数据。通过这些努力，我们成功地创建了一个高质量、大规模的数学问题数据集，为强化学习模型在数学推理任务中的应用提供了有力支持。

常用场景

经典使用场景

Big-Math 数据集作为一个大规模、高质量的数学问题数据集，旨在为强化学习（RL）在语言模型中的应用提供支持。其经典使用场景包括训练和评估强化学习算法在解决数学问题方面的能力，特别是对于开放性问题，这些问题需要非平凡的推理步骤才能解决。Big-Math 数据集的规模和多样性使其成为研究和开发能够理解和解决复杂数学问题的语言模型的重要资源。

实际应用

Big-Math 数据集的实际应用场景包括教育、人工智能研究和软件开发。在教育领域，它可以用于开发智能辅导系统，帮助学生提高解决数学问题的能力。在人工智能研究方面，它为开发能够进行复杂推理的语言模型提供了基础。在软件开发中，它可以用于构建能够理解和解决数学问题的应用程序，例如计算器、教育软件和游戏。

衍生相关工作

Big-Math 数据集的发布推动了数学推理在大型语言模型（LLMs）中的研究。它为开发新的强化学习算法、训练数据和评估方法提供了基础。此外，Big-Math-Reformulated 子集为将选择题重新表述为开放性问题提供了新的思路和方法，这可能对其他领域的数据集构建和问题表述有借鉴意义。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集