MATH-FULL
收藏arXiv2025-02-17 更新2025-02-19 收录
下载链接:
https://github.com/GAIR-NLP/LIMR
下载链接
链接失效反馈官方服务:
资源简介:
MATH-FULL 数据集是由上海交通大学系统集成研究所和GAIR创建的,包含8,523个数学问题,难度分为3-5级。该数据集用于研究强化学习训练数据对提升语言模型推理能力的影响。数据集通过精心挑选的高价值样本子集LIMR,在多个数学基准测试中展示了与全数据集相当或更优的性能。
The MATH-FULL dataset was developed by the Institute of Systems Integration, Shanghai Jiao Tong University and GAIR. It comprises 8,523 mathematical problems with difficulty levels ranging from 3 to 5. This dataset is designed to investigate the impact of reinforcement learning training data on improving the reasoning abilities of language models. The dataset leverages a carefully curated high-value sample subset named LIMR, which has demonstrated performance comparable to or even superior to the full dataset across multiple mathematical benchmark tests.
提供机构:
上海交通大学, 系统集成研究所, GAIR
创建时间:
2025-02-17
搜集汇总
数据集介绍

构建方式
MATH-FULL数据集的构建方式是从基础模型出发,未经蒸馏,直接进行强化学习。该数据集包含8523个不同难度级别(3-5)的数学问题。研究者通过对这些问题的学习轨迹进行分析,发现不同的问题对模型学习的贡献是不均等的,从而基于学习影响测量(LIM)方法,选择出了1389个高质量的问题构建了LIMR数据集。
特点
MATH-FULL数据集的特点在于其问题数量众多,难度级别分布广泛,能够全面覆盖数学推理的各个方面。LIMR数据集则是从MATH-FULL中精选出的1389个问题,这些问题对模型学习的贡献较大,能够有效提升模型的数学推理能力。
使用方法
使用MATH-FULL数据集时,研究者可以直接将其用于强化学习,通过学习影响测量(LIM)方法来评估和优先选择训练样本。使用LIMR数据集时,研究者可以利用其中精选的问题来进行模型的训练和评估,以达到更高效的数据利用和可扩展的实施。
背景与挑战
背景概述
MATH-FULL数据集是由Hendrycks等人于2021年创建的,包含8,523个不同难度级别(3-5)的数学问题。该数据集的主要研究人员包括Xuefeng Li、Haoyang Zou和Pengfei Liu等,他们隶属于上海交通大学、SII和GAIR等机构。研究团队的核心研究问题是探讨强化学习训练数据的有效性,特别是如何通过精心选择样本提高语言模型的推理能力。该数据集在相关领域具有显著影响力,为研究大型语言模型中的推理能力提升提供了重要基准。
当前挑战
MATH-FULL数据集相关的挑战主要包括:1) 如何在数据规模较大时,有效选择对模型学习贡献最大的样本;2) 构建过程中遇到的挑战,如样本选择策略、奖励设计等。具体来说,研究团队发现,精心选择的1,389个样本可以匹配或超过使用全部8,523个样本的性能,这表明样本质量可能比数据规模更重要。此外,与监督微调相比,强化学习在数据量有限的小模型场景中更为有效,这对未来的研究提出了新的方向和挑战。
常用场景
经典使用场景
MATH-FULL数据集的经典使用场景在于,通过对数学问题进行强化学习,以提升语言模型的推理能力。该数据集包含8,523个不同难度的数学问题,为模型提供了丰富的学习材料。经典的使用场景包括从基础模型出发,不经过蒸馏过程,直接进行强化学习,从而探索模型在不同数据规模下的表现。
实际应用
MATH-FULL数据集的实际应用场景广泛,尤其在需要数学推理能力的领域。例如,在教育技术中,可以利用该数据集训练出的模型来辅助学生解决数学问题;在金融领域,可以用于风险评估和预测。此外,该数据集的自动化数据选择方法也为其他领域的数据集构建提供了借鉴。
衍生相关工作
基于MATH-FULL数据集的研究衍生出了多项相关工作。例如,LIMO和s1方法都探索了在数据量较少的情况下,如何通过监督微调来提高模型性能。而MATH-FULL数据集的LIMR方法则在此基础上,通过强化学习实现了更高效的数据利用,为数据效率和模型性能的提升提供了新的视角。
以上内容由遇见数据集搜集并总结生成



