LIMR
收藏github2025-02-20 更新2025-02-19 收录
下载链接:
https://github.com/GAIR-NLP/LIMR
下载链接
链接失效反馈官方服务:
资源简介:
LIMR是一个精心挑选的数学问题子集,从完整的MATH数据集(level 3-5)中选择,包含1389个数学问题,使用更少的数据量达到与全数据集相当的准确度。
LIMR is a carefully curated subset of mathematical problems sourced from the complete MATH dataset (levels 3–5). It contains 1389 mathematical problems, and achieves comparable accuracy to the full dataset while utilizing a significantly smaller volume of data.
创建时间:
2025-02-17
原始信息汇总
LIMR: Less is More for RL Scaling
概述
- 数据集名称:LIMR
- 数据集大小:1,389个数学问题
- 数据集特点:从完整数据集MATH(level 3-5)中策略性选择的子集,使用 Learning Impact Measurement (LIM) 方法自动化评估训练样本的有效性。
- 性能指标:在AIME2024、MATH500和AMC2023等挑战性数学基准测试中表现出色。
关键发现
- 策略性选择的训练样本子集(1,389个)可以达到与完整数据集(8,523个)相当的甚至更优的性能。
- 引入Learning Impact Measurement (LIM),一种自动化的定量方法,用于探查RL训练样本的潜在价值。
- 在小模型(7B规模)上,数据高效的方法显著优于使用蒸馏数据的SFT。
性能对比
| 方法 | 问题数量 | AIME2024 | MATH500 | AMC2023 | 平均值 |
|---|---|---|---|---|---|
| Qwen-Math-7B | - | 16.7 | 52.4 | 52.5 | 40.5 |
| Qwen-Math-7B-FULL | 8,523 | 32.5 | 76.6 | 61.9 | 57.0 |
| Qwen-Math-7B-RAND | 1,389 | 25.8 | 66.0 | 56.3 | 49.4 |
| Qwen-Math-7B-LINEAR | 1,138 | 28.3 | 74.6 | 61.9 | 54.9 |
| LIMR | 1,389 | 32.5 | 78.0 | 63.8 | 58.1 |
快速开始
- 数据选择:可选使用LIM方法选择数据。
- RL训练:使用LIMR数据集进行训练。
- 评估:在基准测试上进行评估。
引用
如果发现此工作有用,请引用我们的论文:
bibtex @misc{limr2025, author = {Li, Xuefeng and Zou, Haoyang and Liu, Pengfei}, title = {LIMR: Less is More for RL Scaling}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/GAIR-NLP/LIMR}}, }
搜集汇总
数据集介绍

构建方式
LIMR数据集的构建基于学习影响测量(LIM)方法,通过对完整数据集MATH(level 3-5)的精选,选取了1,389个数学问题,这一数量仅为原数据集的六分之一。此方法不仅避免了手动筛选的繁琐,而且能自动化评估训练样本的有效性,实现了在数据量大幅减少的情况下,保持或提升模型性能的目标。
特点
LIMR数据集的特点在于其高效的数据利用率和优化的样本质量。相较于随机选取的等效大小数据集,LIMR在保持或超越全数据集性能的同时,显著提升了样本的选择性,减少了数据规模,从而在强化学习训练中实现了数据效率的最大化。
使用方法
使用LIMR数据集首先需要通过LIM方法进行数据选择,随后可以利用选定的数据集进行强化学习训练。评估模型性能时,可通过运行提供的脚本在标准数学基准上进行。整个流程包括数据选择、训练和评估,均提供了相应的脚本和指南以简化操作。
背景与挑战
背景概述
LIMR数据集,全称为'Less is More for RL Scaling',是一个针对强化学习数据规模假设提出挑战的数据集。该数据集由Li Xuefeng、Zou Haoyang和Liu Pengfei等研究人员于2025年创建,旨在证明在训练样本的质量和相关性方面的重要性远超过样本的数量。LIMR数据集的核心研究问题是探索在小规模数据集上通过选择性样本训练达到或超越大规模数据集训练效果的可能性。该数据集的提出对强化学习领域的数据使用和模型训练策略产生了重要影响,为相关研究提供了新的视角和方法论。
当前挑战
LIMR数据集在构建过程中遇到的挑战主要包括如何有效度量训练样本的价值,以及如何从大规模数据集中自动选择有价值的样本子集。研究者在数据选择方面采用了Learning Impact Measurement (LIM)方法,这是一种自动化的定量方法,用于探测强化学习训练样本的潜在价值。此外,该数据集在领域问题解决上也面临挑战,即如何在保持数据量大幅减少的同时,确保模型在数学推理等任务上的性能不受影响。
常用场景
经典使用场景
在强化学习领域,LIMR数据集提供了一个极具启发性的使用场景。该数据集通过精心挑选的数学问题,旨在探究在训练大规模语言模型时,数据质量与数据量的关系。LIMR数据集的核心应用在于,通过其学习影响测量(LIM)方法,自动评估训练样本的有效性,从而在无需手动筛选的情况下,实现以六分之一的数据量达到与传统全数据集相当或更优的性能。
实际应用
实际应用中,LIMR数据集可用于指导强化学习模型训练,特别是在数据资源有限的情况下。通过使用LIMR,研究者和开发者可以在较少的数据量下,实现模型性能的显著提升,这对于资源受限的环境尤其有价值,如移动设备上的机器学习应用。
衍生相关工作
LIMR数据集的提出,催生了众多相关研究工作。其中包括对LIM方法的改进,以及在各种不同领域应用LIMR数据集进行模型训练的研究。这些衍生工作不仅加深了我们对强化学习训练样本选择重要性的理解,也拓展了LIMR数据集在自然语言处理、数学推理等领域的应用范围。
以上内容由遇见数据集搜集并总结生成



