LIMO

github2025-02-10 更新2025-02-10 收录

下载链接：

https://github.com/GAIR-NLP/LIMO

下载链接

链接失效反馈

官方服务：

资源简介：

LIMO数据集挑战了数学推理中的传统观念，通过展示模型在显著更少但更高质的训练数据上能够达到优越的性能。

The LIMO Dataset challenges conventional wisdom in mathematical reasoning by demonstrating that models can achieve superior performance with significantly less but higher-quality training data.

创建时间：

2025-02-04

原始信息汇总

LIMO 数据集概述

数据集简介

LIMO 数据集挑战了数学推理中的传统观念，证明了模型可以通过少量但高质量的训练数据实现卓越性能。其特点包括：

使用仅817个精心挑选的训练样本实现SOTA性能
在多种问题类型上展现出强大的泛化能力
在10个基准测试上提供了全面评估
发布了高质量的数据集和评估工具

关键结果

AIME 2025 新结果

模型	样本数	AIME 2024	AIME I 2025 (AVG)
LIMO	817	56.3	44.5

其他基准测试结果

基准测试	LIMO	Previous SOTA	改进
AIME24	57.1%	6.5%	+50.6%
MATH500	94.8%	59.2%	+35.6%
AMC23	92.0%	40.6%	+51.4%
OlympiadBench	66.8%	36.7%	+30.1%
CHMath	75.4%	11.2%	+64.2%
Gaokao	81.0%	49.4%	+31.6%
Kaoyan	73.4%	32.7%	+40.7%
GradeSchool	76.2%	36.2%	+40.0%
Minerva	44.9%	47.1%	-2.2%
GPQA	66.7%	73.3%	-6.6%

数据集信息

数据集名称：LIMO
描述：用于训练LIMO模型的训练集
大小：817
链接：Hugging Face

使用说明

LIMO模型基于Qwen2.5-32B-Instruct进行微调，兼容多种主流框架如HF Transformers、VLLM、TensorRT-LLM等。

快速开始

提供了使用HF Transformers和VLLM框架的快速开始指南。

训练

使用LLaMA-Factory框架进行训练，提供了详细的训练设置和启动命令。

评估

发布了用于评估大型语言模型在数学推理任务上的脚本，包括基于规则和模型的评估组件。

许可

本项目遵循MIT许可。

引用

bibtex @misc{ye2025limoreasoning, title={LIMO: Less is More for Reasoning}, author={Yixin Ye and Zhen Huang and Yang Xiao and Ethan Chern and Shijie Xia and Pengfei Liu}, year={2025}, eprint={2502.03387}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.03387}, }

搜集汇总

数据集介绍

构建方式

LIMO数据集的构建方式体现了对传统数学推理智慧的挑战，通过精心挑选的817个高质量训练样本，实现了优于使用大规模数据集的模型性能。该数据集的构建采用LLaMA-Factory框架，确保了数据处理的便捷与高效。

特点

LIMO数据集的特点在于，其以少量但高质量的训练样本展现出强大的泛化能力，不仅在AIME24和MATH500等多个基准测试中取得了显著性能提升，而且在 recently completed AIME 2025 Part 1 evaluation中，使用仅817个训练样本的LIMO模型表现出了与其他训练于更大数据集的模型相媲美的性能。

使用方法

使用LIMO数据集，用户可通过Hugging Face平台获取训练集，并利用LLaMA-Factory框架进行模型训练。此外，LIMO模型支持主流框架如HF Transformers、VLLM和TensorRT-LLM，用户可以根据自己的需求选择合适的框架进行快速启动和模型评估。

背景与挑战

背景概述

LIMO数据集在数学推理领域挑战了传统的观念，证明了模型可以在大量减少但质量更高的训练数据上实现卓越的性能。该数据集由GAIR团队创建于2025年，旨在通过仅有817个精心挑选的训练样本，达到当前最先进的水平。LIMO的数据集和评估工具的发布，为研究社区提供了高质量的资源和在10个基准上的全面评估，对数学推理领域产生了显著影响。

当前挑战

LIMO数据集面临的挑战主要在于如何在极少的训练样本上实现强大的推理能力。它不仅要解决数学推理领域的问题，如在不使用大量数据的情况下实现高精度分类，还要克服构建过程中的挑战，例如数据的选择、模型的设计与优化，以及如何在多个不同的数学问题上展现出强大的泛化能力。

常用场景

经典使用场景

LIMO数据集挑战了数学推理领域的传统观念，证明了模型在经过精心挑选的高质量训练样本上，即便数量大幅减少，也能取得卓越的性能。该数据集最经典的使用场景是作为数学推理模型的训练集，特别是在需要模型具备强大泛化能力的场合，如面对多种类型的问题时，LIMO展现出了其独特的优势。

实际应用

在实际应用中，LIMO数据集可用于训练面向数学教育的人工智能助手，为学习者提供精准的解题指导和帮助。此外，它还可以应用于自动化数学问题解答系统，提高系统在面对复杂数学题目时的准确性和效率。

衍生相关工作

基于LIMO数据集的研究成果，已经衍生出一系列相关工作，如针对数学推理的模型压缩、高效学习策略研究，以及将LIMO模型应用于其他领域的探索，如自然语言处理和代码生成等。这些工作进一步拓展了LIMO数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集