five

LIMO

收藏
github2025-02-05 更新2025-03-14 收录
下载链接:
https://github.com/GAIR-NLP/LIMO
下载链接
链接失效反馈
官方服务:
资源简介:
LIMO(Less is More for Reasoning)是由上海交通大学、上海人工智能实验室和通用人工智能研究中心联合开发的数学推理数据集,旨在通过极少量的高质量样本激发大语言模型的复杂推理能力。该数据集仅包含817个精心筛选的数学问题及其详细推理链,覆盖从基础数学到竞赛级别的多样化问题,总Token数超过16万。其创建过程基于“Less is More”假设,通过多阶段筛选和专家标注,确保样本的高质量和代表性。LIMO专注于提升模型在数学推理领域的表现,尤其在复杂问题解决和知识迁移方面具有显著优势,为研究数据高效推理提供了重要资源。

LIMO (Less is More for Reasoning) is a mathematical reasoning dataset jointly developed by Shanghai Jiao Tong University, Shanghai AI Laboratory, and the General Artificial Intelligence Research Center. It aims to stimulate the complex reasoning capabilities of large language models (LLMs) with only a small number of high-quality samples. The dataset contains merely 817 carefully screened mathematical problems accompanied by their detailed reasoning chains, covering diverse questions ranging from basic mathematics to competition-level problems, with a total token count exceeding 160,000. Its development is based on the "Less is More" hypothesis, ensuring the high quality and representativeness of the samples through multi-stage screening and expert annotation. LIMO focuses on enhancing the performance of models in the field of mathematical reasoning, and boasts prominent advantages particularly in complex problem-solving and knowledge transfer, serving as an important resource for research on data-efficient reasoning.
提供机构:
上海交通大学、上海人工智能实验室和通用人工智能研究中心
创建时间:
2025-02-05
原始信息汇总

LIMO 数据集概述

数据集简介

LIMO 数据集挑战传统数学推理观念,证明模型在使用显著更少但质量更高的训练数据时可以达到更优性能。其特点如下:

  • 使用仅817个精心挑选的训练样本达到SOTA水平
  • 在多种问题类型上展现出强大的泛化能力
  • 在10个基准测试上提供全面评估
  • 发布高质量的数据集和评估工具

关键结果

在 AIME 2025 评测中,LIMO 模型使用817个样本取得了44.6的平均分数,与其他在更大数据集(800k样本)上训练的模型相比具有竞争力。

数据集规模与链接

  • 名称:LIMO
  • 描述:训练 LIMO 模型的数据集
  • 大小:817
  • 链接:Hugging Face

模型信息

LIMO 模型基于 Qwen2.5-32B-Instruct,可在 Hugging Face 上获取。

使用说明

LIMO 模型兼容主流框架,如 HF Transformers、VLLM、TensorRT-LLM 等。

训练与评估

训练使用 LLaMA-Factory 框架,提供方便高效的训练流程。评估包含基于规则和模型的评估方法。

许可

本项目遵循 MIT 许可。

引用

bibtex @misc{ye2025limoreasoning, title={LIMO: Less is More for Reasoning}, author={Yixin Ye and Zhen Huang and Yang Xiao and Ethan Chern and Shijie Xia and Pengfei Liu}, year={2025}, eprint={2502.03387}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.03387}, }

搜集汇总
数据集介绍
main_image_url
构建方式
LIMO数据集的构建采用了精心挑选的817个训练样本,这些样本质量高,涵盖了多种数学推理问题类型。通过使用LLaMA-Factory框架,将数据集格式化为支持该框架的格式,确保了训练的高效性和便捷性。
使用方法
使用LIMO数据集,用户可以通过Hugging Face平台获取数据集和预训练模型。数据集和模型的获取均通过Hugging Face提供的链接进行。训练时,用户需设置环境、准备数据,并使用LLaMA-Factory框架提供的配置文件启动训练。评估阶段,提供了基于规则和模型的评估脚本,以适应不同复杂度的数学推理任务。
背景与挑战
背景概述
LIMO数据集是一项针对数学推理任务的研究成果,其挑战了传统的观念,即模型需要大量的训练数据才能达到优异性能。该数据集由Yixin Ye、Zhen Huang、Yang Xiao等研究人员于2025年提出,通过精心挑选的817个高质量训练样本,实现了优于以往使用数以十万计样本训练的模型的表现。LIMO数据集的发布,为数学推理领域带来了新的视角,并展示了少量但高质量数据在模型训练中的潜力。
当前挑战
LIMO数据集面临的挑战主要包括:如何在保持数据集规模较小的情况下,确保模型的泛化能力和推理准确性;构建过程中,如何精确地选择和设计训练样本,以实现最佳的学习效果;此外,针对数学推理的评估方法和工具也需要进一步的开发和完善,以适应LIMO数据集的特点。
常用场景
经典使用场景
LIMO数据集在数学推理领域挑战了传统的认知,其核心应用场景在于通过使用少量但高质量的训练样本,达到或超越使用大规模数据集训练的模型的性能。该数据集通过精心挑选的817个训练样本,实现了对多种数学问题的有效推理,并在AIME 2025等竞赛中展现出竞争力,其经典使用场景主要集中于数学题目的推理与解答。
解决学术问题
LIMO数据集解决了学术研究中关于数学推理的一个关键问题,即在数据量有限的情况下如何实现模型的优越性能。它通过使用高质量的训练样本,证明了在数学推理任务中,模型可以不必依赖大规模数据集即可达到先进的性能水平,这对于资源受限的学术研究具有重要意义。
实际应用
在实际应用中,LIMO数据集的应用场景广泛,包括但不限于在线教育平台、智能辅导系统以及自动化数学评估工具。这些应用能够利用LIMO模型的推理能力,为用户提供精准的数学问题解答和教学支持。
数据集最近研究
最新研究方向
LIMO数据集挑战了数学推理领域的传统观念,证明了模型在显著减少但质量更高的训练数据下,仍能实现卓越性能。该数据集的最新研究成果表明,其不仅在不同问题类型上展现出强大的泛化能力,而且在AIME 2025评估中,使用仅817个精心挑选的训练样本,便达到了与其他训练在更大数据集上(80万个样本)的模型相当的性能。LIMO在AIME24和MATH500等基准测试上的表现显著优于之前的最先进水平,其影响和意义在于为数学推理任务提供了新的视角,即在数据质量和数量之间的权衡,为相关领域的研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作