five

LIMO|数学推理数据集|人工智能数据集

收藏
github2025-02-05 更新2025-03-14 收录
数学推理
人工智能
下载链接:
https://github.com/GAIR-NLP/LIMO
下载链接
链接失效反馈
资源简介:
LIMO(Less is More for Reasoning)是由上海交通大学、上海人工智能实验室和通用人工智能研究中心联合开发的数学推理数据集,旨在通过极少量的高质量样本激发大语言模型的复杂推理能力。该数据集仅包含817个精心筛选的数学问题及其详细推理链,覆盖从基础数学到竞赛级别的多样化问题,总Token数超过16万。其创建过程基于“Less is More”假设,通过多阶段筛选和专家标注,确保样本的高质量和代表性。LIMO专注于提升模型在数学推理领域的表现,尤其在复杂问题解决和知识迁移方面具有显著优势,为研究数据高效推理提供了重要资源。
提供机构:
上海交通大学、上海人工智能实验室和通用人工智能研究中心
创建时间:
2025-02-05
原始信息汇总

LIMO 数据集概述

数据集简介

LIMO 数据集挑战传统数学推理观念,证明模型在使用显著更少但质量更高的训练数据时可以达到更优性能。其特点如下:

  • 使用仅817个精心挑选的训练样本达到SOTA水平
  • 在多种问题类型上展现出强大的泛化能力
  • 在10个基准测试上提供全面评估
  • 发布高质量的数据集和评估工具

关键结果

在 AIME 2025 评测中,LIMO 模型使用817个样本取得了44.6的平均分数,与其他在更大数据集(800k样本)上训练的模型相比具有竞争力。

数据集规模与链接

  • 名称:LIMO
  • 描述:训练 LIMO 模型的数据集
  • 大小:817
  • 链接:Hugging Face

模型信息

LIMO 模型基于 Qwen2.5-32B-Instruct,可在 Hugging Face 上获取。

使用说明

LIMO 模型兼容主流框架,如 HF Transformers、VLLM、TensorRT-LLM 等。

训练与评估

训练使用 LLaMA-Factory 框架,提供方便高效的训练流程。评估包含基于规则和模型的评估方法。

许可

本项目遵循 MIT 许可。

引用

bibtex @misc{ye2025limoreasoning, title={LIMO: Less is More for Reasoning}, author={Yixin Ye and Zhen Huang and Yang Xiao and Ethan Chern and Shijie Xia and Pengfei Liu}, year={2025}, eprint={2502.03387}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.03387}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
LIMO数据集的构建采用了精心挑选的817个训练样本,这些样本质量高,涵盖了多种数学推理问题类型。通过使用LLaMA-Factory框架,将数据集格式化为支持该框架的格式,确保了训练的高效性和便捷性。
使用方法
使用LIMO数据集,用户可以通过Hugging Face平台获取数据集和预训练模型。数据集和模型的获取均通过Hugging Face提供的链接进行。训练时,用户需设置环境、准备数据,并使用LLaMA-Factory框架提供的配置文件启动训练。评估阶段,提供了基于规则和模型的评估脚本,以适应不同复杂度的数学推理任务。
背景与挑战
背景概述
LIMO数据集是一项针对数学推理任务的研究成果,其挑战了传统的观念,即模型需要大量的训练数据才能达到优异性能。该数据集由Yixin Ye、Zhen Huang、Yang Xiao等研究人员于2025年提出,通过精心挑选的817个高质量训练样本,实现了优于以往使用数以十万计样本训练的模型的表现。LIMO数据集的发布,为数学推理领域带来了新的视角,并展示了少量但高质量数据在模型训练中的潜力。
当前挑战
LIMO数据集面临的挑战主要包括:如何在保持数据集规模较小的情况下,确保模型的泛化能力和推理准确性;构建过程中,如何精确地选择和设计训练样本,以实现最佳的学习效果;此外,针对数学推理的评估方法和工具也需要进一步的开发和完善,以适应LIMO数据集的特点。
常用场景
经典使用场景
LIMO数据集在数学推理领域挑战了传统的认知,其核心应用场景在于通过使用少量但高质量的训练样本,达到或超越使用大规模数据集训练的模型的性能。该数据集通过精心挑选的817个训练样本,实现了对多种数学问题的有效推理,并在AIME 2025等竞赛中展现出竞争力,其经典使用场景主要集中于数学题目的推理与解答。
解决学术问题
LIMO数据集解决了学术研究中关于数学推理的一个关键问题,即在数据量有限的情况下如何实现模型的优越性能。它通过使用高质量的训练样本,证明了在数学推理任务中,模型可以不必依赖大规模数据集即可达到先进的性能水平,这对于资源受限的学术研究具有重要意义。
实际应用
在实际应用中,LIMO数据集的应用场景广泛,包括但不限于在线教育平台、智能辅导系统以及自动化数学评估工具。这些应用能够利用LIMO模型的推理能力,为用户提供精准的数学问题解答和教学支持。
数据集最近研究
最新研究方向
LIMO数据集挑战了数学推理领域的传统观念,证明了模型在显著减少但质量更高的训练数据下,仍能实现卓越性能。该数据集的最新研究成果表明,其不仅在不同问题类型上展现出强大的泛化能力,而且在AIME 2025评估中,使用仅817个精心挑选的训练样本,便达到了与其他训练在更大数据集上(80万个样本)的模型相当的性能。LIMO在AIME24和MATH500等基准测试上的表现显著优于之前的最先进水平,其影响和意义在于为数学推理任务提供了新的视角,即在数据质量和数量之间的权衡,为相关领域的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录