LIMO|数学推理数据集|人工智能数据集
收藏LIMO 数据集概述
数据集简介
LIMO 数据集挑战传统数学推理观念,证明模型在使用显著更少但质量更高的训练数据时可以达到更优性能。其特点如下:
- 使用仅817个精心挑选的训练样本达到SOTA水平
- 在多种问题类型上展现出强大的泛化能力
- 在10个基准测试上提供全面评估
- 发布高质量的数据集和评估工具
关键结果
在 AIME 2025 评测中,LIMO 模型使用817个样本取得了44.6的平均分数,与其他在更大数据集(800k样本)上训练的模型相比具有竞争力。
数据集规模与链接
- 名称:LIMO
- 描述:训练 LIMO 模型的数据集
- 大小:817
- 链接:Hugging Face
模型信息
LIMO 模型基于 Qwen2.5-32B-Instruct,可在 Hugging Face 上获取。
使用说明
LIMO 模型兼容主流框架,如 HF Transformers、VLLM、TensorRT-LLM 等。
训练与评估
训练使用 LLaMA-Factory 框架,提供方便高效的训练流程。评估包含基于规则和模型的评估方法。
许可
本项目遵循 MIT 许可。
引用
bibtex @misc{ye2025limoreasoning, title={LIMO: Less is More for Reasoning}, author={Yixin Ye and Zhen Huang and Yang Xiao and Ethan Chern and Shijie Xia and Pengfei Liu}, year={2025}, eprint={2502.03387}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.03387}, }

YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录