five

MiMo-7B

收藏
arXiv2025-05-12 更新2025-05-14 收录
下载链接:
https://github.com/xiaomimimo/MiMo
下载链接
链接失效反馈
官方服务:
资源简介:
MiMo-7B是一个大型语言模型,旨在进行推理任务,通过优化预训练和后训练阶段,增强了模型的推理潜力。该模型在预训练阶段使用了25万亿个token进行训练,并采用了多token预测目标来提高性能和加速推理速度。在后训练阶段,我们精心策划了一个包含130K个可验证的数学和编程问题的数据集,用于强化学习,并引入了一种测试难度驱动的代码奖励方案,以缓解稀疏奖励问题,并采用策略性数据重采样来稳定训练。广泛的评估表明,MiMo-7B-Base具有卓越的推理潜力,甚至超过了更大的32B模型。
提供机构:
小米语言模型核心团队
创建时间:
2025-05-12
原始信息汇总

MiMo-7B 数据集概述

一、模型简介

MiMo-7B 是为推理任务设计的语言模型系列,包含基础模型、SFT模型和RL模型。该系列模型通过优化预训练和微调策略,显著提升了数学和代码推理能力。

二、模型版本

模型名称 描述 HuggingFace下载链接 ModelScope下载链接
MiMo-7B-Base 具备卓越推理潜力的基础模型 🤗 XiaomiMiMo/MiMo-7B-Base 🤖️ XiaomiMiMo/MiMo-7B-Base
MiMo-7B-RL-Zero 从基础模型训练的RL模型 🤗 XiaomiMiMo/MiMo-7B-RL-Zero 🤖️ XiaomiMiMo/MiMo-7B-RL-Zero
MiMo-7B-SFT 从基础模型训练的SFT模型 🤗 XiaomiMiMo/MiMo-7B-SFT 🤖️ XiaomiMiMo/MiMo-7B-SFT
MiMo-7B-RL 从SFT模型训练的RL模型,性能匹配OpenAI o1-mini 🤗 XiaomiMiMo/MiMo-7B-RL 🤖️ XiaomiMiMo/MiMo-7B-RL

三、评估结果

与其他模型的比较

基准测试 GPT-4o-0513 Claude-3.5-Sonnet MiMo-7B-RL
MATH-500(Pass@1) 74.6 78.3 95.8
AIME 2024(Pass@1) 9.3 16.0 68.2
LiveCodeBench v5(Pass@1) 32.9 38.9 57.8

MiMo系列模型比较

基准测试 MiMo-7B-Base MiMo-7B-RL
MATH500(Pass@1) 37.4 95.8
AIME 2024(Pass@1) 32.9 68.2
LiveCodeBench v5(Pass@1) 32.9 57.8

四、部署方式

  1. SGLang推理:支持MiMo推理,MTP功能即将推出
  2. vLLM推理:推荐使用官方fork版本支持MTP
  3. HuggingFace推理:支持标准HuggingFace接口

五、技术亮点

  • 预训练优化:增强数据预处理流程,采用三阶段数据混合策略
  • 后训练策略:使用130K数学和代码问题作为RL训练数据
  • RL基础设施:开发无缝滚动引擎加速训练

六、引用

bibtex @misc{coreteam2025mimounlockingreasoningpotential, title={MiMo: Unlocking the Reasoning Potential of Language Model}, author={{Xiaomi LLM-Core Team}}, year={2025}, eprint={2505.07608}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.07608}, }

七、联系方式

邮箱:mimo@xiaomi.com

搜集汇总
数据集介绍
main_image_url
构建方式
MiMo-7B数据集的构建采用了一种创新的三阶段数据混合策略,旨在最大化模型在各类任务和领域中的推理潜力。首先,通过优化自然文本预处理流程,提升了数学内容和代码片段的提取质量。其次,利用先进的推理模型生成大量多样化的合成推理数据。最后,在模型训练的三个阶段中,逐步调整数据分布,从广泛的知识覆盖到专注于数学和代码相关数据,再到引入合成响应以增强复杂任务解决能力。整个预训练过程使用了约25万亿标记的数据量,确保了数据的高质量和多样性。
特点
MiMo-7B数据集的一个显著特点是其专注于推理任务的优化,通过增强数据预处理流程和多维数据过滤,显著提高了预训练数据中推理模式的密度。此外,数据集还包含了大量由先进推理模型生成的合成数据,这些数据在训练过程中表现出极低的过拟合风险。数据集的另一个关键特点是其三阶段训练策略,逐步从通用语言能力过渡到专业技能的强化,同时保持了模型的通用性。这种策略使得MiMo-7B在数学推理和代码生成等复杂任务中表现出色。
使用方法
MiMo-7B数据集的使用方法主要围绕其预训练和强化学习调优两个阶段展开。在预训练阶段,研究人员可以利用数据集的三阶段混合策略来训练基础模型,重点关注推理能力的提升。在强化学习阶段,数据集提供了13万可验证的数学和编程问题,用于模型的进一步调优。使用过程中,建议采用测试难度驱动的代码奖励方案来缓解稀疏奖励问题,并通过策略性数据重采样来稳定训练。此外,数据集支持多令牌预测目标,可加速推理过程。对于希望复现或扩展研究的团队,建议参考原始论文中的超参数设置和训练基础设施配置。
背景与挑战
背景概述
MiMo-7B是由Xiaomi LLM-Core Team于2025年推出的大型语言模型,专注于推理任务。该模型在预训练和后训练阶段均进行了优化,旨在解锁语言模型的推理潜力。预训练阶段采用了增强的数据预处理流程和三阶段数据混合策略,训练了25万亿个token,并引入了多令牌预测目标以提升性能和加速推理。后训练阶段则通过精心策划的13万道可验证数学和编程问题数据集进行强化学习,采用测试难度驱动的代码奖励方案以缓解稀疏奖励问题,并通过策略性数据重采样稳定训练。MiMo-7B在数学、代码和一般推理任务上表现出色,甚至超越了规模更大的32B模型,展示了其在推理任务中的卓越潜力。
当前挑战
MiMo-7B面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,该数据集旨在解决复杂的数学和编程推理任务,这些任务通常需要模型具备高度的逻辑推理和问题解决能力。构建过程中的挑战包括:1) 数据预处理和过滤的高要求,确保高质量和高推理密度的数据;2) 多令牌预测目标的实现与优化,以提升推理速度和性能;3) 强化学习阶段的稀疏奖励问题,通过测试难度驱动的奖励方案和策略性数据重采样来缓解;4) 模型在长上下文理解和多领域任务中的稳定性和性能平衡。这些挑战需要通过技术创新和工程优化来克服,以确保模型在复杂推理任务中的高效表现。
常用场景
经典使用场景
MiMo-7B数据集在自然语言处理领域展现出卓越的推理能力,尤其在数学推理和代码生成任务中表现突出。该数据集通过预训练和后训练两阶段的优化,显著提升了模型在复杂推理任务中的表现。其经典使用场景包括解决高级数学问题、生成高效算法代码以及处理需要多步推理的自然语言理解任务。数据集的设计特别强调了对推理模式的密集训练,使得模型在BBH、LiveCodeBench等基准测试中超越了更大规模的模型。
衍生相关工作
MiMo-7B数据集衍生了一系列重要研究工作,特别是在强化学习训练框架和推理模型优化方面。基于该数据集开发的Seamless Rollout Engine实现了2.29倍的训练加速和1.96倍的验证加速,显著提升了RL训练效率。在模型架构方面,多令牌预测模块的创新设计为后续研究提供了重要参考。此外,该数据集还促进了测试难度驱动奖励机制和动态采样策略的发展,这些技术已被广泛应用于后续的推理模型优化工作中。开源的模型检查点包括基础模型、SFT模型和RL模型,为社区研究提供了宝贵资源。
数据集最近研究
最新研究方向
在自然语言处理领域,MiMo-7B数据集的最新研究方向集中在提升大型语言模型(LLM)的推理能力,特别是在数学推理和代码生成任务上的表现。通过优化预训练和后训练策略,该数据集在增强模型的基础推理潜力方面取得了显著进展。前沿研究包括采用多令牌预测(MTP)目标来加速推理速度,以及通过强化学习(RL)微调模型,使其在数学和编程任务中超越更大规模的模型。此外,数据集的研究还涉及长上下文理解和复杂推理任务的性能提升,为开发更强大的推理模型提供了新的技术路径和基准。
相关研究论文
  • 1
    MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining小米语言模型核心团队 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作