MiMo-7B

Name: MiMo-7B
Creator: 小米语言模型核心团队
Published: 2025-05-12 22:30:11
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

https://github.com/xiaomimimo/MiMo

下载链接

链接失效反馈

官方服务：

资源简介：

MiMo-7B是一个大型语言模型，旨在进行推理任务，通过优化预训练和后训练阶段，增强了模型的推理潜力。该模型在预训练阶段使用了25万亿个token进行训练，并采用了多token预测目标来提高性能和加速推理速度。在后训练阶段，我们精心策划了一个包含130K个可验证的数学和编程问题的数据集，用于强化学习，并引入了一种测试难度驱动的代码奖励方案，以缓解稀疏奖励问题，并采用策略性数据重采样来稳定训练。广泛的评估表明，MiMo-7B-Base具有卓越的推理潜力，甚至超过了更大的32B模型。

提供机构：

小米语言模型核心团队

创建时间：

2025-05-12

原始信息汇总

MiMo-7B 数据集概述

一、模型简介

MiMo-7B 是为推理任务设计的语言模型系列，包含基础模型、SFT模型和RL模型。该系列模型通过优化预训练和微调策略，显著提升了数学和代码推理能力。

二、模型版本

模型名称	描述	HuggingFace下载链接	ModelScope下载链接
MiMo-7B-Base	具备卓越推理潜力的基础模型	🤗 XiaomiMiMo/MiMo-7B-Base	🤖️ XiaomiMiMo/MiMo-7B-Base
MiMo-7B-RL-Zero	从基础模型训练的RL模型	🤗 XiaomiMiMo/MiMo-7B-RL-Zero	🤖️ XiaomiMiMo/MiMo-7B-RL-Zero
MiMo-7B-SFT	从基础模型训练的SFT模型	🤗 XiaomiMiMo/MiMo-7B-SFT	🤖️ XiaomiMiMo/MiMo-7B-SFT
MiMo-7B-RL	从SFT模型训练的RL模型，性能匹配OpenAI o1-mini	🤗 XiaomiMiMo/MiMo-7B-RL	🤖️ XiaomiMiMo/MiMo-7B-RL

三、评估结果

与其他模型的比较

基准测试	GPT-4o-0513	Claude-3.5-Sonnet	MiMo-7B-RL
MATH-500(Pass@1)	74.6	78.3	95.8
AIME 2024(Pass@1)	9.3	16.0	68.2
LiveCodeBench v5(Pass@1)	32.9	38.9	57.8

MiMo系列模型比较

基准测试	MiMo-7B-Base	MiMo-7B-RL
MATH500(Pass@1)	37.4	95.8
AIME 2024(Pass@1)	32.9	68.2
LiveCodeBench v5(Pass@1)	32.9	57.8

四、部署方式

SGLang推理：支持MiMo推理，MTP功能即将推出
vLLM推理：推荐使用官方fork版本支持MTP
HuggingFace推理：支持标准HuggingFace接口

五、技术亮点

预训练优化：增强数据预处理流程，采用三阶段数据混合策略
后训练策略：使用130K数学和代码问题作为RL训练数据
RL基础设施：开发无缝滚动引擎加速训练

六、引用

bibtex @misc{coreteam2025mimounlockingreasoningpotential, title={MiMo: Unlocking the Reasoning Potential of Language Model}, author={{Xiaomi LLM-Core Team}}, year={2025}, eprint={2505.07608}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.07608}, }

七、联系方式

邮箱：mimo@xiaomi.com

搜集汇总

数据集介绍

构建方式

MiMo-7B数据集的构建采用了一种创新的三阶段数据混合策略，旨在最大化模型在各类任务和领域中的推理潜力。首先，通过优化自然文本预处理流程，提升了数学内容和代码片段的提取质量。其次，利用先进的推理模型生成大量多样化的合成推理数据。最后，在模型训练的三个阶段中，逐步调整数据分布，从广泛的知识覆盖到专注于数学和代码相关数据，再到引入合成响应以增强复杂任务解决能力。整个预训练过程使用了约25万亿标记的数据量，确保了数据的高质量和多样性。

特点

MiMo-7B数据集的一个显著特点是其专注于推理任务的优化，通过增强数据预处理流程和多维数据过滤，显著提高了预训练数据中推理模式的密度。此外，数据集还包含了大量由先进推理模型生成的合成数据，这些数据在训练过程中表现出极低的过拟合风险。数据集的另一个关键特点是其三阶段训练策略，逐步从通用语言能力过渡到专业技能的强化，同时保持了模型的通用性。这种策略使得MiMo-7B在数学推理和代码生成等复杂任务中表现出色。

使用方法

MiMo-7B数据集的使用方法主要围绕其预训练和强化学习调优两个阶段展开。在预训练阶段，研究人员可以利用数据集的三阶段混合策略来训练基础模型，重点关注推理能力的提升。在强化学习阶段，数据集提供了13万可验证的数学和编程问题，用于模型的进一步调优。使用过程中，建议采用测试难度驱动的代码奖励方案来缓解稀疏奖励问题，并通过策略性数据重采样来稳定训练。此外，数据集支持多令牌预测目标，可加速推理过程。对于希望复现或扩展研究的团队，建议参考原始论文中的超参数设置和训练基础设施配置。

背景与挑战

背景概述

MiMo-7B是由Xiaomi LLM-Core Team于2025年推出的大型语言模型，专注于推理任务。该模型在预训练和后训练阶段均进行了优化，旨在解锁语言模型的推理潜力。预训练阶段采用了增强的数据预处理流程和三阶段数据混合策略，训练了25万亿个token，并引入了多令牌预测目标以提升性能和加速推理。后训练阶段则通过精心策划的13万道可验证数学和编程问题数据集进行强化学习，采用测试难度驱动的代码奖励方案以缓解稀疏奖励问题，并通过策略性数据重采样稳定训练。MiMo-7B在数学、代码和一般推理任务上表现出色，甚至超越了规模更大的32B模型，展示了其在推理任务中的卓越潜力。

当前挑战

MiMo-7B面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，该数据集旨在解决复杂的数学和编程推理任务，这些任务通常需要模型具备高度的逻辑推理和问题解决能力。构建过程中的挑战包括：1) 数据预处理和过滤的高要求，确保高质量和高推理密度的数据；2) 多令牌预测目标的实现与优化，以提升推理速度和性能；3) 强化学习阶段的稀疏奖励问题，通过测试难度驱动的奖励方案和策略性数据重采样来缓解；4) 模型在长上下文理解和多领域任务中的稳定性和性能平衡。这些挑战需要通过技术创新和工程优化来克服，以确保模型在复杂推理任务中的高效表现。

常用场景

经典使用场景

MiMo-7B数据集在自然语言处理领域展现出卓越的推理能力，尤其在数学推理和代码生成任务中表现突出。该数据集通过预训练和后训练两阶段的优化，显著提升了模型在复杂推理任务中的表现。其经典使用场景包括解决高级数学问题、生成高效算法代码以及处理需要多步推理的自然语言理解任务。数据集的设计特别强调了对推理模式的密集训练，使得模型在BBH、LiveCodeBench等基准测试中超越了更大规模的模型。

衍生相关工作

MiMo-7B数据集衍生了一系列重要研究工作，特别是在强化学习训练框架和推理模型优化方面。基于该数据集开发的Seamless Rollout Engine实现了2.29倍的训练加速和1.96倍的验证加速，显著提升了RL训练效率。在模型架构方面，多令牌预测模块的创新设计为后续研究提供了重要参考。此外，该数据集还促进了测试难度驱动奖励机制和动态采样策略的发展，这些技术已被广泛应用于后续的推理模型优化工作中。开源的模型检查点包括基础模型、SFT模型和RL模型，为社区研究提供了宝贵资源。

数据集最近研究