MiniCPM4

Name: MiniCPM4
Creator: MiniCPM Team
Published: 2025-06-10 00:16:50
License: 暂无描述

arXiv2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/openbmb/MiniCPM4-8B https://huggingface.co/openbmb/MiniCPM4-0.5B https://github.com/openbmb/minicpm

下载链接

链接失效反馈

官方服务：

资源简介：

MiniCPM4是一个为终端设备设计的高效大型语言模型，通过模型架构、训练数据、训练算法和推理系统四个关键维度的系统性创新，实现了高效的计算。数据集的具体条数未在论文中提及，访问地址提供了两个不同参数规模的模型。

提供机构：

MiniCPM Team

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

MiniCPM4数据集的构建采用了系统化的创新方法，涵盖模型架构、训练数据、训练算法和推理系统四个关键维度。在模型架构方面，提出了InfLLM v2，这是一种可训练的稀疏注意力机制，能够加速长上下文处理的预填充和解码阶段。在训练数据方面，开发了UltraClean策略，这是一种高效准确的预训练数据过滤和生成方法，以及UltraChat v2，一个全面的监督微调数据集。这些数据集仅使用8万亿训练标记即可实现满意的模型性能。在训练算法方面，提出了ModelTunnel v2用于高效的预训练策略搜索，并通过引入分块式展开（chunk-wise rollout）进行负载均衡的强化学习，以及数据高效的三元LLM BitCPM来改进现有的后训练方法。在推理系统方面，开发了CPM.cu，集成了稀疏注意力、模型量化和推测采样，以实现高效的预填充和解码。

特点

MiniCPM4数据集的特点包括其高效性和有效性。该数据集通过UltraClean策略和UltraChat v2数据集，显著提高了训练数据的知识密度和逻辑复杂性，从而在减少训练标记数量的同时提升了模型性能。此外，InfLLM v2稀疏注意力机制使得模型在处理长序列时能够保持高性能，同时显著降低计算和内存访问开销。MiniCPM4还提供了两种参数版本（0.5B和8B），以满足不同终端设备的需求。数据集的高效性体现在其仅需8万亿训练标记即可达到与使用36万亿标记训练的模型相媲美的性能。

使用方法

MiniCPM4数据集的使用方法包括预训练、长上下文预训练、监督微调（SFT）和后训练强化学习（RL）。预训练阶段采用WSD学习率调度器，分配7万亿标记用于预热和稳定阶段，1.3万亿标记用于衰减阶段。长上下文预训练将模型的上下文窗口从4K扩展到128K标记。监督微调阶段使模型能够遵循用户指令，而强化学习阶段则通过数学和编码任务进一步增强模型的推理能力。此外，数据集还支持高效的推理部署，通过CPM.cu框架和ArkInfer系统，实现在多种终端设备上的高效运行。用户可以通过Hugging Face和GitHub获取模型参数和推理代码，以便在各种应用场景中使用。

背景与挑战

背景概述

MiniCPM4是由MiniCPM团队于2025年6月提出的专为终端设备设计的高效大型语言模型（LLM）。该模型通过系统性的创新在模型架构、训练数据、训练算法和推理系统四个关键维度上实现了高效性。MiniCPM4的提出旨在解决LLM在计算资源和存储资源受限的终端设备上部署的挑战，同时保持模型性能。该模型提供了0.5B和8B两个参数版本，分别在多个基准测试中优于同类开源模型，展示了其在终端设备上的高效性和有效性。

当前挑战

MiniCPM4面临的挑战主要包括：1) 在终端设备上实现高效的长上下文处理，传统的自注意力机制在长序列处理中的计算和内存需求较高；2) 构建高质量的训练数据，尽管互联网语料库提供了丰富的训练信号，但其中不可避免地包含噪声，影响模型性能；3) 在模型训练过程中，如何通过高效的训练策略搜索和优化算法降低训练成本，同时保持模型性能；4) 在推理阶段，如何在资源受限的终端设备上实现高效的推理速度，特别是在长序列处理中的加速问题。

常用场景

经典使用场景

MiniCPM4数据集在自然语言处理领域具有广泛的应用场景，特别是在端侧设备上的高效推理任务中表现突出。其经典使用场景包括长文本处理、深度推理任务以及多轮对话系统。通过其高效的稀疏注意力机制和优化的训练算法，MiniCPM4能够在资源受限的环境中实现高性能的文本生成和理解任务。

解决学术问题

MiniCPM4解决了多个常见的学术研究问题，包括如何在有限的计算资源下训练和部署高效的大型语言模型、如何通过稀疏注意力机制优化长文本处理的效率，以及如何通过高质量的数据过滤和生成策略提升模型的性能密度。其意义在于为端侧设备的AI应用提供了可行的解决方案，推动了边缘计算和自然语言处理的结合。

衍生相关工作

MiniCPM4衍生了一系列相关经典工作，包括基于其稀疏注意力机制的进一步优化研究、针对端侧设备的量化训练方法，以及结合强化学习的深度推理模型。这些工作不仅在学术界引起了广泛关注，还在工业界推动了多个实际应用的落地，如智能客服系统和自动化文档处理工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集