MiniCPM4
收藏arXiv2025-06-10 更新2025-06-11 收录
下载链接:
https://huggingface.co/openbmb/MiniCPM4-8B https://huggingface.co/openbmb/MiniCPM4-0.5B https://github.com/openbmb/minicpm
下载链接
链接失效反馈官方服务:
资源简介:
MiniCPM4是一个为终端设备设计的高效大型语言模型,通过模型架构、训练数据、训练算法和推理系统四个关键维度的系统性创新,实现了高效的计算。数据集的具体条数未在论文中提及,访问地址提供了两个不同参数规模的模型。
MiniCPM4 is an efficient large language model designed for edge terminal devices. It achieves efficient computing through systematic innovations across four key dimensions: model architecture, training data, training algorithms, and inference systems. The exact number of datasets is not mentioned in the associated paper, and two model variants with different parameter scales are available via the provided access address.
提供机构:
MiniCPM Team
创建时间:
2025-06-10
搜集汇总
数据集介绍

构建方式
MiniCPM4数据集的构建采用了系统化的创新方法,涵盖模型架构、训练数据、训练算法和推理系统四个关键维度。在模型架构方面,提出了InfLLM v2,这是一种可训练的稀疏注意力机制,能够加速长上下文处理的预填充和解码阶段。在训练数据方面,开发了UltraClean策略,这是一种高效准确的预训练数据过滤和生成方法,以及UltraChat v2,一个全面的监督微调数据集。这些数据集仅使用8万亿训练标记即可实现满意的模型性能。在训练算法方面,提出了ModelTunnel v2用于高效的预训练策略搜索,并通过引入分块式展开(chunk-wise rollout)进行负载均衡的强化学习,以及数据高效的三元LLM BitCPM来改进现有的后训练方法。在推理系统方面,开发了CPM.cu,集成了稀疏注意力、模型量化和推测采样,以实现高效的预填充和解码。
特点
MiniCPM4数据集的特点包括其高效性和有效性。该数据集通过UltraClean策略和UltraChat v2数据集,显著提高了训练数据的知识密度和逻辑复杂性,从而在减少训练标记数量的同时提升了模型性能。此外,InfLLM v2稀疏注意力机制使得模型在处理长序列时能够保持高性能,同时显著降低计算和内存访问开销。MiniCPM4还提供了两种参数版本(0.5B和8B),以满足不同终端设备的需求。数据集的高效性体现在其仅需8万亿训练标记即可达到与使用36万亿标记训练的模型相媲美的性能。
使用方法
MiniCPM4数据集的使用方法包括预训练、长上下文预训练、监督微调(SFT)和后训练强化学习(RL)。预训练阶段采用WSD学习率调度器,分配7万亿标记用于预热和稳定阶段,1.3万亿标记用于衰减阶段。长上下文预训练将模型的上下文窗口从4K扩展到128K标记。监督微调阶段使模型能够遵循用户指令,而强化学习阶段则通过数学和编码任务进一步增强模型的推理能力。此外,数据集还支持高效的推理部署,通过CPM.cu框架和ArkInfer系统,实现在多种终端设备上的高效运行。用户可以通过Hugging Face和GitHub获取模型参数和推理代码,以便在各种应用场景中使用。
背景与挑战
背景概述
MiniCPM4是由MiniCPM团队于2025年6月提出的专为终端设备设计的高效大型语言模型(LLM)。该模型通过系统性的创新在模型架构、训练数据、训练算法和推理系统四个关键维度上实现了高效性。MiniCPM4的提出旨在解决LLM在计算资源和存储资源受限的终端设备上部署的挑战,同时保持模型性能。该模型提供了0.5B和8B两个参数版本,分别在多个基准测试中优于同类开源模型,展示了其在终端设备上的高效性和有效性。
当前挑战
MiniCPM4面临的挑战主要包括:1) 在终端设备上实现高效的长上下文处理,传统的自注意力机制在长序列处理中的计算和内存需求较高;2) 构建高质量的训练数据,尽管互联网语料库提供了丰富的训练信号,但其中不可避免地包含噪声,影响模型性能;3) 在模型训练过程中,如何通过高效的训练策略搜索和优化算法降低训练成本,同时保持模型性能;4) 在推理阶段,如何在资源受限的终端设备上实现高效的推理速度,特别是在长序列处理中的加速问题。
常用场景
经典使用场景
MiniCPM4数据集在自然语言处理领域具有广泛的应用场景,特别是在端侧设备上的高效推理任务中表现突出。其经典使用场景包括长文本处理、深度推理任务以及多轮对话系统。通过其高效的稀疏注意力机制和优化的训练算法,MiniCPM4能够在资源受限的环境中实现高性能的文本生成和理解任务。
解决学术问题
MiniCPM4解决了多个常见的学术研究问题,包括如何在有限的计算资源下训练和部署高效的大型语言模型、如何通过稀疏注意力机制优化长文本处理的效率,以及如何通过高质量的数据过滤和生成策略提升模型的性能密度。其意义在于为端侧设备的AI应用提供了可行的解决方案,推动了边缘计算和自然语言处理的结合。
衍生相关工作
MiniCPM4衍生了一系列相关经典工作,包括基于其稀疏注意力机制的进一步优化研究、针对端侧设备的量化训练方法,以及结合强化学习的深度推理模型。这些工作不仅在学术界引起了广泛关注,还在工业界推动了多个实际应用的落地,如智能客服系统和自动化文档处理工具。
以上内容由遇见数据集搜集并总结生成



