five

MiniCPM4

收藏
arXiv2025-06-10 更新2025-06-11 收录
下载链接:
https://huggingface.co/openbmb/MiniCPM4-8B https://huggingface.co/openbmb/MiniCPM4-0.5B https://github.com/openbmb/minicpm
下载链接
链接失效反馈
官方服务:
资源简介:
MiniCPM4是一个为终端设备设计的高效大型语言模型,通过模型架构、训练数据、训练算法和推理系统四个关键维度的系统性创新,实现了高效的计算。数据集的具体条数未在论文中提及,访问地址提供了两个不同参数规模的模型。
提供机构:
MiniCPM Team
创建时间:
2025-06-10
搜集汇总
数据集介绍
main_image_url
构建方式
MiniCPM4数据集的构建采用了系统化的创新方法,涵盖模型架构、训练数据、训练算法和推理系统四个关键维度。在模型架构方面,提出了InfLLM v2,这是一种可训练的稀疏注意力机制,能够加速长上下文处理的预填充和解码阶段。在训练数据方面,开发了UltraClean策略,这是一种高效准确的预训练数据过滤和生成方法,以及UltraChat v2,一个全面的监督微调数据集。这些数据集仅使用8万亿训练标记即可实现满意的模型性能。在训练算法方面,提出了ModelTunnel v2用于高效的预训练策略搜索,并通过引入分块式展开(chunk-wise rollout)进行负载均衡的强化学习,以及数据高效的三元LLM BitCPM来改进现有的后训练方法。在推理系统方面,开发了CPM.cu,集成了稀疏注意力、模型量化和推测采样,以实现高效的预填充和解码。
特点
MiniCPM4数据集的特点包括其高效性和有效性。该数据集通过UltraClean策略和UltraChat v2数据集,显著提高了训练数据的知识密度和逻辑复杂性,从而在减少训练标记数量的同时提升了模型性能。此外,InfLLM v2稀疏注意力机制使得模型在处理长序列时能够保持高性能,同时显著降低计算和内存访问开销。MiniCPM4还提供了两种参数版本(0.5B和8B),以满足不同终端设备的需求。数据集的高效性体现在其仅需8万亿训练标记即可达到与使用36万亿标记训练的模型相媲美的性能。
使用方法
MiniCPM4数据集的使用方法包括预训练、长上下文预训练、监督微调(SFT)和后训练强化学习(RL)。预训练阶段采用WSD学习率调度器,分配7万亿标记用于预热和稳定阶段,1.3万亿标记用于衰减阶段。长上下文预训练将模型的上下文窗口从4K扩展到128K标记。监督微调阶段使模型能够遵循用户指令,而强化学习阶段则通过数学和编码任务进一步增强模型的推理能力。此外,数据集还支持高效的推理部署,通过CPM.cu框架和ArkInfer系统,实现在多种终端设备上的高效运行。用户可以通过Hugging Face和GitHub获取模型参数和推理代码,以便在各种应用场景中使用。
背景与挑战
背景概述
MiniCPM4是由MiniCPM团队于2025年6月提出的专为终端设备设计的高效大型语言模型(LLM)。该模型通过系统性的创新在模型架构、训练数据、训练算法和推理系统四个关键维度上实现了高效性。MiniCPM4的提出旨在解决LLM在计算资源和存储资源受限的终端设备上部署的挑战,同时保持模型性能。该模型提供了0.5B和8B两个参数版本,分别在多个基准测试中优于同类开源模型,展示了其在终端设备上的高效性和有效性。
当前挑战
MiniCPM4面临的挑战主要包括:1) 在终端设备上实现高效的长上下文处理,传统的自注意力机制在长序列处理中的计算和内存需求较高;2) 构建高质量的训练数据,尽管互联网语料库提供了丰富的训练信号,但其中不可避免地包含噪声,影响模型性能;3) 在模型训练过程中,如何通过高效的训练策略搜索和优化算法降低训练成本,同时保持模型性能;4) 在推理阶段,如何在资源受限的终端设备上实现高效的推理速度,特别是在长序列处理中的加速问题。
常用场景
经典使用场景
MiniCPM4数据集在自然语言处理领域具有广泛的应用场景,特别是在端侧设备上的高效推理任务中表现突出。其经典使用场景包括长文本处理、深度推理任务以及多轮对话系统。通过其高效的稀疏注意力机制和优化的训练算法,MiniCPM4能够在资源受限的环境中实现高性能的文本生成和理解任务。
解决学术问题
MiniCPM4解决了多个常见的学术研究问题,包括如何在有限的计算资源下训练和部署高效的大型语言模型、如何通过稀疏注意力机制优化长文本处理的效率,以及如何通过高质量的数据过滤和生成策略提升模型的性能密度。其意义在于为端侧设备的AI应用提供了可行的解决方案,推动了边缘计算和自然语言处理的结合。
衍生相关工作
MiniCPM4衍生了一系列相关经典工作,包括基于其稀疏注意力机制的进一步优化研究、针对端侧设备的量化训练方法,以及结合强化学习的深度推理模型。这些工作不仅在学术界引起了广泛关注,还在工业界推动了多个实际应用的落地,如智能客服系统和自动化文档处理工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作