minimax-m2.1-reap-observations
收藏Hugging Face2026-01-13 更新2026-01-14 收录
下载链接:
https://huggingface.co/datasets/0xSero/minimax-m2.1-reap-observations
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了96个压力测试结果,覆盖了4种使用REAP(路由器加权专家激活剪枝)在不同压缩比例下剪枝的MiniMax-M2.1模型,测试了在不同温度下的重复循环情况。测试配置包括温度范围(0.0, 0.2, 0.7, 1.0)、提示类型(loop_count, code_fib, math_word, tool_json, essay, repeat_abc)、最大令牌数(512)和循环检测(5+重复行)。关键发现包括只有30%和40%的剪枝比例能产生稳定模型,且循环仅在低温(0.0-0.2)下发生,推荐最低温度为0.3+。
创建时间:
2026-01-13
原始信息汇总
MiniMax-M2.1 REAP Stress Test Observations 数据集概述
数据集基本信息
- 许可证: Apache 2.0
- 任务类别: 文本生成
- 语言: 英语
- 标签: minimax, moe, reap, pruning, stress-test, observations
- 数据规模: 小于1K样本
数据集描述
本数据集包含对4个经过REAP(Router-weighted Expert Activation Pruning)剪枝的MiniMax-M2.1模型在多种压缩比下的压力测试结果,共计96项测试,旨在检测不同温度设置下的重复循环问题。
测试模型详情
| 模型 | 压缩率 | 专家数量 | 状态 |
|---|---|---|---|
| REAP-20 | 20% | 204/256 | 已弃用(出现1次循环) |
| REAP-30 | 30% | 180/256 | 推荐使用(0次循环) |
| REAP-40 | 40% | 154/256 | 推荐使用(0次循环) |
| REAP-50 | 50% | 128/256 | 已弃用(出现2次循环) |
测试配置
- 温度设置: 0.0, 0.2, 0.7, 1.0
- 提示类型: loop_count, code_fib, math_word, tool_json, essay, repeat_abc
- 最大令牌数: 512
- 循环检测标准: 5行及以上重复内容
关键发现
稳定剪枝区间
仅30%和40%剪枝率能产生稳定模型:
- 20%剪枝:在math_word提示类型、温度0.0时出现循环
- 30%剪枝:0次循环(推荐)
- 40%剪枝:0次循环(推荐)
- 50%剪枝:在math_word提示类型、温度0.0和0.2时出现循环
温度敏感性
循环仅发生在低温区间(0.0-0.2)。推荐最低温度:0.3以上
数据结构
数据集遵循以下JSON格式: json { "model": "MiniMax-M2.1-REAP-50p", "temp": 0.0, "prompt": "math_word", "input_tokens": 64, "output_tokens": 512, "elapsed_sec": 102.42, "tok_per_sec": 5.0, "is_loop": true, "completion_preview": "...", "completion_end": "..." }
推荐模型
- MiniMax-M2.1-REAP-30 - 162B参数
- MiniMax-M2.1-REAP-40 - 139B参数
致谢
- 计算资源由Prime Intellect赞助
- REAP实现由Cerebras提供
- 基础模型由MiniMax开发
搜集汇总
数据集介绍

构建方式
在稀疏化模型评估领域,该数据集通过系统化的压力测试框架构建而成。研究者选取了经过REAP剪枝算法处理的四个不同压缩比例的MiniMax-M2.1混合专家模型,在多种温度参数与提示类型组合下进行生成任务测试。具体测试覆盖了从0.0到1.0的四个温度点,并设计了包括代码生成、数学问题、工具调用及文本续写在内的六类提示模板,通过自动化脚本记录每次生成的元数据与循环检测结果,最终汇集了九十六次独立实验的完整观测记录。
特点
该数据集的核心特征在于其聚焦于模型剪枝后的稳定性评估,特别是对生成过程中可能出现的重复循环现象进行量化分析。数据清晰地揭示了剪枝比例与模型鲁棒性之间的非线性关系,识别出30%与40%压缩率为稳定运行的“黄金区间”。此外,数据凸显了低温条件下模型更易陷入循环的敏感性,为温度参数的设置提供了经验性边界。每条记录均包含详尽的性能指标与生成文本片段,为分析剪枝对模型行为的影响提供了多维度的实证基础。
使用方法
使用者可借助该数据集对REAP剪枝策略在不同压缩强度下的效果进行对比分析。通过解析数据集中的模型名称、温度、提示类型及循环标记字段,研究者能够复现测试条件,评估特定配置下模型的生成质量与稳定性。该数据可直接用于指导模型选择,例如优先采用数据中标记为“推荐”的30%或40%剪枝版本。同时,数据集的结构化模式支持进一步的数据挖掘,例如探究不同任务类型对剪枝的耐受度,或建立温度参数与循环概率之间的预测模型。
背景与挑战
背景概述
在大型语言模型(LLM)的持续演进中,模型压缩与稀疏化技术已成为提升推理效率、降低计算成本的关键研究方向。MiniMax-M2.1 REAP Stress Test Observations数据集由研究人员0xSero及相关机构在Prime Intellect的计算支持下构建,旨在系统评估采用路由器加权专家激活剪枝(REAP)方法对MiniMax-M2.1混合专家(MoE)模型进行压缩后的鲁棒性与稳定性。该数据集的核心研究问题聚焦于探索不同压缩比率下模型在多样化提示与温度设置中的行为模式,特别是识别导致重复循环等退化现象的临界条件,从而为高效稀疏模型的可靠部署提供实证依据。
当前挑战
该数据集致力于应对混合专家模型剪枝后行为预测的挑战,即在保持模型性能的同时,如何准确界定压缩的‘黄金区间’,以避免模型在低温度推理时陷入重复循环的退化状态。构建过程中的主要挑战在于设计全面的压力测试协议,需涵盖从数学问题、代码生成到工具使用等多种提示类型,并在多个温度参数下系统性地诱发与检测模型故障。此外,平衡测试的广度与深度,确保能从有限样本中可靠推断出模型的稳定性边界,也对实验设计提出了较高要求。
常用场景
经典使用场景
在大型语言模型压缩与优化领域,该数据集为研究人员提供了关于路由器加权专家激活剪枝(REAP)方法在MiniMax-M2.1模型上应用效果的详尽评估。通过系统性地测试不同压缩比例下模型在多种温度设置和提示类型中的表现,它成为验证剪枝策略稳定性和可靠性的基准工具,尤其关注模型是否产生重复循环等退化行为。
解决学术问题
该数据集直接应对模型剪枝后性能保持的学术挑战,明确了压缩比例与模型稳定性之间的非线性关系。其核心贡献在于识别出“黄金比例区”(30%至40%剪枝),在此区间内模型能保持零循环的健壮性,同时揭示了低温环境(0.0-0.2)易诱发重复生成的内在敏感性。这为稀疏化大型混合专家模型提供了实证边界,推动了高效模型压缩理论的发展。
衍生相关工作
基于该数据集的发现,后续研究延伸至更广泛的模型压缩与鲁棒性测试领域。相关工作包括探索REAP方法在其他混合专家架构上的泛化能力,开发针对低温敏感性的自适应温度调度算法,以及构建更全面的压力测试框架以评估模型在边缘案例下的行为。这些衍生工作共同深化了对稀疏化模型失败模式的理解,并促进了高效可靠大模型部署生态的成熟。
以上内容由遇见数据集搜集并总结生成



