five

kimi-k2.6-reap-observations-v1

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/0xSero/kimi-k2.6-reap-observations-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Kimi-K2.6 REAP观测数据集(v1)包含了在Kimi-K2.6模型上完整REAP校准过程的观测输出。该数据集记录了每个MoE层的逐令牌路由决策、专家激活范数以及REAP显著性成分,可用于通过`reap.prune`或其他基于专家显著性的压缩器生成任意压缩比的修剪检查点,而无需重新运行昂贵的前向传播校准过程。源模型为`moonshotai/Kimi-K2.6`(DeepseekV3架构,约1.026 T参数),采用INT4量化,组大小为32,对称,压缩张量`pack-quantized`格式。校准过程使用了复合数据集,包括23,088个跨10个领域的无基准样本和430个JSON/Mermaid样本用于结构化输出覆盖。数据集采用Apache-2.0许可证,与上游REAP一致。

The Kimi-K2.6 REAP Observation Dataset (v1) contains the observed outputs from the complete REAP calibration process on the Kimi-K2.6 model. This dataset records per-token routing decisions, expert activation norms, and REAP saliency components for each MoE layer, which can be used to generate pruned checkpoints at any compression ratio via `reap.prune` or other expert-saliency-based compressors without rerunning the expensive forward-pass calibration process. The source model is `moonshotai/Kimi-K2.6` (DeepseekV3 architecture, ~1.026T parameters) with INT4 quantization, group size 32, symmetric, in `pack-quantized` tensor format. The calibration process used a composite dataset including 23,088 domain-agnostic samples across 10 domains and 430 JSON/Mermaid samples for structured output coverage. The dataset is released under the Apache-2.0 license, consistent with upstream REAP.
创建时间:
2026-04-22
原始信息汇总

Kimi-K2.6 REAP Observation Data (v1) 数据集详情

数据集概述

该数据集包含从 moonshotai/Kimi-K2.6 模型通过 REAP 逐层观察器捕获的每层专家路由和激活统计数据。它不是一个剪枝后的模型,而是完整的 REAP 校准过程的观察输出。

基本信息

属性 内容
数据集名称 Kimi-K2.6 REAP Observation Data (v1)
许可证 Apache-2.0
任务类别 文本生成
语言 英语
数据集大小 1000万 ~ 1亿 条记录
标签 mixture-of-experts, moe, reap, expert-pruning, kimi-k2, deepseek-v3, int4, compressed-tensors

内容说明

每条记录描述了基础模型中每个 MoE 层的逐 token 路由决策专家激活范数以及 REAP 重要性成分。下游用户可以将这些观察结果反馈到 reap.prune 中,以任意压缩比生成剪枝后的检查点,而无需重新运行昂贵的正向传播校准。

源模型信息

  • 基础模型: moonshotai/Kimi-K2.6(DeepseekV3 架构,约 1.026 万亿参数)
  • 量化方式: INT4,组大小 32,对称量化,使用 compressed-tensorspack-quantized 格式。密集 MLP 和注意力层按照模型的 quantization_config.ignore 列表保持 BF16 格式。

校准数据集

  • 复合数据集 1: 0xSero/reap-calibration-data-v1 — 包含来自 10 个领域的 23,088 个无基准样本
  • 复合数据集 2: 0xSero/structured-outputs-calibration-v1 — 包含 430 个 JSON/Mermaid 结构化输出样本

REAP 校准参数

依据论文对于 ≥110B 参数模型的推荐设置:

  • max_tokens=16384
  • batch_size=8
  • observation_sequence_chunk_size=1
  • renormalize_router_weights=true
  • observer=layerwise

仓库目录结构

runs/kimi-k26-pr17-obs-v1/ layerwise_intermediate/ group_000/ block_000_metrics.pt block_001_metrics.pt ... group_001/ ... complete_state.pt # 所有块×组处理完成后合并的观察器状态 status.json # 当前进度 / 最后块 / 最后组 / 预计完成时间 mix-summary.json # 校准数据混合清单 README.md # 本文件

每个 block_NNN_metrics.pt 在 REAP 逐层观察器完成写入后即会上传,因此部分运行结果也可直接使用。最终合并的 complete_state.pt 在整个扫描完成后推送。

数据使用示例

加载完整的观察器状态数据: python from huggingface_hub import snapshot_download import torch

path = snapshot_download( repo_id="0xSero/kimi-k2.6-reap-observations-v1", repo_type="dataset", allow_patterns=["runs/kimi-k26-pr17-obs-v1/complete_state.pt"], ) observer_data = torch.load(f"{path}/runs/kimi-k26-pr17-obs-v1/complete_state.pt", weights_only=False)

返回的数据结构(按层级索引):

  • expert_frequency: Tensor[num_experts] — 专家频率
  • routed_characteristic_activation: Tensor[num_experts, hidden_dim] — 路由特征激活
  • ttm_similarity_matrix: — TTM 相似性矩阵
  • reap: Tensor[num_experts] — 预计算的 REAP 重要性分数

使用要求

如果使用该数据集,请引用 REAP 论文及本数据集版本。许可证为 Apache-2.0(与上游 REAP 一致),基础模型许可证遵循 moonshotai/Kimi-K2.6 的条款。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对月之暗面公司发布的Kimi-K2.6混合专家模型的深度观测,本质上是REAP逐层观察器在一次完整校准前向传播过程中捕获的专家路由与激活统计信息。构建时,研究团队选取了涵盖10个领域的23,088个无基准样本作为主校准语料,并补充了430个结构化输出样本以增强覆盖。在校准参数设定上,遵循REAP论文针对千亿参数级模型的建议,采用最大令牌数16384、批次大小8及逐层观察器策略,同时启用了路由器权重重归一化功能。每层MoE的指标文件在观察器完成写入后即被上传至仓库,最终合并为完整的complete_state.pt文件。
使用方法
使用该数据集时,首先通过huggingface_hub库的snapshot_download函数下载complete_state.pt文件,随后利用torch.load加载该文件即可获得一个字典结构,其中每个层索引对应一个包含专家频率、路由特征激活值、专家间相似性矩阵及REAP显著性的数据字典。在剪枝应用中,只需在REAP提供的layerwise_prune命令行工具中指定--cached-observer-data参数指向该文件路径,并设定目标压缩比,即可快速完成基于专家重要性的模型剪枝操作,无需重复运行校准流程。
背景与挑战
背景概述
在大规模混合专家(MoE)模型日益成为自然语言处理核心架构的背景下,Kimi-K2.6 REAP Observations v1数据集应运而生。该数据集由研究团队于2026年基于月之暗面(Moonshot AI)发布的Kimi-K2.6模型(参数量约1.026万亿,架构为DeepSeek-V3)创建,旨在解决MoE模型因计算开销巨大而难以在实际中高效部署的难题。其核心研究问题为:如何通过一次性前向传播的校准数据,捕获专家层级的路由决策与激活统计信息,从而支持后续修剪而不需重复昂贵的推理。该数据集记录了REAP(一种基于专家显著性的修剪方法)在Kimi-K2.6上分层观察器的输出,包含逐token的路由选择、专家激活范数及显著性矩阵等关键信息。作为首个面向万亿级MoE模型的公开观察数据集,它为模型压缩与高效推理研究提供了标准化起点,对降低超大模型部署门槛具有里程碑式影响。
当前挑战
该数据集所解决的领域核心挑战在于:万亿参数MoE模型因其各专家参数高度稀疏且路由动态复杂,传统一次性修剪极易引入不可逆的精度坍塌,而重复校准又因计算成本极高而难以承受。为此,该数据集通过REAP在单次前向传递中同时采集专家频率、路由特征激活及层间相似性矩阵,使得下游用户可据此直接调用修剪接口,在任意压缩比下生成修剪检查点,彻底规避了重复校准的代价。在构建过程中,团队面临的挑战包括:需在仅INT4量化(且保持全连接层为BF16)的混合精度环境下稳定捕获路由信号;需精选涵盖10个领域的23,088个无基准样本及430个结构化输出样本,以确保校准数据域分布的完备性;此外,如何在不中断推断流程的前提下,以分组方式高效写出每层的观测耗时文件,并最终合并为完整状态,也对工程流水线提出了极高要求。
常用场景
经典使用场景
在混合专家模型(MoE)的研究与优化中,Kimi-K2.6 REAP Observation Data (v1) 数据集扮演着关键角色。它源自对 moonshotai/Kimi-K2.6 这一基于 DeepSeek-V3 架构、参数规模达万亿级的大模型进行 REAP 逐层观测的校准结果。该数据集的核心价值在于,通过记录每一层专家的路由决策、激活范数以及 REAP 显著性分数等观测数据,为后续模型剪枝提供了无需重复运行昂贵前向校准的即用素材。用户可据此灵活设定任意压缩比,直接调用 `reap.prune` 方法生成剪枝后的检查点,极大地降低了 MoE 模型压缩的算力门槛。
解决学术问题
该数据集精准回应了 MoE 大模型在部署与应用中面临的核心学术难题:如何在保持模型性能的前提下,实现高效且可控的参数压缩。传统的剪枝方法往往需要大量的重训练或多次前向传递,而 REAP 框架提出的单次剪枝策略虽前景光明,却受限于缺乏高质量、标准化的观测数据。此数据集通过提供涵盖多领域、结构化输出的复合标定样本(共计约 23,518 条),解决了观测数据来源不一致、覆盖不全的问题,使得专家显著性评估更加可靠。其发布推动了 MoE 模型无重训练压缩的标准化进程,为探索稀疏模型在有限算力下的高效部署提供了坚实的实验基础。
实际应用
在实际应用层面,该数据集为资源受限环境下的大规模 MoE 模型部署开辟了全新路径。通过直接利用数据集中的完整观测状态文件(如 `complete_state.pt`),研究人员与工程师可以在不接触原始模型庞大参数的情况下,快速实验并生成针对特定硬件(如边缘设备或数据中心服务器)的压缩版本。例如,可以动态调整 0.25 等不同压缩比以适配云端推理成本与延迟要求,或在保持 INT4 量化的基础上进一步移除冗余专家,从而在模型精度与推理效率之间取得更优平衡。这种即插即用的特性让大型语言模型的服务化变得更经济可行。
数据集最近研究
最新研究方向
该数据集聚焦于大规模混合专家模型(MoE)的剪枝与压缩前沿,通过REAP层间观测器捕获Kimi-K2.6(参数量约1.026万亿)的逐层专家路由与激活统计信息,为无需重新校准的单次专家剪枝提供关键数据支撑。当前研究热点在于如何基于此类观测数据实现高压缩比下的模型性能保持,尤其在DeepSeek-V3架构的INT4量化背景下,该工作为万亿级MoE模型的高效部署开辟了新路径。关联热门事件如ICLR 2026收录的REAP论文,标志着专家剪枝从理论走向实用化,极大的降低了大模型推理成本,对推动AI民主化与边缘侧部署具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作