kimi-mtp-dataset
收藏Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/lightseekorg/kimi-mtp-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于训练Kimi-K2.5的Eagle3 MTP草案模型的指令遵循数据,通过TorchSpec实现。所有响应均通过Engine运行Kimi-K2.5重新生成,而非直接取自原始数据集,这对于推测性解码训练至关重要,因为草案模型必须学习目标模型的精确令牌级分布。数据集共包含476,904个样本,来源于多个开源数据集,每个样本包含两个字段:'conversations'(包含对话轮次,每轮次有'from'和'value'字段)和'source'(标识原始数据集名称)。数据格式支持多模态样本(使用OpenAI视觉格式)和函数调用样本(使用Kimi-K2.5的特殊令牌格式)。数据集采用Apache 2.0许可证,适用于推测性解码和草案模型训练任务。
创建时间:
2026-03-06
原始信息汇总
Kimi-K2.5 Eagle3 训练数据集概述
数据集基本信息
- 数据集名称: Kimi-K2.5 Eagle3 Training Data
- 发布者: lightseekorg
- 许可证: Apache 2.0
- 支持语言: 英语 (en)、中文 (zh)
- 标签: speculative-decoding, eagle3, kimi-k2.5, draft-model, conversations
数据集内容与用途
- 核心用途: 用于训练一个针对 Kimi-K2.5 模型的 Eagle3 MTP 草稿模型,以配合 TorchSpec 项目进行推测解码。
- 数据生成: 所有回复均通过 Kimi-K2.5 模型引擎重新生成,而非直接取自原始数据集。这对于推测解码训练至关重要,因为草稿模型必须学习目标模型在词元级别的精确分布。
- 关联模型: 训练完成的 Eagle3 草稿模型位于 https://huggingface.co/lightseekorg/kimi-k2.5-eagle3。
数据结构与特征
- 数据格式: 每个样本包含两个字段。
- 特征:
conversations: 一个对话轮次列表,每个轮次包含from(取值为human、gpt或system)和value(字符串)字段。source: 源数据集的名称(参见数据源表格)。
- 数据量:
- 训练集 (train): 476,904 个样本。
数据源构成
数据集由多个公开数据集混合并重新生成,具体来源与样本数如下:
| 数据集 | 源标识 | 样本数量 |
|---|---|---|
| https://huggingface.co/datasets/mlabonne/open-perfectblend | perfectblend |
296,034 |
| https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K | llava_instruct |
123,102 |
| https://huggingface.co/datasets/HuggingFaceTB/smoltalk | smoltalk_cn |
48,333 |
| https://huggingface.co/datasets/daviddjtzafon/continual-tool-kimi-k2.5 | continual_tool_kimi |
4,370 |
| https://huggingface.co/datasets/crownelius/KimiK2.5-2000x-formatted | kimi_2000x |
2,144 |
| https://huggingface.co/datasets/crownelius/Creative-Writing-KimiK2.5-Cleaned | creative_writing |
1,393 |
| https://huggingface.co/datasets/DCAgent2/terminal_bench_2__together_ai_moonshotai_Kimi-K2.5_20260203 | dcagent |
873 |
| https://huggingface.co/datasets/crownelius/Creative-Writing-Reasoning-KimiK2.5-600x | creative_writing_reasoning |
655 |
| 总计 | 476,904 |
特殊数据格式说明
- 多模态样本 (
llava_instruct):value字段使用 OpenAI 视觉格式(包含image_url和text对象的列表),其中本地图像路径已替换为公共 COCO URL (http://images.cocodataset.org/train2017/{filename})。 - 函数调用样本 (
continual_tool_kimi): 使用 Kimi-K2.5 的特殊词元格式来表示工具调用。工具结果被序列化为带有## Return of {call_id}前缀的human对话轮次。
训练与参考
完整的训练方法、配置和评估结果请参考 TorchSpec 项目:https://github.com/torchspec-project/TorchSpec。
搜集汇总
数据集介绍
构建方式
在推测解码技术领域,数据集的构建需确保草稿模型能够精确学习目标模型的令牌级分布。本数据集通过Kimi-K2.5引擎重新生成所有响应,而非直接采用原始数据,这一过程保证了草稿模型与目标模型在输出分布上的一致性。数据来源于多个开源指令遵循数据集,包括mlabonne/open-perfectblend和liuhaotian/LLaVA-Instruct-150K等,经过筛选与整合,最终形成了包含476,904个样本的训练集,涵盖了文本对话、多模态输入及工具调用等多种交互形式。
特点
该数据集的特点在于其专门为训练Eagle3多令牌预测草稿模型而设计,支持推测解码以加速Kimi-K2.5推理。数据格式统一,每个样本包含对话列表和来源标识,其中对话采用人类与模型交替的轮次结构,并保留了原始数据集的多样性。特别地,多模态样本整合了OpenAI视觉格式,将本地图像路径替换为公共COCO URL,而工具调用样本则采用Kimi-K2.5的特殊令牌格式,确保了复杂交互场景的准确表示。数据集语言涵盖英文和中文,增强了其跨语言适用性。
使用方法
使用本数据集时,研究人员可将其直接应用于训练推测解码中的草稿模型,以提升大型语言模型的推理效率。数据以JSON格式组织,便于加载与处理,训练时需遵循TorchSpec项目提供的完整配方和配置。对于多模态样本,需注意图像URL的远程访问;工具调用样本则要求解析特殊令牌序列以模拟真实交互。数据集采用Apache 2.0许可证,允许商业和研究用途,用户应确保遵守各源数据集的许可条款,并在使用衍生模型时引用相关项目。
背景与挑战
背景概述
在大型语言模型推理加速领域,推测解码技术通过引入草稿模型预测目标模型的输出分布,从而显著降低推理延迟。Kimi-MTP数据集由TorchSpec项目团队于近期构建,专门用于训练服务于Kimi-K2.5模型的Eagle3草稿模型。该数据集的核心研究问题在于如何精准对齐草稿模型与目标模型在词元级别的概率分布,以确保推测解码的有效性。其构建基于多个开源指令遵循数据集,通过Kimi-K2.5引擎重新生成全部响应,共计包含约47.7万条多轮对话样本,涵盖了通用指令、视觉语言及工具调用等多种任务类型,为高效推理系统的开发提供了关键的训练资源。
当前挑战
该数据集旨在解决推测解码中草稿模型训练的核心挑战,即确保草稿模型能够精确模仿目标模型的输出分布,任何细微的分布偏差都可能导致解码失败或质量下降。在构建过程中,面临多重实际困难:首先,由于需要调用大型目标模型进行响应重新生成,产生了极高的计算资源与成本开销;其次,源数据集合了多种格式,包括多轮对话、视觉语言数据及特殊工具调用标记,需要进行复杂的数据清洗与统一格式化处理;此外,部分源数据集因资源限制仅能部分采样,可能影响最终数据集的覆盖广度与平衡性。
常用场景
经典使用场景
在大型语言模型推理加速领域,kimi-mtp-dataset作为训练草稿模型的核心数据源,其经典使用场景聚焦于推测解码技术的实现。该数据集通过重新生成Kimi-K2.5模型的响应,精确捕捉目标模型的词元级分布,从而训练出高效的Eagle3草稿模型。这一过程使得草稿模型能够预测主模型的输出序列,在保持生成质量的同时显著降低推理延迟,为资源密集型的大规模语言模型部署提供了关键技术支撑。
解决学术问题
该数据集主要解决了推测解码中草稿模型与目标模型分布对齐的学术难题。传统方法中,草稿模型若基于原始数据训练,难以精确匹配目标模型的内部表示,导致加速效果受限。kimi-mtp-dataset通过引擎重新生成响应,确保了数据分布的一致性,使草稿模型能够学习到目标模型的真实生成模式。这一创新不仅提升了推测解码的准确性与效率,也为模型压缩与推理优化领域提供了可靠的数据基准,推动了高效推理技术的发展。
衍生相关工作
围绕该数据集衍生的经典工作主要包括TorchSpec项目框架下的Eagle3草稿模型训练与优化。基于数据集构建的lightseekorg/kimi-k2.5-eagle3模型已成为推测解码领域的代表性成果,为后续研究提供了可复现的基准。此外,数据集融合的多源指令数据启发了跨领域草稿模型的适配研究,促进了在创意写作、推理任务等垂直场景中的加速技术探索,推动了推测解码与模型协同推理方向的学术进展。
以上内容由遇见数据集搜集并总结生成



