qwen36-mtp-turbo-kv-analysis
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/sjakek/qwen36-mtp-turbo-kv-analysis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个针对Qwen3.6-35B-A3B MTP GGUF模型在Windows CUDA平台上进行本地推理实验的精选分析工件,旨在比较三种不同的llama.cpp运行时(clean MTP llama.cpp、QuinsZouls llama-next TurboQuant和Atomic TurboQuant)在固定64k上下文、MoE CPU卸载和Unsloth对齐采样设置下的性能。数据集包含两种测量模式:重复短任务基准测试和探索性累积长输出曲线。核心数据集由2,520个已完成的定时请求实例组成,涵盖70,440个测量的提示词元和1,005,361个测量的生成词元。每个已完成的配置使用21个提示案例,每个案例重复10次,平均每个请求包含约28个提示词元和399个生成词元。提示集专注于编码、代理推理和推理运行时分析等应用场景,包括Python、C++、TypeScript、Rust、SQL、CUDA调试、API合约设计、性能审查、安全审查、JSON转换、架构权衡分析、数学、翻译、事实问答和短创意生成等任务。该数据集适用于评估本地编码助手和技术代理工作负载的性能,特别是那些每轮产生几百个输出词元的场景。数据集还包含详细的配置信息、统计比较结果、代码级运行时分析以及可视化图表。需要注意的是,结果基于特定硬件环境(单个Windows CUDA工作站),且主机RAM速度可能影响性能。
This dataset is a curated analysis artifact for local inference experiments on the Qwen3.6-35B-A3B MTP GGUF model on the Windows CUDA platform. Its main purpose is to compare the performance of three different llama.cpp runtimes (clean MTP llama.cpp, QuinsZouls llama-next TurboQuant, and Atomic TurboQuant) under fixed 64k context, MoE CPU offloading, and Unsloth aligned sampling settings. The dataset includes two measurement modes: repetitive short-task benchmarking and exploratory cumulative long-output curves. The core dataset consists of 2,520 completed timed request instances, covering 70,440 measured prompt tokens and 1,005,361 measured generation tokens. Each completed configuration uses 21 prompt cases, each repeated 10 times, with an average of about 28 prompt tokens and 399 generation tokens per request. The prompt set focuses on application scenarios such as coding, agent reasoning, and inference runtime analysis, including tasks like Python, C++, TypeScript, Rust, SQL, CUDA debugging, API contract design, performance review, security review, JSON conversion, architecture trade-off analysis, mathematics, translation, factual Q&A, and short creative generation. This dataset is suitable for evaluating the performance of local coding assistants and technical agent workloads, especially those that produce a few hundred output tokens per round. The dataset also includes detailed configuration information, statistical comparison results, code-level runtime analysis, and visual charts. Note that the results are based on a specific hardware environment (a single Windows CUDA workstation), and host RAM speed may affect performance.
创建时间:
2026-05-15
原始信息汇总
数据集概述:Qwen3.6 MTP Turbo KV 运行时分析
数据集基本信息
- 数据集名称: Qwen3.6 MTP Turbo KV Runtime Analysis
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 英语
- 数据规模: n<1K
- 标签: qwen3.6, llama.cpp, mtp, turboquant, kv-cache, benchmark, local-inference, gguf
数据集目的与范围
该数据集是针对本地 Qwen3.6-35B-A3B MTP GGUF 推理实验的精选分析成果,在 Windows CUDA 环境下比较了以下三种运行时实现的性能:
- 纯净 MTP llama.cpp
- QuinsZouls 的 llama-next TurboQuant
- Atomic TurboQuant 的已完成子集
工作负载特征
数据集包含两种测量模式:
| 模式 | 目的 | 样本结构 | 用于主要统计结论? |
|---|---|---|---|
| 重复短任务基准测试 | 在受控编码/技术提示下比较运行吞吐量 | 21个提示案例 × 10次重复 = 每个完成配置210个计时请求 | 是 |
| 探索性累积长输出曲线 | 观察单个生成随长度增加时吞吐量如何变化 | 8个配置,在1k-8k输出里程碑采样;样本量从n=1到n=3不等 | 否 |
典型请求统计
| 指标 | 数值 |
|---|---|
| 每个完成配置的提示案例数 | 21 |
| 每个提示每个完成配置的重复次数 | 10 |
| 每个完成配置的计时请求实例数 | 210 |
| 精选配置中完成的计时请求实例总数 | 2,520 |
| 每个请求的平均测量提示令牌数 | 28.0 |
| 每个请求的平均测量生成令牌数 | 399.0 |
| 每个配置的平均生成令牌数范围 | 364.6 到 429.2 |
提示集涵盖编程、智能体推理、运行时分析等多种应用场景,包括Python、C++、TypeScript、Rust、SQL、CUDA调试、API设计、安全审查、数学、翻译、事实问答和短创意生成等任务。
主要研究结果
性能对比(基于配对百分比增量)
| 基线配置 | 对比配置 | 配对数量 | 平均增量百分比 | 标准误差 | 95%置信区间下限 | 95%置信区间上限 | 可操作? |
|---|---|---|---|---|---|---|---|
| q4_k_m_mtp_clean_q8_q8_ctx64k_moe30 | q4_k_m_mtp_quins_q8_q8_ctx64k_moe30 | 210 | 37.249 | 0.737 | 35.80 | 38.69 | 是 |
| q4_k_m_mtp_clean_q8_q8_ctx64k_moe30 | q4_k_m_mtp_atomic_q8_q8_ctx64k_moe30 | 210 | 16.419 | 2.356 | 11.80 | 21.04 | 是 |
| q4_k_m_mtp_quins_q8_turbo3_ctx64k_moe30 | q4_k_m_mtp_atomic_q8_turbo3_ctx64k_moe30 | 210 | -15.907 | 1.664 | -19.17 | -12.65 | 否 |
| iq3_xxs_mtp_clean_q8_q8_ctx64k_moe30 | iq3_xxs_mtp_quins_q8_q8_ctx64k_moe30 | 210 | 26.730 | 0.683 | 25.39 | 28.07 | 是 |
关键发现:
- QuinsZouls 的 llama-next 在可比较的 MTP 运行中是最快的运行时
- Atomic TurboQuant 在 Q4_K_M q8/q8 上相比纯净 MTP 有改进,但在完整的 Q4_K_M q8/turbo3 对比中慢于 Quins
- 纯净 MTP llama.cpp 无法直接隔离 Turbo KV 效果,因其不暴露 turbo3 或 turbo4 KV 缓存类型
测试配置
模型
q4_k_m_mtp: Qwen3.6-35B-A3B-MTP UD-Q4_K_Miq3_xxs_mtp: Qwen3.6-35B-A3B-MTP UD-IQ3_XXS
运行时二进制文件
clean: am17an/llama.cpp 纯净 MTPquins: QuinsZouls/llama-cpp-turboquant llama-next TurboQuantatomic: AtomicBot-ai/atomic-llama-cpp-turboquant
固定运行时设置
| 参数 | 值 |
|---|---|
| 上下文大小 | --ctx-size 64000 |
| MTP草稿数 | 每轮2个等效草稿令牌 |
| MoE CPU卸载 | --n-cpu-moe 30 |
| GPU层数 | --gpu-layers 99 |
| 闪存注意力 | 启用 |
| 并行槽位 | --parallel 1 |
| 多模态投影仪 | 禁用 |
采样参数:temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repeat_penalty=1.0, cache_prompt=false
主机内存:2×16 GiB Kingston DIMM,额定速度5600 MT/s,配置速度5200 MT/s
完成配置表
Q4_K_M MTP 配置
| 配置 | 运行时 | 请求K | 请求V | 实际K | 实际V | 行数 | 墙钟TPS均值 | 墙钟TPS标准误差 | 解码TPS均值 | 草稿接受率 | 预测令牌数 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| q4_k_m_mtp_clean_q8_q8_ctx64k_moe30 | clean | q8_0 | q8_0 | q8_0 | q8_0 | 210 | 45.554 | 0.464 | 49.700 | 0.986 | 82229 |
| q4_k_m_mtp_quins_q8_q8_ctx64k_moe30 | quins | q8_0 | q8_0 | q8_0 | q8_0 | 210 | 62.345 | 0.608 | 69.385 | 0.721 | 82531 |
| q4_k_m_mtp_quins_q8_turbo3_ctx64k_moe30 | quins | q8_0 | turbo3 | q8_0 | turbo3 | 210 | 61.890 | 0.601 | 68.823 | 0.714 | 81332 |
| q4_k_m_mtp_quins_q8_turbo4_ctx64k_moe30 | quins | q8_0 | turbo4 | q8_0 | turbo4 | 210 | 62.241 | 0.597 | 68.765 | 0.717 | 83962 |
| q4_k_m_mtp_quins_turbo3_turbo3_ctx64k_moe30 | quins | turbo3 | turbo3 | q8_0 | turbo3 | 210 | 61.775 | 0.603 | 68.728 | 0.714 | 81332 |
| q4_k_m_mtp_atomic_q8_q8_ctx64k_moe30 | atomic | q8_0 | q8_0 | q8_0 | q8_0 | 210 | 52.547 | 1.054 | 60.003 | 0.774 | 79631 |
| q4_k_m_mtp_atomic_q8_turbo3_ctx64k_moe30 | atomic | q8_0 | turbo3 | q8_0 | turbo3 | 210 | 52.075 | 1.094 | 60.941 | 0.770 | 76573 |
IQ3_XXS MTP 配置
| 配置 | 运行时 | 请求K | 请求V | 实际K | 实际V | 行数 | 墙钟TPS均值 | 墙钟TPS标准误差 | 解码TPS均值 | 草稿接受率 | 预测令牌数 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| iq3_xxs_mtp_clean_q8_q8_ctx64k_moe30 | clean | q8_0 | q8_0 | q8_0 | q8_0 | 210 | 42.204 | 0.416 | 45.139 | 0.986 | 86189 |
| iq3_xxs_mtp_quins_q8_q8_ctx64k_moe30 | quins | q8_0 | q8_0 | q8_0 | q8_0 | 210 | 53.311 | 0.504 | 58.014 | 0.718 | 84720 |
| iq3_xxs_mtp_quins_q8_turbo3_ctx64k_moe30 | quins | q8_0 | turbo3 | q8_0 | turbo3 | 210 | 49.616 | 0.457 | 53.623 | 0.716 | 90122 |
| iq3_xxs_mtp_quins_q8_turbo4_ctx64k_moe30 | quins | q8_0 | turbo4 | q8_0 | turbo4 | 210 | 48.286 | 0.446 | 52.505 | 0.720 | 86618 |
| iq3_xxs_mtp_quins_turbo3_turbo3_ctx64k_moe30 | quins | turbo3 | turbo3 | q8_0 | turbo3 | 210 | 51.746 | 0.466 | 55.966 | 0.716 | 90122 |
数据排除与清理
| 排除项 | 原因 |
|---|---|
| Atomic q8/turbo4及后续分支行 | 因用户要求结束而中断 |
| 长解码曲线声明 | 合成10k输入提示令牌化后约22.9k令牌,不可与预期10k输入条件比较 |
| 纯净运行时Turbo KV行 | 不可执行:纯净MTP llama.cpp帮助不暴露turbo3/turbo4缓存类型 |
| TheTom和本地TQ3行 | 能力探测发现Turbo KV但无Qwen MTP/NextN规范模式 |
统计方法
- 每个完成的短运行配置使用21个提示和10次重复,每个完成配置产生210个计时行
- 配对比较按(prompt_id, repeat_id, seed)匹配行
- 报告的不确定性:墙钟令牌/秒均值、均值的标准误差(SEM=sd/sqrt(n))、基于配对百分比增量的正态近似95%置信区间
- 可操作标准:n≥90对且95%置信区间下限>+2%墙钟吞吐量
限制
- 结果针对特定硬件,未经在其它GPU上重跑不应泛化
- 主机RAM配置为5200 MT/s,更快的RAM理论上可改善MoE卸载配置,但未直接测试
- 长输出曲线因合成提示令牌化问题被排除
- Atomic q8/turbo4及后续分支行因中断被排除
- 质量评估为轻量级,应视为合理性检查而非完整评估
数据集文件
README.md: Hugging Face风格分析卡片index.html: 更丰富的可视化报告analysis/mtp-runtime-code-comparison.md: 代码级教学附录analysis/high-level-analysis-and-tweet-thread.md: 高层次发现总结analysis/workload-scope-and-relevance.md: 提示形状、请求数量及实际相关性说明data/curated_summary.csv: 完成和未支持的配置汇总data/curated_paired_comparisons.csv: 配对统计比较data/curated_exclusions.csv: 排除行及理由data/curated_results.json: JSON格式精选结果assets/*.png: Hugging Face报告中使用的图表assets/*.svg: 保留用于本地检查的SVG源版本data/exploratory_long_decode_curve.csv: 探索性长解码曲线聚合数据data/exploratory_long_decode_curve_raw.csv: 原始流式每1k令牌标记数据
搜集汇总
数据集介绍

构建方式
本数据集是针对Qwen3.6-35B-A3B MTP模型在Windows CUDA环境下进行本地推理性能对比的分析产物。研究选取了三种运行时方案:干净的MTP llama.cpp、QuinsZouls的llama-next TurboQuant以及Atomic的TurboQuant子集,在固定64k上下文、MoE CPU卸载及Unsloth对齐采样设置下展开系统性基准测试。数据集仅保留完成且具有可比性的短时计时行,明确记录所有排除项,最终经由三次重复与21组提示的210次请求实例,共生成2520条定时记录、70440个测量提示令牌及1005361个测量生成令牌,确保了统计对比的有效性与严谨性。
特点
该数据集的核心特色在于对多令牌预测运行时策略与Turbo KV缓存压缩效果进行精细解耦分析。通过配对比较相同提示与种子下的运行时间,量化了Quins分支在Q8/Q8配置下较干净MTP实现高达37.2%的吞吐量提升,并揭示其加速主要源于专用MTP架构覆写、目标上下文直接注册及贪婪top-1草稿策略,而非单纯的KV缓存压缩。此外,数据还报告了原子TurboQuant在Q4_K_M Q8/Q8配置下带来的16.4%提升,以及采用GQA感知非对称缓存保护的安全策略,具备清晰的统计置信区间与可操作判定标准。
使用方法
使用者可直接从HuggingFace仓库下载经过筛选的CSV与JSON格式结果文件,包括完成配置汇总、配对统计比较及排除行说明。数据集适用于本地编码助手与技术型工作负载的推理性能分析,建议关注已完成的短输入中等输出场景。如需深入理解运行时差异,可查阅附带的代码级对比分析文档及图片可视化。由于结果基于单台Windows CUDA工作站,跨硬件泛化前需自行复现,且长输出曲线部分因条件不匹配仅作探索性参考,不宜用于基准宣称。
背景与挑战
背景概述
该数据集由社区研究者于2024年创建,聚焦于Qwen3.6-35B-A3B-MTP模型在本地推理场景下的运行时性能分析。核心研究问题在于探究不同MTP实现(如clean MTP、QuinsZouls的llama-next TurboQuant及Atomic TurboQuant)在固定64K上下文、MoE CPU卸载及Unsloth对齐采样设置下的吞吐量差异。数据集通过2,520次完成时请求与70,440个提示令牌的受控实验,揭示了QuinsZouls分支通过优化MTP运行时策略(如贪心草稿采样与直接隐藏状态镜像)显著提升了墙钟令牌速率,为本地编码助手及技术代理工作负载提供了可复现的性能基准。该工作对推动高效MoE模型推理的工程实践具有重要参考价值。
当前挑战
当前数据集面临多重挑战。领域层面,其解决的核心问题在于本地大模型推理中多令牌预测(MTP)与KV缓存压缩的协同优化,但实验结果显示QuinsZouls的速度提升主要源于MTP运行时重构而非Turbo KV压缩,凸显了技术路径的耦合复杂性。构建过程中,挑战包括:不同运行时分支的能力差异(如clean MTP不支持Turbo KV类型)导致大量配置行被排除,需依赖详细的能力探测方能确保对比公平性;长输出曲线因提示令牌化偏差(10K输入令牌化约为22.9K)及采样早停而难以用于统计推断;此外,单工作站硬件限制(如RAM速度未作为变量扫描)与MoE CPU卸载对内存带宽的敏感性,降低了跨机器泛化性。数据质量门槛仅为轻量级合理性检查,缺乏完整的人工或基准评估,进一步限制了结论的鲁棒性。
常用场景
经典使用场景
在大型语言模型本地推理的广阔研究图景中,Qwen36-mtp-turbo-kv-analysis 数据集的核心价值在于其作为基准测试工坊的独到定位。它专门服务于对Qwen3.6-35B-A3B架构下多令牌预测(MTP)运行时性能的精细剖析,尤其聚焦于不同推理框架——如原生llama.cpp、QuinsZouls的TurboQuant分支以及Atomic TurboQuant——在固定64k上下文窗口及MoE CPU卸载条件下的吞吐量对比。该数据集通过精心设计的21条编程与技术类提示词与10次重复实验,构建了2520条可比较的短时推理时序记录,为衡量和改进本地编码助手与智能体工作负载中的推理效率提供了坚实的量化基石。其最经典的用法,便是在受控环境中系统性地评估不同MTP执行策略与KV缓存压缩方案对生成速度的真实影响。
衍生相关工作
该数据集作为一项精细的运行时分析工事,本身便是多项前沿工作的交汇与衍生物。它直接依据并扩展了llama.cpp、QuinsZouls的llama-next TurboQuant以及Atomic Bot的atomic-llama-cpp-turboquant等多个开源推理框架的核心实现。数据集的构建促使了对这些框架核心代码(如MTP架构覆盖、KV上下文注册、隐藏状态镜像钩子等)的深入对比分析,催生了详尽的教学附录与代码级比较文档。更重要的是,其结论——MTP执行策略而非单纯KV压缩决定了推理效率的增量——为后续研究指明了方向,衍生出诸如分离并独立消融草案采样策略与MTP传递路径等系列假设,以期最终揭示因果关系的本质。这份工作因此构成了一篇活的实证备忘录,不断激发着对推测解码、KV缓存压缩与架构感知推理优化之间协同效应的进一步探索。
数据集最近研究
最新研究方向
当前,基于Qwen3.6多令牌预测(MTP)架构的本地推理优化研究正聚焦于运行效率与缓存压缩技术的交叉领域。该数据集通过对比llama.cpp原生MTP、QuinsZouls的TurboQuant以及Atomic TurboQuant三种运行时在固定64k上下文下的表现,揭示了推理加速的新路径。研究发现,Quins fork因采用专用的MTP架构重载、贪婪式草稿生成及隐藏状态镜像机制,在Q4_K_M量化方案下实现了高达37.25%的吞吐量提升,其核心驱动力并非来自Turbo KV缓存压缩,而是更激进的MTP执行策略。这一发现挑战了以往过度依赖缓存压缩的优化思路,为面向代码生成和智能体推理的本地大模型部署提供了可复现的基准参考,也凸显了高分组查询注意力(GQA)模型下缓存安全策略的重要性,对边缘端高效推理技术的发展具有启示意义。
以上内容由遇见数据集搜集并总结生成



