qwen36-mtp-turbo-kv-analysis

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/sjakek/qwen36-mtp-turbo-kv-analysis

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个针对Qwen3.6-35B-A3B MTP GGUF模型在Windows CUDA平台上进行本地推理实验的精选分析工件，旨在比较三种不同的llama.cpp运行时（clean MTP llama.cpp、QuinsZouls llama-next TurboQuant和Atomic TurboQuant）在固定64k上下文、MoE CPU卸载和Unsloth对齐采样设置下的性能。数据集包含两种测量模式：重复短任务基准测试和探索性累积长输出曲线。核心数据集由2,520个已完成的定时请求实例组成，涵盖70,440个测量的提示词元和1,005,361个测量的生成词元。每个已完成的配置使用21个提示案例，每个案例重复10次，平均每个请求包含约28个提示词元和399个生成词元。提示集专注于编码、代理推理和推理运行时分析等应用场景，包括Python、C++、TypeScript、Rust、SQL、CUDA调试、API合约设计、性能审查、安全审查、JSON转换、架构权衡分析、数学、翻译、事实问答和短创意生成等任务。该数据集适用于评估本地编码助手和技术代理工作负载的性能，特别是那些每轮产生几百个输出词元的场景。数据集还包含详细的配置信息、统计比较结果、代码级运行时分析以及可视化图表。需要注意的是，结果基于特定硬件环境（单个Windows CUDA工作站），且主机RAM速度可能影响性能。

This dataset is a curated analysis artifact for local inference experiments on the Qwen3.6-35B-A3B MTP GGUF model on the Windows CUDA platform. Its main purpose is to compare the performance of three different llama.cpp runtimes (clean MTP llama.cpp, QuinsZouls llama-next TurboQuant, and Atomic TurboQuant) under fixed 64k context, MoE CPU offloading, and Unsloth aligned sampling settings. The dataset includes two measurement modes: repetitive short-task benchmarking and exploratory cumulative long-output curves. The core dataset consists of 2,520 completed timed request instances, covering 70,440 measured prompt tokens and 1,005,361 measured generation tokens. Each completed configuration uses 21 prompt cases, each repeated 10 times, with an average of about 28 prompt tokens and 399 generation tokens per request. The prompt set focuses on application scenarios such as coding, agent reasoning, and inference runtime analysis, including tasks like Python, C++, TypeScript, Rust, SQL, CUDA debugging, API contract design, performance review, security review, JSON conversion, architecture trade-off analysis, mathematics, translation, factual Q&A, and short creative generation. This dataset is suitable for evaluating the performance of local coding assistants and technical agent workloads, especially those that produce a few hundred output tokens per round. The dataset also includes detailed configuration information, statistical comparison results, code-level runtime analysis, and visual charts. Note that the results are based on a specific hardware environment (a single Windows CUDA workstation), and host RAM speed may affect performance.

创建时间：

2026-05-15

原始信息汇总

数据集概述：Qwen3.6 MTP Turbo KV 运行时分析

数据集基本信息

数据集名称: Qwen3.6 MTP Turbo KV Runtime Analysis
许可证: Apache-2.0
任务类别: 文本生成
语言: 英语
数据规模: n<1K
标签: qwen3.6, llama.cpp, mtp, turboquant, kv-cache, benchmark, local-inference, gguf

数据集目的与范围

该数据集是针对本地 Qwen3.6-35B-A3B MTP GGUF 推理实验的精选分析成果，在 Windows CUDA 环境下比较了以下三种运行时实现的性能：

纯净 MTP llama.cpp
QuinsZouls 的 llama-next TurboQuant
Atomic TurboQuant 的已完成子集

工作负载特征

数据集包含两种测量模式：

模式	目的	样本结构	用于主要统计结论？
重复短任务基准测试	在受控编码/技术提示下比较运行吞吐量	21个提示案例 × 10次重复 = 每个完成配置210个计时请求	是
探索性累积长输出曲线	观察单个生成随长度增加时吞吐量如何变化	8个配置，在1k-8k输出里程碑采样；样本量从n=1到n=3不等	否

典型请求统计

指标	数值
每个完成配置的提示案例数	21
每个提示每个完成配置的重复次数	10
每个完成配置的计时请求实例数	210
精选配置中完成的计时请求实例总数	2,520
每个请求的平均测量提示令牌数	28.0
每个请求的平均测量生成令牌数	399.0
每个配置的平均生成令牌数范围	364.6 到 429.2

提示集涵盖编程、智能体推理、运行时分析等多种应用场景，包括Python、C++、TypeScript、Rust、SQL、CUDA调试、API设计、安全审查、数学、翻译、事实问答和短创意生成等任务。

主要研究结果

性能对比（基于配对百分比增量）

基线配置	对比配置	配对数量	平均增量百分比	标准误差	95%置信区间下限	95%置信区间上限	可操作？
q4_k_m_mtp_clean_q8_q8_ctx64k_moe30	q4_k_m_mtp_quins_q8_q8_ctx64k_moe30	210	37.249	0.737	35.80	38.69	是
q4_k_m_mtp_clean_q8_q8_ctx64k_moe30	q4_k_m_mtp_atomic_q8_q8_ctx64k_moe30	210	16.419	2.356	11.80	21.04	是
q4_k_m_mtp_quins_q8_turbo3_ctx64k_moe30	q4_k_m_mtp_atomic_q8_turbo3_ctx64k_moe30	210	-15.907	1.664	-19.17	-12.65	否
iq3_xxs_mtp_clean_q8_q8_ctx64k_moe30	iq3_xxs_mtp_quins_q8_q8_ctx64k_moe30	210	26.730	0.683	25.39	28.07	是

关键发现：

QuinsZouls 的 llama-next 在可比较的 MTP 运行中是最快的运行时
Atomic TurboQuant 在 Q4_K_M q8/q8 上相比纯净 MTP 有改进，但在完整的 Q4_K_M q8/turbo3 对比中慢于 Quins
纯净 MTP llama.cpp 无法直接隔离 Turbo KV 效果，因其不暴露 turbo3 或 turbo4 KV 缓存类型

测试配置

模型

q4_k_m_mtp: Qwen3.6-35B-A3B-MTP UD-Q4_K_M
iq3_xxs_mtp: Qwen3.6-35B-A3B-MTP UD-IQ3_XXS

运行时二进制文件

clean: am17an/llama.cpp 纯净 MTP
quins: QuinsZouls/llama-cpp-turboquant llama-next TurboQuant
atomic: AtomicBot-ai/atomic-llama-cpp-turboquant

固定运行时设置

参数	值
上下文大小	--ctx-size 64000
MTP草稿数	每轮2个等效草稿令牌
MoE CPU卸载	--n-cpu-moe 30
GPU层数	--gpu-layers 99
闪存注意力	启用
并行槽位	--parallel 1
多模态投影仪	禁用

采样参数：temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repeat_penalty=1.0, cache_prompt=false

主机内存：2×16 GiB Kingston DIMM，额定速度5600 MT/s，配置速度5200 MT/s

完成配置表

Q4_K_M MTP 配置

配置	运行时	请求K	请求V	实际K	实际V	行数	墙钟TPS均值	墙钟TPS标准误差	解码TPS均值	草稿接受率	预测令牌数
q4_k_m_mtp_clean_q8_q8_ctx64k_moe30	clean	q8_0	q8_0	q8_0	q8_0	210	45.554	0.464	49.700	0.986	82229
q4_k_m_mtp_quins_q8_q8_ctx64k_moe30	quins	q8_0	q8_0	q8_0	q8_0	210	62.345	0.608	69.385	0.721	82531
q4_k_m_mtp_quins_q8_turbo3_ctx64k_moe30	quins	q8_0	turbo3	q8_0	turbo3	210	61.890	0.601	68.823	0.714	81332
q4_k_m_mtp_quins_q8_turbo4_ctx64k_moe30	quins	q8_0	turbo4	q8_0	turbo4	210	62.241	0.597	68.765	0.717	83962
q4_k_m_mtp_quins_turbo3_turbo3_ctx64k_moe30	quins	turbo3	turbo3	q8_0	turbo3	210	61.775	0.603	68.728	0.714	81332
q4_k_m_mtp_atomic_q8_q8_ctx64k_moe30	atomic	q8_0	q8_0	q8_0	q8_0	210	52.547	1.054	60.003	0.774	79631
q4_k_m_mtp_atomic_q8_turbo3_ctx64k_moe30	atomic	q8_0	turbo3	q8_0	turbo3	210	52.075	1.094	60.941	0.770	76573

IQ3_XXS MTP 配置

配置	运行时	请求K	请求V	实际K	实际V	行数	墙钟TPS均值	墙钟TPS标准误差	解码TPS均值	草稿接受率	预测令牌数
iq3_xxs_mtp_clean_q8_q8_ctx64k_moe30	clean	q8_0	q8_0	q8_0	q8_0	210	42.204	0.416	45.139	0.986	86189
iq3_xxs_mtp_quins_q8_q8_ctx64k_moe30	quins	q8_0	q8_0	q8_0	q8_0	210	53.311	0.504	58.014	0.718	84720
iq3_xxs_mtp_quins_q8_turbo3_ctx64k_moe30	quins	q8_0	turbo3	q8_0	turbo3	210	49.616	0.457	53.623	0.716	90122
iq3_xxs_mtp_quins_q8_turbo4_ctx64k_moe30	quins	q8_0	turbo4	q8_0	turbo4	210	48.286	0.446	52.505	0.720	86618
iq3_xxs_mtp_quins_turbo3_turbo3_ctx64k_moe30	quins	turbo3	turbo3	q8_0	turbo3	210	51.746	0.466	55.966	0.716	90122

数据排除与清理

排除项	原因
Atomic q8/turbo4及后续分支行	因用户要求结束而中断
长解码曲线声明	合成10k输入提示令牌化后约22.9k令牌，不可与预期10k输入条件比较
纯净运行时Turbo KV行	不可执行：纯净MTP llama.cpp帮助不暴露turbo3/turbo4缓存类型
TheTom和本地TQ3行	能力探测发现Turbo KV但无Qwen MTP/NextN规范模式

统计方法

每个完成的短运行配置使用21个提示和10次重复，每个完成配置产生210个计时行
配对比较按(prompt_id, repeat_id, seed)匹配行
报告的不确定性：墙钟令牌/秒均值、均值的标准误差(SEM=sd/sqrt(n))、基于配对百分比增量的正态近似95%置信区间
可操作标准：n≥90对且95%置信区间下限>+2%墙钟吞吐量

限制

结果针对特定硬件，未经在其它GPU上重跑不应泛化
主机RAM配置为5200 MT/s，更快的RAM理论上可改善MoE卸载配置，但未直接测试
长输出曲线因合成提示令牌化问题被排除
Atomic q8/turbo4及后续分支行因中断被排除
质量评估为轻量级，应视为合理性检查而非完整评估

数据集文件

README.md: Hugging Face风格分析卡片
index.html: 更丰富的可视化报告
analysis/mtp-runtime-code-comparison.md: 代码级教学附录
analysis/high-level-analysis-and-tweet-thread.md: 高层次发现总结
analysis/workload-scope-and-relevance.md: 提示形状、请求数量及实际相关性说明
data/curated_summary.csv: 完成和未支持的配置汇总
data/curated_paired_comparisons.csv: 配对统计比较
data/curated_exclusions.csv: 排除行及理由
data/curated_results.json: JSON格式精选结果
assets/*.png: Hugging Face报告中使用的图表
assets/*.svg: 保留用于本地检查的SVG源版本
data/exploratory_long_decode_curve.csv: 探索性长解码曲线聚合数据
data/exploratory_long_decode_curve_raw.csv: 原始流式每1k令牌标记数据

搜集汇总

数据集介绍

构建方式

本数据集是针对Qwen3.6-35B-A3B MTP模型在Windows CUDA环境下进行本地推理性能对比的分析产物。研究选取了三种运行时方案：干净的MTP llama.cpp、QuinsZouls的llama-next TurboQuant以及Atomic的TurboQuant子集，在固定64k上下文、MoE CPU卸载及Unsloth对齐采样设置下展开系统性基准测试。数据集仅保留完成且具有可比性的短时计时行，明确记录所有排除项，最终经由三次重复与21组提示的210次请求实例，共生成2520条定时记录、70440个测量提示令牌及1005361个测量生成令牌，确保了统计对比的有效性与严谨性。

特点

该数据集的核心特色在于对多令牌预测运行时策略与Turbo KV缓存压缩效果进行精细解耦分析。通过配对比较相同提示与种子下的运行时间，量化了Quins分支在Q8/Q8配置下较干净MTP实现高达37.2%的吞吐量提升，并揭示其加速主要源于专用MTP架构覆写、目标上下文直接注册及贪婪top-1草稿策略，而非单纯的KV缓存压缩。此外，数据还报告了原子TurboQuant在Q4_K_M Q8/Q8配置下带来的16.4%提升，以及采用GQA感知非对称缓存保护的安全策略，具备清晰的统计置信区间与可操作判定标准。

使用方法

使用者可直接从HuggingFace仓库下载经过筛选的CSV与JSON格式结果文件，包括完成配置汇总、配对统计比较及排除行说明。数据集适用于本地编码助手与技术型工作负载的推理性能分析，建议关注已完成的短输入中等输出场景。如需深入理解运行时差异，可查阅附带的代码级对比分析文档及图片可视化。由于结果基于单台Windows CUDA工作站，跨硬件泛化前需自行复现，且长输出曲线部分因条件不匹配仅作探索性参考，不宜用于基准宣称。

背景与挑战

背景概述

该数据集由社区研究者于2024年创建，聚焦于Qwen3.6-35B-A3B-MTP模型在本地推理场景下的运行时性能分析。核心研究问题在于探究不同MTP实现（如clean MTP、QuinsZouls的llama-next TurboQuant及Atomic TurboQuant）在固定64K上下文、MoE CPU卸载及Unsloth对齐采样设置下的吞吐量差异。数据集通过2,520次完成时请求与70,440个提示令牌的受控实验，揭示了QuinsZouls分支通过优化MTP运行时策略（如贪心草稿采样与直接隐藏状态镜像）显著提升了墙钟令牌速率，为本地编码助手及技术代理工作负载提供了可复现的性能基准。该工作对推动高效MoE模型推理的工程实践具有重要参考价值。

当前挑战

当前数据集面临多重挑战。领域层面，其解决的核心问题在于本地大模型推理中多令牌预测（MTP）与KV缓存压缩的协同优化，但实验结果显示QuinsZouls的速度提升主要源于MTP运行时重构而非Turbo KV压缩，凸显了技术路径的耦合复杂性。构建过程中，挑战包括：不同运行时分支的能力差异（如clean MTP不支持Turbo KV类型）导致大量配置行被排除，需依赖详细的能力探测方能确保对比公平性；长输出曲线因提示令牌化偏差（10K输入令牌化约为22.9K）及采样早停而难以用于统计推断；此外，单工作站硬件限制（如RAM速度未作为变量扫描）与MoE CPU卸载对内存带宽的敏感性，降低了跨机器泛化性。数据质量门槛仅为轻量级合理性检查，缺乏完整的人工或基准评估，进一步限制了结论的鲁棒性。

常用场景

经典使用场景

在大型语言模型本地推理的广阔研究图景中，Qwen36-mtp-turbo-kv-analysis 数据集的核心价值在于其作为基准测试工坊的独到定位。它专门服务于对Qwen3.6-35B-A3B架构下多令牌预测（MTP）运行时性能的精细剖析，尤其聚焦于不同推理框架——如原生llama.cpp、QuinsZouls的TurboQuant分支以及Atomic TurboQuant——在固定64k上下文窗口及MoE CPU卸载条件下的吞吐量对比。该数据集通过精心设计的21条编程与技术类提示词与10次重复实验，构建了2520条可比较的短时推理时序记录，为衡量和改进本地编码助手与智能体工作负载中的推理效率提供了坚实的量化基石。其最经典的用法，便是在受控环境中系统性地评估不同MTP执行策略与KV缓存压缩方案对生成速度的真实影响。

衍生相关工作

该数据集作为一项精细的运行时分析工事，本身便是多项前沿工作的交汇与衍生物。它直接依据并扩展了llama.cpp、QuinsZouls的llama-next TurboQuant以及Atomic Bot的atomic-llama-cpp-turboquant等多个开源推理框架的核心实现。数据集的构建促使了对这些框架核心代码（如MTP架构覆盖、KV上下文注册、隐藏状态镜像钩子等）的深入对比分析，催生了详尽的教学附录与代码级比较文档。更重要的是，其结论——MTP执行策略而非单纯KV压缩决定了推理效率的增量——为后续研究指明了方向，衍生出诸如分离并独立消融草案采样策略与MTP传递路径等系列假设，以期最终揭示因果关系的本质。这份工作因此构成了一篇活的实证备忘录，不断激发着对推测解码、KV缓存压缩与架构感知推理优化之间协同效应的进一步探索。

数据集最近研究