Quantuzo
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/burakaydinofficial/Quantuzo
下载链接
链接失效反馈官方服务:
资源简介:
Quantuzo是一个用于评估KV缓存量化级别对软件工程任务影响的基准数据集。该数据集通过使用SWE-bench框架,测量不同KV缓存配置(如q8_0、q5_0、q4_0等)对模型在实际编码任务中表现的影响。数据集包含运行记录、元数据、预测结果和评估日志,结构清晰,便于程序化访问。每个运行记录包含模型名称、KV缓存类型、上下文大小、加速器类型、代理版本等字段,并统计了任务解决率、失败率和错误率。该数据集适用于研究模型量化对代码生成和理解能力的影响,尤其适用于需要在有限硬件资源上运行大型模型的场景。
创建时间:
2026-02-27
原始信息汇总
Quantuzo: KV Cache Quantization Benchmark 数据集概述
数据集基本信息
- 数据集名称: Quantuzo: KV Cache Quantization Benchmark
- 数据集地址: https://huggingface.co/datasets/burakaydinofficial/Quantuzo
- 许可证: MIT
- 任务类别: 文本生成
- 标签: 基准测试, llama-cpp, kv-cache, 量化, swe-bench, swe-agent, 代码生成
研究目标
评估在 llama.cpp 中,KV 缓存量化级别对模型在真实世界软件工程任务中编码能力的影响。该数据集通过在不同 KV 缓存配置下运行相同的 SWE-bench 评估来提供实证结果。
评估方法
- 推理: 使用 llama.cpp 通过
--cache-type-k和--cache-type-v参数配置 KV 缓存量化来服务 GGUF 模型。 - 智能体: 使用 mini-SWE-agent 通过智能体循环生成补丁。
- 评估: 使用 SWE-bench 测试工具,针对真实测试套件运行生成的补丁。
- 上下文: 所有运行均使用 64K 令牌上下文以确保可比性。
数据集结构
Quantuzo/ ├── README.md ├── leaderboard.jsonl # 每行一个运行记录的 JSON(用于程序化访问) └── runs/ └── {run_id}/ ├── metadata.json # 运行配置 ├── preds.json # 智能体预测(以 instance_id 为键) ├── swebench_predictions.json # SWE-bench 测试工具格式 ├── evaluation_results.json # 完整的评估结果 ├── {instance_id}/ # 每个实例的轨迹数据 ├── run.log # 完整运行日志 └── minisweagent.log # 智能体日志
排行榜模式
leaderboard.jsonl 中每一行包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
| run_id | 字符串 | 唯一运行标识符 |
| timestamp | 字符串 | ISO 8601 UTC 时间戳 |
| model_name | 字符串 | 模型名称 |
| model_file | 字符串 | GGUF 文件名 |
| kv_type_k | 字符串 | KV 缓存键类型 (f16, q8_0, q5_0, q4_0) |
| kv_type_v | 字符串 | KV 缓存值类型 (f16, q8_0, q5_0, q4_0) |
| ctx_size | 整数 | 上下文大小(令牌数) |
| accelerator | 字符串 | cpu 或 gpu |
| agent_version | 字符串 | mini-swe-agent 版本 |
| agent_branch | 字符串 | 智能体分支 (v1/v2) |
| benchmark | 字符串 | 基准测试变体 (swe-bench-lite 等) |
| total | 整数 | 数据集中的总实例数 |
| resolved | 整数 | 补丁通过测试的实例数 |
| failed | 整数 | 补丁未通过测试的实例数 |
| error | 整数 | 评估出错的实例数 |
| rate | 浮点数 | 解决率 (%) |
KV 缓存配置
| 配置 | KV_TYPE_K | KV_TYPE_V | 相对内存占用 |
|---|---|---|---|
| f16 | f16 | f16 | 100% (基线) |
| q8 | q8_0 | q8_0 | ~75% |
| q5 | q5_0 | q5_0 | ~69% |
| q8-q4 | q8_0 | q4_0 | ~69% |
| q4 | q4_0 | q4_0 | ~63% |
使用方式
可通过 huggingface_hub 库下载 leaderboard.jsonl 文件并加载 JSON 数据进行分析。
源代码
完整的基准测试基础设施是开源的:https://github.com/burakaydinofficial/Quantuzo
搜集汇总
数据集介绍
构建方式
在量化计算与软件工程交叉领域,Quantuzo数据集的构建采用了一套严谨的实证研究流程。其核心方法是将llama.cpp框架中可配置的KV缓存量化技术,通过OpenAI兼容的API与mini-SWE-agent智能体相连接,最终在标准的SWE-bench评估框架下进行测试。整个流程确保了在64K令牌的固定上下文窗口内,仅改变KV缓存的量化级别(如f16、q8_0、q4_0),而保持模型权重、智能体策略与测试集不变,从而精准隔离并量化了缓存压缩对模型代码生成与问题解决能力的影响。
特点
该数据集的核心特点在于其面向真实世界软件工程任务的评估导向。区别于传统合成基准测试,Quantuzo要求模型在完整的代码仓库环境中进行浏览、理解、编写补丁并通过测试套件验证,从而提供了更贴近实际开发场景的性能度量。数据集结构清晰,包含完整的运行元数据、预测轨迹和评估结果,并以leaderboard.jsonl文件提供了标准化的、可编程访问的汇总视图,便于对不同KV缓存配置下的模型分辨率进行横向比较与分析。
使用方法
研究人员可通过Hugging Face Hub直接下载数据集的leaderboard.jsonl文件,使用简单的Python脚本即可加载并遍历所有实验运行记录。每条记录详细包含了模型名称、KV缓存量化类型、上下文大小、加速器类型以及关键的解决率等指标,使得用户能够快速分析不同量化配置对模型在SWE-bench任务上性能的影响。此外,数据集配套的开源代码库提供了完整的基准测试基础设施,支持用户复现实验或扩展新的评估配置。
背景与挑战
背景概述
在大型语言模型推理优化领域,键值(KV)缓存量化技术是缓解显存瓶颈、提升模型部署效率的关键手段。Quantuzo数据集由burakaydinofficial团队于近期创建,其核心研究问题聚焦于探究不同KV缓存量化配置对模型实际代码生成与软件工程任务解决能力的影响。该数据集以SWE-bench为评估基准,通过严谨的实验设计,系统比较了从f16到q4_0等多种量化级别下模型的性能表现,为模型压缩与保持能力之间的权衡提供了实证依据,对推动高效、可靠的代码生成模型部署具有重要参考价值。
当前挑战
Quantuzo数据集旨在应对的领域挑战,在于量化压缩技术可能损害模型复杂推理能力的风险,特别是在需要精确理解代码语义、生成功能性补丁的软件工程任务中。其构建过程同样面临多重挑战:需在严格控制其他变量的前提下,设计可复现的端到端评估流水线,整合llama.cpp推理后端、mini-SWE-agent代理框架与SWE-bench测试套件;同时,确保长达64K令牌的上下文一致性,并对海量实验产生的轨迹数据与评估结果进行系统化组织与标准化记录,以保障数据分析的可靠性与可比性。
常用场景
经典使用场景
在大型语言模型推理优化领域,Quantuzo数据集为评估KV缓存量化对代码生成能力的影响提供了基准测试框架。该数据集通过整合llama.cpp的KV缓存量化配置与SWE-bench的软件工程任务,系统性地测量不同量化级别(如q8_0、q4_0)下模型在真实代码修复场景中的性能表现。研究人员利用该数据集可对比模型在保持上下文一致性的条件下,量化压缩导致的精度损失与内存节省之间的权衡关系,为模型部署中的硬件资源优化提供实证依据。
解决学术问题
Quantuzo数据集旨在解决KV缓存量化对模型推理能力影响的实证研究问题,填补了传统合成基准测试与真实软件工程任务之间的评估空白。通过控制变量实验设计,该数据集量化了不同量化配置下模型在代码理解、补丁生成和测试通过率等方面的性能衰减,为模型压缩领域的学术研究提供了可复现的数据支撑。其意义在于推动了高效推理技术与模型能力保持之间的平衡研究,促进了资源受限环境下大模型实际应用的理论探索。
衍生相关工作
Quantuzo数据集衍生的经典工作包括对llama.cpp量化模块的改进研究,以及基于SWE-bench的轻量化代理架构优化。相关研究通过分析该数据集提供的轨迹数据,开发了自适应量化策略以动态平衡内存占用与代码生成精度。此外,该数据集还促进了跨模型量化泛化能力的探索,为后续如KV缓存混合精度量化、硬件感知压缩算法等方向提供了实验基础,推动了高效推理生态系统的标准化进程。
以上内容由遇见数据集搜集并总结生成



