QwQ-32B-abliterated-131k-GGUF-Yarn-Imatrix

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/magiccodingman/QwQ-32B-abliterated-131k-GGUF-Yarn-Imatrix

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练QwQ-32B-Abliterated模型，包含约1600万个token，来自anon8231489123/ShareGPT_Vicuna_unfiltered数据集，经过过滤移除了表示拒绝的表述，如“I'm sorry”。此外，还包括约30万个自定义编写的提示，用于增强JSON结构稳定性，提高多智能体编排的连续性，以及强化子文本、语调约束和世界一致性行为。

创建时间：

2025-05-27

原始信息汇总

QwQ-32B-Abliterated-131k-GGUF-Yarn-Imatrix 数据集概述

基本信息

基础模型: Qwen/QwQ-32B
许可证: MIT
标签: gguf, llama.cpp, text-generation, quantized, yarn, qwq, qwq32b, qwq-32b
大小类别: 10M<n<100M
语言: 英语 (en)
名称: QwQ-32B Abliterated (131k Context, GGUF, YaRN, Imatrix)

模型目标

长格式JSON输出跟踪（超过25k tokens）
复杂模式约束下的指令跟随
无情感干扰或犹豫的推理
在Q6、Q5（可能Q4）量化下的模拟稳定性

模型构建

Abliteration: 使用Sumandora/remove-refusals-with-transformers
Imatrix微调: 约16M tokens（包括约300k自定义编排调整tokens）
Yarn补丁: 支持131,072 tokens上下文长度
FP16保留的GGUF张量权重: 所有层
自定义llama.cpp构建: commit b5456 from ggml-org/llama.cpp
原始模型: https://huggingface.co/huihui-ai/QwQ-32B-abliterated

量化与模型策略

使用llama-quantize.exe（llama.cpp b5456）量化
所有变体包括：
- --token-embedding-type f16
- --output-tensor-type f16
- 所有64层的手动FP16覆盖（注意力/前馈权重+偏置）
- 通过自定义脚本在层0、63和中间层应用特定层覆盖
**Imatrix .dat训练（约16M tokens）**注入到Q6及以下
Q8排除在Imatrix之外，但保留所有FP16增强

Yarn元数据补丁

修补gguf_writer以注入Yarn元数据，支持131,072 tokens上下文长度

模型变体

模型变体	量化类型	文件大小	描述
QwQ-32B-Abliterated-Q8	Q8_0	35.4 GB	接近FP16的保真度，处理完整的131k上下文
QwQ-32B-Abliterated-Q6	Q6_K	28 GB	适用于详细模拟和JSON编排（高达~64k）
QwQ-32B-Abliterated-Q5	Q5_K_M	24.6 GB	适用于中等范围任务（6k–8k tokens）
QwQ-32B-Abliterated-Q5S	Q5_K_S	24 GB	更轻量的Q5变体，开始显示退化
QwQ-32B-Abliterated-Q4	Q4_K_M	21.4 GB	适用于短形式语义输出（2k–4k范围）

基准测试

模型变体	原始分数(/65)	故障扣除	最终分数(/99)	等级
Q8_0	65	0	99	★ LEGENDARY
Q6_0	63	0	96	★★★★¾
Q5_K_M	63	–2	93	★★★★¾
Q5_K_S	60	–5	55	★★
Q4_K_M	56	–1	55	★★

Imatrix数据集

使用anon8231489123/ShareGPT_Vicuna_unfiltered数据集（Apache 2.0）
文件：ShareGPT_V3_unfiltered_cleaned_split_no_imsorry.json
约16M tokens，过滤掉“I’m sorry”等拒绝
约300,000自定义编写的prompts用于增强JSON结构稳定性、多代理编排连续性等

提示格式

txt <|im_start|>system {system_prompt}<|im_end|> <|im_start|>user {prompt}<|im_end|> <|im_start|>assistant <think>

许可证与归属

基础模型: Apache 2.0 – Qwen/QwQ-32B
数据集: Apache 2.0 – anon8231489123/ShareGPT_Vicuna_unfiltered
转换工具: Apache 2.0 – Sumandora/remove-refusals-with-transformers
量化/转换工具: Apache 2.0 – ggml-org/llama.cpp @ b5456
原始代码、元数据补丁和量化配置: MIT License

免责声明

该模型未经过审查，用于模拟、编排和自主推理，不设计用于过滤输出或遵守常规助手安全指南。请负责任地使用。

搜集汇总

数据集介绍

构建方式

QwQ-32B-Abliterated-131k-GGUF-Yarn-Imatrix数据集的构建基于Qwen/QwQ-32B模型，通过一系列高级技术优化而成。首先采用Abliteration技术移除模型中的拒绝响应，随后注入约16M tokens的Imatrix微调数据，其中包括300k自定义编排调优tokens。通过Yarn补丁技术扩展上下文长度至131,072 tokens，并采用FP16保留的GGUF张量权重。量化过程中使用llama-quantize.exe工具，并对所有64层进行手动FP16覆盖，确保在量化过程中保持语义保真度。

使用方法

使用该数据集需要配合特定的提示格式，采用<|im_start|>和<|im_end|>标记系统。建议根据任务复杂度选择适当的量化版本：Q8_0适用于超高精度编排和模拟，Q6_K适合详细模拟和JSON编排，而Q4_K_M仅推荐用于短格式语义输出。使用时需注意该模型未经审查，专为模拟和自主推理设计，不包含传统助手的安全过滤机制。所有变体都保留了完整的FP16增强功能，并可通过自定义llama.cpp构建实现最佳性能。

背景与挑战

背景概述

QwQ-32B-Abliterated-131k-GGUF-Yarn-Imatrix数据集是基于Qwen/QwQ-32B模型构建的高保真语义模拟与编排AI模型，专注于本地执行的高精度应用。该数据集由huihui-ai团队开发，旨在解决长文本生成、复杂JSON输出跟踪以及高语义保真度模拟等核心问题。通过Abliteration技术去除拒绝响应，结合Imatrix微调和Yarn补丁，该数据集支持长达131,072个标记的上下文长度，显著提升了模型在语义编排和复杂模拟环境中的表现。其影响力主要体现在为研究者和开发者提供了一个强大的本地化工具，推动了高保真语义模拟和自主推理领域的发展。

当前挑战

QwQ-32B-Abliterated-131k-GGUF-Yarn-Imatrix数据集面临多方面的挑战。在领域问题方面，如何在高量化（如Q4、Q5）条件下保持语义保真度和推理能力是一大难题，尤其是在长上下文场景中，模型容易出现性能退化。构建过程中的挑战包括：1) 量化策略的优化，需在模型大小和性能之间取得平衡；2) 长上下文支持的实现，依赖Yarn补丁和自定义脚本，技术复杂度高；3) Imatrix微调的数据准备和计算资源消耗巨大，尤其是在有限资源下完成高质量微调。这些挑战共同构成了该数据集开发中的核心难点。

常用场景

经典使用场景

在自然语言处理领域，QwQ-32B-Abliterated-131k-GGUF-Yarn-Imatrix数据集因其卓越的语义保真度和长上下文处理能力，成为复杂语义模拟和编排任务的理想选择。该数据集特别适用于需要处理长达131,072个标记的文本生成任务，如长篇对话系统、复杂JSON结构生成和多线程语义跟踪。其优化的量化策略和Yarn元数据补丁确保了在高负载环境下仍能保持稳定的性能表现。

解决学术问题

该数据集有效解决了大语言模型在长上下文处理中的语义连贯性问题，为学术研究提供了重要工具。通过引入Imatrix细调和Yarn补丁，显著提升了模型在复杂推理、多轮对话和结构化输出生成方面的能力。其创新的量化策略为模型压缩领域提供了新思路，在保持高性能的同时大幅降低了计算资源需求，对推动边缘计算和本地化AI应用具有重要意义。

实际应用

在实际应用中，该数据集支持了多种专业场景的实现。从企业级知识管理系统到复杂的游戏NPC行为模拟，其强大的语义编排能力为开发者提供了前所未有的灵活性。特别是在需要精确控制输出结构的领域，如法律文书生成、医疗报告分析和金融数据解读，该数据集展现出了卓越的实用价值。其本地化运行特性更使其成为隐私敏感场景的首选解决方案。

数据集最近研究