christopherthompson81/quant_exploration
收藏Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/christopherthompson81/quant_exploration
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个关于LLM(大语言模型)量化影响的比较分析,特别是针对Llama.cpp量化在单个2x7B模型上的定性性能退化。数据集详细介绍了量化相关的两个关键指标:困惑度(perplexity)和压缩率(compression),并提供了不同量化方法下的性能对比。此外,数据集还描述了测试设置,包括使用的模型、量化过程、输入数据以及测试命令。
This dataset is a comparative analysis document examining the impact of Llama.cpp quantization on qualitative performance degradation within a single 2x7B model. It focuses on the effects of quantization on model outputs, particularly through the metrics of perplexity and compression. The dataset details the performance changes across various quantization levels, including increases in perplexity and reductions in model size. Additionally, it includes descriptions of the test setup, such as the model used, quantization methods, and input prompts, as well as the performance of different quantization levels in terms of correctness and reliability of responses.
提供机构:
christopherthompson81
原始信息汇总
数据集概述
基本信息
- 许可证: GPL-2.0
- 任务类别: 文本生成
- 语言: 英语
- 名称: Examining LLM Quantization Impact
- 大小类别: n<1K
数据集描述
该数据集用于比较分析Llama.cpp量化在一个2x7B模型中的定性性能退化。目的是帮助不熟悉量化影响的人了解量化如何影响输出。
量化指标
量化模型用户关心的两个指标是“困惑度”和“压缩率”。量化模型会导致困惑度增加和大小减小。困惑度的增加会复合地降低写作质量,因此最小化困惑度的变化(Δppl)是高度优先的。尽管如此,较小的模型运行速度更快且资源消耗更少。
量化表
| Quant | Δppl | Compression |
|---|---|---|
| F16/F32 | N/A | N/A |
| Q8_0 | +0.0004 | 46.87% |
| Q6_K | +0.0008 | 58.98% |
| Q5_K_M | +0.0122 | 64.55% |
| Q5_1 | +0.0349 | 62.46% |
| Q5_K_S | +0.0400 | 65.55% |
| Q4_K_M | +0.0532 | 69.79% |
| Q5_0 | +0.0683 | 65.44% |
| Q4_K_S | +0.0992 | 71.50% |
| Q4_1 | +0.1585 | 68.64% |
| Q3_K_L | +0.1764 | 73.88% |
| Q4_0 | +0.2166 | 71.62% |
| Q3_K_M | +0.2496 | 75.91% |
| Q3_K_S | +0.5551 | 78.31% |
| Q3_K_XS | 3-bit extra small quantization | 79.69% |
| IQ3_XXS | 3.06 bpw quantization | 80.35% |
| Q2_K | +0.6717 | 81.52% |
| Q2_K_S | +9.0634 | 82.79% |
| IQ2_XS | 2.31 bpw quantization | 85.10% |
| IQ2_XXS | 2.06 bpw quantization | 86.56% |
测试设置
模型
使用TomGrc/FusionNet_7Bx2_MoE_14B模型。
量化过程
- 使用llama.cpp:convert.py将模型转换为f16 GGUF。
- 使用wikitext-2-raw/wiki.train.raw计算重要性矩阵。
- 使用llama.cpp:quantize将f16模型量化为各种量化级别。
输入
创建了一个文件prompts/logic_precidence_inference.txt,包含一个测试AI推理能力的交互式问题。
命令
使用特定命令运行模型,以观察不同量化级别的输出变化。
量化级别详细分析
F16
- 大小: 24G
- 结果: 非量化模型,提供了正确和错误的答案示例。
Q8_0
- 大小: 13G
- 结果: 表现与非量化模型大致相同,提供了正确和错误的答案示例。
Q6_K
- 大小: 9.9G
- 结果: 表现最佳,甚至优于非量化模型,没有错误的答案或拒绝。
Q5_K_M
- 大小: 8.6G
- 结果: 提供了拒绝和错误的答案,但纯文本表现完美。
Q5_1
- 大小: 9.1G
- 结果: 长形式写作略有减弱,纯文本结果正常。
Q5_K_S
- 大小: 8.3G
- 结果: 长形式写作不可靠,但纯文本结果良好。
Q4_K_M
- 大小: 7.3G
- 结果: 长形式答案基本正确,纯文本结果完美。
Q5_0
- 大小: 8.3G
- 结果: 长形式和纯文本都失去了一些可靠性。
Q4_K_S
- 大小: 6.9G
- 结果: 长形式行为良好,纯文本性能完美,观察到低变异性。
Q4_1
- 大小: 7.6G
- 结果: 长形式模型经常回答一个接近的问题而不是确切的问题,没有错误的答案。
Q3_K_L
- 大小: 6.3G
- 结果: 没有错误的或拒绝的长形式答案,纯文本性能略有下降。
Q4_0
- 大小: 6.9G
- 结果: 长形式答案均匀分布在分类中,意味着不总是给出正确的答案,纯文本性能完美。
Q3_K_M
- 大小: 5.8G
- 结果: 纯文本性能良好,即使不是所有答案都正确。
Q3_K_S
- 大小: 5.3G
- 结果: 长形式输出大多正确,纯文本输出大多错误。
Q3_K_XS
- 大小: 4.9G
- 结果: 长形式没有错误的答案或拒绝,纯文本性能较差。
IQ3_XXS
- 大小: 4.8G
- 结果: 长形式没有错误的答案或拒绝,纯文本性能良好。
Q2_K
- 大小: 4.5G
- 结果: 长形式没有错误的答案或拒绝,纯文本性能较差。
Q2_K_S
- 大小: 4.2G
- 结果: 答案通常是混合语言(法语、代码、无空格)和拒绝,从未给出正确答案。



