christopherthompson81/quant_exploration

Name: christopherthompson81/quant_exploration
Creator: christopherthompson81
Published: 2024-02-06 21:47:29
License: 暂无描述

Hugging Face2024-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/christopherthompson81/quant_exploration

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于LLM（大语言模型）量化影响的比较分析，特别是针对Llama.cpp量化在单个2x7B模型上的定性性能退化。数据集详细介绍了量化相关的两个关键指标：困惑度（perplexity）和压缩率（compression），并提供了不同量化方法下的性能对比。此外，数据集还描述了测试设置，包括使用的模型、量化过程、输入数据以及测试命令。

This dataset is a comparative analysis document examining the impact of Llama.cpp quantization on qualitative performance degradation within a single 2x7B model. It focuses on the effects of quantization on model outputs, particularly through the metrics of perplexity and compression. The dataset details the performance changes across various quantization levels, including increases in perplexity and reductions in model size. Additionally, it includes descriptions of the test setup, such as the model used, quantization methods, and input prompts, as well as the performance of different quantization levels in terms of correctness and reliability of responses.

提供机构：

christopherthompson81

原始信息汇总

数据集概述

基本信息

许可证: GPL-2.0
任务类别: 文本生成
语言: 英语
名称: Examining LLM Quantization Impact
大小类别: n<1K

数据集描述

该数据集用于比较分析Llama.cpp量化在一个2x7B模型中的定性性能退化。目的是帮助不熟悉量化影响的人了解量化如何影响输出。

量化指标

量化模型用户关心的两个指标是“困惑度”和“压缩率”。量化模型会导致困惑度增加和大小减小。困惑度的增加会复合地降低写作质量，因此最小化困惑度的变化（Δppl）是高度优先的。尽管如此，较小的模型运行速度更快且资源消耗更少。

量化表

Quant	Δppl	Compression
F16/F32	N/A	N/A
Q8_0	+0.0004	46.87%
Q6_K	+0.0008	58.98%
Q5_K_M	+0.0122	64.55%
Q5_1	+0.0349	62.46%
Q5_K_S	+0.0400	65.55%
Q4_K_M	+0.0532	69.79%
Q5_0	+0.0683	65.44%
Q4_K_S	+0.0992	71.50%
Q4_1	+0.1585	68.64%
Q3_K_L	+0.1764	73.88%
Q4_0	+0.2166	71.62%
Q3_K_M	+0.2496	75.91%
Q3_K_S	+0.5551	78.31%
Q3_K_XS	3-bit extra small quantization	79.69%
IQ3_XXS	3.06 bpw quantization	80.35%
Q2_K	+0.6717	81.52%
Q2_K_S	+9.0634	82.79%
IQ2_XS	2.31 bpw quantization	85.10%
IQ2_XXS	2.06 bpw quantization	86.56%

测试设置

模型

使用TomGrc/FusionNet_7Bx2_MoE_14B模型。

量化过程

使用llama.cpp:convert.py将模型转换为f16 GGUF。
使用wikitext-2-raw/wiki.train.raw计算重要性矩阵。
使用llama.cpp:quantize将f16模型量化为各种量化级别。

输入

创建了一个文件prompts/logic_precidence_inference.txt，包含一个测试AI推理能力的交互式问题。

命令

使用特定命令运行模型，以观察不同量化级别的输出变化。

量化级别详细分析

F16

大小: 24G
结果: 非量化模型，提供了正确和错误的答案示例。

Q8_0

大小: 13G
结果: 表现与非量化模型大致相同，提供了正确和错误的答案示例。

Q6_K

大小: 9.9G
结果: 表现最佳，甚至优于非量化模型，没有错误的答案或拒绝。

Q5_K_M

大小: 8.6G
结果: 提供了拒绝和错误的答案，但纯文本表现完美。

Q5_1

大小: 9.1G
结果: 长形式写作略有减弱，纯文本结果正常。

Q5_K_S

大小: 8.3G
结果: 长形式写作不可靠，但纯文本结果良好。

Q4_K_M

大小: 7.3G
结果: 长形式答案基本正确，纯文本结果完美。

Q5_0

大小: 8.3G
结果: 长形式和纯文本都失去了一些可靠性。

Q4_K_S

大小: 6.9G
结果: 长形式行为良好，纯文本性能完美，观察到低变异性。

Q4_1

大小: 7.6G
结果: 长形式模型经常回答一个接近的问题而不是确切的问题，没有错误的答案。

Q3_K_L

大小: 6.3G
结果: 没有错误的或拒绝的长形式答案，纯文本性能略有下降。

Q4_0

大小: 6.9G
结果: 长形式答案均匀分布在分类中，意味着不总是给出正确的答案，纯文本性能完美。

Q3_K_M

大小: 5.8G
结果: 纯文本性能良好，即使不是所有答案都正确。

Q3_K_S

大小: 5.3G
结果: 长形式输出大多正确，纯文本输出大多错误。

Q3_K_XS

大小: 4.9G
结果: 长形式没有错误的答案或拒绝，纯文本性能较差。

IQ3_XXS

大小: 4.8G
结果: 长形式没有错误的答案或拒绝，纯文本性能良好。

Q2_K

大小: 4.5G
结果: 长形式没有错误的答案或拒绝，纯文本性能较差。

Q2_K_S

大小: 4.2G
结果: 答案通常是混合语言（法语、代码、无空格）和拒绝，从未给出正确答案。

5,000+

优质数据集

54 个

任务类型

进入经典数据集