LLMCBench

Name: LLMCBench
Creator: 北京航空航天大学
Published: 2024-10-28 22:45:01
License: 暂无描述

arXiv2024-10-28 更新2024-10-31 收录

下载链接：

https://github.com/AboveParadise/LLMCBench

下载链接

链接失效反馈

官方服务：

资源简介：

LLMCBench是由北京航空航天大学等机构创建的一个用于评估大型语言模型（LLM）压缩算法性能的综合基准数据集。该数据集包含了11个不同的数据集，涵盖了多种网络架构和部署平台，旨在全面评估LLM压缩技术的效果。数据集的创建过程结合了实际模型生产需求，设计了多个评估指标和赛道，以确保评估的公平性和全面性。LLMCBench主要应用于LLM压缩算法的研究和开发，旨在解决模型在实际部署中的计算和存储效率问题。

LLMCBench is a comprehensive benchmark dataset developed by institutions including Beihang University for evaluating the performance of large language model (LLM) compression algorithms. This dataset encompasses 11 distinct datasets covering a wide range of network architectures and deployment platforms, with the aim of comprehensively assessing the efficacy of LLM compression technologies. The development of LLMCBench incorporates actual demands from model production, and multiple evaluation metrics and tracks have been designed to guarantee the fairness and comprehensiveness of the assessment. LLMCBench is primarily utilized for the research and development of LLM compression algorithms, with the objective of resolving computational and storage efficiency issues encountered by models during actual deployment.

提供机构：

北京航空航天大学

创建时间：

2024-10-28

原始信息汇总

LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment

数据集概述

LLMCBench是一个用于评估大型语言模型压缩算法性能的基准测试。该基准测试包含了对多个数据集的测试，包括MMLU、MNLI、QNLI、Wikitext2、advGLUE和TruthfulQA。

数据集列表

MMLU: 用于测试模型在多任务语言理解上的表现。
MNLI: 用于测试模型在自然语言推理上的表现。
QNLI: 用于测试模型在问答自然语言推理上的表现。
Wikitext2: 用于测试模型在维基文本上的表现。
advGLUE: 用于测试模型在对抗性自然语言理解上的表现。
TruthfulQA: 用于测试模型在真实性问答上的表现。

测试脚本

MMLU: bash scripts/run_mmlu.sh
MNLI: bash scripts/run_mnli.sh
QNLI: bash scripts/run_qnli.sh
Wikitext2: bash scripts/run_wikitext2.sh
advGLUE: bash scripts/run_advglue.sh
TruthfulQA: bash scripts/run_tqa.sh
FLOPs: bash scripts/run_flops.sh

参数概述

--path: 模型检查点位置。
--data_dir: 数据集位置。
--ntrain: 训练样本数量。
--seqlen: 表示LLM的最大输入序列长度。
--device: 表示模型放置的设备。
--data_file: 数据集文件位置。
--test_origin: 表示是否在原始GLUE数据上进行测试。
--presets: 用于提示生成的预设。请参阅tqa_presets.py获取选项。
--input_path: 数据集文件位置。

引用

搜集汇总

数据集介绍

构建方式

LLMCBench数据集的构建基于实际模型生产需求，精心设计了六个评估赛道和相应的指标。首先，分析了当前主流的大型语言模型（LLMs）压缩技术，包括稀疏化和量化方法。随后，选择了最具代表性的算法，如LLM-Pruner、Wanda、SparseGPT、GPTQ、SmoothQuant、AWQ和OmniQuant，并在11个数据集、18种网络架构和3个部署平台上进行了广泛的实验和比较。通过这些实验，提供了对LLM压缩算法的深入分析，并为未来的研究提供了有价值的见解。

特点

LLMCBench数据集的特点在于其全面性和系统性。它不仅涵盖了主流的稀疏化和量化方法，还通过六个不同的赛道评估了压缩算法的多个方面，包括压缩性能、泛化能力、训练消耗、推理消耗、硬件加速和模型可信度。此外，该数据集还考虑了实际部署中的硬件加速和模型可信度等关键因素，确保评估结果更贴近实际应用场景。

使用方法

使用LLMCBench数据集时，研究人员可以通过访问其GitHub仓库获取代码和数据，按照提供的实验设置和评估协议进行复现实验。数据集提供了详细的实验细节和评估指标，帮助用户全面了解不同压缩算法在多个维度上的表现。用户可以根据具体需求，选择合适的赛道和指标进行评估，从而为实际应用中的模型压缩选择提供科学依据。

背景与挑战

背景概述

近年来，大型语言模型（LLMs）因其强大的智能能力而备受关注。然而，高计算和存储需求限制了其在实际应用中的部署。为此，许多模型压缩技术应运而生，旨在提高LLMs的效率。然而，当前的研究多在有限的模型、数据集和指标上验证其方法，缺乏在更广泛场景下的综合评估。为填补这一空白，北京航空航天大学、苏黎世联邦理工学院和卡内基梅隆大学的研究团队联合推出了大型语言模型压缩基准（LLMCBench），旨在为LLM压缩算法提供深入分析和全面评估。该基准通过分析实际模型生产需求，设计了评估赛道和指标，并进行了广泛的实验和比较，为LLM压缩算法的设计提供了有价值的见解。

当前挑战

LLMCBench面临的主要挑战包括：首先，性能评估范围有限。不同压缩方法可能选择不同的基准LLMs和数据集进行评估，导致不公平的比较，缺乏对特定能力的综合比较。其次，效率评估指标仍停留在理论层面。大多数LLM压缩方法仅报告计算复杂度或模型存储，而忽略了实际加速、GPU内存减少等更广泛的效率指标。此外，压缩过程中的资源消耗和模型在实际应用中的可信度也未得到充分考虑。这些挑战使得在特定场景下选择合适的LLM压缩算法成为一个难题。

常用场景

经典使用场景

LLMCBench数据集的经典使用场景在于评估和比较不同的大型语言模型（LLM）压缩技术。通过提供一个全面的基准测试平台，LLMCBench允许研究人员在多个维度上对模型压缩方法进行系统性评估，包括压缩性能、泛化能力、训练和推理消耗、硬件加速以及模型信任度。这种多维度的评估框架有助于识别在特定应用场景下最有效的压缩策略，从而推动LLM在实际部署中的高效应用。

衍生相关工作

LLMCBench数据集的发布催生了一系列相关的经典工作。首先，它激发了对LLM压缩技术更深入的理论研究，特别是在量化和稀疏化方法的结合与优化方面。其次，LLMCBench的评估框架被广泛应用于其他模型压缩领域的研究，如视觉模型和多模态模型的压缩。此外，基于LLMCBench的评估结果，一些新的压缩算法和优化策略被提出，进一步推动了模型压缩技术的发展。这些衍生工作不仅丰富了LLM压缩领域的研究内容，也为其他领域的模型压缩研究提供了新的思路和方法。

数据集最近研究