quantized-llama-3.1-humaneval-evals

Name: quantized-llama-3.1-humaneval-evals
Creator: Neural Magic
Published: 2024-10-10 23:41:21
License: 暂无描述

Hugging Face2024-10-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/neuralmagic/quantized-llama-3.1-humaneval-evals

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Meta-Llama-3.1系列模型的不同配置及其在HumanEval和HumanEval+编码基准测试中的表现结果。每个配置对应不同的模型大小和量化类型，并附有相应的数据文件。

This dataset encompasses various configurations of the Meta-Llama-3.1 model series, as well as their performance results on the HumanEval and HumanEval+ coding benchmark tests. Each configuration corresponds to different model sizes and quantization types, with corresponding data files provided.

提供机构：

Neural Magic

创建时间：

2024-10-10

原始信息汇总

数据集概述

数据集配置

config_name: Meta-Llama-3.1-8B-Instruct-W4A16
- data_files: Meta-Llama-3.1-8B-Instruct-W4A16.csv
config_name: Meta-Llama-3.1-70B-Instruct-W4A16
- data_files: Meta-Llama-3.1-70B-Instruct-W4A16.csv
config_name: Meta-Llama-3.1-405B-Instruct-W4A16
- data_files: Meta-Llama-3.1-405B-Instruct-W4A16.csv
config_name: Meta-Llama-3.1-8B-Instruct-W8A8-INT8
- data_files: Meta-Llama-3.1-8B-Instruct-W8A8-INT8.csv
config_name: Meta-Llama-3.1-70B-Instruct-W8A8-INT8
- data_files: Meta-Llama-3.1-70B-Instruct-W8A8-INT8.csv
config_name: Meta-Llama-3.1-405B-Instruct-W8A8-INT8
- data_files: Meta-Llama-3.1-405B-Instruct-W8A8-INT8.csv
config_name: Meta-Llama-3.1-8B-Instruct-W8A8-FP8
- data_files: Meta-Llama-3.1-8B-Instruct-W8A8-FP8.csv
config_name: Meta-Llama-3.1-70B-Instruct-W8A8-FP8
- data_files: Meta-Llama-3.1-70B-Instruct-W8A8-FP8.csv
config_name: Meta-Llama-3.1-405B-Instruct-W8A8-FP8
- data_files: Meta-Llama-3.1-405B-Instruct-W8A8-FP8.csv

编码基准结果

meta-llama_Meta-Llama-3.1-405B-Instruct
- HumanEval pass@1: 67.3
- HumanEval+ pass@1: 67.5
neuralmagic_Meta-Llama-3.1-405B-Instruct-W8A8-FP8
- HumanEval pass@1: 66.7
- HumanEval+ pass@1: 66.6
neuralmagic_Meta-Llama-3.1-405B-Instruct-W4A16
- HumanEval pass@1: 66.5
- HumanEval+ pass@1: 66.4
neuralmagic_Meta-Llama-3.1-405B-Instruct-W8A8-INT8
- HumanEval pass@1: 64.3
- HumanEval+ pass@1: 64.8
neuralmagic_Meta-Llama-3.1-70B-Instruct-W8A8-FP8
- HumanEval pass@1: 58.1
- HumanEval+ pass@1: 57.7
neuralmagic_Meta-Llama-3.1-70B-Instruct-W4A16
- HumanEval pass@1: 57.1
- HumanEval+ pass@1: 56.8
neuralmagic_Meta-Llama-3.1-70B-Instruct-W8A8-INT8
- HumanEval pass@1: 56.0
- HumanEval+ pass@1: 56.6
meta-llama_Meta-Llama-3.1-70B-Instruct
- HumanEval pass@1: 55.8
- HumanEval+ pass@1: 58.2
neuralmagic_Meta-Llama-3.1-8B-Instruct-W8A8-INT8
- HumanEval pass@1: 27.6
- HumanEval+ pass@1: 26.7
neuralmagic_Meta-Llama-3.1-8B-Instruct-W8A8-FP8
- HumanEval pass@1: 27.4
- HumanEval+ pass@1: 27.0
meta-llama_Meta-Llama-3.1-8B-Instruct
- HumanEval pass@1: 25.1
- HumanEval+ pass@1: 26.5
neuralmagic_Meta-Llama-3.1-8B-Instruct-W4A16
- HumanEval pass@1: 23.4
- HumanEval+ pass@1: 24.6

搜集汇总

数据集介绍

构建方式

quantized-llama-3.1-humaneval-evals数据集的构建基于对Meta-Llama系列模型在不同量化配置下的性能评估。通过使用EvalPlus库，研究人员对多个模型变体进行了HumanEval和HumanEval+基准测试，涵盖了8B、70B和405B参数规模的模型，并分别测试了W4A16、W8A8-INT8和W8A8-FP8等量化方案。每个模型的测试结果以CSV文件形式存储，便于后续分析与比较。

特点

该数据集的特点在于其全面覆盖了Meta-Llama系列模型在不同量化配置下的性能表现。通过HumanEval和HumanEval+基准测试，数据集提供了丰富的量化模型性能数据，涵盖了从8B到405B参数规模的多个模型变体。此外，数据集还展示了不同量化方案（如W4A16、W8A8-INT8和W8A8-FP8）对模型性能的影响，为研究量化技术在大型语言模型中的应用提供了重要参考。

使用方法

quantized-llama-3.1-humaneval-evals数据集的使用方法主要包括加载CSV文件以获取不同模型变体的性能数据。研究人员可以通过分析这些数据，比较不同量化方案对模型性能的影响，并进一步探索量化技术在大型语言模型中的优化潜力。此外，数据集还可用于验证新的量化算法或模型架构的性能，为相关领域的研究提供基准参考。

背景与挑战

背景概述

quantized-llama-3.1-humaneval-evals数据集由Meta AI团队开发，旨在评估量化技术对大型语言模型（LLM）性能的影响。该数据集基于Meta-Llama-3.1系列模型，涵盖了不同参数规模和量化配置的模型变体，包括8B、70B和405B参数版本。通过EvalPlus库进行编码基准测试，该数据集为研究量化技术在自然语言处理中的应用提供了重要参考。其核心研究问题在于探索量化对模型推理效率和性能的权衡，为高效部署大规模语言模型提供了实验基础。

当前挑战

该数据集面临的主要挑战包括量化技术对模型性能的影响评估。量化虽然能显著降低模型的计算和存储开销，但可能导致精度损失，尤其是在复杂任务中。此外，不同量化配置（如W4A16、W8A8-INT8和W8A8-FP8）对模型性能的影响差异显著，如何平衡量化精度与计算效率是一个关键问题。在构建过程中，确保量化后的模型在不同任务中的泛化能力也是一大挑战，尤其是在HumanEval和HumanEval+等编码基准测试中，量化模型的性能波动需要进一步优化和验证。

常用场景

经典使用场景

在自然语言处理领域，quantized-llama-3.1-humaneval-evals数据集被广泛用于评估量化模型在代码生成任务中的表现。通过HumanEval和HumanEval+基准测试，研究者能够深入分析不同量化策略对模型性能的影响，特别是在低精度计算环境下的表现。这一数据集为量化模型的优化和部署提供了重要的实验依据。

衍生相关工作

基于quantized-llama-3.1-humaneval-evals数据集，研究者们开展了多项经典工作，包括量化策略的优化、低精度计算的性能提升以及代码生成模型的压缩与加速。这些工作不仅推动了量化技术的发展，还为自然语言处理领域的模型优化提供了新的思路和方法。

数据集最近研究