LLM-Inference-Bench|自然语言处理数据集|硬件优化数据集

arXiv2024-11-01 更新2024-11-06 收录

自然语言处理

硬件优化

下载链接：

https://github.com/argonne-lcf/LLM-Inference-Bench

下载链接

链接失效反馈

资源简介：

LLM-Inference-Bench是由阿贡国家实验室创建的一个综合基准测试套件，旨在评估大型语言模型在多种AI加速器上的推理性能。该数据集涵盖了从7亿到70亿参数的多种LLM模型，包括LLaMA、Mistral和Qwen系列，并分析了不同硬件平台（如Nvidia和AMD的GPU以及Intel Habana和SambaNova的AI加速器）上的性能。数据集的创建过程包括对多种推理框架（如vLLM、TensorRT-LLM、llama.cpp和Deepspeed-MII）的全面评估，旨在为研究人员提供优化LLM性能和硬件选择的参考。该数据集主要应用于自然语言处理、内容生成和决策支持系统等领域，旨在解决LLM在不同硬件平台上的性能瓶颈问题。

提供机构：

阿贡国家实验室

创建时间：

2024-11-01

原始信息汇总

LLM-Inference-Bench

数据集概述

LLM-Inference-Bench 是一个用于在AI加速器上对大型语言模型（LLM）进行推理基准测试的数据集。

评估的框架和硬件

框架/硬件	NVIDIA A100	NVIDIA H100	NVIDIA GH200	AMD MI250	AMD MI300X	Intel Max1550	Habana Gaudi2	Sambanova SN40L
vLLM	Yes	Yes	Yes	Yes	Yes	Yes	No	N/A
llama.cpp	Yes	Yes	Yes	Yes	Yes	Yes	N/A	N/A
TensorRT-LLM	Yes	Yes	Yes	N/A	N/A	N/A	N/A	N/A
DeepSpeed-MII	Yes	No	No	No	No	No	Yes	N/A
Sambaflow	N/A	N/A	N/A	N/A	N/A	N/A	N/A	Yes

引用信息

@INPROCEEDINGS{####, author={Krishna Teja Chitty-Venkata and Siddhisanket Raskar and Bharat Kale and Farah Ferdaus and Aditya Tanikanti and Ken Raffenetti and Valerie Taylor and Murali Emani and Venkatram Vishwanath}, booktitle={2024 IEEE/ACM International Workshop on Performance Modeling, Benchmarking and Simulation of High Performance Computer Systems (PMBS)}, title={LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators}, year={2024}, volume={}, number={}, pages={}, keywords={Large Language Models, AI Accelerators, Performance Evaluation, Benchmarking }, doi={}}

AI搜集汇总

数据集介绍

构建方式

LLM-Inference-Bench 数据集通过在多种 AI 加速器上评估大型语言模型（LLMs）的推理性能来构建。研究团队选择了包括 LLaMA、Mistral 和 Qwen 系列在内的多个模型，涵盖了从 7B 到 70B 参数的不同规模。这些模型在 Nvidia、AMD 和 Intel Habana 等不同硬件平台上进行了测试，使用了如 TensorRT-LLM、vLLM、llama.cpp 和 Deepspeed-MII 等多种推理框架。数据集的构建过程中，研究团队详细记录了各模型在不同硬件和框架下的性能指标，如吞吐量、功耗和困惑度等，以全面评估 LLMs 在不同配置下的表现。

使用方法

LLM-Inference-Bench 数据集的使用方法包括下载数据集和相关代码，设置所需的推理框架和硬件环境，然后运行基准测试以收集性能数据。用户可以通过提供的交互式仪表盘分析不同模型、硬件平台和推理框架的性能表现，从而选择最适合其应用场景的配置。数据集的代码库中包含了详细的安装和使用指南，以及用于生成性能报告的脚本，方便用户进行定制化分析和优化。

背景与挑战

背景概述

LLM-Inference-Bench 数据集由 Argonne 国家实验室的研究人员开发，旨在评估大型语言模型（LLMs）在不同硬件加速器上的推理性能。该数据集的创建旨在解决LLMs在文本生成应用中的计算需求问题，这些问题需要高效的硬件加速。通过评估LLMs在多种硬件平台上的性能，包括Nvidia和AMD的GPU以及专门的AI加速器（如Intel Habana和SambaNova），研究团队希望揭示这些模型在不同硬件平台上的可扩展性和吞吐量特征。数据集的评估涵盖了多个LLM推理框架和模型，包括LLaMA、Mistral和Qwen系列，参数规模从7B到70B不等。研究结果揭示了不同模型、硬件平台和推理框架的优缺点，并提供了一个交互式仪表板，帮助用户根据特定的硬件平台识别最佳性能配置。

当前挑战

LLM-Inference-Bench 数据集面临的挑战主要集中在解决领域问题和构建过程中遇到的困难。首先，图像分类领域的挑战在于如何有效地处理和分类大规模的图像数据。其次，构建过程中遇到的挑战包括如何在不同的硬件平台上实现高效的模型推理，以及如何优化推理框架以提高性能和减少延迟。此外，数据集还需要解决模型在不同硬件平台上的可扩展性问题，确保模型在各种硬件配置下都能保持高效的推理性能。最后，数据集的构建还需要考虑如何提供一个易于使用的交互式仪表板，以便用户能够方便地分析和比较不同硬件平台和推理框架的性能。

常用场景

经典使用场景

LLM-Inference-Bench 数据集的经典使用场景主要集中在大型语言模型（LLMs）在各种硬件加速器上的推理性能评估。该数据集通过评估不同硬件平台（如 Nvidia 和 AMD 的 GPU，以及 Intel Habana 和 SambaNova 的 AI 加速器）上的 LLMs 推理性能，帮助研究人员和开发者理解这些模型在不同硬件上的可扩展性和吞吐量特性。具体应用包括文本生成、问答系统和语言翻译等领域的性能优化。

解决学术问题

LLM-Inference-Bench 数据集解决了在不同硬件平台上评估大型语言模型推理性能的常见学术研究问题。通过提供详细的性能评估和交互式仪表板，该数据集帮助研究人员识别不同模型、硬件平台和推理框架之间的性能瓶颈，从而优化 LLMs 的推理效率。这对于推动 AI 加速器技术的发展和理解 LLMs 在实际应用中的性能表现具有重要意义。

实际应用

在实际应用中，LLM-Inference-Bench 数据集为企业和研究机构提供了优化大型语言模型推理性能的实用工具。通过该数据集，用户可以根据特定的硬件平台选择最优的模型和推理框架，以实现高效的文本生成、问答和语言翻译等任务。此外，该数据集还支持在生产环境中部署 LLMs，确保在有限的计算资源下实现最佳性能。

数据集最近研究

相关研究论文

1
LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators阿贡国家实验室 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况，本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率，那么熟肉制品需求富有弹性，说明顾客对于熟肉制品价格变化的敏感程度大，弹性越大，需求对价格变化越敏感，本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性，本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集：采集相关熟肉制品在某一时间段全国的的需求数据和价格数据，按照市级进行整理归纳，得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则：对采集得到的数据按照如下公式进行计算：需求弹性系数Ed=-(△Q/Q)÷(△P/P），得到需求弹性系数。式中：Q表示产品的需求量，单位为份；P表示产品的价格，单位为元；△Q表示需求量同比变动值，单位为份；△P表示价格同比变动值，单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析：根据|Ed|的数值可分析该熟肉制品的需求价格弹性。（1）|Ed|=1（单位需求价格弹性），说明需求量变动幅度与价格变动幅度相同；（2）1<|Ed|（需求富有弹性），说明需求量变动幅度大于价格变动幅度；（3）|Ed|<1（需求缺乏弹性），说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录