ASC23-LLM inference optimization dataset

github2023-12-20 更新2024-05-31 收录

下载链接：

https://github.com/ASC-Competition/ASC24-LLM-inference-optimization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于ASC23 LLM推理优化挑战，包含10,000个样本，具有多领域覆盖、多语言支持、大规模数据和长度多样性等特点。数据集中的文本数据来自新闻、百科、小说、论坛等多个领域，涵盖不同主题、风格和观点，支持英语、中文、韩语、西班牙语等多种语言。

This dataset is designed for the ASC23 LLM (Large Language Model) inference optimization challenge, comprising 10,000 samples characterized by multi-domain coverage, multilingual support, large-scale data, and length diversity. The textual data within the dataset is sourced from various domains including news, encyclopedias, novels, and forums, encompassing a wide range of topics, styles, and perspectives. It supports multiple languages such as English, Chinese, Korean, and Spanish.

创建时间：

2023-12-15

原始信息汇总

ASC23-LLM inference optimization 数据集概述

数据集描述

该数据集是为ASC23 LLM推理优化挑战提供的，包含10,000个样本，用于构建基于LLaMA-70B的推理引擎，以实现高吞吐量。

数据集特点

多领域覆盖：包含来自新闻、百科、小说、论坛等多个领域的文本数据，覆盖不同主题、风格和观点，增强模型在不同领域任务中的泛化能力。
多语言支持：包含英语、中文、韩语、西班牙语等多种语言的文本数据，使模型能够理解和生成多语言文本。
大规模数据：从大量文本数据中采样，有助于提升模型的语言理解和生成能力。
长度多样性：过滤掉过长和过短的序列，样本长度范围为4至1024，覆盖日常使用中的大部分长度范围。

基准代码

ASC24委员会提供了一个基准代码，用于衡量吞吐量和总令牌数。参与者可以从该基准代码开始，进行修改以提高推理性能。

使用示例

bash CUDA_VISIBLE_DEVICES=0 python baseline.py --dataset /your_data_path/scrambled_sampled_dataset.json --model /your_model_path/hf_model_weights --num-samples=10

参数--num-samples仅用于测试，参与者应使用完整的10k数据集进行挑战。

搜集汇总

数据集介绍

构建方式

ASC23-LLM推理优化数据集的构建基于多领域、多语言的文本数据，涵盖了新闻、百科全书、小说、论坛等多种来源。数据集的构建过程中，通过筛选过滤掉过长或过短的序列，确保样本长度在4到1024之间，覆盖了日常使用中的大多数场景。这种构建方式不仅保证了数据的多样性和代表性，还为模型提供了广泛的训练素材，使其能够在不同领域和语言任务中表现出色。

使用方法

使用该数据集时，参与者需下载数据集并运行提供的基线代码。基线代码用于测试模型的吞吐量和总令牌数，参与者可在此基础上进行优化以提高推理性能。运行脚本时，需指定数据集路径和模型权重路径，并通过`--num-samples`参数进行测试。最终测试应使用完整的10k样本数据集，以确保模型在实际应用中的表现。

背景与挑战

背景概述

ASC23-LLM推理优化数据集由ASC24委员会于2023年创建，旨在推动大规模语言模型（LLM）推理性能的优化研究。该数据集的核心研究问题聚焦于如何基于LLaMA-70B模型构建高效的推理引擎，以应对多领域、多语言的大规模文本数据处理需求。数据集包含10,000个样本，涵盖新闻、百科全书、小说、论坛等多种领域的文本数据，并支持英语、中文、韩语、西班牙语等多语言环境。其多样化的文本长度和多领域覆盖特性为模型提供了广泛的泛化能力，显著提升了语言理解与生成任务的性能。该数据集在自然语言处理领域具有重要影响力，为研究人员提供了高质量的基准测试平台。

当前挑战

ASC23-LLM推理优化数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，如何高效处理多领域、多语言的文本数据并实现高吞吐量的推理性能是一个核心难题。由于数据集涵盖广泛的领域和语言，模型需要在保持高精度的同时，优化计算资源的使用，以应对大规模数据的处理需求。其次，在数据集构建过程中，如何平衡文本长度的多样性并过滤过长或过短的序列，以确保数据质量的同时保留足够的多样性，也是一个技术难点。此外，基于LLaMA-70B模型的推理引擎优化需要克服计算资源消耗大、推理延迟高等实际问题，这对算法的设计与实现提出了更高的要求。

常用场景

经典使用场景

ASC23-LLM推理优化数据集主要用于大规模语言模型（LLM）推理性能的优化研究。该数据集包含10,000个样本，涵盖多领域、多语言的文本数据，适用于测试和优化LLM在不同任务中的推理速度和效率。通过该数据集，研究人员可以评估模型在处理长文本、多语言文本时的性能表现，并探索如何通过算法和硬件优化提升推理吞吐量。

解决学术问题

该数据集解决了大规模语言模型推理优化中的关键问题，包括如何高效处理多领域、多语言的文本数据，以及如何在不同长度的文本序列中实现稳定的推理性能。通过提供多样化的文本样本，该数据集为研究人员提供了丰富的实验场景，帮助他们在模型压缩、并行计算和硬件加速等领域取得突破性进展。

实际应用

在实际应用中，ASC23-LLM推理优化数据集被广泛用于优化商业级语言模型的推理性能，例如在搜索引擎、智能客服和机器翻译等场景中。通过该数据集，企业可以测试和优化其语言模型在不同硬件环境下的表现，从而提升服务响应速度和用户体验。此外，该数据集还为硬件厂商提供了测试平台，帮助他们开发更适合LLM推理的专用硬件。

数据集最近研究