bugs-in-LLM-inference-engines

Name: bugs-in-LLM-inference-engines
Creator: 北京大学
Published: 2025-06-11 21:25:36
License: 暂无描述

arXiv2025-06-11 更新2025-06-13 收录

下载链接：

https://github.com/infbug/bugs-in-LLM-inference-engines

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为'bugs-in-LLM-inference-engines'，由北京大学的研究团队创建，包含了929个来自5个广泛使用的LLM推理引擎的真实世界中的bug。这些bug是从各个引擎的官方GitHub仓库中收集并经过手动标注的，旨在帮助研究人员、推理引擎供应商和LLM应用开发者更好地理解和解决LLM推理引擎中的bug问题。

This dataset, named 'bugs-in-LLM-inference-engines', was created by a research team from Peking University. It contains 929 real-world bugs from 5 widely used LLM inference engines. These bugs were collected from the official GitHub repositories of each respective engine and manually annotated, aiming to help researchers, inference engine vendors, and LLM application developers better understand and resolve bug issues in LLM inference engines.

提供机构：

北京大学

创建时间：

2025-06-11

原始信息汇总

数据集概述

数据集名称

bugs-in-LLM-inference-engines

数据集简介

该数据集主要关注大型语言模型（LLM）推理引擎中的错误（Bugs），旨在首次系统性地研究这些错误。

数据集内容

研究范围：大型语言模型（LLM）推理引擎中的错误
研究性质：首次系统性研究

数据集特点

聚焦领域：LLM推理引擎
研究重点：错误（Bugs）分析

搜集汇总

数据集介绍

构建方式

该数据集通过系统性地挖掘五个广泛使用的LLM推理引擎（包括Llama.cpp、vLLM、DeepSpeed、Mlc-llm和TensorRT-llm）的官方代码仓库中的问题报告构建而成。研究团队采用严格的开放编码流程，对929个真实世界中的错误进行了详细分析，包括错误症状、根本原因及其共性。数据集的构建过程包括问题识别、数据集精炼和手动标注三个主要步骤，确保了数据的全面性和可靠性。

特点

该数据集涵盖了LLM推理引擎中的六种主要错误症状（如崩溃、意外输出、功能失败等）和28种根本原因（如输入/输出处理错误、配置问题、功能实现缺陷等）。其独特之处在于首次系统性地揭示了LLM推理引擎中的错误模式，并提供了跨引擎的共性分析。数据集特别关注了在LLM输出不确定性的情况下，如何通过五个关键因素（字符编码错误、语义不连贯、输出不一致等）来设置测试预言。

使用方法

该数据集可用于多个研究方向：研究人员可利用其分析LLM推理引擎的错误模式，开发更有效的测试方法；引擎开发者可参考错误分类改进代码质量；应用程序开发者可基于错误症状设计容错机制。使用时需注意错误报告与具体引擎版本的对应关系，建议结合原始问题链接获取完整上下文。数据集按引擎和部署阶段分类组织，支持针对特定组件或阶段的定向分析。

背景与挑战

背景概述

大型语言模型专用推理引擎（简称LLM推理引擎）已成为现代人工智能基础设施的核心组件，由北京大学、复旦大学等机构的研究团队于2025年6月通过论文《A First Look at Bugs in LLM Inference Engines》首次系统化披露其缺陷特征。该数据集聚焦LLM推理引擎在跨平台部署中的可靠性问题，涵盖Llama.cpp、vLLM等5个主流引擎的929个真实缺陷，揭示了28类根本原因与6种故障症状的分布规律。作为首个针对LLM推理引擎缺陷的实证研究，该工作为提升AI基础设施稳定性提供了关键基准，对测试用例生成、异常检测等研究方向具有重要指导价值。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决LLM输出不确定性导致的测试预言设置难题（如语义连贯性、重复子串等异常特征判定），以及资源密集型计算引发的内存管理、并发控制等新型缺陷模式；在构建过程中，需克服多引擎异构实现带来的缺陷模式归一化难题，通过人工标注与Cohen's Kappa系数≥0.87的可靠性验证，确保跨平台缺陷分类体系的一致性。此外，环境兼容性缺陷占比达29%，凸显了硬件适配与依赖管理的复杂性。

常用场景

经典使用场景

在大型语言模型（LLM）推理引擎的开发与优化过程中，该数据集被广泛应用于识别和分类推理引擎中的各类缺陷。研究者通过分析数据集中的929个真实缺陷案例，能够系统地理解缺陷的症状、根本原因及其分布规律。这一数据集尤其适用于研究跨平台兼容性、资源管理优化以及推理效率提升等核心问题，为LLM推理引擎的稳定性与可靠性提供了重要的实证基础。

衍生相关工作

基于该数据集，研究者已经开展了一系列相关经典工作，包括开发针对LLM推理引擎的自动化测试框架、缺陷预测模型以及跨引擎兼容性评估工具。例如，部分研究利用数据集中的缺陷模式训练机器学习模型，以预测新引擎版本中可能出现的缺陷。此外，该数据集还启发了对LLM推理引擎中特定组件（如模型加载器和算子实现）的针对性优化研究，进一步推动了LLM技术在工业界的广泛应用。

数据集最近研究