LINUXFLBENCH

Name: LINUXFLBENCH
Creator: 复旦大学
Published: 2025-05-26 12:15:48
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/FudanSELab/LinuxFLBench

下载链接

链接失效反馈

官方服务：

资源简介：

LINUXFLBENCH是一个针对Linux内核的故障定位（FL）基准测试数据集，包含250个真实世界中的FL任务。该数据集由用户提交的bug报告、有bug的Linux内核代码库以及基于相关提交补丁的真实bug位置组成。数据集涵盖了120个不同的Linux内核版本和66个不同的内核组件，涉及到的bug范围广泛，包括但不限于崩溃、功能性和性能问题。LINUXFLBENCH旨在评估现有大型语言模型（LLM）代理在定位Linux内核bug方面的性能，并为构建更先进的代理以定位大型复杂软件系统中的bug提供依据。

LINUXFLBENCH is a fault localization (FL) benchmark dataset targeting the Linux kernel, containing 250 real-world FL tasks. This dataset consists of user-submitted bug reports, buggy Linux kernel code repositories, and real bug locations based on relevant committed patches. The dataset covers 120 distinct Linux kernel versions and 66 different kernel components, with a wide range of bug types including but not limited to crashes, functional issues and performance problems. LINUXFLBENCH aims to evaluate the performance of existing large language model (LLM) agents in localizing Linux kernel bugs, and provide a basis for building more advanced agents to locate bugs in large and complex software systems.

提供机构：

复旦大学

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

LINUXFLBENCH数据集的构建过程分为三个阶段：首先从Kernel.org Bugzilla收集了2138份Linux内核错误报告，筛选出标记为“CLOSED”和“CODE_FIX”的可靠报告；随后通过分析开发者提交的补丁识别出635个错误位置；最后经过三位人工标注者的严格审查，确保每个任务包含清晰的错误描述、相关代码库和真实错误位置，最终形成包含250个高质量任务的基准数据集。

特点

LINUXFLBENCH数据集具有显著的复杂性和多样性特点：其任务覆盖120个不同Linux内核版本和16个核心组件（如驱动程序和文件系统），每个任务的平均代码库规模达28,808个文件和1149万行代码，远超通用软件基准。错误报告平均长度达283词，包含硬件配置、系统日志等多维信息，为评估模型在复杂环境下的故障定位能力提供了真实挑战。

使用方法

该数据集支持文件级和方法级故障定位评估，用户可通过提供的错误报告和对应代码库，测试模型识别错误文件或函数的能力。典型流程包括：输入错误报告至测试模型，生成可疑代码元素排名，并与数据集中标注的真实错误位置对比，采用Recall@k和MRR等指标量化性能。数据集还兼容传统IR方法和LLM代理的评估，并可通过LINUXFL+框架增强现有代理的搜索策略。

背景与挑战

背景概述

LINUXFLBENCH是由复旦大学和南洋理工大学的研究团队于2025年提出的一个专注于Linux内核故障定位（Fault Localization, FL）的基准数据集。该数据集包含250个真实世界的Linux内核bug报告，覆盖了120个不同的内核版本和66个内核组件，旨在评估大型语言模型（LLM）代理在复杂、大规模软件系统中的故障定位能力。Linux内核作为现代计算系统的核心，其bug可能导致严重后果，影响数十亿用户。传统的故障定位技术主要依赖于启发式方法或信息检索，而近年来基于LLM的代理在故障定位方面表现出色。然而，由于Linux内核代码库规模庞大、运行时观测性有限以及bug影响因素多样，现有的LLM代理在该领域的表现仍有待提升。LINUXFLBENCH的提出填补了这一空白，为研究社区提供了一个具有挑战性的评估平台。

当前挑战

LINUXFLBENCH面临的挑战主要体现在两个方面：领域问题的复杂性和数据集构建的难度。在领域问题方面，Linux内核的故障定位具有极高的复杂性，具体表现为：1) 代码库规模庞大，单个版本的内核包含超过69,000个文件和2,800万行代码，远超一般软件项目；2) 运行时观测性受限，内核出于性能考虑限制了调试信息的输出，导致用户提交的bug报告往往缺乏详细的运行时上下文；3) 影响因素多样，内核bug可能涉及硬件配置、系统负载等多种因素，导致故障定位的推理空间呈指数级增长。在数据集构建方面，挑战包括：1) 从海量bug报告中筛选高质量样本的难度；2) 精确标注bug位置的复杂性，需要人工验证每个bug的真实性和修复提交的准确性；3) 确保数据集的多样性和代表性，涵盖不同内核版本和组件。这些挑战使得LINUXFLBENCH成为当前最具难度的软件工程基准之一。

常用场景

经典使用场景

LINUXFLBENCH数据集专为评估大型语言模型（LLM）代理在Linux内核中的故障定位能力而设计。该数据集通过250个真实世界的Linux内核错误案例，为研究者提供了一个标准化的测试平台，用于比较不同代理在复杂软件系统中的表现。其经典使用场景包括测试代理在大型代码库中的文件级和方法级错误定位能力，以及验证新型故障定位算法的有效性。

衍生相关工作

围绕LINUXFLBENCH已衍生出多项重要研究：1）LINUXFL+框架首次引入目录感知扩展和潜在原因假设生成策略，成为后续内核调试研究的基线方法；2）基于邮件检索的增强技术（Mail-Augmented Hypothesis）开创了开发者知识融入LLM代理的新范式；3）相关工作如AgentFL进一步扩展了项目级上下文的应用，而KGYM基准则借鉴其构建思路开发了内核崩溃解决方案数据集。这些工作共同推动了复杂系统维护领域的算法进步。

数据集最近研究