five

LINUXFLBENCH

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/FudanSELab/LinuxFLBench
下载链接
链接失效反馈
官方服务:
资源简介:
LINUXFLBENCH是一个针对Linux内核的故障定位(FL)基准测试数据集,包含250个真实世界中的FL任务。该数据集由用户提交的bug报告、有bug的Linux内核代码库以及基于相关提交补丁的真实bug位置组成。数据集涵盖了120个不同的Linux内核版本和66个不同的内核组件,涉及到的bug范围广泛,包括但不限于崩溃、功能性和性能问题。LINUXFLBENCH旨在评估现有大型语言模型(LLM)代理在定位Linux内核bug方面的性能,并为构建更先进的代理以定位大型复杂软件系统中的bug提供依据。

LINUXFLBENCH is a fault localization (FL) benchmark dataset targeting the Linux kernel, containing 250 real-world FL tasks. This dataset consists of user-submitted bug reports, buggy Linux kernel code repositories, and real bug locations based on relevant committed patches. The dataset covers 120 distinct Linux kernel versions and 66 different kernel components, with a wide range of bug types including but not limited to crashes, functional issues and performance problems. LINUXFLBENCH aims to evaluate the performance of existing large language model (LLM) agents in localizing Linux kernel bugs, and provide a basis for building more advanced agents to locate bugs in large and complex software systems.
提供机构:
复旦大学
创建时间:
2025-05-26
搜集汇总
数据集介绍
main_image_url
构建方式
LINUXFLBENCH数据集的构建过程分为三个阶段:首先从Kernel.org Bugzilla收集了2138份Linux内核错误报告,筛选出标记为“CLOSED”和“CODE_FIX”的可靠报告;随后通过分析开发者提交的补丁识别出635个错误位置;最后经过三位人工标注者的严格审查,确保每个任务包含清晰的错误描述、相关代码库和真实错误位置,最终形成包含250个高质量任务的基准数据集。
特点
LINUXFLBENCH数据集具有显著的复杂性和多样性特点:其任务覆盖120个不同Linux内核版本和16个核心组件(如驱动程序和文件系统),每个任务的平均代码库规模达28,808个文件和1149万行代码,远超通用软件基准。错误报告平均长度达283词,包含硬件配置、系统日志等多维信息,为评估模型在复杂环境下的故障定位能力提供了真实挑战。
使用方法
该数据集支持文件级和方法级故障定位评估,用户可通过提供的错误报告和对应代码库,测试模型识别错误文件或函数的能力。典型流程包括:输入错误报告至测试模型,生成可疑代码元素排名,并与数据集中标注的真实错误位置对比,采用Recall@k和MRR等指标量化性能。数据集还兼容传统IR方法和LLM代理的评估,并可通过LINUXFL+框架增强现有代理的搜索策略。
背景与挑战
背景概述
LINUXFLBENCH是由复旦大学和南洋理工大学的研究团队于2025年提出的一个专注于Linux内核故障定位(Fault Localization, FL)的基准数据集。该数据集包含250个真实世界的Linux内核bug报告,覆盖了120个不同的内核版本和66个内核组件,旨在评估大型语言模型(LLM)代理在复杂、大规模软件系统中的故障定位能力。Linux内核作为现代计算系统的核心,其bug可能导致严重后果,影响数十亿用户。传统的故障定位技术主要依赖于启发式方法或信息检索,而近年来基于LLM的代理在故障定位方面表现出色。然而,由于Linux内核代码库规模庞大、运行时观测性有限以及bug影响因素多样,现有的LLM代理在该领域的表现仍有待提升。LINUXFLBENCH的提出填补了这一空白,为研究社区提供了一个具有挑战性的评估平台。
当前挑战
LINUXFLBENCH面临的挑战主要体现在两个方面:领域问题的复杂性和数据集构建的难度。在领域问题方面,Linux内核的故障定位具有极高的复杂性,具体表现为:1) 代码库规模庞大,单个版本的内核包含超过69,000个文件和2,800万行代码,远超一般软件项目;2) 运行时观测性受限,内核出于性能考虑限制了调试信息的输出,导致用户提交的bug报告往往缺乏详细的运行时上下文;3) 影响因素多样,内核bug可能涉及硬件配置、系统负载等多种因素,导致故障定位的推理空间呈指数级增长。在数据集构建方面,挑战包括:1) 从海量bug报告中筛选高质量样本的难度;2) 精确标注bug位置的复杂性,需要人工验证每个bug的真实性和修复提交的准确性;3) 确保数据集的多样性和代表性,涵盖不同内核版本和组件。这些挑战使得LINUXFLBENCH成为当前最具难度的软件工程基准之一。
常用场景
经典使用场景
LINUXFLBENCH数据集专为评估大型语言模型(LLM)代理在Linux内核中的故障定位能力而设计。该数据集通过250个真实世界的Linux内核错误案例,为研究者提供了一个标准化的测试平台,用于比较不同代理在复杂软件系统中的表现。其经典使用场景包括测试代理在大型代码库中的文件级和方法级错误定位能力,以及验证新型故障定位算法的有效性。
衍生相关工作
围绕LINUXFLBENCH已衍生出多项重要研究:1)LINUXFL+框架首次引入目录感知扩展和潜在原因假设生成策略,成为后续内核调试研究的基线方法;2)基于邮件检索的增强技术(Mail-Augmented Hypothesis)开创了开发者知识融入LLM代理的新范式;3)相关工作如AgentFL进一步扩展了项目级上下文的应用,而KGYM基准则借鉴其构建思路开发了内核崩溃解决方案数据集。这些工作共同推动了复杂系统维护领域的算法进步。
数据集最近研究
最新研究方向
近年来,LINUXFLBENCH数据集在软件工程领域引起了广泛关注,特别是在Linux内核故障定位(Fault Localization, FL)方面。该数据集通过整合250个真实世界的Linux内核故障案例,为研究人员提供了一个极具挑战性的基准测试平台。随着大型语言模型(LLM)代理在软件维护任务中的应用日益增多,LINUXFLBENCH为评估这些代理在复杂、大规模系统(如Linux内核)中的表现提供了独特的机会。当前的研究热点包括如何提升LLM代理在内核故障定位中的准确性和效率,以及如何利用外部知识(如Linux内核邮件列表)来增强模型的推理能力。LINUXFLBENCH的出现不仅填补了现有基准测试在Linux内核领域的空白,还为推动自动化软件质量保障技术的发展提供了重要支持。
相关研究论文
  • 1
    Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs复旦大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作