five

Defects4Log

收藏
arXiv2025-08-15 更新2025-08-19 收录
下载链接:
https://arxiv.org/pdf/2508.11305.pdf
下载链接
链接失效反馈
官方服务:
资源简介:
Defects4Log是一个用于评估大型语言模型(LLM)在检测日志代码缺陷方面的效果的基准数据集。该数据集包含164个由开发者验证的真实世界日志代码缺陷实例,涵盖了七种日志代码缺陷模式及其14个详细场景。数据集的构建基于对现有文献、问题跟踪系统和提交历史的综合分析,旨在为开发者提供避免常见缺陷模式并建立LLM推理基础的实际指导,从而提高日志代码缺陷检测的准确性。

Defects4Log is a benchmark dataset designed to evaluate the performance of Large Language Models (LLMs) in detecting log code defects. This dataset contains 164 real-world log code defect instances validated by developers, covering seven log code defect patterns and their 14 detailed scenarios. The dataset is constructed based on a comprehensive analysis of existing literature, issue tracking systems and commit histories, aiming to provide developers with practical guidance for avoiding common defect patterns and establishing a foundation for LLM reasoning, thereby improving the accuracy of log code defect detection.
提供机构:
香港科技大学(广州)
创建时间:
2025-08-15
搜集汇总
数据集介绍
main_image_url
构建方式
Defects4Log数据集的构建基于对日志代码缺陷的系统性研究,通过整合学术文献、问题追踪系统和开源项目的提交历史,识别出七种缺陷模式及14种具体场景。研究团队从五个广泛使用的开源Java项目中收集了164个经过开发者验证的真实缺陷实例,每个实例均标注了缺陷模式并附有详细的场景解释和源代码上下文。数据集的构建过程包括三个阶段:首先通过文献综述和问题报告挖掘初步缺陷模式,随后通过人工审查提交历史确认缺陷实例,最后通过多作者交叉验证确保分类准确性。
特点
Defects4Log作为首个专注于日志代码缺陷的基准数据集,具有三个显著特征:其一,覆盖全面性,包含从语义不一致到敏感信息泄露等七类缺陷模式;其二,真实性强,所有实例均源自Hadoop、HBase等知名开源项目的实际缺陷;其三,标注精细,每个实例不仅标注缺陷类型,还提供缺陷场景描述、相关代码上下文及修复方案。特别值得注意的是,该数据集首次揭示了性能热点路径日志等新型缺陷模式,为日志质量研究提供了全新维度。
使用方法
该数据集主要用于评估大语言模型在日志代码缺陷检测中的能力。使用时可遵循三层架构:首先加载缺陷实例及其上下文代码,然后通过设计的提示模板(包含任务描述、源代码、目标日志代码和缺陷模式分类)输入LLM,最后评估模型在直接提示(Direct)和思维链提示(CoT)等策略下的表现。研究建议结合领域知识(+K参数)可提升检测准确率,而控制流/数据流等过程间信息(+I参数)需谨慎使用。数据集支持宏平均准确率等指标计算,适用于缺陷检测、修复建议生成等软件工程任务。
背景与挑战
背景概述
Defects4Log是由香港科技大学(广州)的王鑫、约克大学的李振浩和香港科技大学(广州)的丁子硕等研究人员于2025年提出的一个基准数据集,专注于日志代码缺陷的检测与推理。该数据集的创建基于对开源项目中日志代码缺陷的系统性研究,旨在通过大语言模型(LLMs)提升日志代码的质量。Defects4Log包含164个经过开发者验证的真实日志代码缺陷实例,覆盖了七种缺陷模式和14种具体场景。这一数据集不仅填补了日志代码缺陷系统性研究的空白,还为软件工程领域的日志实践和自动化工具开发提供了重要参考。
当前挑战
Defects4Log面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,日志代码缺陷的多样性和复杂性使得检测和推理变得困难,尤其是语义不一致和变量问题等模式需要深入理解代码上下文和运行时行为。构建过程中的挑战包括从多源数据(如文献、问题报告和提交历史)中提取和验证缺陷实例的准确性,以及确保数据集的代表性和广泛适用性。此外,如何有效利用大语言模型进行缺陷检测和推理,尤其是在缺乏明确上下文指导时,仍然是一个未解决的难题。
常用场景
经典使用场景
Defects4Log数据集主要用于评估大型语言模型(LLM)在检测和推理日志代码缺陷方面的能力。该数据集包含164个经过开发者验证的真实日志代码缺陷实例,涵盖7种缺陷模式和14种详细场景。研究人员可以利用该数据集来测试不同LLM在检测日志代码缺陷时的准确性和推理能力,特别是在结合领域知识和上下文信息时的表现。
解决学术问题
Defects4Log数据集解决了日志代码缺陷检测领域中的几个关键学术问题。首先,它提供了一个系统且全面的日志代码缺陷分类法,弥补了以往研究中缺陷模式范围狭窄的不足。其次,该数据集为评估LLM在日志代码缺陷检测中的能力提供了基准,揭示了LLM在仅提供源代码时的局限性以及结合领域知识后的改进潜力。此外,该数据集还帮助研究者理解LLM在复杂代码语义推理中的表现,为未来的模型优化提供了方向。
衍生相关工作
Defects4Log数据集衍生了一系列相关研究工作。基于该数据集的分类法,研究者开发了自动化工具(如LogUpdater)用于检测和修复特定类型的日志代码缺陷。此外,该数据集还启发了对LLM在代码理解和推理任务中表现的系统性评估,推动了结合领域知识和上下文信息的提示策略研究。其他相关研究还包括日志代码生成、日志分析和异常检测等领域的改进工作,这些研究均受益于Defects4Log提供的缺陷模式和场景知识。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作