AL-Bench

Name: AL-Bench
Creator: 香港中文大学（深圳）
Published: 2025-02-07 21:46:57
License: 暂无描述

arXiv2025-02-07 更新2025-02-11 收录

下载链接：

https://github.com/shuaijiumei/logging-benchmark-scripts

下载链接

链接失效反馈

官方服务：

资源简介：

AL-Bench是一个专为自动日志记录工具设计的综合基准，包含一个高质量、多样化的数据集，从10个广受欢迎、高质量的开源项目收集了42224个实例，涵盖了不同的领域和不同的日志记录需求。该数据集旨在提供一个用于评估自动日志记录方法的标准化平台，通过将生成的日志语句重新集成到实际项目代码中，然后重新编译和执行它们，以评估日志语句的编译性和运行时日志的质量。

AL-Bench is a comprehensive benchmark specifically designed for automated logging tools. It contains a high-quality, diverse dataset with 42,224 instances collected from 10 widely adopted, high-quality open-source projects, covering various domains and diverse logging requirements. This benchmark aims to provide a standardized platform for evaluating automated logging methods, where the compilability of generated log statements and the quality of runtime logs are assessed by re-integrating the generated log statements into actual project code, then recompiling and executing the modified code.

提供机构：

香港中文大学（深圳）

创建时间：

2025-02-05

原始信息汇总

AL-Bench: 自动日志评估基准

数据集概述

数据集名称：AL-Bench
数据集用途：针对运行时日志的自动评估，包含高质量数据集和一种新颖的动态评估方法。
数据集结构：
- Static_Evaluation/：静态评估脚本和结果。
- Dynamic_Evaluation/：动态评估脚本和结果。

数据集访问

数据集链接：完整评估数据集

评估方法

静态评估：关注日志级别准确性（LA）、日志位置准确性（PA）、日志消息准确性（MA）、动态变量准确性（DVA）和静态文本BLEU分数（STB）。
动态评估：基于Hadoop 3.4.0单元测试，评估日志工具在实际运行时环境中的性能。

评估结果

静态评估结果：
动态评估结果：

快速开始

环境要求：Java Development Kit (JDK)、Maven、Node.js、Docker（动态评估所需）。

被评估的日志工具

FastLog
UniLog
LANCE
LEONID

引用

@misc{tan2025albenchbenchmarkautomaticlogging, title={AL-Bench: A Benchmark for Automatic Logging}, author={Boyin Tan and Junjielong Xu and Zhouruixing Zhu and Pinjia He}, year={2025}, eprint={2502.03160}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2502.03160}, }

许可

该项目在MIT许可下进行 - 参见LICENSE文件以获取详细信息。

搜集汇总

数据集介绍

构建方式

AL-Bench数据集的构建方式是通过从10个具有不同日志需求且被广泛认可的项目中收集高质量、多样化的数据集。这些项目涵盖数据库管理、任务调度、分布式存储、消息系统和物联网平台等多个领域。数据集包括22,787个代码片段和42,224个日志语句，覆盖了广泛的日志需求和实践。为了保证数据质量，数据集采用了严格的筛选标准，例如要求项目在GitHub上至少有10,000个星标、1,000个日志语句和500个与日志相关的issue。此外，数据集还包括了动态评估部分，该部分包含2,238个实例，用于评估生成的日志语句在编译和运行时日志方面的有效性。

特点

AL-Bench数据集的特点包括高质量、多样性和大规模。数据集从10个不同领域的高质量GitHub项目中收集，确保了数据的多样性和覆盖面。数据集的构建标准严格，保证了数据的质量和一致性。此外，AL-Bench还引入了一种新的动态评估方法，该方法通过将生成的日志语句重新集成到项目中，并重新编译和执行，以评估其在实际运行环境中的编译性和运行时日志的有效性。

使用方法

AL-Bench数据集的使用方法包括静态评估和动态评估两部分。静态评估部分使用五个指标来评估日志语句组件的准确性，包括日志级别准确性、位置准确性、消息准确性、动态变量准确性和静态文本BLEU。动态评估部分使用四个指标来评估生成的日志语句在编译和运行时日志方面的有效性，包括编译成功率、日志相似度、假阳性日志生成率和假阴性日志生成率。使用AL-Bench数据集，研究人员和开发者可以评估自动日志工具的性能，并发现其在实际应用中的局限性和改进空间。

背景与挑战

背景概述

AL-Bench是一个为自动化日志记录工具设计的全面基准，由香港中文大学（深圳）的研究人员于2025年创建。该数据集旨在解决当前日志记录工具评估中的关键挑战，包括缺乏统一的大规模数据集和评估方法，以及评估指标未能反映现实世界中的有效性。AL-Bench的数据集包含来自10个广泛认可的项目的高质量、多样化的数据，这些项目具有不同的日志记录需求。该数据集的创建为自动化日志记录方法提供了一个坚实的评估基础，并引入了一种新的动态评估方法，该方法通过将生成的日志语句重新集成到真实项目代码中，然后重新编译和执行它们，从而评估其编译性和生成的运行时日志的有效性。AL-Bench的发布为标准化评估提供了重要的资源，并揭示了最先进的工具的重大局限性，为自动化日志记录工具的进一步发展提供了重要机遇。

当前挑战

AL-Bench所面临的挑战主要涉及日志记录工具评估的领域问题。首先，现有的评估数据集通常是临时的，由整个数据集分割而成，数据选择规则宽松，以确保有足够的训练数据。此外，为了适应工具的限制，一些工具过滤掉了超过512个token的实例，忽略了在现实世界的开发环境中常见的长代码片段。其次，当前的评估方法没有验证生成的日志语句是否可编译。生成可编译的日志语句是实际应用自动日志记录工具的基本要求。然而，当前的评估方法只关注日志语句各个组件（即位置、详细程度和消息）与真实值的匹配程度，而无法评估生成的日志语句可能引入的编译错误。第三，评估方法无法评估预测的日志语句生成的运行时日志的质量。当前的方法评估工具的性能基于日志语句各个组件的正确性，但难以准确反映在真实执行环境中的运行时日志的质量。AL-Bench的动态评估方法通过将生成的日志语句重新集成到真实项目代码中，然后重新编译和执行它们，从而评估其编译性和生成的运行时日志的有效性，解决了这些挑战。

常用场景

经典使用场景

AL-Bench 数据集主要用于评估和比较自动日志记录工具的性能。该数据集包含了从 10 个广泛认可的项目中收集的高质量、多样化的数据集，这些项目具有不同的日志记录需求。AL-Bench 引入了一种新颖的动态评估方法，该方法不仅评估了插入日志语句后代码的可编译性，还评估了它们在运行时生成的日志的有效性。这使得 AL-Bench 能够更好地反映实际应用中日志记录技术的有效性。

衍生相关工作

AL-Bench 数据集的发布衍生了一系列相关工作。研究人员利用 AL-Bench 对现有的自动日志记录工具进行了全面的评估，揭示了这些工具在可编译性和运行时日志生成方面的关键局限性。这些研究结果为自动日志记录工具的改进提供了重要的参考。此外，AL-Bench 的评估方法也被用于其他领域，例如代码生成和代码摘要，以评估和比较相关工具的性能。

数据集最近研究