five

CiDiff

收藏
arXiv2025-04-25 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.18182v1
下载链接
链接失效反馈
官方服务:
资源简介:
CiDiff是一个专为构建日志定制的差异算法,旨在通过分析CI回归来支持调试。该数据集包含了从GitHub上开源项目提取的17906个管道回归,包括准确性研究、定量研究和用户研究。CiDiff算法在比较通过和失败的构建日志时,能够更准确地识别出更新和移动的行,从而简化错误识别并减少需要检查的行数。该数据集对于研究CI回归调试和差异算法的性能评估具有重要意义。

CiDiff is a diff algorithm customized specifically for build logs, designed to support debugging by analyzing CI regressions. The dataset contains 17,906 pipeline regressions extracted from open-source projects on GitHub, covering accuracy studies, quantitative studies, and user studies. When comparing passed and failed build logs, the CiDiff algorithm can more accurately identify updated and moved lines, thereby simplifying error identification and reducing the number of lines requiring inspection. This dataset is of great significance for research on CI regression debugging and performance evaluation of diff algorithms.
提供机构:
法国波尔多大学, 法国国家科学研究中心, 法国波尔多国家理工学院, LaBRI, UMR 5800
创建时间:
2025-04-25
搜集汇总
数据集介绍
main_image_url
构建方式
CiDiff数据集的构建基于对开源项目GitHub Actions日志的系统性收集与分析。研究人员从28,000个GitHub仓库中筛选出17,906对连续的构建日志,这些日志记录了从成功状态到失败状态的转变过程,且未伴随流水线配置的修改。通过自动化工具提取作业级别的原始日志,并采用严格的过滤标准确保数据质量,最终形成覆盖20种编程语言的多样化数据集。构建过程中特别关注日志的时间连续性和状态转换特征,以准确反映持续集成中的回归场景。
使用方法
使用CiDiff数据集时,建议采用对比分析方法,将最后通过的构建日志与失败日志进行差异化比较。研究人员可通过集成CiDiff工具的生物信息学启发式算法,识别日志间的更新行、移动行等高级差异特征。典型工作流程包括:预处理阶段去除时间戳等噪声数据,应用定制化的日志行相似度度量算法进行比对,最后通过可视化界面分析差异结果。该数据集特别适合评估日志差异算法的精确度、缩减率等指标,也可用于构建基于机器学习的故障诊断模型。
背景与挑战
背景概述
CiDiff数据集由Nicolas Hubner等研究人员于2025年创建,旨在解决持续集成(CI)系统中构建日志分析的挑战。该数据集包含17,906个CI回归案例,主要关注如何通过文本差异算法帮助开发者诊断构建失败的原因。研究团队来自法国波尔多大学和荷兰代尔夫特理工大学,其核心研究问题是如何高效地比较通过和失败的构建日志,以减少开发者手动分析冗长日志的负担。CiDiff的提出显著提升了构建日志分析的效率,对软件工程领域的持续集成实践具有重要影响。
当前挑战
CiDiff面临的挑战主要包括两个方面:1) 领域问题的挑战:构建日志通常冗长且包含来自不同工具的异构输出,导致错误信息难以定位;传统文本差异算法(如LCS-diff)在处理非确定性行顺序和内容微变的日志行时效果不佳。2) 构建过程的挑战:数据集需要处理真实世界中复杂的构建日志,这些日志具有高度多样性(涉及20种编程语言)和规模差异(从几十行到百万行不等);开发专用差异算法需平衡计算效率与结果准确性,同时避免因超时导致的分析中断。
常用场景
经典使用场景
CiDiff数据集在持续集成(CI)系统中具有广泛的应用,特别是在调试构建回归问题时。通过比较构建日志中的文本差异,CiDiff能够帮助开发者快速定位导致构建失败的关键错误信息。该数据集包含了17,906个CI回归案例,覆盖了多种编程语言和项目规模,为研究构建日志分析提供了丰富的实验材料。
解决学术问题
CiDiff数据集解决了构建日志分析中的几个关键学术问题。首先,它提供了一种高效的文本差异算法,能够减少开发者需要检查的日志行数,中位数情况下减少了约60%。其次,该数据集支持了构建日志中移动和更新行的检测,这是传统差异算法无法实现的。这些贡献显著提升了构建失败诊断的效率和准确性。
实际应用
在实际应用中,CiDiff数据集被广泛应用于持续集成系统的故障诊断。开发者可以利用该数据集中的构建日志对,快速识别构建失败的根本原因。此外,CiDiff工具集成了图形用户界面,进一步降低了使用门槛,使得即使是缺乏经验的开发者也能从中受益。
数据集最近研究
最新研究方向
近年来,CiDiff数据集在持续集成(CI)和软件工程领域引起了广泛关注,特别是在构建日志分析和故障诊断方面。该数据集的最新研究方向主要集中在如何通过文本差异算法优化构建日志的调试过程。研究者们提出了一种名为CiDiff的新型差异算法,专门针对构建日志的特点进行了优化,能够有效减少开发者需要检查的日志行数,显著提升了故障诊断的效率。该算法通过引入日志行相似性度量和生物信息学启发式方法,能够识别更新和移动的日志行,从而生成更为简洁和相关的差异报告。此外,CiDiff在用户研究中表现出色,70%的案例中开发者更倾向于使用该算法,而传统的LCS差异算法仅占5%。这一研究方向不仅推动了构建日志分析技术的发展,也为软件维护工具的设计提供了新的思路。
相关研究论文
  • 1
    What Happened in This Pipeline? Diffing Build Logs with CiDiff法国波尔多大学, 法国国家科学研究中心, 法国波尔多国家理工学院, LaBRI, UMR 5800 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作