Mozilla性能测量和警报数据集
收藏arXiv2025-03-21 更新2025-03-22 收录
下载链接:
https://doi.org/10.5281/zenodo.14642238
下载链接
链接失效反馈官方服务:
资源简介:
Mozilla性能测量和警报数据集是由康考迪亚大学REALISE实验室和Mozilla公司合作收集的一套独特数据集。该数据集包含了从2023年5月至2024年5月期间,Mozilla Firefox性能测试基础设施产生的5655个性能时间序列和17989个性能警报,以及由此产生的详细注释的bug。数据集旨在支持性能工程、异常检测和机器学习等研究,通过提供高质量、注释详细的数据,助力分析性能趋势,发展新型变化点检测方法,推进跨平台和测试环境的性能回归分析。
The Mozilla Performance Measurement and Alert Dataset is a unique dataset jointly collected by the REALISE Lab at Concordia University and Mozilla Corporation. This dataset contains 5,655 performance time series and 17,989 performance alerts generated by the Mozilla Firefox performance testing infrastructure between May 2023 and May 2024, as well as comprehensively annotated bugs corresponding to these records. The dataset is designed to support research in areas such as performance engineering, anomaly detection and machine learning. By providing high-quality, thoroughly annotated data, it facilitates the analysis of performance trends, the development of novel change point detection methods, and the advancement of performance regression analysis across platforms and testing environments.
提供机构:
加拿大康考迪亚大学REALISE实验室
创建时间:
2025-03-21
搜集汇总
数据集介绍

构建方式
Mozilla性能测量和警报数据集的构建基于Mozilla Firefox的性能测试基础设施,涵盖了从2023年5月至2024年5月期间收集的5,655条性能时间序列、17,989条性能警报及其相关bug的详细注释。数据收集过程通过Mozilla Perfherder API实现,确保了数据的全面性和实时性。数据集经过清洗和标注,性能测量数据与警报交叉引用,确保了数据的准确性和可追溯性。此外,性能警报由Mozilla的性能团队手动验证,并与相应的bug关联,进一步增强了数据的可靠性。
特点
该数据集的特点在于其全面性和多样性。数据集不仅包含了大量的性能时间序列和警报,还提供了详细的元数据,如测试平台、测试套件、警报状态等。每个性能时间序列至少与一个性能警报相关联,确保了数据的异常检测价值。此外,数据集还包含了专家验证的警报和相关的bug信息,使得研究者能够深入分析性能回归的根本原因。数据集的时间跨度为一年,覆盖了多个软件平台和测试环境,为研究性能趋势和异常检测提供了丰富的素材。
使用方法
该数据集可用于多个研究领域,包括性能工程、异常检测和机器学习。研究者可以利用数据集中的性能时间序列来分析软件性能的演变趋势,识别性能异常,并开发新的变化点检测方法。数据集中的专家验证警报和bug信息为性能回归预测提供了可靠的标签数据,可用于训练和评估回归模型。此外,数据集还可用于性能bug的特征分析,帮助研究者理解bug的修复过程和影响因素。通过结合代码相关的元数据,研究者还可以进一步分析导致性能回归的代码修改,为软件性能优化提供有力支持。
背景与挑战
背景概述
Mozilla性能测量和警报数据集由Concordia大学的REALISE实验室与Mozilla公司合作创建,旨在为软件性能工程、异常检测和机器学习研究提供支持。该数据集收集自Mozilla Firefox的性能测试基础设施,涵盖了2023年5月至2024年5月期间的5,655条性能时间序列、17,989条性能警报以及相关Bug的详细注释。通过发布这一数据集,研究人员能够深入分析性能趋势、开发新的变化点检测方法,并在不同平台和测试环境中推进性能回归分析。该数据集填补了公开性能测量数据的空白,为性能工程领域的研究提供了宝贵的资源。
当前挑战
该数据集面临的主要挑战包括:1) 在性能回归检测领域,如何准确识别和分类性能异常仍然是一个复杂的问题,尤其是在面对多平台和多样化测试环境时;2) 数据集的构建过程中,收集和清理大规模性能测量数据并确保其与警报和Bug的关联性是一项艰巨的任务。此外,数据集仅包含触发警报的性能时间序列,可能无法全面反映所有性能测量情况,尤其是那些未触发警报的正常或低异常性数据。这些挑战为研究人员提供了进一步探索和改进的机会。
常用场景
经典使用场景
Mozilla性能测量和警报数据集在性能工程领域具有广泛的应用场景,尤其是在软件性能回归检测和异常检测方面。该数据集包含了来自Mozilla Firefox性能测试基础设施的5,655条性能时间序列数据和17,989条专家验证的性能警报,涵盖了从2023年5月至2024年5月的数据。研究人员可以利用这些数据来研究性能趋势,开发新的变化点检测方法,并分析不同平台和测试环境下的性能回归问题。该数据集为性能工程研究提供了丰富的实验材料,尤其是在处理大规模软件系统的性能监控和优化时,具有重要的参考价值。
解决学术问题
该数据集解决了软件性能工程中的多个关键学术问题,尤其是性能回归的早期检测和根本原因分析。通过提供详细的性能时间序列数据和专家验证的警报,研究人员可以深入分析性能退化的模式,开发更精确的异常检测算法。此外,数据集中的元数据(如测试条件、平台信息和相关Bug)为研究性能回归的根源提供了重要线索,帮助学术界更好地理解性能问题的成因及其对系统的影响。这一数据集填补了现有公开数据集中缺乏真实世界性能测量和专家验证警报的空白,推动了性能工程领域的研究进展。
衍生相关工作
该数据集衍生了许多经典的研究工作,尤其是在性能回归预测和变化点检测领域。研究人员利用该数据集开发了多种基于时间序列分析的算法,用于预测软件性能退化并识别性能变化的临界点。此外,该数据集还被用于研究性能Bug的特征和修复模式,帮助开发团队更好地理解性能问题的生命周期。一些研究还基于该数据集提出了新的性能监控框架,结合机器学习技术,实现了对大规模软件系统的实时性能监控和优化。这些衍生工作不仅推动了性能工程领域的技术进步,也为其他行业的性能优化提供了借鉴。
以上内容由遇见数据集搜集并总结生成



