ICPE 2023 Data Challenge Dataset
收藏github2022-11-28 更新2024-05-31 收录
下载链接:
https://github.com/SEALABQualityGroup/icpe-data-challenge-jmh
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了来自30个Java开源项目的JMH微基准测试的性能测量数据。数据集包括时间序列数据和原始JSON格式的JMH输出样本。
This dataset comprises performance measurement data from JMH microbenchmarks across 30 open-source Java projects. It includes time series data as well as raw JMH output samples in JSON format.
创建时间:
2022-10-06
原始信息汇总
数据集概述
数据集名称
Dataset for the ICPE 2023 Data Challenge track
数据集内容
该数据集包含来自30个Java开源项目的JMH微基准性能测量。项目列表及其执行微基准的修订版本记录在benchmarks_revision.csv文件中。
数据组织
- 时间序列数据:位于
timeseries文件夹中。 - 原始样本数据:以JSON格式存储,可在https://zenodo.org/record/5961018获取,解压后约65GB。
数据集用途示例
提供了一个Python脚本example_viz.py,用于读取数据并生成简单图表。该脚本需要pandas和matplotlib库。
数据集创建目的
该数据集是为论文《Towards effective assessment of steady state performance in Java software: Are we there yet?》创建,该论文发表于Empirical Software Engineering (EMSE) - 28, 13 (2023)。
搜集汇总
数据集介绍

构建方式
ICPE 2023 Data Challenge Dataset的构建基于30个Java开源项目的JMH微基准测试性能测量数据。这些数据通过执行特定版本的微基准测试获得,项目及其对应的修订版本信息记录在benchmarks_revision.csv文件中。时间序列数据存储在timeseries文件夹中,而原始的JMH输出数据则以JSON格式提供,可通过Zenodo平台获取,解压后约65GB。
使用方法
使用该数据集时,用户可通过提供的Python脚本example_viz.py读取数据并生成可视化图表。脚本依赖pandas和matplotlib库,用户需先创建虚拟环境并安装相关依赖。通过运行脚本,用户可以快速了解数据的结构和内容,并在此基础上进行更深入的分析。对于更复杂的研究需求,用户还可以直接访问Zenodo平台获取原始JSON数据,进行自定义分析。
背景与挑战
背景概述
ICPE 2023 Data Challenge Dataset是由Luca Traini、Vittorio Cortellessa、Daniele Di Pompeo和Michele Tucci等研究人员于2023年创建的,旨在评估Java软件稳态性能的有效性。该数据集包含了30个Java开源项目的JMH微基准测试性能测量数据,这些数据以时间序列的形式组织,并提供了原始样本的JSON格式输出。该数据集的研究背景源于对Java软件性能评估的持续关注,尤其是在微基准测试中的应用。通过提供详细的性能测量数据,该数据集为研究人员和开发者提供了一个宝贵的资源,用于深入分析和优化Java应用的性能。该数据集的相关研究发表在《Empirical Software Engineering》期刊上,进一步推动了Java性能评估领域的发展。
当前挑战
ICPE 2023 Data Challenge Dataset面临的挑战主要集中在两个方面。首先,该数据集旨在解决Java软件稳态性能评估的复杂性问题,尤其是在微基准测试中如何准确捕捉和解释性能波动。由于Java应用的性能受多种因素影响,如JVM优化、垃圾回收机制等,如何从大量数据中提取有意义的性能指标是一个重要的挑战。其次,在数据集的构建过程中,研究人员需要处理来自30个不同开源项目的性能数据,这些项目在代码结构、依赖关系和运行环境上存在显著差异,导致数据采集和标准化处理变得复杂。此外,数据集规模庞大(约65GB),如何在保证数据完整性的同时进行高效存储和访问,也是构建过程中需要克服的技术难题。
常用场景
经典使用场景
在软件性能工程领域,ICPE 2023 Data Challenge Dataset被广泛应用于Java开源项目的性能评估。该数据集通过JMH微基准测试,提供了30个Java开源项目的性能测量数据,为研究人员和开发者提供了一个标准化的性能测试平台。通过分析这些时间序列数据,用户可以深入理解不同Java项目在不同条件下的性能表现,从而优化代码和系统设计。
解决学术问题
该数据集解决了Java软件性能评估中的关键问题,特别是在稳态性能评估方面。传统的性能测试方法往往难以捕捉到系统在长时间运行中的性能波动,而该数据集通过高频率的微基准测试,提供了详细的性能时间序列数据,帮助研究人员更准确地评估和预测Java软件的性能瓶颈。这一数据集为性能工程领域的研究提供了重要的数据支持,推动了相关理论和方法的发展。
实际应用
在实际应用中,ICPE 2023 Data Challenge Dataset为Java开发者提供了一个强大的工具,用于评估和优化其项目的性能。通过分析数据集中的性能测量结果,开发者可以识别出代码中的性能瓶颈,并进行针对性的优化。此外,该数据集还可用于构建自动化性能测试工具,帮助开发团队在持续集成和持续交付(CI/CD)流程中实时监控和提升系统性能。
数据集最近研究
最新研究方向
近年来,随着软件性能评估需求的日益增长,ICPE 2023 Data Challenge Dataset为Java开源项目的性能分析提供了重要的数据支持。该数据集包含了30个Java开源项目的JMH微基准测试性能测量数据,为研究人员提供了丰富的时间序列数据。当前的研究方向主要集中在如何利用这些数据来优化Java软件的稳态性能评估,特别是在多线程和高并发环境下的性能表现。此外,该数据集还被广泛应用于机器学习模型的训练,以预测和优化软件性能。这些研究不仅推动了软件工程领域的前沿发展,还为开源社区的持续改进提供了科学依据。
以上内容由遇见数据集搜集并总结生成



