Green Dataset
收藏github2019-03-13 更新2024-05-31 收录
下载链接:
https://github.com/greentrace/green-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个版本的应用程序(如文本编辑器gedit和音频播放器mpg123)的能量消耗数据,以及与执行跟踪相关的各种测试案例。每个数据集以CSV格式存储,记录了每个版本应用程序的平均功耗和系统调用次数。
This dataset encompasses energy consumption data for multiple versions of applications (such as the text editor gedit and the audio player mpg123), along with various test cases related to execution tracing. Each dataset is stored in CSV format, documenting the average power consumption and the number of system calls for each version of the application.
创建时间:
2014-01-17
原始信息汇总
数据集概述
数据集名称
Green Dataset: A Dataset for Mining the Impact of Software Change on Energy Consumption
数据集内容
- 应用类型:文本编辑器 gedit 和音频播放器 mpg123
- 版本数量:多个版本
- 测试案例:两种测试案例,每种应用各两种
- 数据格式:CSV格式
- 数据内容:每行代表一个应用版本的数据,包括平均能耗和系统调用次数
- 数据特点:
- 第一列为按时间顺序排列的每个应用版本的平均能耗
- 其余列为不同的系统调用及其调用次数
数据集文件说明
- gedit-versions:存储测试的gedit版本号及其对应的测试案例(文本编辑和语法高亮)
- gedit-commit-version:存储测试的gedit版本号及其对应的git提交哈希
- mpg123-play-mp3-versions:存储测试的mpg123版本号及其对应的mp3播放测试案例
- mpg123-play-stream-versions:存储测试的mpg123版本号及其对应的流播放测试案例
数据集使用许可
- 源代码许可:GPL-2+ 或兼容GPL-2
- 数据许可:CC-BY 4.0,需按要求归属Abram Hindle和Chenlei Zhang
搜集汇总
数据集介绍

构建方式
Green Dataset 是通过对开源文本编辑器 gedit 和音频播放器 mpg123 进行多个版本的构建,并在不同的测试用例下收集执行轨迹与能耗数据而构建的。研究团队针对每个应用开发了两个测试用例以收集数据,每个测试用例的数据构成了一个数据集,包含每个版本的平均功耗及相应的系统调用次数。
特点
该数据集的特点在于,它提供了应用软件不同版本在多种测试情况下的能耗数据,以及相应的系统调用跟踪信息。数据集以 CSV 格式存储,每行代表一个应用版本的数据,第一列是按时间顺序排列的每个应用版本的平均功耗,其余列则记录了不同的系统调用及其调用次数。此外,数据集涵盖了版本演化的维度,对于研究软件变更对能耗影响具有独特价值。
使用方法
用户可以通过阅读所提供的 text 文件了解数据集包含的具体版本信息,这些文件记录了测试过的版本号以及相应的 git 提交哈希值。数据集的 CSV 文件可被直接加载进数据分析软件或编程语言中,如 Python 的 pandas 库,进行进一步的处理和分析。数据的使用需遵循 CC-BY 4.0 许可,确保在引用时正确归属原作者。
背景与挑战
背景概述
Green Dataset是一个专门用于研究软件版本更新对能耗影响的数据集。该数据集由加拿大阿尔伯塔大学的研究人员Chenlei Zhang,Joshua Campbell和Abram Hindle于2014年创建,旨在为软件工程领域提供一种新的研究工具,通过分析软件在不同版本下的能耗变化,以探究软件变更与能源消耗之间的关联。该数据集基于开源文本编辑器gedit和音频播放器mpg123的多个版本,通过不同的测试案例收集了平均功率消耗和系统调用次数的数据,对于推动软件能耗优化研究具有重要意义。
当前挑战
Green Dataset在构建过程中遇到的挑战主要包括:如何准确量化软件版本更新导致的能耗变化,以及如何将软件行为与能耗数据进行有效关联。此外,数据集在解决软件能耗优化领域问题时面临的挑战包含:系统调用的多样性和复杂性导致数据集构建的难度增加,且不同应用和测试案例下系统调用的数量差异导致数据格式的不一致性。这些挑战对于研究人员的分析技术和数据处理能力提出了较高的要求。
常用场景
经典使用场景
在软件工程与能源消耗研究领域,Green Dataset 被广泛用于探究软件版本更迭对能耗的影响。该数据集通过记录不同版本应用程序在多种测试案例下的能量消耗及系统调用情况,为研究者提供了一个宝贵的实证分析资源。
衍生相关工作
基于Green Dataset,衍生出了多项研究工作,包括软件能耗监测工具的开发、能耗预测模型的构建以及软件优化策略的研究,为软件工程领域带来了新的研究方向和实践成果。
数据集最近研究
最新研究方向
在软件工程与绿色计算领域,Green Dataset数据集为探究软件版本更迭对能源消耗的影响提供了实证基础。该数据集通过追踪开源文本编辑器gedit和音频播放器mpg123不同版本在多种测试用例下的执行轨迹与能源消耗,揭示了软件变化与系统能耗之间的内在联系。近期研究聚焦于如何通过优化软件变更来降低能耗,以实现更加环保的软件开发流程,这对于促进可持续计算和减少信息技术产业的碳足迹具有深远意义。
以上内容由遇见数据集搜集并总结生成



