year-life-dataset-meta

github2018-10-31 更新2024-05-31 收录

下载链接：

https://github.com/glennklockwood/year-life-dataset-meta

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于生成A Year in the Life of a Parallel File System论文中特征向量的Darshan日志。这些日志以Darshan 3.1规定的二进制格式存储，生成于Cori、Edison和Mira系统。此外，数据集还包括论文中使用的特征向量，以CSV格式编码。

This dataset comprises Darshan logs utilized for generating feature vectors in the paper 'A Year in the Life of a Parallel File System'. These logs are stored in the binary format specified by Darshan 3.1 and were generated on the Cori, Edison, and Mira systems. Additionally, the dataset includes the feature vectors used in the paper, encoded in CSV format.

创建时间：

2018-10-04

原始信息汇总

数据集概述

数据集内容

Darshan日志：包含用于生成“A Year in the Life of a Parallel File System”论文中的特征向量的Darshan日志，这些日志存储在Darshan 3.1规定的二进制格式中，来源于Cori, Edison, 和 Mira系统。
特征向量：以CSV格式编码的特征向量，与tokio-abcutils代码仓库中的特征向量相同，此处为方便使用而重复提供。

数据集结构

README.md：本文件。
LICENSE.md：数据集发布许可证。
INDEX.csv：Darshan日志的索引文件，包含以下字段：
1. log_file：Darshan日志文件名。
2. date：作业运行和日志生成的日期。
3. compute_system：作业运行的计算系统（Edison, Cori, 或 Mira）。
4. file_system：作业运行的文件系统。
5. application：生成数据的基准应用程序名称。
6. shared_or_fpp：作业生成的I/O模式（文件每进程或单共享文件）。
7. read_or_write：作业主要执行的读写操作。
8. md5：Darshan日志的MD5摘要。
darshan_logs/：包含实际Darshan日志的目录，日志按生成年月排序。
summaries/：包含用于论文中图表的特征向量CSV文件的目录。
index_darshan_logs.py：生成INDEX.csv的脚本。
organize_logs_by_date.py：收集Darshan日志到日期索引子目录的脚本。

数据集来源

数据集的特征向量与tokio-abcutils代码仓库中的特征向量相同，仅在此重复提供以方便使用。

搜集汇总

数据集介绍

构建方式

year-life-dataset-meta数据集的构建，源于对Darshan日志的采集与处理。该数据集包含了Lockwood等人发表于2018年高性能计算、网络、存储和分析国际会议（SC'18）论文“A Year in the Life of a Parallel File System”中使用的特征向量。数据集的构建首先涉及从Cori、Edison和Mira系统生成的Darshan 3.1二进制格式日志的收集，进而通过脚本转换成CSV格式的特征向量。

使用方法

使用year-life-dataset-meta数据集时，用户可首先参考INDEX.csv文件来获取日志文件的概览，包括文件名、生成日期、计算系统和文件系统等信息。随后，用户可以直接访问darshan_logs目录下的日志文件，或使用summaries目录中的CSV格式的特征向量进行进一步的数据分析。此外，提供的Python脚本可用于生成INDEX.csv和按日期组织日志，有助于数据的整理和追踪。

背景与挑战

背景概述

year-life-dataset-meta数据集源自Lockwood等人于2018年在高性能计算、网络、存储和分析国际会议上（SC'18）发表的论文“A Year in the Life of a Parallel File System”。该数据集包含Cori、Edison和Mira系统生成的Darshan日志，并从中提取特征向量。这些特征向量与tokio-abcutils代码库中呈现的所有分析和图表所包含的特征向量相同，仅在此处为方便起见进行了复制。该数据集的创建旨在深入分析并行文件系统在长时间运行过程中的性能表现，对高性能计算领域的研究具有显著影响力。

当前挑战

数据集构建过程中的挑战主要包括：如何从Darshan日志中有效提取特征向量，以及如何确保不同系统（Edison、Cori和Mira）和不同文件系统下的日志能够准确对应到具体的作业和性能指标。此外，数据集在解决并行文件系统性能分析领域问题时，面临的挑战是如何处理大规模日志数据，以及如何从这些数据中提取出有价值的性能特征，进而为优化并行文件系统设计和运行提供依据。

常用场景

经典使用场景

year-life-dataset-meta数据集源于对并行文件系统一年生命周期的深入分析，其经典使用场景在于对大规模计算系统中文件系统操作的特性向量进行研究和分析。Lockwood等人借助该数据集，探讨了不同计算系统、不同文件系统以及不同应用场景下的I/O行为特征，为高性能计算领域提供了珍贵的实证数据。

解决学术问题

该数据集有效解决了如何量化并行文件系统在不同负载下的性能表现这一学术问题。通过提供详细的特征向量，研究人员能够对文件系统的读写行为、I/O模式等进行深入分析，进而为优化存储系统和提升计算效率提供了科学依据。

实际应用

在实际应用中，year-life-dataset-meta数据集可用于指导高性能计算中心对存储资源的管理和规划，帮助研发人员理解并优化大规模并行计算中的数据读写过程，从而提高计算任务的执行效率。

数据集最近研究