DSE dataset

github2024-12-19 更新2024-12-27 收录

下载链接：

https://github.com/georgia-tech-synergy-lab/AIrchitect-v2

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了用于在MAESTRO[1]建模的加速器上进行硬件资源分配的DSE数据集。数据集大小为100k，位于`./dse_dataset`目录下，无需下载。数据集包含两个文件：gemm_dataset_*.csv提供GEMM工作负载的DSE输入，conv_dataset_*.csv提供卷积工作负载的DSE输入。

We present a DSE dataset for hardware resource allocation on accelerators modeled by MAESTRO[1]. The dataset contains 100k samples, stored in the `./dse_dataset` directory, and no additional download is required. The dataset includes two files: `gemm_dataset_*.csv` provides DSE inputs for GEMM workloads, while `conv_dataset_*.csv` provides DSE inputs for convolutional workloads.

创建时间：

2024-12-19

原始信息汇总

AIrchitect-v2 数据集概述

数据集简介

AIrchitect-v2 数据集用于在 MAESTRO 模型加速器上进行硬件资源分配的探索。数据集包含 100k 条记录，位于 ./dse_dataset 目录下，无需额外下载。数据集包含两个文件：gemm_dataset_*.csv 提供基于 GEMM 工作负载的 DSE 输入，conv_dataset_*.csv 提供基于卷积工作负载的 DSE 输入。

数据集结构

输入列

GEMM 工作负载：[M, N, GEMM_K, df]
卷积工作负载：[K, C, X, Y, R, S, df]
- K、C、X、Y、R、S：卷积维度
- df：数据流风格，取值为 dla、eye、shi

输出列

ConfigID：最优硬件配置（#PE、Buffer Size）
- #PE 范围为 [1,64]，Buffer Size 范围为 [1,12]
- ConfigID = #PE * max(Buffer Size) + Buffer Size
rewards：DSE 的性能值，本工作中设置为延迟

数据集使用

自定义数据支持：可通过修改 dataset.py 文件来支持自定义 DSE 数据。
模型训练：数据集可用于训练模型，预测 ConfigID 或分解为 #PE 和 Buffer Size 进行训练。

运行指令

第一阶段编码器训练： bash python3 main.py --data ./dse_dataset/conv_dataset_100k.csv --model Transformer --enable_surrogate --alpha 0.2 --save
第二阶段解码器 + UOV 训练： bash python3 main_linear.py --data ./dse_dataset/conv_dataset_100k.csv --model Transformer --enable_surrogate --classifier Transformer --load_chkpt <path-to-stage1-model> [--ordinal] [--interval]

预训练模型

pretrained_models/stage1_encoder.pth
pretrained_models/stage2_decoder.pth

引用

如果使用该数据集或相关成果，请引用以下文献： bibtex @article{ramachandran2025uov, title={AIrchitect v2: Learning the Hardware Accelerator Design Space through Unified Representations}, author={Ramachandran, Akshat and Seo, Jamin and Chuang, Yu-Chuan and Itagi, Anirudh and Krishna, Tushar}, booktitle={2025 Design, Automation & Test in Europe Conference & Exhibition (DATE)}, pages={1--7}, year={2025}, organization={IEEE} }

参考文献

Kwon, H., Chatarasi, P., Sarkar, V., Krishna, T., Pellauer, M., & Parashar, A. (2020). MAESTRO: A data-centric approach to understand reuse, performance, and hardware cost of DNN mappings. IEEE Micro, 40(3), 20-29.
Kao, S.-C., Jeong, G., & Krishna, T. (2020). Confuciux: Autonomous hardware resource assignment for dnn accelerators using reinforcement learning. In 2020 53rd Annual IEEE/ACM International Symposium on Microarchitecture (MICRO) (pp. 622-636).

搜集汇总

数据集介绍

构建方式

DSE数据集专为MAESTRO模型加速器上的硬件资源分配任务而构建，包含10万条数据记录，分别存储于两个CSV文件中。其中，gemm_dataset_*.csv文件提供了基于GEMM工作负载的DSE输入，而conv_dataset_*.csv则提供了基于卷积工作负载的DSE输入。数据集的输入维度包括卷积工作负载的尺寸（如K、C、X、Y、R、S）以及数据流风格（df），输出则通过ConfuciuX工具生成，包括最优硬件配置（ConfigID）和性能指标（rewards）。

特点

DSE数据集的特点在于其全面覆盖了硬件加速器设计空间中的关键参数。输入数据通过随机生成的方式确保了多样性，涵盖了从2到256的卷积核尺寸以及多种数据流风格。输出数据则通过ConfuciuX工具优化生成，提供了最优硬件配置及其对应的性能指标。此外，数据集支持用户自定义扩展，通过修改dataset.py文件，用户可以轻松添加自己的DSE数据。

使用方法

使用DSE数据集时，首先需通过conda创建并激活虚拟环境，并安装所需的Python依赖库。数据集的使用分为两个阶段：第一阶段通过运行main.py文件进行编码器训练，第二阶段则通过main_linear.py文件进行解码器和UOV训练。训练过程中，用户可以选择启用统一回归和分类功能，并通过加载预训练模型来加速训练过程。最终，用户可以根据训练结果进行硬件加速器设计空间的优化。

背景与挑战

背景概述

DSE数据集由Akshat Ramachandran等研究人员于2025年发布，旨在为基于MAESTRO模型的硬件加速器设计提供资源分配支持。该数据集包含10万条记录，涵盖了GEMM和卷积工作负载的硬件配置优化问题。通过ConfuciuX工具生成的配置ID和性能奖励，DSE数据集为硬件设计空间探索（DSE）提供了丰富的实验数据。该数据集的研究背景源于深度神经网络（DNN）加速器设计中对高效资源分配的迫切需求，其发布为硬件设计自动化领域的研究提供了重要参考。

当前挑战

DSE数据集在解决硬件加速器设计空间探索问题时面临多重挑战。首先，硬件配置的多样性和复杂性使得优化目标难以统一，尤其是在处理不同工作负载时，如何平衡性能和资源消耗成为核心难题。其次，数据集的构建过程中，生成最优配置ID和性能奖励需要依赖ConfuciuX工具进行大量计算，这对计算资源和时间成本提出了较高要求。此外，数据集的扩展性和通用性也受到限制，用户需根据自身需求修改数据加载器结构，增加了使用门槛。这些挑战为后续研究提供了改进方向，同时也凸显了硬件设计自动化领域的复杂性。

常用场景

经典使用场景

DSE数据集在硬件加速器设计领域具有重要应用，特别是在基于MAESTRO模型的加速器资源分配任务中。该数据集通过提供大量的卷积和矩阵乘法工作负载，为研究人员提供了一个标准化的实验平台，用于探索不同硬件配置下的性能表现。通过分析数据集中的输入参数和输出配置，研究者能够深入理解硬件资源分配对计算性能的影响。

实际应用

在实际应用中，DSE数据集被广泛用于加速器设计的自动化工具开发。例如，基于该数据集的ConfuciuX系统能够通过强化学习自动分配硬件资源，从而显著提升深度神经网络加速器的性能。此外，该数据集还为硬件设计工程师提供了一个标准化的测试平台，用于评估不同硬件配置在实际工作负载下的表现，从而指导硬件设计决策。

衍生相关工作

DSE数据集衍生了一系列经典研究工作，特别是在硬件加速器设计自动化领域。例如，基于该数据集的AIrchitect v2系统通过统一的表示方法，实现了对硬件设计空间的深入探索。此外，ConfuciuX系统利用该数据集进行强化学习，实现了硬件资源的自动分配。这些工作不仅推动了硬件加速器设计理论的发展，还为实际应用中的性能优化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集