five

DSE dataset

收藏
github2024-12-19 更新2024-12-27 收录
下载链接:
https://github.com/georgia-tech-synergy-lab/AIrchitect-v2
下载链接
链接失效反馈
官方服务:
资源简介:
我们提供了用于在MAESTRO[1]建模的加速器上进行硬件资源分配的DSE数据集。数据集大小为100k,位于`./dse_dataset`目录下,无需下载。数据集包含两个文件:gemm_dataset_*.csv提供GEMM工作负载的DSE输入,conv_dataset_*.csv提供卷积工作负载的DSE输入。

We present a DSE dataset for hardware resource allocation on accelerators modeled by MAESTRO[1]. The dataset contains 100k samples, stored in the `./dse_dataset` directory, and no additional download is required. The dataset includes two files: `gemm_dataset_*.csv` provides DSE inputs for GEMM workloads, while `conv_dataset_*.csv` provides DSE inputs for convolutional workloads.
创建时间:
2024-12-19
原始信息汇总

AIrchitect-v2 数据集概述

数据集简介

AIrchitect-v2 数据集用于在 MAESTRO 模型加速器上进行硬件资源分配的探索。数据集包含 100k 条记录,位于 ./dse_dataset 目录下,无需额外下载。数据集包含两个文件:gemm_dataset_*.csv 提供基于 GEMM 工作负载的 DSE 输入,conv_dataset_*.csv 提供基于卷积工作负载的 DSE 输入。

数据集结构

输入列

  • GEMM 工作负载[M, N, GEMM_K, df]
  • 卷积工作负载[K, C, X, Y, R, S, df]
    • KCXYRS:卷积维度
    • df:数据流风格,取值为 dlaeyeshi

输出列

  • ConfigID:最优硬件配置(#PEBuffer Size
    • #PE 范围为 [1,64]Buffer Size 范围为 [1,12]
    • ConfigID = #PE * max(Buffer Size) + Buffer Size
  • rewards:DSE 的性能值,本工作中设置为延迟

数据集使用

  • 自定义数据支持:可通过修改 dataset.py 文件来支持自定义 DSE 数据。
  • 模型训练:数据集可用于训练模型,预测 ConfigID 或分解为 #PEBuffer Size 进行训练。

运行指令

  1. 第一阶段编码器训练: bash python3 main.py --data ./dse_dataset/conv_dataset_100k.csv --model Transformer --enable_surrogate --alpha 0.2 --save

  2. 第二阶段解码器 + UOV 训练: bash python3 main_linear.py --data ./dse_dataset/conv_dataset_100k.csv --model Transformer --enable_surrogate --classifier Transformer --load_chkpt <path-to-stage1-model> [--ordinal] [--interval]

预训练模型

  • pretrained_models/stage1_encoder.pth
  • pretrained_models/stage2_decoder.pth

引用

如果使用该数据集或相关成果,请引用以下文献: bibtex @article{ramachandran2025uov, title={AIrchitect v2: Learning the Hardware Accelerator Design Space through Unified Representations}, author={Ramachandran, Akshat and Seo, Jamin and Chuang, Yu-Chuan and Itagi, Anirudh and Krishna, Tushar}, booktitle={2025 Design, Automation & Test in Europe Conference & Exhibition (DATE)}, pages={1--7}, year={2025}, organization={IEEE} }

参考文献

  1. Kwon, H., Chatarasi, P., Sarkar, V., Krishna, T., Pellauer, M., & Parashar, A. (2020). MAESTRO: A data-centric approach to understand reuse, performance, and hardware cost of DNN mappings. IEEE Micro, 40(3), 20-29.
  2. Kao, S.-C., Jeong, G., & Krishna, T. (2020). Confuciux: Autonomous hardware resource assignment for dnn accelerators using reinforcement learning. In 2020 53rd Annual IEEE/ACM International Symposium on Microarchitecture (MICRO) (pp. 622-636).
搜集汇总
数据集介绍
main_image_url
构建方式
DSE数据集专为MAESTRO模型加速器上的硬件资源分配任务而构建,包含10万条数据记录,分别存储于两个CSV文件中。其中,gemm_dataset_*.csv文件提供了基于GEMM工作负载的DSE输入,而conv_dataset_*.csv则提供了基于卷积工作负载的DSE输入。数据集的输入维度包括卷积工作负载的尺寸(如K、C、X、Y、R、S)以及数据流风格(df),输出则通过ConfuciuX工具生成,包括最优硬件配置(ConfigID)和性能指标(rewards)。
特点
DSE数据集的特点在于其全面覆盖了硬件加速器设计空间中的关键参数。输入数据通过随机生成的方式确保了多样性,涵盖了从2到256的卷积核尺寸以及多种数据流风格。输出数据则通过ConfuciuX工具优化生成,提供了最优硬件配置及其对应的性能指标。此外,数据集支持用户自定义扩展,通过修改dataset.py文件,用户可以轻松添加自己的DSE数据。
使用方法
使用DSE数据集时,首先需通过conda创建并激活虚拟环境,并安装所需的Python依赖库。数据集的使用分为两个阶段:第一阶段通过运行main.py文件进行编码器训练,第二阶段则通过main_linear.py文件进行解码器和UOV训练。训练过程中,用户可以选择启用统一回归和分类功能,并通过加载预训练模型来加速训练过程。最终,用户可以根据训练结果进行硬件加速器设计空间的优化。
背景与挑战
背景概述
DSE数据集由Akshat Ramachandran等研究人员于2025年发布,旨在为基于MAESTRO模型的硬件加速器设计提供资源分配支持。该数据集包含10万条记录,涵盖了GEMM和卷积工作负载的硬件配置优化问题。通过ConfuciuX工具生成的配置ID和性能奖励,DSE数据集为硬件设计空间探索(DSE)提供了丰富的实验数据。该数据集的研究背景源于深度神经网络(DNN)加速器设计中对高效资源分配的迫切需求,其发布为硬件设计自动化领域的研究提供了重要参考。
当前挑战
DSE数据集在解决硬件加速器设计空间探索问题时面临多重挑战。首先,硬件配置的多样性和复杂性使得优化目标难以统一,尤其是在处理不同工作负载时,如何平衡性能和资源消耗成为核心难题。其次,数据集的构建过程中,生成最优配置ID和性能奖励需要依赖ConfuciuX工具进行大量计算,这对计算资源和时间成本提出了较高要求。此外,数据集的扩展性和通用性也受到限制,用户需根据自身需求修改数据加载器结构,增加了使用门槛。这些挑战为后续研究提供了改进方向,同时也凸显了硬件设计自动化领域的复杂性。
常用场景
经典使用场景
DSE数据集在硬件加速器设计领域具有重要应用,特别是在基于MAESTRO模型的加速器资源分配任务中。该数据集通过提供大量的卷积和矩阵乘法工作负载,为研究人员提供了一个标准化的实验平台,用于探索不同硬件配置下的性能表现。通过分析数据集中的输入参数和输出配置,研究者能够深入理解硬件资源分配对计算性能的影响。
实际应用
在实际应用中,DSE数据集被广泛用于加速器设计的自动化工具开发。例如,基于该数据集的ConfuciuX系统能够通过强化学习自动分配硬件资源,从而显著提升深度神经网络加速器的性能。此外,该数据集还为硬件设计工程师提供了一个标准化的测试平台,用于评估不同硬件配置在实际工作负载下的表现,从而指导硬件设计决策。
衍生相关工作
DSE数据集衍生了一系列经典研究工作,特别是在硬件加速器设计自动化领域。例如,基于该数据集的AIrchitect v2系统通过统一的表示方法,实现了对硬件设计空间的深入探索。此外,ConfuciuX系统利用该数据集进行强化学习,实现了硬件资源的自动分配。这些工作不仅推动了硬件加速器设计理论的发展,还为实际应用中的性能优化提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作