ML4Accel-Dataset

github2024-03-30 更新2024-05-31 收录

下载链接：

https://github.com/UT-LCA/ML4Accel-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由UT Austin开发的开放源代码数据集，专门用于ML引导的芯片设计。数据集包含FPGA和ASIC开发流程的数据，以及C应用程序和HDL设计的基准数据，用于训练芯片设计模型。

This is an open-source dataset developed by UT Austin, specifically designed for ML-guided chip design. The dataset includes data from FPGA and ASIC development processes, as well as benchmark data from C applications and HDL designs, used for training chip design models.

创建时间：

2022-11-08

原始信息汇总

数据集概述

数据集名称

数据集名称为“ML-Guided Accelerator Design”。

数据集目的

该数据集旨在通过机器学习方法改进和加速芯片设计过程，替代传统的分析、模拟或手动方法，以提高设计速度或准确性。

数据集内容

数据类型

FPGA开发流程数据：位于fpga_ml_dataset目录。
ASIC开发流程数据：位于asic_ml_dataset目录。

数据源类型

C应用程序：来自Polybench、CHStone、Machsuite等基准测试。
HDL设计：来自VTR、Koios、OpenCores等基准测试。

数据特征示例

设计大小（基于非技术映射网表中的网表原语）
应用领域（信号处理、机器学习、通用处理器、网络等）
算术运算符（乘法、加法等）和逻辑运算符（与、或、异或等）的数量
主要输入和输出的数量/大小
存储位数
寄存器、信号、多路复用器、有限状态机（对于HDL设计）的数量
基本块、条件、循环（对于C应用程序）的数量

数据指标示例

面积（或资源使用）
功耗
线路长度
操作频率

数据覆盖范围

多个FPGA设备，来自多个FPGA供应商
多个ASIC库/PDKs
多个实现设置（如HLS编译指示、门级综合选项等）
多个工艺角

使用指南

用户应参考每个流程（FPGA或ASIC）对应目录中的README文件以了解如何使用数据。

联系方式

Zhigang Wei: zw5259@utexas.edu
Aman Arora: aman.kbm@utexas.edu

搜集汇总

数据集介绍

构建方式

ML4Accel-Dataset的构建源于对加速器设计过程中机器学习应用的需求。该数据集由德克萨斯大学奥斯汀分校开发，旨在为芯片设计领域的研究人员提供一个高质量的开源资源。数据集主要包含FPGA和ASIC开发流程中的数据，涵盖了从C应用程序到HDL设计的多种来源。通过收集来自不同FPGA设备和ASIC库的信息，并结合多种实现设置和工艺角度的数据，确保了数据集的广泛性和实用性。

特点

ML4Accel-Dataset的特点在于其多样性和全面性。数据集不仅包含了FPGA和ASIC开发流程中的详细数据，还涵盖了多种应用领域，如信号处理、机器学习和网络等。数据集中的特征包括设计规模、算术和逻辑运算符数量、内存位数等，而度量指标则涉及面积、功耗、线长和操作频率等。此外，数据集还提供了多种FPGA设备和ASIC库的信息，以及不同的实现设置和工艺角度，为研究人员提供了丰富的实验材料。

使用方法

ML4Accel-Dataset的使用方法相对直观。用户可以根据需求选择FPGA或ASIC开发流程中的数据，或者同时使用两者。数据集中的每个流程都有相应的README文件，详细说明了数据的使用方式。研究人员可以利用这些数据训练机器学习模型，以优化芯片设计过程中的各个环节，如布局规划、功耗预测和性能评估等。通过结合数据集中的多种特征和度量指标，用户可以开发出更高效、更准确的芯片设计工具。

背景与挑战

背景概述

ML4Accel-Dataset是由德克萨斯大学奥斯汀分校的研究团队开发的一个开源数据集，旨在推动机器学习在芯片设计领域的应用。随着特定领域芯片，尤其是机器学习加速器的需求激增，传统的芯片设计方法面临着设计周期长、效率低下的挑战。为了缩短从架构设计到实现部署的时间，研究人员开始探索利用机器学习技术替代传统的分析、仿真或手动方法，以提高设计速度和准确性。ML4Accel-Dataset的创建为这一领域的研究提供了丰富的数据支持，涵盖了FPGA和ASIC开发流程中的多种设计特征和性能指标，为机器学习模型的训练和验证奠定了坚实基础。

当前挑战

ML4Accel-Dataset在解决芯片设计领域的挑战时，面临多重复杂问题。首先，芯片设计本身涉及高度复杂的多维度优化问题，机器学习模型需要处理大量的设计特征和性能指标，这对数据集的完整性和多样性提出了极高要求。其次，构建过程中，研究人员需要整合来自不同开发流程（如FPGA和ASIC）的数据，并确保数据的一致性和可复用性。此外，芯片设计涉及多种硬件平台和工艺角，如何在不同环境下生成具有代表性的数据也是一个重要挑战。最后，数据集的标注和验证需要依赖领域专家的深度参与，这对数据集的构建效率和准确性提出了更高要求。

常用场景

经典使用场景

ML4Accel-Dataset在芯片设计领域中被广泛应用于机器学习模型的训练与验证。该数据集包含了FPGA和ASIC开发流程中的详细数据，涵盖了从C应用程序到HDL设计的多种来源。研究人员可以利用这些数据来优化芯片布局、预测功耗和性能，以及改进高级综合（HLS）的时序和资源使用估计。通过提供丰富的特征和指标，该数据集为机器学习驱动的芯片设计提供了坚实的基础。

解决学术问题

ML4Accel-Dataset解决了芯片设计过程中多个关键学术问题。首先，它通过提供大规模的训练数据，显著提升了机器学习模型在芯片布局、功耗预测和性能优化中的准确性。其次，该数据集支持跨平台性能预测，帮助研究人员在不同硬件平台上进行快速评估。此外，数据集中的多工艺角信息为芯片设计的鲁棒性分析提供了重要支持，推动了芯片设计自动化的发展。

衍生相关工作

ML4Accel-Dataset衍生了许多经典的研究工作。例如，基于该数据集的研究提出了使用深度学习加速芯片布局的方法，显著提升了设计效率。此外，研究人员开发了跨平台性能预测工具，如HLSPredict和PowerGear，这些工具在FPGA和ASIC设计中得到了广泛应用。数据集还支持了微架构级功耗建模的研究，为CPU设计提供了新的优化思路。这些工作进一步推动了机器学习在芯片设计中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集