ML4Accel-Dataset
收藏github2024-03-30 更新2024-05-31 收录
下载链接:
https://github.com/UT-LCA/ML4Accel-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由UT Austin开发的开放源代码数据集,专门用于ML引导的芯片设计。数据集包含FPGA和ASIC开发流程的数据,以及C应用程序和HDL设计的基准数据,用于训练芯片设计模型。
This is an open-source dataset developed by UT Austin, specifically designed for ML-guided chip design. The dataset includes data from FPGA and ASIC development processes, as well as benchmark data from C applications and HDL designs, used for training chip design models.
创建时间:
2022-11-08
原始信息汇总
数据集概述
数据集名称
数据集名称为“ML-Guided Accelerator Design”。
数据集目的
该数据集旨在通过机器学习方法改进和加速芯片设计过程,替代传统的分析、模拟或手动方法,以提高设计速度或准确性。
数据集内容
数据类型
- FPGA开发流程数据:位于
fpga_ml_dataset目录。 - ASIC开发流程数据:位于
asic_ml_dataset目录。
数据源类型
- C应用程序:来自Polybench、CHStone、Machsuite等基准测试。
- HDL设计:来自VTR、Koios、OpenCores等基准测试。
数据特征示例
- 设计大小(基于非技术映射网表中的网表原语)
- 应用领域(信号处理、机器学习、通用处理器、网络等)
- 算术运算符(乘法、加法等)和逻辑运算符(与、或、异或等)的数量
- 主要输入和输出的数量/大小
- 存储位数
- 寄存器、信号、多路复用器、有限状态机(对于HDL设计)的数量
- 基本块、条件、循环(对于C应用程序)的数量
数据指标示例
- 面积(或资源使用)
- 功耗
- 线路长度
- 操作频率
数据覆盖范围
- 多个FPGA设备,来自多个FPGA供应商
- 多个ASIC库/PDKs
- 多个实现设置(如HLS编译指示、门级综合选项等)
- 多个工艺角
使用指南
用户应参考每个流程(FPGA或ASIC)对应目录中的README文件以了解如何使用数据。
联系方式
- Zhigang Wei: zw5259@utexas.edu
- Aman Arora: aman.kbm@utexas.edu
搜集汇总
数据集介绍

构建方式
ML4Accel-Dataset的构建源于对加速器设计过程中机器学习应用的需求。该数据集由德克萨斯大学奥斯汀分校开发,旨在为芯片设计领域的研究人员提供一个高质量的开源资源。数据集主要包含FPGA和ASIC开发流程中的数据,涵盖了从C应用程序到HDL设计的多种来源。通过收集来自不同FPGA设备和ASIC库的信息,并结合多种实现设置和工艺角度的数据,确保了数据集的广泛性和实用性。
特点
ML4Accel-Dataset的特点在于其多样性和全面性。数据集不仅包含了FPGA和ASIC开发流程中的详细数据,还涵盖了多种应用领域,如信号处理、机器学习和网络等。数据集中的特征包括设计规模、算术和逻辑运算符数量、内存位数等,而度量指标则涉及面积、功耗、线长和操作频率等。此外,数据集还提供了多种FPGA设备和ASIC库的信息,以及不同的实现设置和工艺角度,为研究人员提供了丰富的实验材料。
使用方法
ML4Accel-Dataset的使用方法相对直观。用户可以根据需求选择FPGA或ASIC开发流程中的数据,或者同时使用两者。数据集中的每个流程都有相应的README文件,详细说明了数据的使用方式。研究人员可以利用这些数据训练机器学习模型,以优化芯片设计过程中的各个环节,如布局规划、功耗预测和性能评估等。通过结合数据集中的多种特征和度量指标,用户可以开发出更高效、更准确的芯片设计工具。
背景与挑战
背景概述
ML4Accel-Dataset是由德克萨斯大学奥斯汀分校的研究团队开发的一个开源数据集,旨在推动机器学习在芯片设计领域的应用。随着特定领域芯片,尤其是机器学习加速器的需求激增,传统的芯片设计方法面临着设计周期长、效率低下的挑战。为了缩短从架构设计到实现部署的时间,研究人员开始探索利用机器学习技术替代传统的分析、仿真或手动方法,以提高设计速度和准确性。ML4Accel-Dataset的创建为这一领域的研究提供了丰富的数据支持,涵盖了FPGA和ASIC开发流程中的多种设计特征和性能指标,为机器学习模型的训练和验证奠定了坚实基础。
当前挑战
ML4Accel-Dataset在解决芯片设计领域的挑战时,面临多重复杂问题。首先,芯片设计本身涉及高度复杂的多维度优化问题,机器学习模型需要处理大量的设计特征和性能指标,这对数据集的完整性和多样性提出了极高要求。其次,构建过程中,研究人员需要整合来自不同开发流程(如FPGA和ASIC)的数据,并确保数据的一致性和可复用性。此外,芯片设计涉及多种硬件平台和工艺角,如何在不同环境下生成具有代表性的数据也是一个重要挑战。最后,数据集的标注和验证需要依赖领域专家的深度参与,这对数据集的构建效率和准确性提出了更高要求。
常用场景
经典使用场景
ML4Accel-Dataset在芯片设计领域中被广泛应用于机器学习模型的训练与验证。该数据集包含了FPGA和ASIC开发流程中的详细数据,涵盖了从C应用程序到HDL设计的多种来源。研究人员可以利用这些数据来优化芯片布局、预测功耗和性能,以及改进高级综合(HLS)的时序和资源使用估计。通过提供丰富的特征和指标,该数据集为机器学习驱动的芯片设计提供了坚实的基础。
解决学术问题
ML4Accel-Dataset解决了芯片设计过程中多个关键学术问题。首先,它通过提供大规模的训练数据,显著提升了机器学习模型在芯片布局、功耗预测和性能优化中的准确性。其次,该数据集支持跨平台性能预测,帮助研究人员在不同硬件平台上进行快速评估。此外,数据集中的多工艺角信息为芯片设计的鲁棒性分析提供了重要支持,推动了芯片设计自动化的发展。
衍生相关工作
ML4Accel-Dataset衍生了许多经典的研究工作。例如,基于该数据集的研究提出了使用深度学习加速芯片布局的方法,显著提升了设计效率。此外,研究人员开发了跨平台性能预测工具,如HLSPredict和PowerGear,这些工具在FPGA和ASIC设计中得到了广泛应用。数据集还支持了微架构级功耗建模的研究,为CPU设计提供了新的优化思路。这些工作进一步推动了机器学习在芯片设计中的应用。
以上内容由遇见数据集搜集并总结生成



