HLSDataset

Name: HLSDataset
Creator: 德克萨斯大学奥斯汀分校计算机体系结构实验室
Published: 2023-08-22 01:36:36
License: 暂无描述

arXiv2023-08-22 更新2024-06-21 收录

下载链接：

https://github.com/UT-LCA/ML4Accel-Dataset/tree/main/fpga ml dataset

下载链接

链接失效反馈

官方服务：

资源简介：

HLSDataset是由德克萨斯大学奥斯汀分校计算机体系结构实验室创建的开源数据集，专为使用高层次综合（HLS）的机器辅助FPGA设计。该数据集包含约9000个Verilog设计样本，来源于Polybench、Machsuite、CHStone和Rosetta等广泛使用的HLS C基准。数据集通过应用多种指令如循环展开、循环流水线和数组分区，确保覆盖优化和实际设计。此外，数据集还包括CSV文件，包含HLS和实现度量，以及原始C源代码、Verilog设计、HLS后报告和实现后报告，便于ML模型的直接使用。HLSDataset旨在通过减少数据集生成的时间消耗，使研究人员能够更专注于ML模型的训练，适用于资源使用、时序和功率估计等多种应用。

HLSDataset is an open-source dataset developed by the Computer Architecture Laboratory at The University of Texas at Austin, specifically tailored for machine-aided FPGA design using high-level synthesis (HLS). It contains approximately 9,000 Verilog design samples sourced from widely adopted HLS C benchmarks including Polybench, Machsuite, CHStone, and Rosetta. A range of HLS optimizations such as loop unrolling, loop pipelining, and array partitioning have been applied to the dataset, ensuring coverage of both optimized and practical real-world design scenarios. Additionally, the dataset includes CSV files storing HLS and implementation metrics, alongside the original C source code, Verilog designs, post-HLS reports, and post-implementation reports, which enable direct utilization for machine learning (ML) models. HLSDataset aims to reduce the time and effort spent on dataset generation, allowing researchers to focus more on ML model training, and supports a wide array of applications including resource utilization estimation, timing analysis, and power consumption estimation.

提供机构：

德克萨斯大学奥斯汀分校计算机体系结构实验室

创建时间：

2023-02-18

搜集汇总

数据集介绍

构建方式

在FPGA高层次综合（HLS）领域，HLSDataset的构建采用了系统化方法，以确保数据的多样性和实用性。该数据集源自广泛使用的HLS C基准测试套件，包括Polybench、Machsuite、CHStone和Rosetta。通过应用多种优化指令，如循环展开、循环流水线和数组分区，生成了近9000个Verilog设计样本，每个FPGA类型均覆盖优化和实际设计。数据生成过程利用自动化Tcl脚本模板，高效探索设计空间，同时通过检查HLS报告中的资源利用率去除冗余设计，确保样本的唯一性。原始C源代码、Verilog设计、HLS后报告以及实现后报告均被完整收录，为特征提取提供了坚实基础。

特点

HLSDataset以其全面性和开放性脱颖而出，涵盖了FPGA HLS设计中的关键指标。数据集包含资源使用情况（如BRAM、DSP、FF和LUT的数量）、应用领域（如多媒体、算术运算）、算术与逻辑运算符数量、主输入输出端口规模以及时钟周期等特征。此外，动态功耗数据通过后实现功能仿真获得，增强了数据的实用性。数据集以CSV文件形式提供可直接用于机器学习模型的预处理特征，同时包含原始报告和文件压缩包，支持用户自定义特征提取。其设计样本来自多种基准测试套件，确保了跨应用领域的广泛覆盖，为机器学习辅助的FPGA设计研究提供了高质量数据源。

使用方法

HLSDataset的使用方法灵活多样，旨在支持机器学习在FPGA HLS设计中的广泛应用。研究人员可直接利用提供的CSV文件中的特征和目标指标，快速训练资源使用、时序或功耗预测模型，无需运行耗时的HLS工具流。对于更定制化的需求，数据集中的原始文件（如IR代码、FSMD模型和Verilog设计）允许用户提取特定特征，例如用于图神经网络的图结构或信号活动数据。数据集还包含测试平台和生成脚本，便于扩展新基准或进行仿真验证。通过案例研究，该数据集已成功应用于基于GNN的功耗估计和基于XGB的资源使用校准，展示了其在跨FPGA预测和设计空间探索中的潜力。

背景与挑战

背景概述

随着机器学习技术在电子设计自动化领域的深入应用，特别是在基于高层次综合的FPGA设计流程中，对高质量、大规模数据集的需求日益凸显。HLSDataset由德克萨斯大学奥斯汀分校计算机架构实验室的研究团队于2023年提出，旨在解决机器学习辅助FPGA设计中的数据稀缺问题。该数据集通过整合Polybench、Machsuite、CHStone和Rosetta等广泛使用的HLS C基准测试程序，并应用循环展开、流水线和数组分区等多种优化指令，生成了近9000个Verilog设计样本，覆盖了多媒体、算术运算、信号处理和机器学习等多个应用领域。HLSDataset的开放共享显著降低了研究人员在数据生成与处理上的重复劳动，为资源利用率、时序和功耗等关键指标的早期预测提供了坚实基础，推动了FPGA设计空间探索的智能化进程。

当前挑战

在机器学习辅助FPGA设计的领域中，核心挑战在于如何实现高效且准确的设计空间探索。具体而言，HLS工具生成的资源与时序估计往往与最终实现结果存在显著偏差，这导致早期设计决策的可靠性不足；同时，功耗预测需依赖耗时的低层次仿真，进一步增加了设计迭代的复杂度。在数据集构建过程中，研究人员面临多重困难：需确保源代码覆盖足够的应用领域以体现多样性；通过HLS指令对代码进行有效操纵以生成优化设计；应用多种优化策略以扩大硬件设计范围；若目标为后实现指标，则需进行完整的实现流程；此外，从报告中提取数据并进行预处理需要大量脚本编写工作，且大规模工具运行对计算资源提出了较高要求。这些因素共同构成了数据集构建与使用的实质性障碍。

常用场景

经典使用场景

在FPGA设计领域，高层次的硬件设计探索常面临资源、时序和功耗评估的复杂性。HLSDataset作为开源数据集，其经典应用场景在于为机器学习辅助的高层次综合（HLS）流程提供训练数据，支持研究人员快速构建预测模型。通过整合Polybench、Machsuite等广泛基准测试程序，并结合循环展开、流水线等多样化优化策略，该数据集生成了近9000个Verilog设计样本，覆盖多媒体、信号处理等多个应用领域，为早期设计空间探索提供了丰富且标准化的数据基础。

衍生相关工作

HLSDataset衍生了一系列经典研究工作，推动了机器学习在HLS领域的创新。例如，基于该数据集，研究者复现了PowerGear中的图神经网络模型，实现了后实现功耗的高精度预测；同时，数据集被用于改进Dai等人的资源估计方法，通过XGBoost和Lasso模型显著提升了LUT和触发器使用的预测准确性。这些工作不仅验证了数据集的实用性，还激发了跨FPGA预测、操作延迟估计等新方向，为后续如HL-Pow、D-SAGE等研究提供了可靠的数据支撑。

数据集最近研究