HLS-based hardware generation dataset

Name: HLS-based hardware generation dataset
Creator: 伦敦大学学院, 剑桥大学, 上海交通大学, 悉尼大学
Published: 2025-02-20 01:53:59
License: 暂无描述

arXiv2025-02-20 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2502.13921v1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是由伦敦大学学院等机构收集的，包含超过42000个基于高Level Synthesis (HLS)的硬件设计程序。这些程序来源于开源仓库，并被分为训练集和测试集，用于监督微调和评估。数据集涵盖了矩阵和线性代数操作、科学仿真、统计计算、迭代方法和其他计算核心等五个类别，旨在促进自动硬件设计的开发和研究。

This dataset was collected by institutions including University College London (UCL), containing over 42,000 hardware design programs based on High-Level Synthesis (HLS). These programs are sourced from open-source repositories, and partitioned into training and test sets for supervised fine-tuning and evaluation. The dataset covers five categories, namely matrix and linear algebra operations, scientific simulations, statistical computing, iterative methods, and other computing kernels, aiming to promote the development and research of automated hardware design.

提供机构：

伦敦大学学院, 剑桥大学, 上海交通大学, 悉尼大学

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

在HLS-based hardware generation dataset的构建中，研究者们从开源的GitHub仓库中爬取了52个HLS-based设计，并从中筛选出超过42,000个HLS程序。这些设计被分为训练集和测试集，以便对预训练的LLM进行微调。为了生成设计描述，研究者们利用ChatGPT（版本3.5和4）自动创建设计描述，并将其与参考设计一起存储在JSON格式中。该数据集为HLS-based硬件生成的微调提供了丰富的数据资源。

使用方法

HLS-based hardware generation dataset的使用方法主要分为两个阶段：模型微调和迭代代码生成。在模型微调阶段，研究者们使用从开源仓库中收集到的HLS训练数据对预训练的LLM进行微调。在迭代代码生成阶段，研究者们使用微调后的LLM进行迭代代码生成，并通过语法和功能反馈循环不断优化生成的HLS设计。此外，研究者们还采用了链式思考技术来提高生成的HLS设计的质量和准确性。

背景与挑战

背景概述

随着代码生成技术的不断进步，大语言模型（LLM）在通用编程语言（如Python和C++）中的应用潜力日益凸显，为自动化软件开发和提升程序员效率开辟了新的途径。然而，LLM在硬件设计领域的应用尚处于起步阶段。HLS-based hardware generation dataset的创建旨在探索LLM在自动化硬件设计生成方面的潜力，特别是针对高级综合（HLS）技术。该数据集由Imperial College London和University of Cambridge等机构的研究人员于2025年创建，主要解决硬件描述语言（HDL）训练数据量少、LLM模型生成HDL设计易出错以及生成HDL所需token数量多等问题。HLS-based hardware generation dataset通过对预训练的LLM模型进行微调，利用包含文本提示和对应HLS设计的收集数据集，旨在为自动化硬件代码生成提供实验结果、见解、基准和评估基础设施。

当前挑战

HLS-based hardware generation dataset面临的主要挑战包括：1) HDL设计数据量的稀缺，与软件编程语言相比，HDL训练数据量显著较少；2) 预训练的LLM模型主要针对软件编程语言，其知识无法直接应用于硬件代码生成；3) 使用LLM生成HDL的成本较高，与HLS相比，HDL生成所需的token数量更多，导致成本和能耗增加。为解决这些问题，该数据集探索了利用LLM生成基于HLS的硬件设计的方法，通过从开源GitHub存储库中爬取HLS设计，收集数据集以促进预训练LLM模型的微调。此外，该数据集还整合了调试反馈循环和思维链增强机制，以迭代优化生成的HLS设计。

常用场景

经典使用场景

HLS-based hardware generation dataset是专为研究如何利用大型语言模型（LLMs）自动生成硬件设计而构建的。该数据集主要用于训练和微调LLMs，使其能够从自然语言描述中生成高效的硬件设计代码。数据集包含大量的HLS设计代码和相应的文本提示，这些代码涵盖了从矩阵和线性代数运算到科学模拟等多个领域。研究人员可以利用这些数据来评估和改进LLMs在硬件设计生成方面的性能，并探索如何通过链式思考和反馈循环等技术来提高生成的硬件设计的质量和效率。

解决学术问题

该数据集主要解决了LLMs在硬件设计生成方面面临的一些挑战，例如数据可用性、无法利用从预训练代码LLMs中学习到的知识，以及HDL生成成本高等问题。通过收集和整理大量的HLS设计代码，该数据集为LLMs提供了充足的训练数据，从而解决了数据可用性的问题。同时，由于HLS与C/C++等编程语言具有相似的语义和语法，LLMs在预训练阶段获得的知识可以被有效地应用于硬件设计生成，从而解决了无法利用学习到的知识的问题。此外，与HDL相比，HLS所需的token数量更少，从而降低了生成成本。

实际应用

该数据集的实际应用场景包括自动化硬件设计、提高硬件设计质量和效率、降低硬件设计成本等。通过使用该数据集，研究人员可以开发出能够自动生成高效硬件设计代码的LLMs，从而提高硬件设计的自动化程度，降低设计成本。同时，通过使用链式思考和反馈循环等技术，LLMs可以生成更加高质量和高效的硬件设计代码，从而提高硬件设计的性能和可靠性。

数据集最近研究