GaTech-EIC/MG-Verilog

Name: GaTech-EIC/MG-Verilog
Creator: GaTech-EIC
Published: 2024-07-08 20:26:30
License: 暂无描述

Hugging Face2024-07-08 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/GaTech-EIC/MG-Verilog

下载链接

链接失效反馈

官方服务：

资源简介：

MG-Verilog数据集是一个多粒度数据集，旨在增强LLM辅助的Verilog代码生成。该数据集提供了不同详细程度的硬件描述及其对应的Verilog代码样本，适用于更通用的用例。数据集包含三种不同粒度的描述：块级摘要、高级全局摘要和详细全局摘要。通过平衡微调方案，数据集在Verilog代码生成准确性方面表现出色。

This dataset is the dataset generated in our paper: [MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation](https://github.com/luke-avionics/mg-verilog). In this work, we aim to mitigate the limitations of existing datasets for LLM-assisted hardware design by proposing our open-sourced Multi-Grained-Verilog (MG-Verilog) dataset. The MG-Verilog dataset features hardware descriptions at different levels of detail and their corresponding Verilog code samples for more generic use cases. We have demonstrated the effectiveness of the dataset through a balanced fine-tuning scheme. Extensive experiments show that LLMs fine-tuned with the MG-Verilog dataset outperform those trained on other datasets in terms of Verilog code generation accuracy.

提供机构：

GaTech-EIC

原始信息汇总

MG-Verilog 数据集概述

数据集摘要

MG-Verilog 数据集旨在通过提供不同粒度的硬件描述及其对应的 Verilog 代码样本来增强 LLM 辅助的硬件设计。该数据集通过平衡微调方案展示了其有效性，实验表明，使用 MG-Verilog 数据集微调的 LLM 在 Verilog 代码生成准确性方面优于其他数据集训练的模型。

数据集结构

该数据集包含以下不同粒度的描述：

block_summary: 每个代码块的块级摘要。
high_level_global_summary: 代码的高层次简要描述。
detailed_global_summary: 代码的详细描述。

使用方法

可以通过以下代码片段加载数据集： python from datasets import load_dataset dataset = load_dataset("GaTech-EIC/MG-Verilog")

示例格式

数据集中的示例包含以下键：

description: 包含不同粒度的描述信息。
code: 对应的 Verilog 代码实现。

示例： python dataset["train"][1234]["description"]

json { "block_summary": "<description> <module header>", "detailed_global_summary": "<description> <module header>", "high_level_global_summary": "<description> <module header>" }

python dataset["train"][1234]["code"]

verilog reg [PWM_DEPTH-1:0] count; wire pwm_next; assign pwm_next = (duty_cycle) ? (count <= duty_cycle) : 1b0; always @ (negedge rst_n, posedge clk) begin if (!rst_n) pwm <= 1b0; else pwm <= pwm_next; end always @ (negedge rst_n, posedge clk) begin if (!rst_n) count <= 1b0; else count <= count + 1b1; end endmodule

许可证

该数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。

搜集汇总

数据集介绍

构建方式

MG-Verilog数据集的构建旨在克服现有数据集在LLM辅助硬件设计中的局限性，通过提供多粒度的硬件描述及其对应的Verilog代码样本来增强通用性。该数据集包含了不同层次的描述，包括块级摘要、高层次全局摘要和详细全局摘要，这些描述均基于相同的代码样本，但标注了不同的粒度。通过这种多粒度的标注方式，数据集能够支持更广泛的硬件设计任务，并提升LLM在Verilog代码生成中的准确性。

特点

MG-Verilog数据集的显著特点在于其多粒度的描述方式，涵盖了从块级到全局的不同层次的硬件描述。这种设计使得数据集能够适应不同复杂度的硬件设计需求，从而为LLM提供了更为丰富的训练和微调资源。此外，数据集的开放性和多样性使其在提升LLM辅助Verilog代码生成任务中表现出色，实验结果表明，使用该数据集进行微调的LLM在代码生成准确性上优于其他数据集。

使用方法

使用MG-Verilog数据集时，用户可以通过HuggingFace的datasets库进行加载，具体代码如下：`from datasets import load_dataset; dataset = load_dataset("GaTech-EIC/MG-Verilog")`。数据集的结构包括不同粒度的描述和对应的Verilog代码，用户可以根据需求选择合适的粒度进行训练或微调。例如，可以通过`dataset["train"][1234]["description"]`访问特定样本的描述信息，并通过`dataset["train"][1234]["code"]`获取对应的Verilog代码。

背景与挑战

背景概述

在硬件设计领域，Verilog代码生成是自动化设计流程中的关键环节。然而，现有的数据集在支持大规模语言模型（LLM）辅助Verilog代码生成方面存在局限性。为此，佐治亚理工学院的研究团队于2024年提出了MG-Verilog数据集，旨在通过提供多粒度的硬件描述及其对应的Verilog代码样本，增强LLM在硬件设计中的应用。该数据集由Yongan Zhang、Zhongzhi Yu等研究人员创建，通过平衡微调方案展示了其在Verilog代码生成准确性方面的显著优势，对硬件设计自动化领域具有重要影响。

当前挑战

MG-Verilog数据集面临的挑战主要集中在两个方面。首先，构建过程中需要处理不同粒度的硬件描述与Verilog代码之间的映射关系，确保数据集的多功能性和实用性。其次，由于硬件设计的复杂性，数据集在涵盖广泛用例的同时，需保持描述的准确性和一致性。此外，数据集的开放性和共享性要求在遵守版权和许可协议的前提下，确保用户能够合法且有效地使用数据集，这对数据集的构建和维护提出了更高的要求。

常用场景

经典使用场景

MG-Verilog数据集在硬件设计领域中具有广泛的应用，特别是在大型语言模型（LLM）辅助的Verilog代码生成方面。该数据集通过提供不同粒度的硬件描述及其对应的Verilog代码样本，支持模型在生成Verilog代码时能够处理从高层次到详细层次的不同需求。这种多粒度的描述方式使得LLM能够更准确地生成符合特定需求的硬件描述代码，从而提升硬件设计的效率和准确性。

衍生相关工作

基于MG-Verilog数据集，研究者们开展了一系列相关工作，包括但不限于改进LLM在硬件描述语言生成中的表现、探索多粒度描述在不同硬件设计任务中的应用效果，以及开发新的硬件设计自动化工具。这些工作不仅验证了MG-Verilog数据集的有效性，还推动了硬件设计自动化领域的技术发展。例如，有研究者利用该数据集开发了新的硬件设计辅助工具，进一步提升了硬件设计的效率和准确性。

数据集最近研究