five

GaTech-EIC/MG-Verilog

收藏
Hugging Face2024-07-08 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/GaTech-EIC/MG-Verilog
下载链接
链接失效反馈
官方服务:
资源简介:
MG-Verilog数据集是一个多粒度数据集,旨在增强LLM辅助的Verilog代码生成。该数据集提供了不同详细程度的硬件描述及其对应的Verilog代码样本,适用于更通用的用例。数据集包含三种不同粒度的描述:块级摘要、高级全局摘要和详细全局摘要。通过平衡微调方案,数据集在Verilog代码生成准确性方面表现出色。

This dataset is the dataset generated in our paper: [MG-Verilog: Multi-grained Dataset Towards Enhanced LLM-assisted Verilog Generation](https://github.com/luke-avionics/mg-verilog). In this work, we aim to mitigate the limitations of existing datasets for LLM-assisted hardware design by proposing our open-sourced Multi-Grained-Verilog (MG-Verilog) dataset. The MG-Verilog dataset features hardware descriptions at different levels of detail and their corresponding Verilog code samples for more generic use cases. We have demonstrated the effectiveness of the dataset through a balanced fine-tuning scheme. Extensive experiments show that LLMs fine-tuned with the MG-Verilog dataset outperform those trained on other datasets in terms of Verilog code generation accuracy.
提供机构:
GaTech-EIC
原始信息汇总

MG-Verilog 数据集概述

数据集摘要

MG-Verilog 数据集旨在通过提供不同粒度的硬件描述及其对应的 Verilog 代码样本来增强 LLM 辅助的硬件设计。该数据集通过平衡微调方案展示了其有效性,实验表明,使用 MG-Verilog 数据集微调的 LLM 在 Verilog 代码生成准确性方面优于其他数据集训练的模型。

数据集结构

该数据集包含以下不同粒度的描述:

  • block_summary: 每个代码块的块级摘要。
  • high_level_global_summary: 代码的高层次简要描述。
  • detailed_global_summary: 代码的详细描述。

使用方法

可以通过以下代码片段加载数据集: python from datasets import load_dataset dataset = load_dataset("GaTech-EIC/MG-Verilog")

示例格式

数据集中的示例包含以下键:

  • description: 包含不同粒度的描述信息。
  • code: 对应的 Verilog 代码实现。

示例: python dataset["train"][1234]["description"]

json { "block_summary": "<description> <module header>", "detailed_global_summary": "<description> <module header>", "high_level_global_summary": "<description> <module header>" }

python dataset["train"][1234]["code"]

verilog reg [PWM_DEPTH-1:0] count; wire pwm_next; assign pwm_next = (duty_cycle) ? (count <= duty_cycle) : 1b0; always @ (negedge rst_n, posedge clk) begin if (!rst_n) pwm <= 1b0; else pwm <= pwm_next; end always @ (negedge rst_n, posedge clk) begin if (!rst_n) count <= 1b0; else count <= count + 1b1; end endmodule

许可证

该数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) 许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
MG-Verilog数据集的构建旨在克服现有数据集在LLM辅助硬件设计中的局限性,通过提供多粒度的硬件描述及其对应的Verilog代码样本来增强通用性。该数据集包含了不同层次的描述,包括块级摘要、高层次全局摘要和详细全局摘要,这些描述均基于相同的代码样本,但标注了不同的粒度。通过这种多粒度的标注方式,数据集能够支持更广泛的硬件设计任务,并提升LLM在Verilog代码生成中的准确性。
特点
MG-Verilog数据集的显著特点在于其多粒度的描述方式,涵盖了从块级到全局的不同层次的硬件描述。这种设计使得数据集能够适应不同复杂度的硬件设计需求,从而为LLM提供了更为丰富的训练和微调资源。此外,数据集的开放性和多样性使其在提升LLM辅助Verilog代码生成任务中表现出色,实验结果表明,使用该数据集进行微调的LLM在代码生成准确性上优于其他数据集。
使用方法
使用MG-Verilog数据集时,用户可以通过HuggingFace的datasets库进行加载,具体代码如下:`from datasets import load_dataset; dataset = load_dataset("GaTech-EIC/MG-Verilog")`。数据集的结构包括不同粒度的描述和对应的Verilog代码,用户可以根据需求选择合适的粒度进行训练或微调。例如,可以通过`dataset["train"][1234]["description"]`访问特定样本的描述信息,并通过`dataset["train"][1234]["code"]`获取对应的Verilog代码。
背景与挑战
背景概述
在硬件设计领域,Verilog代码生成是自动化设计流程中的关键环节。然而,现有的数据集在支持大规模语言模型(LLM)辅助Verilog代码生成方面存在局限性。为此,佐治亚理工学院的研究团队于2024年提出了MG-Verilog数据集,旨在通过提供多粒度的硬件描述及其对应的Verilog代码样本,增强LLM在硬件设计中的应用。该数据集由Yongan Zhang、Zhongzhi Yu等研究人员创建,通过平衡微调方案展示了其在Verilog代码生成准确性方面的显著优势,对硬件设计自动化领域具有重要影响。
当前挑战
MG-Verilog数据集面临的挑战主要集中在两个方面。首先,构建过程中需要处理不同粒度的硬件描述与Verilog代码之间的映射关系,确保数据集的多功能性和实用性。其次,由于硬件设计的复杂性,数据集在涵盖广泛用例的同时,需保持描述的准确性和一致性。此外,数据集的开放性和共享性要求在遵守版权和许可协议的前提下,确保用户能够合法且有效地使用数据集,这对数据集的构建和维护提出了更高的要求。
常用场景
经典使用场景
MG-Verilog数据集在硬件设计领域中具有广泛的应用,特别是在大型语言模型(LLM)辅助的Verilog代码生成方面。该数据集通过提供不同粒度的硬件描述及其对应的Verilog代码样本,支持模型在生成Verilog代码时能够处理从高层次到详细层次的不同需求。这种多粒度的描述方式使得LLM能够更准确地生成符合特定需求的硬件描述代码,从而提升硬件设计的效率和准确性。
衍生相关工作
基于MG-Verilog数据集,研究者们开展了一系列相关工作,包括但不限于改进LLM在硬件描述语言生成中的表现、探索多粒度描述在不同硬件设计任务中的应用效果,以及开发新的硬件设计自动化工具。这些工作不仅验证了MG-Verilog数据集的有效性,还推动了硬件设计自动化领域的技术发展。例如,有研究者利用该数据集开发了新的硬件设计辅助工具,进一步提升了硬件设计的效率和准确性。
数据集最近研究
最新研究方向
在硬件设计领域,MG-Verilog数据集的最新研究方向主要集中在通过多粒度硬件描述与Verilog代码样本的结合,提升大型语言模型(LLM)在硬件生成任务中的表现。该数据集通过提供不同层次的硬件描述,包括块级摘要、高层次全局摘要和详细全局摘要,为LLM提供了更丰富的上下文信息,从而在Verilog代码生成任务中实现了更高的准确性和通用性。这一研究方向不仅推动了硬件设计自动化的前沿,还为未来基于LLM的硬件设计工具的发展奠定了基础,具有重要的学术和工业应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作