hdl2v

Name: hdl2v
Creator: UC Berkeley
Published: 2025-06-05 09:29:18
License: 暂无描述

arXiv2025-06-05 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/hdl2v

下载链接

链接失效反馈

官方服务：

资源简介：

hdl2v数据集旨在通过将VHDL、Chisel和PyMTL3等硬件描述语言翻译或编译成Verilog，来增加可用的Verilog数据。数据集共包含46549对翻译/编译的代码对。该数据集可用于LLM的监督微调，以提升生成Verilog代码的性能。数据集完全开源，可供其他人扩展研究。

The hdl2v dataset aims to expand the available Verilog training data by translating or compiling hardware description languages (HDLs) such as VHDL, Chisel, and PyMTL3 into Verilog. The dataset comprises a total of 46,549 translated or compiled code pairs. It can be utilized for supervised fine-tuning of Large Language Models (LLMs) to improve their performance in generating Verilog code. The dataset is fully open-source and available for other researchers to conduct extended research.

提供机构：

UC Berkeley

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

hdl2v数据集的构建采用了多语言转换策略，通过将三种硬件描述语言（VHDL、Chisel和PyMTL3）编译或翻译为Verilog代码，形成了46,549对高质量代码映射。具体而言，VHDL部分通过Google BigQuery从GitHub抓取.vhd/.vhdl文件，并利用vhd2vl工具进行转换；Chisel部分基于Chipyard SoC配置的编译流程，通过解析Scala源码与生成Verilog的映射关系构建；PyMTL3部分则从PyHDL-Eval评估项目的LLM生成代码中筛选有效样本，经PyMTL3官方编译器生成对应Verilog。所有数据均经过模块头尾标识过滤和去重处理，确保结构完整性。

特点

该数据集的核心价值在于突破传统Verilog数据稀缺性瓶颈，提供三类独特优势：其一，语言多样性，涵盖从工业级VHDL到高层次Chisel/PyMTL3的跨抽象层级转换样本；其二，数据新颖性，87.3%的Verilog代码为首次出现在预训练语料中的新生成内容；其三，语义增强性，Chisel/PyMTL3到Verilog的转换保留了高级硬件设计语义，其代码对的自然语言近似度比原生Verilog高41%。特别值得注意的是，VHDL子集展现出最高困惑度（2.34）和词汇多样性（TTR 0.0032），为模型提供更丰富的学习信号。

使用方法

该数据集专为LLM微调优化设计，建议采用两阶段使用方法：首先进行跨语言对齐训练，以HDL代码为输入、Verilog为输出进行监督学习，建议batch size设为8且采用LoRA适配器；其次可结合增强技术，如将PyMTL3子集与GPT-4生成的自然语言描述组合构建多模态prompt。实验表明，在Qwen2.5-Coder-32B模型上，混合使用VHDL和Chisel子集能使VerilogEvalV2的pass@10提升23%。对于数据增强场景，建议优先集成VHDL子集，其与现有Verilog数据联合微调可使性能增益提升63%。所有子集均以prompt-response对形式存储在HuggingFace平台，支持直接加载至主流深度学习框架。

背景与挑战

背景概述

hdl2v数据集由加州大学伯克利分校的Charles Hong等研究人员于2025年提出，旨在解决硬件描述语言(HDL)领域的关键挑战。随着大语言模型(LLM)在代码生成领域的广泛应用，Verilog作为硬件设计的核心语言，其公开可用代码量远少于Python等软件语言。该数据集创新性地通过翻译VHDL、Chisel和PyMTL3三种硬件描述语言到Verilog，显著扩充了可用的人类编写Verilog数据规模。实验表明，该数据集能使320亿参数开源模型的Verilog生成性能提升高达23%，对硬件设计自动化领域具有重要推动作用。

当前挑战

hdl2v数据集面临的主要挑战体现在两个方面：在领域问题层面，硬件代码生成存在语法结构复杂、领域知识专业性强等固有难点，且Verilog代码的稀缺性限制了模型训练效果；在构建过程层面，不同HDL语言间的语义差异导致翻译准确性难以保证，数据集需处理VHDL到Verilog转换工具vhd2vl仅16.7%的成功率，以及PyMTL3代码中大量语法错误导致的编译失败问题。此外，保持翻译前后代码功能一致性、处理各语言特有的硬件建模范式差异，都是构建过程中需要克服的技术难点。

常用场景

经典使用场景

hdl2v数据集在硬件描述语言（HDL）转换与Verilog代码生成领域具有经典应用场景。该数据集通过将VHDL、Chisel和PyMTL3等其他硬件描述语言编译或翻译为Verilog，为大型语言模型（LLM）提供了丰富的训练数据。在Verilog代码生成任务中，hdl2v数据集显著提升了模型的性能，例如在VerilogEvalV2基准测试中，32B参数的开源模型经过微调后，pass@10指标提升了23%。这一场景展示了hdl2v在跨语言硬件设计自动化中的核心价值。

解决学术问题

hdl2v数据集解决了硬件设计自动化中两个关键学术问题：一是公开可用的Verilog代码稀缺性，二是LLM在生成高质量Verilog时的性能瓶颈。通过引入多语言HDL到Verilog的转换数据，该数据集不仅扩充了训练样本的多样性，还验证了非Verilog HDL数据对模型性能的提升效果。研究表明，VHDL-Verilog数据对的微调效果优于C-Verilog，揭示了HDL语言特性对模型学习的重要性，为后续研究提供了数据驱动的理论依据。

衍生相关工作

hdl2v数据集催生了一系列相关研究，包括多模态硬件设计生成和增强型微调方法。基于其构建的BetterV框架将Verilog-C转换与判别式引导相结合，进一步优化了代码正确性。RTLLM和VerilogEval等基准测试利用该数据集扩展了评估维度，而CraftRTL等研究则借鉴其数据构造方法生成高质量合成数据。此外，数据集启发了如Haven等幻觉抑制模型的发展，推动HDL生成向工程实用化迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集