hdl2v
收藏arXiv2025-06-05 更新2025-06-07 收录
下载链接:
https://huggingface.co/datasets/hdl2v
下载链接
链接失效反馈官方服务:
资源简介:
hdl2v数据集旨在通过将VHDL、Chisel和PyMTL3等硬件描述语言翻译或编译成Verilog,来增加可用的Verilog数据。数据集共包含46549对翻译/编译的代码对。该数据集可用于LLM的监督微调,以提升生成Verilog代码的性能。数据集完全开源,可供其他人扩展研究。
The hdl2v dataset aims to expand the available Verilog training data by translating or compiling hardware description languages (HDLs) such as VHDL, Chisel, and PyMTL3 into Verilog. The dataset comprises a total of 46,549 translated or compiled code pairs. It can be utilized for supervised fine-tuning of Large Language Models (LLMs) to improve their performance in generating Verilog code. The dataset is fully open-source and available for other researchers to conduct extended research.
提供机构:
UC Berkeley
创建时间:
2025-06-05
搜集汇总
数据集介绍

构建方式
hdl2v数据集的构建采用了多语言转换策略,通过将三种硬件描述语言(VHDL、Chisel和PyMTL3)编译或翻译为Verilog代码,形成了46,549对高质量代码映射。具体而言,VHDL部分通过Google BigQuery从GitHub抓取.vhd/.vhdl文件,并利用vhd2vl工具进行转换;Chisel部分基于Chipyard SoC配置的编译流程,通过解析Scala源码与生成Verilog的映射关系构建;PyMTL3部分则从PyHDL-Eval评估项目的LLM生成代码中筛选有效样本,经PyMTL3官方编译器生成对应Verilog。所有数据均经过模块头尾标识过滤和去重处理,确保结构完整性。
特点
该数据集的核心价值在于突破传统Verilog数据稀缺性瓶颈,提供三类独特优势:其一,语言多样性,涵盖从工业级VHDL到高层次Chisel/PyMTL3的跨抽象层级转换样本;其二,数据新颖性,87.3%的Verilog代码为首次出现在预训练语料中的新生成内容;其三,语义增强性,Chisel/PyMTL3到Verilog的转换保留了高级硬件设计语义,其代码对的自然语言近似度比原生Verilog高41%。特别值得注意的是,VHDL子集展现出最高困惑度(2.34)和词汇多样性(TTR 0.0032),为模型提供更丰富的学习信号。
使用方法
该数据集专为LLM微调优化设计,建议采用两阶段使用方法:首先进行跨语言对齐训练,以HDL代码为输入、Verilog为输出进行监督学习,建议batch size设为8且采用LoRA适配器;其次可结合增强技术,如将PyMTL3子集与GPT-4生成的自然语言描述组合构建多模态prompt。实验表明,在Qwen2.5-Coder-32B模型上,混合使用VHDL和Chisel子集能使VerilogEvalV2的pass@10提升23%。对于数据增强场景,建议优先集成VHDL子集,其与现有Verilog数据联合微调可使性能增益提升63%。所有子集均以prompt-response对形式存储在HuggingFace平台,支持直接加载至主流深度学习框架。
背景与挑战
背景概述
hdl2v数据集由加州大学伯克利分校的Charles Hong等研究人员于2025年提出,旨在解决硬件描述语言(HDL)领域的关键挑战。随着大语言模型(LLM)在代码生成领域的广泛应用,Verilog作为硬件设计的核心语言,其公开可用代码量远少于Python等软件语言。该数据集创新性地通过翻译VHDL、Chisel和PyMTL3三种硬件描述语言到Verilog,显著扩充了可用的人类编写Verilog数据规模。实验表明,该数据集能使320亿参数开源模型的Verilog生成性能提升高达23%,对硬件设计自动化领域具有重要推动作用。
当前挑战
hdl2v数据集面临的主要挑战体现在两个方面:在领域问题层面,硬件代码生成存在语法结构复杂、领域知识专业性强等固有难点,且Verilog代码的稀缺性限制了模型训练效果;在构建过程层面,不同HDL语言间的语义差异导致翻译准确性难以保证,数据集需处理VHDL到Verilog转换工具vhd2vl仅16.7%的成功率,以及PyMTL3代码中大量语法错误导致的编译失败问题。此外,保持翻译前后代码功能一致性、处理各语言特有的硬件建模范式差异,都是构建过程中需要克服的技术难点。
常用场景
经典使用场景
hdl2v数据集在硬件描述语言(HDL)转换与Verilog代码生成领域具有经典应用场景。该数据集通过将VHDL、Chisel和PyMTL3等其他硬件描述语言编译或翻译为Verilog,为大型语言模型(LLM)提供了丰富的训练数据。在Verilog代码生成任务中,hdl2v数据集显著提升了模型的性能,例如在VerilogEvalV2基准测试中,32B参数的开源模型经过微调后,pass@10指标提升了23%。这一场景展示了hdl2v在跨语言硬件设计自动化中的核心价值。
解决学术问题
hdl2v数据集解决了硬件设计自动化中两个关键学术问题:一是公开可用的Verilog代码稀缺性,二是LLM在生成高质量Verilog时的性能瓶颈。通过引入多语言HDL到Verilog的转换数据,该数据集不仅扩充了训练样本的多样性,还验证了非Verilog HDL数据对模型性能的提升效果。研究表明,VHDL-Verilog数据对的微调效果优于C-Verilog,揭示了HDL语言特性对模型学习的重要性,为后续研究提供了数据驱动的理论依据。
衍生相关工作
hdl2v数据集催生了一系列相关研究,包括多模态硬件设计生成和增强型微调方法。基于其构建的BetterV框架将Verilog-C转换与判别式引导相结合,进一步优化了代码正确性。RTLLM和VerilogEval等基准测试利用该数据集扩展了评估维度,而CraftRTL等研究则借鉴其数据构造方法生成高质量合成数据。此外,数据集启发了如Haven等幻觉抑制模型的发展,推动HDL生成向工程实用化迈进。
以上内容由遇见数据集搜集并总结生成



