five

VeriDFT

收藏
arXiv2025-07-21 更新2025-07-23 收录
下载链接:
https://github.com/yuyangdu01/LLM4DFT
下载链接
链接失效反馈
官方服务:
资源简介:
VeriDFT是一个基于Verilog的DFT数据集,专门为DFT感知RTL修复而创建。该数据集包含437个Verilog文件,每个文件都配有一个经过严格验证的修正版本,用于指导大型语言模型(LLM)进行代码修复。数据集从开源的Verilog数据集中筛选而来,并经过人工注释,以捕捉Verilog HDL中的典型DFT错误。VeriDFT旨在帮助LLM在保持设计可综合性和逻辑完整性的同时,确保DFT合规性,从而提高硬件设计的可测试性。

VeriDFT is a Verilog-based DFT dataset specifically created for DFT-aware RTL repair. This dataset contains 437 Verilog files, each paired with a rigorously validated corrected version to guide large language models (LLMs) in code repair. The dataset is curated from open-source Verilog datasets and manually annotated to capture typical DFT errors in Verilog HDL. VeriDFT aims to assist LLMs in ensuring DFT compliance while maintaining design synthesizability and logical integrity, thereby improving the testability of hardware designs.
提供机构:
香港中文大学
创建时间:
2025-07-21
搜集汇总
数据集介绍
main_image_url
构建方式
VeriDFT数据集的构建基于公开的Verilog代码样本库,经过严格的数据清洗和预处理流程。研究团队首先剔除了不具备实际逻辑功能的测试文件和模块封装,随后替换了EDA工具专用的预定义模块以确保代码可编译性。通过Xcelium编译器和HAL约束文件验证,筛选出437个包含单一类型DFT错误的可综合Verilog设计。数据集采用分层划分策略,20%用于训练自编码器网络,8%作为参考集并提供人工验证的修正方案,剩余72%构成测试集以评估框架性能。
特点
VeriDFT作为首个面向RTL级可测试性修复的领域专用数据集,其核心价值在于系统性地收录了四种典型DFT错误模式(ACNCPI、CLKNPI、CDFDAT和FFCKNP)的硬件实现样本。每个样本均通过Yosys工具转化为强调门级拓扑连接的JSON表示,有效剥离了命名规范等表面特征,保留电路结构本质。数据集创新性地将每个错误实例与其人工验证的修正方案配对,为检索增强生成提供了精准的上下文参考。统计显示各错误类型分布均衡,代码长度符合实际工程场景的多样性要求。
使用方法
该数据集通过检索增强生成框架VeriRAG实现端到端的DFT错误修复。使用流程包含三个阶段:首先将目标RTL设计转化为JSON表示并由训练好的自编码器生成嵌入向量;随后计算其与参考集中所有样本的余弦相似度,检索结构最相似的参考设计及其修正方案;最后将检索结果与EDA编译反馈共同指导LLM进行迭代式代码修订。该方法在GPT-o1模型上实现了53.76%的最终成功率,较零样本基线提升7.72倍。用户可通过开源项目获取完整的数据集、预训练模型及EDA验证脚本。
背景与挑战
背景概述
VeriDFT数据集由香港中文大学的研究团队于2025年提出,旨在支持基于检索增强生成(RAG)的硬件描述语言(HDL)自动修复框架VeriRAG。该数据集聚焦于寄存器传输级(RTL)设计的可测试性(DFT)问题,包含437个经过严格筛选的Verilog代码样本,覆盖异步复位不可达(ACNCPI)、内部时钟域(CLKNPI)等四类典型DFT错误模式。作为首个面向DFT修复的RTL设计数据集,VeriDFT通过结构化JSON表示和人工验证的修正方案,为电子设计自动化(EDA)领域引入了新的研究范式,显著提升了大型语言模型在硬件测试性修复任务中的成功率。
当前挑战
VeriDFT面临的挑战主要体现在两方面:在领域问题层面,RTL级DFT错误修复需同时保证逻辑等价性与可综合性,现有方法在保留原始电路功能(逻辑等价性验证通过率仅53.76%)方面仍有显著提升空间;在构建过程中,数据清洗面临Verilog样本中IP核依赖、非功能文件干扰等问题,且需通过Yosys工具实现硬件结构到JSON的精准转换,同时人工标注修正方案的专业门槛极高。此外,当前数据集仅覆盖单类型DFT错误,对多错误并发的复杂场景泛化能力有限,这要求未来研究需扩展错误类型多样性并开发更强大的结构相似性度量方法。
常用场景
经典使用场景
VeriDFT数据集在电子设计自动化(EDA)领域中被广泛应用于寄存器传输级(RTL)设计的可测试性修复。该数据集通过提供结构化的Verilog代码样本及其手动验证的修正版本,支持基于检索增强生成(RAG)的框架如VeriRAG,以实现自动化的DFT合规性代码修订。经典使用场景包括在RTL设计阶段识别和修复异步复位、内部时钟域等常见的DFT错误,从而显著提升设计的可测试性和可合成性。
实际应用
在实际应用中,VeriDFT被集成至工业级EDA流程,用于自动化检测和修复RTL设计中的DFT违规。例如,在系统级芯片(SoC)开发中,工程师利用该数据集训练的模型快速修正IP核集成导致的测试性问题,减少人工干预。其迭代式代码修订管道结合编译器反馈,确保了修正后的设计既满足DFT要求,又保持逻辑功能与原始设计等价,显著缩短了设计周期。
衍生相关工作
围绕VeriDFT衍生的经典工作包括基于图神经网络的硬件结构相似性检索方法、面向DFT的领域自适应预训练技术,以及结合形式化验证的强化学习框架。例如,后续研究通过扩展数据集的错误类型覆盖范围,提升了模型对多类型DFT违规的泛化能力;另有工作将检索模块升级为图编码器,以更精准地捕捉RTL设计的拓扑特征,进一步优化了VeriRAG框架的修复成功率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作