five

VERICODER fine-tuning dataset

收藏
arXiv2025-04-22 更新2025-04-24 收录
下载链接:
http://arxiv.org/abs/2504.15659v1
下载链接
链接失效反馈
官方服务:
资源简介:
VERICODER fine-tuning dataset是一个包含超过125,777个示例的高质量数据集,每个示例都经过功能正确性验证,由自然语言规范、相应的RTL实现和通过的单元测试组成。该数据集由斯坦福大学的研究团队开发,通过单元测试生成和反馈指导的精炼流程,确保了数据集中的每个设计都能通过功能模拟测试,旨在提高RTL代码生成的功能正确性。

The VERICODER fine-tuning dataset is a high-quality dataset comprising over 125,777 validated examples. Each example has been verified for functional correctness, and is composed of natural language specifications, corresponding RTL implementations, and passing unit tests. Developed by a research team at Stanford University, this dataset employs a refinement workflow guided by unit test generation and feedback to ensure that every design included in the dataset can pass functional simulation tests, with the goal of enhancing the functional correctness of RTL code generation.
提供机构:
斯坦福大学, 卡内基梅隆大学, 伊利诺伊大学厄巴纳-香槟分校, 英特尔, Visa Research
创建时间:
2025-04-22
搜集汇总
数据集介绍
main_image_url
构建方式
VERICODER fine-tuning数据集的构建采用了创新的单元测试生成与反馈导向的迭代优化方法。研究团队通过教师模型(GPT-4o-mini)生成初始RTL设计后,同步创建对应的单元测试用例,随后通过仿真验证设计的功能正确性。当发现设计缺陷时,系统会结合错误信息进行多轮迭代优化,必要时还会调整测试用例以更精确地匹配自然语言规范。这种闭环验证机制确保了每个数据样本都包含通过完整功能验证的三元组:自然语言描述、RTL实现和配套测试用例。整个流程共生成125,777个经过严格验证的样本,为RTL代码生成建立了新的质量标杆。
特点
该数据集最显著的特点是所有样本都经过功能正确性验证,突破了传统数据集仅关注语法正确性的局限。每个数据单元包含自然语言规范、RTL实现和验证测试的三元结构,其中RTL代码平均35行,测试用例平均55行,规范描述平均247词,形成了完整的验证闭环。与现有数据集相比,其测试通过率从OriGen的53.5%提升至100%,为模型训练提供了更可靠的监督信号。这种严格的质量控制使基于该数据集训练的模型在VerilogEval和RTLLM基准测试中分别实现了71.7%和27.4%的相对性能提升。
使用方法
该数据集专为RTL代码生成模型的微调设计,建议采用LoRA等参数高效微调方法。使用时应将自然语言描述作为输入,RTL实现作为目标输出,同时可利用测试用例进行强化学习或验证阶段的质量评估。对于Qwen2.5-14B等基础模型,推荐设置16的LoRA秩和1e-5的学习率进行3轮训练。在推理阶段,生成的RTL代码可通过数据集配套测试用例进行功能验证,这种端到端的用法能显著提升模型输出的可靠性。数据集还可用于对比研究,通过消融实验验证功能验证数据对模型性能的影响。
背景与挑战
背景概述
VERICODER fine-tuning dataset由斯坦福大学、卡内基梅隆大学、伊利诺伊大学厄巴纳-香槟分校等机构的研究团队于2025年提出,旨在解决电子设计自动化(EDA)领域中寄存器传输级(RTL)代码生成的功能正确性问题。该数据集包含125,777个经过功能验证的示例,每个示例包括自然语言描述、RTL实现和通过测试。其创新之处在于采用教师模型(GPT-4o-mini)引导的单元测试生成与反馈导向的迭代优化方法,显著提升了生成代码的功能准确性。该数据集推动了开源轻量级模型在硬件设计领域的应用,弥补了商业模型在定制化和隐私保护方面的不足。
当前挑战
该数据集主要面临两大挑战:领域问题方面,现有RTL生成模型普遍仅关注语法有效性而忽视功能正确性,导致生成的代码虽可编译但可能不符合设计意图,如RTLLM基准中GPT-4o语法准确率达100%但功能正确率仅69%;构建过程方面,需克服大规模测试案例自动生成的复杂性,包括教师模型对错误信息的精准解析、RTL设计与测试用例的协同迭代优化,以及处理仿真过程中的时序收敛等硬件特性问题。此外,确保125k样本中每个三元组(描述-代码-测试)的功能一致性也带来显著的质量控制挑战。
常用场景
解决学术问题
VERICODER fine-tuning dataset解决了RTL代码生成中功能正确性验证不足的学术问题。传统数据集仅关注语法有效性,而忽略了功能验证,导致生成的代码可能无法实现预期行为。该数据集通过单元测试和迭代细化方法,确保了每个示例的功能正确性,显著提升了模型在功能验证任务中的表现。这一突破为EDA领域的研究提供了高质量的训练数据,推动了RTL代码生成技术的发展。
衍生相关工作
VERICODER fine-tuning dataset衍生了一系列经典工作,包括基于功能验证的RTL代码生成模型和自动化测试生成工具。例如,OriGen和RTLCoder等模型通过借鉴该数据集的方法,进一步优化了RTL代码生成的性能。此外,该数据集还启发了将形式化验证和强化学习技术引入RTL代码生成的研究,为未来的EDA工具开发提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作