ProtocolLLM
收藏arXiv2025-06-10 更新2025-06-11 收录
下载链接:
https://github.com/amsheth/FPGA protocols llm
下载链接
链接失效反馈官方服务:
资源简介:
ProtocolLLM是一个针对通信协议生成的RTL基准数据集,涵盖了广泛使用的四种协议:SPI、I²C、UART和AXI。数据集包含不同级别的设计抽象和提示特定性,旨在评估LLM在生成符合协议功能和时序约束的SystemVerilog实现方面的能力。数据集创建过程中,使用了波形模拟和测试平台对生成的设计进行了评估,以确保其语法正确性、可综合性和功能一致性。数据集适用于嵌入式和系统级芯片(SoC)架构的通信协议实现,旨在解决硬件描述语言(HDL)中协议生成的挑战。
ProtocolLLM is a benchmark RTL dataset for communication protocol generation, covering four widely used protocols: SPI, I²C, UART, and AXI. This dataset includes multiple levels of design abstraction and prompt specificity, aiming to evaluate the ability of large language models (LLMs) to generate SystemVerilog implementations that comply with the functional and timing constraints of communication protocols. Waveform simulation and testbenches were employed during the dataset construction to evaluate the generated designs, ensuring their syntactic correctness, synthesizability, and functional consistency. This dataset is tailored for communication protocol implementations in embedded and System-on-Chip (SoC) architectures, and aims to tackle the challenges of protocol generation within Hardware Description Languages (HDLs).
提供机构:
伊利诺伊大学厄巴纳-香槟分校, 柏林亥姆霍兹信息安全中心
创建时间:
2025-06-10
搜集汇总
数据集介绍

构建方式
ProtocolLLM数据集的构建基于对四种广泛使用的通信协议(SPI、I²C、UART和AXI)的系统化分析,旨在评估大型语言模型(LLMs)在生成可综合的硬件描述语言(HDL)代码方面的能力。数据集通过严格的协议规范文档和实际设计需求,生成了一系列任务,要求模型根据自然语言或形式化协议描述生成完整的SystemVerilog模块。构建过程中,特别注重代码的时序语义、并发性和可综合性约束,确保生成的RTL代码能够满足实际硬件部署的要求。
使用方法
使用ProtocolLLM数据集时,研究人员可以通过提供的自然语言或形式化协议描述,驱动LLMs生成SystemVerilog代码。生成的代码需依次通过语法检查(使用Synopsys Spyglass工具)、逻辑综合(使用Synopsys Design Compiler)和波形仿真验证,以确保其符合协议的功能和时序要求。数据集支持两种生成模式:标准提示生成和规范辅助生成,后者允许模型参考外部设计文档以提高生成质量。通过这一流程,用户可以系统评估LLMs在硬件协议实现中的能力,并识别其在时序约束和功能正确性方面的局限性。
背景与挑战
背景概述
ProtocolLLM数据集由伊利诺伊大学厄巴纳-香槟分校的Arnav Sheth和CISPA亥姆霍兹信息安全中心的Ivaxi Sheth等研究人员于2025年提出,旨在评估大型语言模型(LLMs)在生成符合硬件描述语言(HDL)规范的通信协议实现方面的能力。该数据集聚焦于SystemVerilog语言,针对SPI、I²C、UART和AXI四种广泛应用的通信协议,填补了LLMs在硬件设计领域评估的空白。作为MLArchSys和ISCA 2025的成果,其创新性体现在将协议时序约束、波形级功能验证等硬件设计核心要素纳入评估体系,为半导体工业界提供了首个面向协议级HDL生成的标准化测试基准。
当前挑战
ProtocolLLM需解决硬件设计领域两大核心挑战:其一,通信协议实现需严格满足时序语义、有限状态机逻辑和信号同步等硬件约束,而现有LLMs生成的代码常存在合成兼容性和功能正确性问题;其二,数据集构建过程中面临多维度验证难题,包括:1)语法检查需兼容EDA工具链规范;2)逻辑综合需评估资源占用和时序收敛性;3)波形仿真需验证协议时序图的精确匹配。实验表明,即使先进模型如GPT-4.1在AXI等复杂协议生成中仍存在62%的波形验证失败率,突显硬件特定领域知识的建模瓶颈。
常用场景
经典使用场景
ProtocolLLM数据集在硬件描述语言(HDL)生成领域具有重要应用价值,特别是在通信协议模块的自动生成方面。该数据集专注于评估大型语言模型(LLM)在生成符合时序和功能约束的SystemVerilog代码方面的能力。通过提供SPI、I²C、UART和AXI等标准通信协议的实现任务,ProtocolLLM为研究人员提供了一个系统化的基准测试平台,用于验证模型在硬件设计中的实际表现。
解决学术问题
ProtocolLLM数据集解决了硬件设计自动化中的关键学术问题,包括LLM生成的HDL代码的语法正确性、可综合性和功能准确性。传统方法在生成符合严格时序和协议规范的代码时表现不佳,而ProtocolLLM通过多阶段评估框架(语法检查、逻辑综合和波形分析)提供了全面的验证手段。这一数据集填补了LLM在硬件协议生成领域的研究空白,并为后续研究提供了标准化评估基准。
实际应用
在实际应用中,ProtocolLLM数据集可显著提升嵌入式系统和SoC设计的效率。工程师可以利用该数据集生成的代码快速实现通信协议模块,从而减少手动编码错误并缩短开发周期。例如,在FPGA和微控制器设计中,ProtocolLLM生成的SPI或I²C模块可直接用于传感器和外围设备的接口开发。此外,该数据集还可用于EDA工具的自动化测试和优化,推动硬件设计流程的智能化发展。
数据集最近研究
最新研究方向
随着人工智能在硬件设计领域的渗透,ProtocolLLM数据集的提出为评估大语言模型在硬件描述语言生成方面的能力提供了重要基准。该数据集聚焦于SystemVerilog通信协议模块的生成,涵盖SPI、I²C、UART和AXI等核心协议,填补了现有基准测试在时序语义和功能验证方面的空白。当前研究热点集中在探索检索增强生成技术对协议实现准确性的提升,以及开发多阶段评估框架来验证生成代码的可综合性、时序正确性和波形级功能准确性。这一研究方向对推动AI辅助硬件设计具有重要意义,有望改变传统芯片设计流程,提升复杂片上系统开发的效率与可靠性。
相关研究论文
- 1ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols伊利诺伊大学厄巴纳-香槟分校, 柏林亥姆霍兹信息安全中心 · 2025年
以上内容由遇见数据集搜集并总结生成



