FIXME
收藏arXiv2025-07-06 更新2025-07-09 收录
下载链接:
https://github.com/ChatDesignVerification/FIXME
下载链接
链接失效反馈官方服务:
资源简介:
FIXME是一个端到端的、多模型的开源评估框架,用于评估大型语言模型在硬件功能验证(FV)方面的性能。该框架包含六个子领域和180个多样化的任务,采用三层难易度等级,覆盖了从规范理解到调试的整个硬件验证流程。数据集由100%经过硅验证的设计构建,并通过专家引导优化,功能覆盖率提高了45.57%。FIXME旨在解决现代硬件设计中功能验证这一关键瓶颈问题,并推动基于大型语言模型的设计自动化研究。
FIXME is an end-to-end, multi-model open-source evaluation framework for evaluating the performance of Large Language Models (LLMs) in hardware functional verification (FV). This framework encompasses six subfields and 180 diverse tasks, adopts a three-level difficulty hierarchy, and covers the entire hardware verification workflow from specification comprehension to debugging. The dataset is constructed from 100% silicon-proven designs, optimized via expert guidance, and achieves a 45.57% improvement in functional coverage. FIXME aims to address the critical bottleneck of functional verification in modern hardware design, and advance research on large language model-based design automation.
提供机构:
东南大学集成电路学院, 南京, 江苏, 中国; 国家电子设计自动化技术创新中心, 南京, 江苏, 中国; 香港中文大学, 香港特别行政区, 中国; 香港城市大学, 香港特别行政区, 中国
创建时间:
2025-07-06
原始信息汇总
FIXME数据集概述
数据集基本信息
- 数据集名称:FIXME
- 研究领域:LLM辅助设计验证的端到端基准测试
数据集状态
- 当前状态:未完全开源
- 预计开源时间:2025年8月30日前
- 当前进展:正在进行最终测试和优化
数据集特点
- 目标:建立LLM辅助设计验证的端到端基准测试
- 范围:完整基准测试套件
搜集汇总
数据集介绍

构建方式
FIXME数据集的构建采用了AI与人类专家协同的高效范式,通过VerifyAgent多智能体框架实现自动化筛选与人工校验的深度融合。研究团队基于OpenCores平台的485个硅验证设计项目,运用三级复杂度分类体系(0-100LOC/100-200LOC/>200LOC)进行模块分层,并创新性地开发了层次化模块分解算法确保评估粒度。在数据增强环节,专家团队优化了58K标记的技术规范,补充25K行测试平台代码并新增1,235条关键断言,最终使功能覆盖率提升45.57%。这种混合构建方法既保留了LLM在初步过滤和标注上的效率优势,又通过专家介入保障了工业级验证场景的覆盖完备性。
使用方法
使用FIXME进行模型评估需遵循其模块化验证工作流:对于规范理解任务,采用多选题形式通过准确率指标衡量;代码生成类任务需通过Synopsys VCS工具链验证语法正确性与功能符合性,其中测试平台生成还需统计线覆盖率和信号翻转率;短答案类测试用例设计任务则通过向量空间语义相似度进行分级评分。评估支持两种模式——静态单次评估适用于基础能力测试,而动态迭代模式允许模型根据仿真错误日志和波形反馈进行多轮修正。研究人员可通过标准化接口接入不同规模LLM,利用内置的VerifyAgent自动化测试框架完成全流程评估,所有任务结果均按公式PR=1/NΣ[Ψ'(taski)=Ψ(taski)]×100%统一量化。
背景与挑战
背景概述
FIXME数据集由东南大学集成电路学院和国家电子设计自动化技术创新中心的研究团队于2025年7月提出,旨在解决大型语言模型(LLMs)在硬件功能验证(FV)领域评估不足的问题。该数据集是首个端到端、多模型、开源的评估框架,专注于硬件设计验证的全面评估。FIXME通过结构化三级难度层次和六个验证子领域(包括规范理解、参考模型生成、测试用例设计等)的180项任务,深入分析了LLMs在设计生命周期中的表现。数据集基于100%经过硅验证的设计构建,通过专家引导优化将功能覆盖率提高了45.57%,为硬件设计验证领域的研究提供了重要支持。
当前挑战
FIXME数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,硬件功能验证的复杂性日益增加,验证过程占整个设计周期的70%,成为现代设计方法的主要瓶颈。数据集需要解决规范理解、测试用例生成、断言设计等多方面的复杂任务。在构建过程中,数据集面临数据稀缺和质量控制的挑战,例如仅有30%的Verilog仓库提供规范、RTL代码和测试平台,且格式各异;此外,项目规模的差异性和初始验证通过的要求进一步增加了数据筛选和处理的难度。这些挑战需要通过AI-人类协作的方法来解决,以确保数据集的全面性和可靠性。
常用场景
经典使用场景
FIXME数据集在硬件设计验证领域具有广泛的应用场景,特别是在功能验证(FV)方面。该数据集通过涵盖六个验证子领域和180个多样化任务,为研究人员提供了一个全面的评估框架。其经典使用场景包括设计规范理解、参考模型生成、测试用例设计、测试平台生成、断言生成以及调试任务。这些场景覆盖了硬件设计验证的整个生命周期,使得FIXME成为评估大型语言模型(LLM)在功能验证中性能的理想工具。
解决学术问题
FIXME数据集解决了硬件设计验证中的多个关键学术问题。首先,它填补了现有研究在功能验证评估方面的空白,提供了一个端到端、多模态的评估框架。其次,通过引入结构化的三级难度层次,FIXME能够对LLM在不同复杂度任务中的表现进行细粒度分析。此外,该数据集还解决了验证领域数据稀缺的问题,通过AI与人类专家协作的方式构建高质量数据集,确保了覆盖真实世界验证场景的全面性。
实际应用
在实际应用中,FIXME数据集为硬件设计验证流程提供了显著的效率提升。通过评估LLM在功能验证中的表现,设计团队可以更高效地完成验证任务,减少硅片重新设计的风险。具体应用包括自动化测试平台生成、断言设计以及调试过程优化。此外,FIXME的高质量数据集还可用于训练和优化领域特定的LLM,进一步提升其在硬件设计验证中的性能。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在硬件设计领域的深入应用,FIXME数据集的研究方向聚焦于端到端的功能验证(FV)基准测试框架构建。该领域的前沿探索主要体现在多模态任务评估体系的创新上,通过建立包含180项任务的层次化验证体系(涵盖规范理解、参考模型生成等6个子领域),首次实现了对LLM在硅验证级设计场景中的系统性能力测绘。研究热点集中于AI-人类协同的高质量数据集构建方法,通过专家优化的58K标记规范与1235条关键断言,将功能覆盖率提升45.57%,为LLM驱动的敏捷验证提供了可复现的评估范式。这项工作填补了现有基准测试在形式验证与仿真验证融合评估方面的空白,其开源的VerifyAgent多智能体框架为数据稀缺领域的基准构建提供了新范式,正在推动硬件设计验证从传统手工流程向智能迭代范式的转型。
相关研究论文
- 1FIXME: Towards End-to-End Benchmarking of LLM-Aided Design Verification东南大学集成电路学院, 南京, 江苏, 中国; 国家电子设计自动化技术创新中心, 南京, 江苏, 中国; 香港中文大学, 香港特别行政区, 中国; 香港城市大学, 香港特别行政区, 中国 · 2025年
以上内容由遇见数据集搜集并总结生成



