Comprehensive Verilog Design Problems (CVDP)

Name: Comprehensive Verilog Design Problems (CVDP)
Creator: NVIDIA
Published: 2025-06-17 08:11:13
License: 暂无描述

arXiv2025-06-17 更新2025-06-22 收录

下载链接：

https://github.com/NVlabs/cvdp_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CVDP是一个全新的基准数据集，旨在推进硬件设计和验证中大型语言模型（LLM）和代理的研究。它包括由经验丰富的硬件工程师编写的783个问题，涵盖13个任务类别，包括RTL生成、验证、调试、规范对齐和技术问答。问题以非代理和代理格式提供，旨在提供比先前工作更真实和更具挑战性的场景。该基准使用开源工具和模型评分基础设施，并揭示了当前模型能力中的巨大差距，突出了对持续研究以实现稳健、真实的硬件设计自动化的需求。

CVDP is a novel benchmark dataset designed to advance research on large language models (LLMs) and AI Agents in hardware design and verification. It comprises 783 questions written by seasoned hardware engineers, spanning 13 task categories including RTL generation, verification, debugging, specification alignment, and technical question answering. The questions are provided in both non-agent and agent formats to deliver more realistic and challenging scenarios than prior works. This benchmark leverages open-source tooling and model scoring infrastructure, revealing significant gaps in current model capabilities and highlighting the urgent need for continuous research to achieve robust, real-world hardware design automation.

提供机构：

NVIDIA

创建时间：

2025-06-17

原始信息汇总

CVDP Benchmark 数据集概述

数据集基本信息

名称: CVDP Benchmark
用途: 用于评估LLM和智能体解决方案在硬件验证挑战上的性能
数据集地址: Hugging Face - nvidia/cvdp-benchmark-dataset
论文: Comprehensive Verilog Design Problems: A Next-Generation Benchmark Dataset for Evaluating Large Language Models and Agents on RTL Design and Verification
数据集说明: 公开版本中省略了20个数据点，原因是测试工具链问题和许可限制

数据集特点

评估框架: 支持两种工作流评估
- 非智能体工作流（基于LLM API调用）
- 智能体工作流（基于Docker容器）
评估方式: 支持单次运行和多样本pass@k指标分析
问题类型: 硬件验证任务，涵盖RTL设计和验证

快速开始

非智能体工作流

bash python run_benchmark.py -f dataset.jsonl -l -m gpt-4o-mini

智能体工作流

bash python run_benchmark.py -f dataset.jsonl -l -g your-agent-image

多样本评估

bash python run_samples.py -f dataset.jsonl -l -m gpt-4 -n 5 -k 1

安装要求

Python: 推荐3.12版本
Docker CE: 必须安装最新版本
高级验证工具: 可选（如Cadence Xcelium等商业验证工具）

核心功能

灵活的评估方式（LLM和Docker智能体）
统计分析（多样本pass@k评估）
并行执行
自定义扩展（模型和智能体插件系统）
综合报告（详细分析和分类）

数据集转换

支持智能体和非智能体数据集格式间的自动转换
保留核心问题定义不变
自动适应文件结构和提示格式

配置选项

环境变量: 通过.env文件配置API密钥、默认模型等
Docker配置: 包括超时设置和资源限制
EDA工具配置: 可选商业EDA工具支持

结果分析

输出文件:
- report.json: 主要结果
- raw_result.json: 详细测试信息
- composite_report.json: 多样本聚合结果
分析工具: 提供单次运行和多样本分析脚本

文档索引

非智能体工作流指南: README_NON_AGENTIC.md
智能体工作流指南: README_AGENTIC.md
开发者文档: README_DEVELOPER.md
示例文档: examples/README.md
测试文档: tests/README.md

搜集汇总

数据集介绍

构建方式

Comprehensive Verilog Design Problems (CVDP) 数据集由35名拥有4年以上Verilog和验证经验的硬件工程师精心构建，涵盖13个任务类别和不同难度级别。每个数据点都经过具有硬件设计博士学位或工程管理经验的主题专家审核，确保准确性、任务适配性和适当范围。初始校准阶段进行了密集的人工审查，以确保数据质量和任务对齐。随后采用基于LLM的过滤方法检测错误，如缺失上下文或错误分类，并对提示的模糊性和一致性进行评分。最终从1313个问题中筛选出783个高质量数据点。

特点

CVDP数据集包含783个问题，覆盖RTL生成、验证、调试、规范对齐和技术问答等多个领域，分为非代理和代理两种格式。其特点在于任务覆盖范围广、难度高，反映了真实硬件开发的复杂性。当前最先进的模型在代码生成问题上的通过率不超过34%，尤其在涉及RTL重用和验证的代理任务中表现尤为困难。数据集采用开源工具和模型评分基础设施进行评估，理解任务通过BLEU和基于LLM的评判进行评分。

使用方法

CVDP数据集的使用方法包括非代理和代理两种评估模式。非代理问题在单轮设置中评估，提示和上下文完全提供给模型。代理问题则在Docker容器中运行，允许代理检查小型存储库并调用工具（如模拟器）。评估流程包括数据点输入、基准运行器、测试模型或代理、以及测试工具和评估测试工具。数据集以两个JSONL文件打包，分别用于非代理和代理数据点。用户可以通过配置超时和重试次数来适应不同的计算访问需求。

背景与挑战

背景概述

Comprehensive Verilog Design Problems (CVDP) 是由NVIDIA的研究团队于2025年提出的下一代基准数据集，旨在评估大型语言模型（LLM）和智能代理在寄存器传输级（RTL）设计和验证任务中的性能。该数据集由35名具有4年以上经验的硬件工程师精心设计，包含783个问题，覆盖13个任务类别，包括RTL生成、验证、调试、规范对齐和技术问答等。CVDP的推出填补了硬件设计领域高质量公开基准数据集的空白，为LLM在半导体硬件设计自动化中的应用提供了重要的评估工具。

当前挑战

CVDP面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，CVDP旨在解决硬件设计中复杂的RTL代码生成和验证问题，但当前最先进的LLM在代码生成任务上的最高通过率仅为34%，尤其在涉及RTL重用和验证的代理任务中表现更差。在构建过程中，研究团队面临高质量RTL训练数据稀缺的挑战，需要人工创建大量真实世界设计问题，并通过严格的质量过滤流程（从1313个初始问题中筛选出783个）确保数据集的准确性和一致性。此外，测试平台代码生成和断言创建等验证任务对LLM提出了特殊挑战，反映出模型在理解硬件设计时序和语义方面的局限性。

常用场景

经典使用场景

在硬件设计自动化领域，CVDP数据集被广泛用于评估大型语言模型（LLM）和智能代理在寄存器传输级（RTL）设计和验证任务中的性能。数据集包含783个问题，覆盖13个任务类别，如RTL生成、验证、调试和规范对齐等。这些问题由经验丰富的硬件工程师编写，旨在模拟真实世界的硬件开发流程。CVDP特别适用于评估模型在复杂任务中的表现，如模块重用和验证任务，这些任务在现有基准测试中表现尤为困难。

实际应用

CVDP数据集在实际应用中具有广泛的价值。它被用于开发和优化硬件设计自动化工具，如EDA（电子设计自动化）软件中的智能辅助功能。工程师可以利用CVDP评估和比较不同模型在RTL代码生成、调试和验证任务中的表现，从而选择最适合其工作流程的解决方案。此外，数据集还用于培训和教育，帮助学生和新人工程师理解硬件设计的复杂性和挑战。

衍生相关工作

CVDP数据集衍生了一系列相关研究工作。例如，基于CVDP的评估结果，研究人员开发了新的模型架构和训练方法，以提升在硬件设计任务中的性能。此外，数据集还激发了针对特定任务（如测试平台生成和断言生成）的专用模型和算法的研究。CVDP的开放性和扩展性也促进了跨学科合作，如将自然语言处理技术应用于硬件设计规范的自动生成和理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集