CVDP Benchmark dataset

github2025-06-19 更新2025-06-20 收录

下载链接：

https://github.com/NVlabs/cvdp_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CVDP Benchmark数据集是一个用于评估大型语言模型和代理在RTL设计和验证上的性能的基准数据集。该数据集包含了大多数评估问题，但初始公开版本中由于测试工具问题和许可限制，省略了二十个数据点。

The CVDP Benchmark dataset is a benchmark for evaluating the performance of Large Language Models (LLMs) and AI Agents in RTL design and verification. While the dataset encompasses most of the evaluation tasks, the initial public release omits twenty data points due to issues with testing tools and license restrictions.

创建时间：

2025-06-11

原始信息汇总

CVDP Benchmark 数据集概述

数据集基本信息

名称: CVDP Benchmark
用途: 评估LLM和智能体解决方案在硬件验证挑战上的表现
数据集地址: Hugging Face - nvidia/cvdp-benchmark-dataset
论文: Comprehensive Verilog Design Problems: A Next-Generation Benchmark Dataset for Evaluating Large Language Models and Agents on RTL Design and Verification

数据集内容

包含论文中讨论的绝大多数评估问题
初始公开版本中省略了20个数据点（由于测试工具问题和许可限制）

评估方法

非智能体工作流（基于LLM）

通过直接API调用评估语言模型
示例命令: bash python run_benchmark.py -f dataset.jsonl -l -m gpt-4o-mini

智能体工作流（基于Docker）

评估在Docker容器中运行的自定义智能体
示例命令: bash python run_benchmark.py -f dataset.jsonl -l -g your-agent-image

多样本评估（Pass@k指标）

运行多个样本以获得统计可靠性
示例命令: bash python run_samples.py -f dataset.jsonl -l -m gpt-4 -n 5 -k 1

主要功能

灵活评估：支持LLM和Docker智能体工作流
统计分析：多样本pass@k评估
并行执行：可配置线程
自定义扩展：支持自定义模型和智能体的插件系统
全面报告：包含类别和复杂度细分的详细分析
Docker集成：自动化容器管理

数据集转换

支持在智能体和非智能体数据集格式之间自动转换
转换选项:
- --force-agentic: 将非智能体数据集转换为智能体评估格式
- --force-copilot: 将智能体数据集转换为非智能体评估格式

配置要求

Python: 推荐3.12版本
Docker CE: 需要安装最新版本
高级验证工具: 可选（如Cadence Xcelium）

项目结构

cvdp_benchmark/ ├── run_benchmark.py # 主评估脚本 ├── run_samples.py # 多样本评估 ├── run_reporter.py # 报告分析 ├── src/ # 核心库 ├── tools/ # 数据集分析工具 ├── examples/ # 自定义模型和智能体示例 ├── tests/ # 测试套件 └── README_*.md # 工作流特定文档

结果分析

输出文件:
- report.json: 主要结果
- raw_result.json: 每个测试执行的详细信息
- composite_report.json: 多样本运行的聚合结果
分析工具: bash python run_reporter.py work/report.json python run_reporter.py work_composite/composite_report.json

许可证网络设置

支持EDA工具许可证网络配置
自动检测和验证许可证网络连接
可通过.env文件配置: bash LICENSE_NETWORK=licnetwork LICENSE_NETWORK_AUTO_CREATE=true

相关文档

README_NON_AGENTIC.md: 非智能体评估指南
README_AGENTIC.md: 智能体评估指南
README_DEVELOPER.md: 开发者文档

搜集汇总

数据集介绍

构建方式

CVDP Benchmark数据集作为硬件验证领域的重要评估框架，其构建过程充分融合了专业工程实践与学术研究需求。研究团队通过系统化收集和整理实际硬件设计问题，构建了涵盖寄存器传输级（RTL）设计和验证的综合性问题库。数据集采用双轨制构建策略，既包含可直接调用的LLM评估接口，也支持基于Docker容器的智能体验证方案。值得注意的是，团队在公开发布时审慎处理了20个涉及测试框架兼容性和授权限制的数据点，确保了数据集的合规性和可用性。

特点

该数据集在硬件验证领域展现出显著的专业特性，其核心价值在于支持多维度评估范式。数据集不仅提供标准化的Verilog设计问题，更创新性地实现了非智能体工作流与智能体工作流之间的无缝转换。技术架构上采用模块化设计，包含问题描述、测试用例、参考解决方案等完整要素，并通过Docker Compose实现测试环境的快速部署。特别值得关注的是其对商业EDA工具链的支持能力，通过可配置的验证镜像和许可证网络设置，满足了从开源工具到企业级验证平台的不同需求场景。

使用方法

使用该数据集需遵循其模块化评估体系，用户可根据需求选择不同工作流。对于直接LLM评估，通过Python脚本调用API并指定模型参数即可启动基准测试；而智能体评估则需要构建自定义Docker镜像。数据集提供完善的配套工具链，包括单次评估、多样本Pass@k指标计算以及结果分析等功能。环境配置方面要求Python 3.12和Docker环境，通过虚拟环境隔离依赖，使用.env文件管理EDA工具许可证等敏感配置。高级用户还可通过自定义模型工厂和智能体开发接口扩展评估能力。

背景与挑战

背景概述

CVDP Benchmark数据集由NVIDIA研究团队于2024年发布，旨在构建一个面向硬件验证领域的下一代基准测试框架。该数据集聚焦于寄存器传输级（RTL）设计与验证任务，通过系统化的Verilog设计问题集，为评估大语言模型和智能代理在电子设计自动化（EDA）领域的性能提供了标准化测试平台。其核心研究问题在于解决传统EDA工具在复杂芯片设计场景中面临的验证效率瓶颈，通过引入AI驱动的新型验证范式，显著提升了硬件设计验证的自动化程度。该数据集已收录于Hugging Face平台，并配套发表arXiv预印本论文，为半导体设计自动化领域的研究提供了重要的基准参考。

当前挑战

该数据集主要面临双重技术挑战：在领域问题层面，硬件验证任务需要处理多维度约束条件，包括时序收敛、功耗优化和功能正确性验证等复杂需求，这对AI模型的电路理解能力和形式化验证知识提出了极高要求。在构建过程中，研究团队需克服商业EDA工具链的授权限制，通过定制化Docker镜像实现验证环境封装；同时处理测试激励生成、覆盖率度量等专业验证指标的自动化评估难题，最终通过创新的容器化测试框架实现了跨工作流的数据集兼容性。

常用场景

经典使用场景

在硬件验证领域，CVDP Benchmark数据集为评估大型语言模型（LLM）和智能代理在寄存器传输级（RTL）设计和验证任务中的表现提供了标准化测试平台。该数据集通过精心设计的Verilog设计问题，支持研究者对模型生成代码的功能正确性、时序约束满足度以及设计规范符合性进行系统化评估。其经典使用场景包括模型在仿真测试覆盖率、逻辑综合约束优化等关键指标上的横向对比，为硬件设计自动化研究建立了可重复的实验基准。

衍生相关工作

该数据集已催生多项具有影响力的衍生研究。基于其构建的VerilogGPT等开源项目探索了领域自适应预训练技术在硬件设计中的应用；MIT研究人员开发的VeriAgent框架通过扩展数据集评估维度，首次实现了对AI设计方案的功耗特性预测。工业界则衍生出Cadence VerifAI等商业工具，这些工作共同推动了从学术基准到产业落地的技术转化，形成完整的硬件设计智能化研发生态。

数据集最近研究