CapBench

Name: CapBench
Creator: 清华大学·BNRist
Published: 2026-04-13 17:01:12
License: 暂无描述

arXiv2026-04-13 更新2026-04-17 收录

下载链接：

https://github.com/THU-numbda/CapBench

下载链接

链接失效反馈

官方服务：

资源简介：

CapBench是由清华大学团队构建的多PDK电容提取基准数据集，包含来自开源CPU、SoC和媒体加速器的布局数据。该数据集通过OpenROAD流程在ASAP7、NanGate45和Sky130HD三种工艺节点下生成，涵盖61,855个多尺度3D窗口样本，并采用RWCap随机游走求解器生成高精度电容标签（与Raphael商业工具误差仅0.64%）。数据集以密度图、图结构和点云三种形式预处理，为机器学习模型提供多样化输入表征，主要应用于电子设计自动化领域中的时序闭合与功耗优化问题，推动基于AI的寄生参数提取技术发展。

CapBench is a multi-PDK capacitance extraction benchmark dataset constructed by the Tsinghua University team, containing layout data from open-source CPUs, SoCs, and media accelerators. It is generated via the OpenROAD flow across three process nodes: ASAP7, NanGate45, and Sky130HD, covering 61,855 multi-scale 3D window samples. High-precision capacitance labels are generated using the RWCap random walk solver, with only a 0.64% error relative to the commercial Raphael tool. The dataset is preprocessed into three formats: density maps, graph structures, and point clouds, providing diverse input representations for machine learning models. It is primarily applied to timing closure and power optimization problems in the field of electronic design automation (EDA), promoting the development of AI-based parasitic parameter extraction technologies.

提供机构：

清华大学·BNRist

创建时间：

2026-04-13

原始信息汇总

CapBench数据集概述

数据集基本信息

数据集名称：CapBench
核心功能：一个用于缓存布局数据集、标准化数据加载器和可视化的Python库
主要用途：提供CAP3D支持的密度图和密度图ID映射的标准化数据加载器访问，以及CAP3D可视化

支持的数据集

内置注册数据源：
- nangate45
- sky130hd
- asap7
数据集划分：每个PDK存档目前提供small、medium、large三种划分

数据获取与使用

安装方式：通过命令行工具python -m capbench datasets install <pdk>下载和提取完整PDK存档到共享缓存
缓存位置：默认存储在~/.cache/capbench/目录下
环境变量：
- CAPBENCH_CACHE_DIR：覆盖共享缓存根目录
- CAPBENCH_DATASET_ROOT：为旧脚本覆盖传统默认数据集根目录

数据访问接口

命令行工具：
- 数据集列表查看：python -m capbench datasets list
- 数据集信息查询：python -m capbench datasets info <dataset>
- 数据集安装：python -m capbench datasets install <pdk>
- 可视化：python -m capbench visualize cap3d --dataset <dataset> --window <window>
Python API：
- 主要模块：capbench.*
- 关键函数：
  - install_dataset()：安装数据集
  - resolve_dataset_path()：解析数据集路径
  - load_density_window_dataset()：加载密度窗口数据集
  - load_density_id_window_dataset()：加载密度ID窗口数据集

数据结构与组织

缓存模型：CapBench在共享用户缓存中存储下载和缓存的数据
操作基础：基于缓存的数据集路径而非仓库本地工作空间
数据完整性：如果存档不完整，缺失的构件会在datasets info和安装后的状态表中报告

注意事项

仓库状态：该仓库正在被另一个正在接受会议评审的仓库镜像，请勿直接推送到主分支
数据加载：加载器和可视化命令不会隐式生成或下载构件，需要先安装数据集
开发者工具：位于tools/命名空间下的工具仅用于数据集创作和维护，不属于公共工作流程

搜集汇总

数据集介绍

构建方式

在集成电路设计自动化领域，高精度电容提取是确保时序收敛与功耗优化的关键环节。CapBench数据集的构建依托于开源硬件设计，包括单核CPU、片上系统及媒体加速器，通过OpenROAD流程在ASAP7、NanGate45与Sky130HD三个工艺节点上完成布局与布线。从生成的版图中，研究团队提取了61,855个三维窗口，覆盖三种尺寸层级，以支持迁移学习与可扩展性研究。每个窗口的电容标签采用先进的随机行走求解器RWCap生成，并利用工业标准工具Raphael进行验证，确保总电容的平均绝对误差低至0.64%。此外，每个窗口均被预处理为密度图、图表示与点云等多种格式，为机器学习模型提供了丰富的输入表征。

特点

CapBench数据集在电子设计自动化领域中展现出多方面的显著特点。其覆盖了三个独立的开源工艺设计套件，跨越从7纳米到130纳米的技术节点，从而捕捉了不同工艺条件下的电容耦合行为差异。数据集包含的窗口样本在尺寸上分为三个层级，且通过非重叠的网格化采样策略避免了空间泄漏问题，确保了训练与测试数据的独立性。电容标签的高保真度得益于RWCap求解器的应用，其与Raphael工具的一致性验证进一步提升了数据的可靠性。此外，数据集提供了密度图、点云和图结构等多种数据表示形式，能够适配卷积神经网络、点云变换器及图神经网络等不同机器学习架构的输入需求。

使用方法

CapBench数据集为基于机器学习的电容提取研究提供了标准化的评估平台。研究人员可利用其丰富的多格式数据，训练和比较不同的神经网络模型，例如以密度图为输入的卷积神经网络、处理点云数据的变换器模型以及基于图结构的神经网络。数据集已按照窗口级别划分了训练与测试集，有效防止了因几何重叠导致的数据泄漏。在具体应用中，用户可加载预处理后的样本，针对总电容或耦合电容预测任务进行模型训练与性能评估。数据集中提供的基线模型结果，包括CNN达到的1.75%最低误差与GNN展现的41.4倍速度优势，为后续研究确立了明确的精度-速度权衡参考。相关代码与数据已公开，便于复现与进一步开发。

背景与挑战

背景概述

在电子设计自动化领域，寄生参数提取是确保芯片时序与功耗分析精度的关键环节，其中电容提取尤为复杂且计算密集。传统基于场求解器的方法虽精度高，但计算成本巨大，难以满足大规模版图的分析需求。为此，数据驱动的机器学习方法展现出巨大潜力，然而该领域长期缺乏高质量、可复现的公开数据集，制约了相关模型的研发与评估。CapBench数据集应运而生，由清华大学研究团队于2026年创建，旨在为基于机器学习的后版图电容提取研究提供基准。该数据集基于开源设计，利用OpenROAD流程在ASAP7、NanGate45和Sky130HD三种工艺节点上生成完整布局与布线，并从中提取了超过六万个三维窗口，采用高精度随机行走求解器RWCap生成电容真值。CapBench的发布填补了该领域多工艺节点、高保真标签数据集的空白，为机器学习模型在寄生提取任务中的性能比较与算法创新奠定了坚实基础。

当前挑战

CapBench数据集致力于应对电子设计自动化中电容提取这一核心问题的挑战。该问题要求从复杂的三维互连结构中精确量化导体间的静电耦合效应，其难点在于几何形态的高度异构性、多尺度耦合效应以及不同工艺节点带来的物理特性差异。传统数值求解器难以在精度与效率间取得平衡，而现有机器学习方法则受限于训练数据的规模、多样性与标签质量。在数据集构建过程中，研究团队面临多重挑战：首先，需在开源工艺设计套件约束下，生成涵盖从控制逻辑到完整片上系统等多种设计类型的物理布局，以确保数据的多样性与代表性；其次，从大规模版图中切割生成数万个非重叠且几何规则的三维窗口，需避免边缘效应并保持空间独立性以防止数据泄露；最后，为每个窗口生成高保真电容标签的计算成本极高，需在随机行走求解器的精度与运行时间之间进行周密权衡与验证。这些挑战的克服使得CapBench成为一个严谨且可复现的基准资源。

常用场景

经典使用场景

在电子设计自动化领域，电容提取是后版图验证中不可或缺的环节，CapBench数据集为此提供了多尺度、多工艺节点的标准化基准。该数据集最经典的使用场景是作为机器学习模型的训练与评估平台，支持卷积神经网络、点云变换器和图神经网络等多种架构进行三维电容预测研究。通过从开源设计生成的六万余个布局窗口，研究者能够系统性地探索不同表示形式（如密度图、点云和图形）对模型精度与效率的影响，从而推动数据驱动型电容提取方法的创新与优化。

解决学术问题

CapBench数据集主要解决了电子设计自动化中电容提取领域长期存在的学术研究难题。传统基于场求解器的电容提取方法虽精度高，但计算成本巨大，难以应对大规模版图分析；而现有开源数据集往往缺乏高保真电容标签或完整的后版图几何信息。CapBench通过整合ASAP7、NanGate45和Sky130HD三种工艺节点，并利用随机行走求解器RWCap生成经过Raphael验证的高精度电容标签，为学术界提供了可复现、多样化的基准数据，显著促进了机器学习模型在精度与速度之间权衡研究的深入。

衍生相关工作

CapBench数据集的发布衍生了一系列经典的机器学习在电容提取中的应用研究。例如，基于卷积神经网络的CNN-Cap模型利用密度图表示实现了高精度预测；点云变换器架构PCT-Cap则通过采样导体表面几何特征进行电容估算；而图神经网络方法GNN-Cap将互连结构建模为空间图以提升计算效率。这些工作均在CapBench提供的统一基准上进行了系统评估，不仅明确了各架构在精度与速度上的权衡关系，也为后续研究提供了可比较的基线模型与评估框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集