five

Rocket-PPA

收藏
github2026-03-02 更新2026-03-03 收录
下载链接:
https://github.com/HKUSTGZ-MICS-LYU/KDD-RocketPPA-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Rocket-PPA是一个全面的数据集,旨在弥合电子设计自动化(EDA)中微架构定义与物理签核之间的鸿沟。通过提供跨广泛频率范围和多PVT角的高保真工业级物理设计数据,该数据集解决了ML-for-EDA研究中的数据稀缺瓶颈。数据集包含800个独特的微架构配置,覆盖3个关键PVT角(典型、快速、慢速),并在5个物理设计阶段捕获PPA指标,支持从100MHz到4GHz的动态频率缩放。

Rocket-PPA is a comprehensive dataset aimed at bridging the gap between microarchitecture definition and physical signoff in electronic design automation (EDA). By providing high-fidelity industrial-grade physical design data spanning a wide frequency range and multiple PVT corners, this dataset addresses the data scarcity bottleneck in ML-for-EDA research. The dataset contains 800 unique microarchitecture configurations, covering three critical PVT corners: typical, fast, and slow, captures PPA metrics across five physical design stages, and supports dynamic frequency scaling from 100MHz to 4GHz.
创建时间:
2026-02-05
原始信息汇总

Rocket-PPA 数据集概述

数据集简介

Rocket-PPA 是一个全面的数据集,旨在弥合电子设计自动化(EDA)中微架构定义与物理签核之间的鸿沟。该数据集通过提供跨宽频率范围和多个 PVT 工艺角的高保真、工业级物理设计数据,解决了 ML-for-EDA 研究中关键的数据稀缺瓶颈。

主要特征

  • 工业级保真度:使用基于 Chisel 的 RISC-V Rocket Chip 生成器生成,并通过完整的 RTL-to-GDSII 流程在商用 TSMC 6nm 工艺节点上使用 Synopsys Fusion Compiler 实现。
  • 多工艺角可变性:超越标称条件,提供三个关键 PVT 工艺角(Typical, Fast, Slow)的数据,支持开发稳健的、工艺角感知的统一条件模型。
  • 纵向“玻璃盒”可见性:不仅在签核阶段,而且在 5 个不同的物理设计阶段 捕获 PPA(性能、功耗、面积)指标,支持早期代理建模和多保真度预测研究。
  • 动态频率缩放:目标频率从 100MHz 到 4GHz 扫描,捕获了激进时序收敛中固有的非线性“零裕度悬崖”和指数功率缩放动态。

数据集构成

数据集包含 800 个独特的微架构配置。由于 3 个 PVT 工艺角被扁平化为列,数据集在概念上覆盖 2,400 个逻辑评估点(800 个配置 × 3 个工艺角)。

1. 输入特征

  • 架构参数(12 列):定义核心结构的整数变量(例如 nBTBEntries, nICacheWays, nDCacheSets)。
  • 物理约束(1 列):目标 Frequency(单位 MHz)。

2. 目标标签(命名约定)

CSV 标题遵循结构化格式 <Stage>_[Corner]_<Metric> 以记录纵向数据:

  • 工艺角无关指标(面积):格式为 <Stage>_Total_Area(单位 $mu m^2$)。由于物理几何形状在 PVT 条件下是恒定的,面积列是共享的。
  • 工艺角相关指标(功耗与时序):格式为 <Stage>_<Corner>_<Metric>
    • 工艺角Typical, Fast, Slow
    • 阶段floorplan, place_opt(布局), clock_opt(时钟树综合), route_opt(布线), chipfinish(签核)。
    • 指标Total_Power(单位 mW)和 WNS(单位 ns,最差负时序裕量)。
  • 示例chipfinish_Total_Area(无关)与 chipfinish_Typical_Total_Power(工艺角特定)。

使用与预处理指南

基于探索性数据分析,我们强烈建议在数据集上训练机器学习模型(例如 XGBoost、随机森林或神经网络)时采用以下预处理步骤:

  • 功耗与面积(对数正态分布):功耗和面积指标跨越多个数量级。建议在使用标准 MSE 损失进行优化之前,应用对数变换log(1+x))然后进行标准缩放。
  • 时序 / WNS(“零裕度悬崖”):时序预测是高度非线性的。EDA 工具将违规路径积极优化至 $0.0$ ns 阈值,但保持宽松约束不变,从而产生尖锐的分布不连续性。
    • 建议:使用分位数变换器将原始 WNS 数据映射到高斯先验($mathcal{N}(0,1)$)。此外,使用 L1 损失(MAE) 而不是 MSE,可以在关键的零裕度边界附近提供更稳定的梯度。

快速开始

克隆仓库并使用 Pandas 加载数据集: bash git clone https://github.com/HKUSTGZ-MICS-LYU/KDD-RocketPPA-Dataset.git cd KDD-RocketPPA-Dataset

搜集汇总
数据集介绍
构建方式
在电子设计自动化领域,数据稀缺长期制约着机器学习技术的深度应用。Rocket-PPA数据集通过工业级设计流程构建,采用基于Chisel的RISC-V Rocket Chip生成器,依托Synopsys Fusion Compiler工具链,在TSMC 6纳米工艺节点上实现了从寄存器传输级到物理版图的完整实现流程。该数据集覆盖800种独特的微架构配置,并在典型、快速与慢速三种工艺-电压-温度角条件下进行物理设计,最终形成包含2400个逻辑评估点的多维数据集合。
使用方法
为充分发挥该数据集在机器学习研究中的潜力,需针对其数据分布特性进行专门预处理。功耗与面积指标跨越多个数量级,呈现对数正态分布特征,建议采用对数变换结合标准化缩放进行处理。时序指标中的最差负裕度数据因工具优化策略形成尖锐的零裕度边界分布,使用分位数变换将其映射至高斯先验分布,并采用平均绝对误差作为损失函数,可显著提升模型在临界区域的预测稳定性。数据集以结构化CSV格式提供,特征包含12维架构参数与目标频率,标签则按设计阶段、工艺角与度量类型分层命名,便于研究者进行多维分析与建模。
背景与挑战
背景概述
在电子设计自动化领域,随着先进工艺节点的演进和设计复杂度的提升,从微架构定义到物理签核的流程中,数据稀缺成为制约机器学习技术应用的关键瓶颈。Rocket-PPA数据集由香港科技大学(广州)的MICS实验室于近期创建,旨在为ML驱动的EDA研究提供高保真、工业级的设计数据。该数据集基于Chisel框架生成的RISC-V Rocket Chip,并采用Synopsys Fusion Compiler在TSMC 6nm工艺节点上完成从RTL到GDSII的全流程实现,其核心研究问题聚焦于通过多工艺角、纵向设计阶段的数据采集,支持构建鲁棒的条件预测模型,以加速芯片设计的时序收敛与能效优化,对推动智能EDA工具的发展具有显著影响力。
当前挑战
Rocket-PPA数据集致力于解决电子设计自动化中物理设计签核阶段的性能、功耗与面积预测挑战,尤其在多工艺角变异性和非线性时序行为建模方面存在显著难度。构建过程中,研究团队需克服工业级设计流程的高计算成本与数据生成复杂性,确保在典型、快速与慢速三种PVT工艺角下捕获从布局规划到签核五个关键阶段的PPA指标。同时,数据集需准确表征动态频率扫描中出现的‘零裕度悬崖’现象及指数级功耗缩放动态,这要求精细的数据采集策略与预处理方法,以支持机器学习模型对高度非均匀分布时序数据的有效学习。
常用场景
经典使用场景
在电子设计自动化领域,Rocket-PPA数据集为机器学习驱动的物理设计优化提供了关键支撑。该数据集通过捕捉从RTL到GDSII完整流程中五个物理设计阶段的性能、功耗和面积指标,结合多工艺角与宽频域扫描,成为训练高精度代理模型的理想基准。研究人员能够利用其纵向可见性,构建早期设计阶段到签核阶段的跨层次预测框架,从而加速芯片设计空间探索与收敛。
解决学术问题
该数据集有效缓解了机器学习在EDA应用中面临的数据稀缺瓶颈,为多工艺角条件下的统一条件建模提供了实证基础。其覆盖典型、快速与慢速工艺角的动态频率缩放数据,使得学术界能够深入探究时序收敛中的非线性“零裕度悬崖”现象与功耗指数缩放动力学。通过提供工业级保真度的设计实现数据,该数据集推动了早期代理建模、多保真度预测以及稳健跨角优化等核心研究方向的进展。
实际应用
在实际芯片设计流程中,Rocket-PPA数据集能够辅助设计团队实现快速设计空间探索与签核前性能预估。工程师可基于数据集训练的预测模型,在物理设计初期准确评估不同微架构配置与频率目标下的PPA趋势,从而提前识别潜在时序违例与功耗热点。该数据集还可用于校准与验证商业EDA工具中的机器学习增强模块,提升设计流程的自动化水平与结果可靠性。
数据集最近研究
最新研究方向
在电子设计自动化领域,Rocket-PPA数据集正推动机器学习辅助物理设计的前沿探索。该数据集凭借其工业级TSMC 6nm工艺实现、多PVT角覆盖及纵向设计阶段透明度,为构建统一条件模型提供了关键支撑。当前研究热点集中于利用其多角数据开发鲁棒性强的时序与功耗预测算法,以应对先进工艺下日益严峻的变异性挑战。同时,数据集捕获的零松弛悬崖现象激发了针对非线性时序闭合问题的深度学习方法创新,例如通过分位数变换与L1损失函数优化模型梯度稳定性。这些进展不仅缓解了EDA领域长期存在的数据稀缺瓶颈,更为实现早期设计阶段的高精度代理建模奠定了实证基础,对加速芯片设计周期具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作