BRIDGES

Name: BRIDGES
Creator: 卡内基梅隆大学电气与计算机工程系
Published: 2025-04-07 23:27:32
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

http://arxiv.org/abs/2504.05180v1

下载链接

链接失效反馈

官方服务：

资源简介：

BRIDGES数据集是由卡内基梅隆大学电气与计算机工程系创建的一种新型EDA数据集，它结合了文本和图形模态，提供了丰富的多模态数据实例，每个实例包括RTL代码、数据流图、网表图、功能描述、PPA指标和电路类型标签。该数据集通过自动化工作流程生成，包含了超过50万个图实例，以及15亿多个标记，是EDA领域首个大规模的多模态数据集。

The BRIDGES dataset is a novel EDA dataset created by the Department of Electrical and Computer Engineering at Carnegie Mellon University. It integrates text and graphical modalities, offering a rich collection of multimodal data instances, each containing RTL code, data flow diagrams, netlist graphs, functional descriptions, PPA metrics, and circuit type labels. Generated through an automated workflow, the dataset encompasses over 500,000 graphical instances and more than 1.5 billion tokens, making it the first large-scale multimodal dataset in the EDA field.

提供机构：

卡内基梅隆大学电气与计算机工程系

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

BRIDGES数据集的构建采用了创新的自动化工作流程，结合了电子设计自动化（EDA）工具和大语言模型（LLM）的优势。首先，基于RTLCoder和MG-Verilog生成的RTL代码及其功能描述，通过LLM进一步优化生成详细的功能描述。随后，利用PyVerilog工具将RTL代码转换为数据流图，并通过Genus工具将RTL设计合成为Verilog网表，生成多达27种不同的网表实现。每个数据实例包含RTL代码、数据流图、网表图、功能描述、电路类型标签以及功耗和面积（PPA）指标。整个流程生成了超过50万个图实例和15亿个标记的大规模数据集。

使用方法

BRIDGES数据集支持多种EDA任务的模型训练与评估，包括设计检索、类型预测、功能描述生成以及功耗/面积估计。使用流程分为两个阶段：第一阶段通过对比学习、图文本匹配和基于图的文本生成任务预训练跨模态投影器；第二阶段将图表示与LLM对齐，通过线性投影将图嵌入转换为文本兼容的软提示令牌。实验表明，直接加载预训练权重即可实现性能提升，而结合LoRA微调LLM能进一步优化效果。数据集的图结构需通过专用图编码器（如NetlistGNN）处理，文本数据则适用常规NLP处理方法。

背景与挑战

背景概述

BRIDGES数据集由卡内基梅隆大学电气与计算机工程系的Wei Li等人于2024年提出，旨在解决电子设计自动化（EDA）领域中图模态数据与大型语言模型（LLMs）融合的关键问题。该数据集包含超过50万个图实例和15亿个标记，覆盖RTL代码、数据流图、网表图等多种模态，为EDA任务提供了丰富的多模态数据支持。BRIDGES的提出填补了EDA领域缺乏大规模图数据集的空白，显著提升了LLMs在电路设计检索、类型预测等功能性任务中的表现。

当前挑战

BRIDGES面临的挑战主要包括：1）领域问题挑战：传统文本模态难以有效表征EDA任务中的图结构数据（如网表图），导致LLMs在长上下文解析和结构特征学习上性能受限；2）构建过程挑战：需解决超大规模图数据生成（单图最高达80万节点）、跨模态对齐（图表示与文本提示的兼容性）以及计算效率优化（附加运行时开销控制在30%以内）等难题。此外，数据生成流程需协调RTL代码合成、图转换工具链与多维度标注的自动化一致性。

常用场景

经典使用场景

在电子设计自动化（EDA）领域，BRIDGES数据集通过整合图模态与大型语言模型（LLM），为复杂的硬件设计任务提供了全新的解决方案。该数据集广泛应用于设计检索、类型预测、功能描述生成以及功耗/面积估计等任务，显著提升了模型在EDA任务中的性能表现。通过将RTL代码和网表图转化为数据流图，BRIDGES为研究人员提供了一个多模态的数据平台，支持更高效的硬件设计优化与分析。

解决学术问题

BRIDGES数据集解决了EDA领域中文本模态无法充分表达图结构数据的核心问题。传统方法将图结构数据线性化为文本序列，导致LLM在解析和学习图属性时效率低下。通过引入图模态，BRIDGES显著提升了模型对电路结构和功能的理解能力，实验结果表明其在多项任务中的性能提升达到2至10倍。这一突破为EDA任务中的多模态数据融合提供了重要参考。

实际应用

在实际应用中，BRIDGES数据集为芯片设计流程带来了显著的效率提升。例如，在设计检索任务中，基于图模态的检索准确率比传统文本方法高出47%，大幅减少了冗余设计的重复实现。此外，该数据集支持的功耗和面积估计任务，其平均绝对百分比误差（MAPE）低于1%，为芯片设计的早期评估提供了可靠依据。这些应用显著降低了设计周期和成本。

数据集最近研究