EDA Corpus

Name: EDA Corpus
Creator: 亚利桑那州立大学
Published: 2024-05-05 05:29:37
License: 暂无描述

arXiv2024-05-05 更新2024-06-21 收录

下载链接：

https://github.com/OpenROAD-Assistant/EDA-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

EDA Corpus是由亚利桑那州立大学和纽约大学合作创建的一个面向OpenROAD的开源数据集，包含超过1000个数据点，分为问题与答案对和代码与脚本对两种格式。该数据集旨在通过提供丰富的训练数据，促进大型语言模型在电子设计自动化（EDA）领域的应用，特别是在物理设计任务中。数据集的创建过程涉及从OpenROAD的GitHub问题、讨论和文档中收集和验证数据，确保每条数据的高质量和相关性。EDA Corpus的应用领域主要集中在提高芯片设计的自动化水平，帮助新老设计师更有效地理解和使用OpenROAD工具。

EDA Corpus is an open-source dataset dedicated to OpenROAD, jointly developed by Arizona State University and New York University. It comprises over 1,000 data points in two formats: question-answer pairs and code-and-script pairs. The core objective of this dataset is to facilitate the application of large language models (LLMs) in the field of electronic design automation (EDA), particularly for physical design tasks, by providing abundant training data. The dataset was constructed by collecting and validating data sourced from OpenROAD's GitHub issues, community discussions and official documentation, ensuring the high quality and contextual relevance of each data entry. The main application scenarios of EDA Corpus focus on improving the automation level of chip design, helping both novice and experienced designers more effectively understand and utilize the OpenROAD tools.

提供机构：

亚利桑那州立大学

创建时间：

2024-05-05

搜集汇总

数据集介绍

构建方式

在电子设计自动化（EDA）领域，高质量数据集的构建对于推动大语言模型在物理设计中的应用至关重要。EDA Corpus的构建过程充分体现了这一理念，其数据来源于OpenROAD的GitHub问题讨论、官方文档以及专家验证的实际用户交互。研究团队通过精心筛选，剔除了无关对话和已通过软件修复解决的问题，确保每个数据点的准确性和代表性。对于问答数据集，专家不仅提供了原始答案，还通过释义技术生成了语义相近的变体，以增强模型的泛化能力。脚本数据集则通过手动编写提示词与对应Python脚本，并经过实际执行验证，确保了代码的功能正确性。此外，团队还采用了变量名替换和参数调整等方法，对数据集进行了平衡性增强，使得不同功能类别的数据分布更为均匀。

使用方法

该数据集的核心用途在于训练和微调大语言模型，以提升其在芯片物理设计领域的专业能力。研究人员可利用问答数据集，使模型学习OpenROAD工具的原理、使用方法和设计策略，从而构建能够解答专业问题的智能助手。同时，提示-脚本数据集可用于训练模型理解用户的设计意图，并自动生成可执行的Python脚本，以完成从布局规划到布线等一系列物理设计任务。在实际应用中，开发者可将数据集划分为训练集和验证集，对如ChatGPT等基础模型进行监督微调。论文中的实验表明，经过微调的模型在脚本生成的准确性和问答的针对性上均有显著提升，这为开发高效的EDA领域智能辅助工具提供了关键的数据支撑。

背景与挑战

背景概述

在电子设计自动化（EDA）领域，物理设计阶段长期面临专业门槛高、工具使用复杂的挑战，尤其对于开源工具链如OpenROAD，用户常因文档不足或API理解困难而效率受限。2024年，由亚利桑那州立大学与纽约大学的研究团队联合创建的EDA Corpus数据集应运而生，旨在通过提供大规模、高质量的语言模型训练数据，推动大型语言模型在物理设计任务中的集成与应用。该数据集包含超过1000个数据点，涵盖问答对与脚本对两种格式，核心研究问题聚焦于如何利用开源工具链降低芯片设计的学习与操作壁垒，其发布为EDA领域的智能化辅助研究奠定了关键数据基础，显著提升了物理设计流程的可访问性与自动化水平。

当前挑战

EDA Corpus数据集致力于解决物理设计自动化中脚本生成与知识问答的挑战，其构建过程面临多重困难。在领域问题层面，物理设计依赖专有工具与封闭接口，导致公开数据极度稀缺，限制了语言模型在该领域的性能拓展；同时，OpenROAD等开源工具的API文档有限，用户需深入源码才能编写有效脚本，增加了自动化任务的复杂性。在数据集构建过程中，研究者需从GitHub问题讨论与文档中筛选高质量数据，剔除无关对话或已修复的缺陷信息，确保问答对的准确性与泛化性；此外，脚本数据需通过专家验证执行正确性，并采用提示改写与参数变异等方法进行数据增强，以平衡类别分布并提升模型鲁棒性。

常用场景

经典使用场景

在电子设计自动化领域，EDA Corpus数据集为大型语言模型在物理设计任务中的集成提供了关键训练资源。该数据集通过构建问答对与脚本对两种结构化格式，专门服务于OpenROAD开源工具链的应用场景。经典使用场景体现在利用其丰富数据点训练领域专用语言模型，使其能够理解物理设计流程中的专业术语与操作逻辑，从而辅助设计者完成从RTL到GDSII的自动化转换。数据集覆盖了布局布线、功耗分析、设计规则检查等核心环节，为模型提供了从理论认知到实践操作的全方位学习素材。

解决学术问题

该数据集有效解决了电子设计自动化领域长期存在的学术研究难题。传统物理设计过程高度依赖专业工具与封闭式商业软件，导致相关训练数据稀缺且难以公开获取。EDA Corpus通过构建基于OpenROAD的开放数据集，打破了这一技术壁垒，为学术界提供了可自由使用的标准化训练资源。其意义在于建立了首个面向物理设计任务的公开许可数据集，使得研究人员能够系统性地探索语言模型在芯片后端设计中的潜力，推动了自动化设计方法学从硬件描述语言向物理实现阶段的延伸。

实际应用

在实际工程应用中，EDA Corpus数据集显著提升了芯片设计流程的智能化水平。基于该数据集训练的模型能够充当智能设计助手，帮助工程师快速掌握OpenROAD工具链的使用方法，自动生成符合规范的Python脚本以执行物理设计任务。例如在电源网络生成、时序分析、布局优化等具体场景中，模型可根据自然语言指令自动调用相应API，大幅降低了对专业脚本编写能力的要求。这种应用模式不仅缩短了设计周期，更使得开源EDA工具的学习曲线趋于平缓，促进了先进设计方法在产业界的普及。

数据集最近研究