five

DeepCircuitX

收藏
arXiv2025-02-25 更新2025-02-27 收录
下载链接:
https://zeju.gitbook.io/lcm-team
下载链接
链接失效反馈
官方服务:
资源简介:
DeepCircuitX是一个全面的项目级别的数据集,由香港中文大学等机构创建,旨在推动寄存器传输级(RTL)代码理解、生成和功耗-性能-面积(PPA)分析。该数据集涵盖了超过4000个RTL项目,包含芯片级、IP级和模块级的设计。DeepCircuitX具有四级结构,包括项目、文件、模块和代码块,为不同规模的语言模型训练提供了可能。数据集通过逻辑综合和物理设计工具,提供了网表、PPA指标和版图设计,支持跨阶段的EDA任务。

DeepCircuitX is a comprehensive project-level dataset developed by institutions including The Chinese University of Hong Kong, aiming to advance register-transfer level (RTL) code understanding, generation, and power-performance-area (PPA) analysis. This dataset contains over 4,000 RTL projects, covering chip-level, IP-level, and module-level designs. DeepCircuitX features a four-tier structure comprising project, file, module, and code block, which enables training of language models of varying scales. The dataset provides netlists, PPA metrics, and layout designs via logic synthesis and physical design tools, supporting cross-stage EDA tasks.
提供机构:
香港中文大学计算机科学与工程学院, 上海交通大学计算机科学与工程学院, 杭州电子科技大学计算机科学与技术学院, 宁波大学电气工程与计算机科学学院, 东南大学集成电路学院, 国家集成电路设计自动化技术创新中心
创建时间:
2025-02-25
搜集汇总
数据集介绍
main_image_url
构建方式
DeepCircuitX数据集的构建方法是通过从多个数据源收集超过4000个电路设计项目,涵盖了芯片设计、IP设计、模块设计等多个层次。数据集被组织成四个层次:仓库、文件、模块和块。为了增强数据集的可用性,我们采用了Chain of Thought(CoT)方法对RTL代码进行注释,使用GPT-4和Claude生成详细的注释、描述和问答对。此外,我们还通过逻辑综合过程将RTL项目转换为电路网表,并获取PPA指标,以便于早期设计探索和PPA预测。
特点
DeepCircuitX数据集的特点在于其全面性和多样性。它包含了超过4000个仓库级的RTL项目,涵盖了芯片设计、IP设计、模块设计等多个层次。数据集被组织成四个层次,使得模型可以在不同的尺度上进行训练,从而适用于各种LLMs和模型。此外,数据集还包括了综合的网表和PPA指标,可以用于早期设计探索和PPA预测。
使用方法
DeepCircuitX数据集的使用方法如下:1. 数据准备:首先,根据芯片级、IP级和模块级RTL设计的不同层次,从多个数据源收集RTL项目。2. 注释:使用Chain of Thought(CoT)方法对RTL代码进行注释,包括模块级、块级和仓库级注释。3. 多模态转换:通过逻辑综合过程将RTL项目转换为电路网表,并获取PPA指标。4. 训练和评估:使用数据集训练LLMs,并评估其在RTL代码理解、生成、完成和PPA预测等任务上的性能。
背景与挑战
背景概述
在电子设计自动化(EDA)领域,寄存器传输级(RTL)建模是连接设计规范和电路实现的关键步骤。DeepCircuitX数据集应运而生,旨在推动RTL代码理解、生成和功耗性能面积(PPA)分析的发展。该数据集由香港中文大学计算机科学与工程学院的Zeju Li等研究人员创建,于2025年2月发布。DeepCircuitX提供了全面的多层次资源,涵盖了从仓库、文件、模块到块级的RTL代码。这种结构使大型语言模型(LLMs)能够进行更细致的训练和评估,对于RTL特定任务至关重要。此外,该数据集还包含了对多个级别的功能和结构进行详细描述的“思维链”(CoT)注释,这增强了其在RTL代码理解、生成和完成等广泛任务中的实用性。DeepCircuitX还包含综合后的网表和PPA指标,这有助于早期设计探索,并允许直接从RTL代码中进行准确的PPA预测。该数据集的有效性在各种LLMs上的实验中得到了证明,并通过人工评估得到了确认。DeepCircuitX被认为是推进硬件设计自动化中RTL聚焦的机器学习应用的关键资源。
当前挑战
DeepCircuitX数据集面临的挑战包括:1) 数据集的多样性:尽管DeepCircuitX旨在解决现有RTL数据集在多样性方面的限制,但半导体生态系统的封闭性仍然导致可访问的设计有限。因此,数据集的多样性可能会受到限制,从而影响模型的泛化能力和有效性。2) 注释的准确性:虽然DeepCircuitX采用了CoT注释方法来提高训练数据的质量,但注释的准确性仍然是一个挑战。由于注释过程涉及人工参与,因此可能会出现错误或遗漏,这可能会影响模型的训练和性能。3) PPA预测的准确性:尽管DeepCircuitX提供了PPA指标和综合后的网表,但准确预测实际设计的PPA仍然是一个挑战。逻辑综合工具会根据技术库对设计进行优化,这可能会导致预测结果与实际结果存在偏差。因此,如何提高PPA预测的准确性仍然是EDA社区需要进一步探索的问题。
常用场景
经典使用场景
DeepCircuitX数据集主要用于提升RTL(寄存器传输级)代码的理解、生成和PPA(功耗、性能、面积)分析。该数据集不仅包含文件级别的RTL代码,还包括整个存储库、模块和代码块级别的RTL代码,为大型语言模型(LLMs)的训练和评估提供了更为丰富的层次结构。此外,DeepCircuitX还包含了Chain of Thought(CoT)注释,提供了多个级别的功能和结构详细描述,进一步增强了其在RTL代码理解、生成和完成等任务中的实用性。
衍生相关工作
DeepCircuitX数据集的引入促进了RTL代码理解和生成任务的进展,并衍生了许多相关的研究工作。例如,研究人员利用DeepCircuitX数据集训练了CodeLlama、CodeT5+、CodeGen和DeepSeek等LLMs,并取得了显著的性能提升。此外,DeepCircuitX数据集还支持PPA预测,为早期设计探索和优化提供了实用工具,进一步推动了RTL和硬件设计自动化领域的研究。
数据集最近研究
最新研究方向
在硬件设计自动化(EDA)领域中,DeepCircuitX数据集的提出标志着RTL代码理解、生成和PPA分析研究的新进展。DeepCircuitX提供了一个全面的多层次资源,涵盖了从仓库、文件、模块到块级别的RTL代码,为大型语言模型(LLM)的训练和评估提供了更加细致和全面的数据基础。该数据集的引入Chain of Thought(CoT)注释方法,为各个级别的功能性和结构提供了详细的描述,显著提高了LLM在RTL代码理解和生成任务中的训练数据质量。此外,DeepCircuitX还包括合成的网表和PPA指标,使得在早期设计阶段就能进行探索,并直接从RTL代码中进行准确的PPA预测。这些特点使得DeepCircuitX成为了推动RTL领域机器学习应用的关键资源。
相关研究论文
  • 1
    DeepCircuitX: A Comprehensive Repository-Level Dataset for RTL Code Understanding, Generation, and PPA Analysis香港中文大学计算机科学与工程学院, 上海交通大学计算机科学与工程学院, 杭州电子科技大学计算机科学与技术学院, 宁波大学电气工程与计算机科学学院, 东南大学集成电路学院, 国家集成电路设计自动化技术创新中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作