Masala-CHAI

arXiv2024-11-26 更新2024-11-28 收录

下载链接：

http://arxiv.org/abs/2411.14299v2

下载链接

链接失效反馈

官方服务：

资源简介：

Masala-CHAI是由纽约大学和康奈尔大学联合创建的SPICE网表数据集，旨在通过大型语言模型（LLMs）自动化生成模拟电路的SPICE网表。数据集包含约2100个从教科书中提取的电路图，涵盖了不同复杂度的模拟电路。创建过程中，采用了对象检测、深度Hough变换和提示调优等技术，确保网表的准确性。该数据集主要应用于模拟电路设计与验证领域，旨在解决传统手动生成网表的耗时和低效问题。

Masala-CHAI is a SPICE netlist dataset jointly developed by New York University and Cornell University. It aims to automate the generation of SPICE netlists for analog circuits using Large Language Models (LLMs). The dataset contains approximately 2,100 circuit diagrams extracted from textbooks, covering analog circuits of varying complexities. During its creation, techniques including object detection, deep Hough transform, and prompt tuning were adopted to ensure the accuracy of the netlists. This dataset is primarily applied in the field of analog circuit design and verification, aiming to address the time-consuming and inefficient issues of traditional manual netlist generation.

提供机构：

纽约大学康奈尔大学

创建时间：

2024-11-22

搜集汇总

数据集介绍

构建方式

Masala-CHAI数据集的构建基于一个全自动框架，该框架利用大型语言模型（LLMs）生成模拟电路的SPICE网表。该框架通过三个主要步骤实现自动化：首先，使用微调的对象检测器提取被动和主动组件；其次，利用深度Hough变换先验识别网络；最后，通过广泛的提示调整和后提取验证来修正常见的网表提取错误。此方法旨在从电路原理图图像中创建端到端的SPICE网表生成器，显著提高了网表生成的准确性和效率。

特点

Masala-CHAI数据集的特点在于其大规模和多样性。该数据集包含约2,100个不同复杂度的模拟电路原理图及其对应的SPICE网表，涵盖了从简单到复杂的多种电路设计。此外，数据集还包括详细的元数据，如原理图的图注，为模型训练提供了丰富的上下文信息。通过开源这一解决方案，Masala-CHAI数据集为社区进一步研究和开发提供了宝贵的资源。

使用方法

Masala-CHAI数据集主要用于训练和验证大型语言模型（LLMs）在模拟电路设计中的应用。研究人员可以使用该数据集进行模型微调，以提高从自然语言描述生成SPICE网表的准确性和效率。此外，数据集还可用于评估现有模型的性能，并开发新的自动化工具和技术，以进一步推动模拟电路设计自动化的发展。通过开源的框架和数据集，社区可以共同推动这一领域的进步。

背景与挑战

背景概述

Masala-CHAI数据集是由纽约大学和康奈尔大学的研究人员共同创建的，旨在解决模拟电路设计自动化中的一个长期挑战：自动生成SPICE网表。该数据集利用大型语言模型（LLMs），特别是GPT-4，通过一个三步工作流程（包括电路标注、提示调优和网表验证），实现了从电路原理图图像到SPICE网表的端到端生成。Masala-CHAI不仅展示了显著的性能提升，还通过开源其解决方案，推动了社区在该领域的进一步研究。该数据集的创建标志着模拟电路设计自动化领域的一个重要里程碑，为未来LLMs在硬件设计中的应用提供了宝贵的资源。

当前挑战

Masala-CHAI数据集在构建过程中面临多个挑战。首先，准确识别电路中的所有组件是一个关键问题，GPT-4在识别电气组件时存在不一致性，尤其是在区分NMOS和PMOS晶体管时。其次，确保组件正确连接以生成准确的SPICE网表也是一个重大挑战，GPT-4在处理复杂电路时容易出现连接错误。此外，数据集的构建还需要克服手动标注的局限性，实现大规模自动化的标注和验证。这些挑战不仅影响了数据集的准确性和可靠性，也限制了其在实际应用中的广泛采用。

常用场景

经典使用场景

Masala-CHAI数据集在模拟电路设计自动化领域中扮演着至关重要的角色。其经典使用场景主要体现在利用大规模语言模型（LLMs）自动生成SPICE网表，从而加速模拟电路设计的验证过程。通过结合图像识别和自然语言处理技术，Masala-CHAI能够从电路原理图图像中提取关键组件和连接信息，生成精确的SPICE网表，极大地简化了传统手工转换的繁琐流程。

解决学术问题

Masala-CHAI数据集解决了模拟电路设计中长期存在的自动化生成SPICE网表的难题。传统方法依赖于手工标注和转换，效率低下且易出错。Masala-CHAI通过引入先进的深度学习模型和多模态LLMs，实现了从电路原理图到SPICE网表的全自动化转换，显著提升了数据集的生成效率和准确性。这一创新不仅推动了模拟电路设计自动化的研究进展，也为相关领域的学术研究提供了宝贵的数据资源。

衍生相关工作

Masala-CHAI数据集的发布催生了一系列相关研究工作。例如，基于该数据集的LLMs微调模型在模拟电路设计中的应用，展示了其在自动生成复杂电路拓扑和优化设计参数方面的潜力。此外，Masala-CHAI还启发了新的研究方向，如利用多模态数据进行电路设计自动化的探索，以及开发更高效的图像到SPICE网表转换算法。这些衍生工作不仅扩展了Masala-CHAI的应用范围，也为模拟电路设计领域带来了新的研究视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集