five

Masala-CHAI|模拟电路设计数据集|自动化生成数据集

收藏
arXiv2024-11-26 更新2024-11-28 收录
模拟电路设计
自动化生成
下载链接:
http://arxiv.org/abs/2411.14299v2
下载链接
链接失效反馈
资源简介:
Masala-CHAI是由纽约大学和康奈尔大学联合创建的SPICE网表数据集,旨在通过大型语言模型(LLMs)自动化生成模拟电路的SPICE网表。数据集包含约2100个从教科书中提取的电路图,涵盖了不同复杂度的模拟电路。创建过程中,采用了对象检测、深度Hough变换和提示调优等技术,确保网表的准确性。该数据集主要应用于模拟电路设计与验证领域,旨在解决传统手动生成网表的耗时和低效问题。
提供机构:
纽约大学 康奈尔大学
创建时间:
2024-11-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
Masala-CHAI数据集的构建基于一个全自动框架,该框架利用大型语言模型(LLMs)生成模拟电路的SPICE网表。该框架通过三个主要步骤实现自动化:首先,使用微调的对象检测器提取被动和主动组件;其次,利用深度Hough变换先验识别网络;最后,通过广泛的提示调整和后提取验证来修正常见的网表提取错误。此方法旨在从电路原理图图像中创建端到端的SPICE网表生成器,显著提高了网表生成的准确性和效率。
特点
Masala-CHAI数据集的特点在于其大规模和多样性。该数据集包含约2,100个不同复杂度的模拟电路原理图及其对应的SPICE网表,涵盖了从简单到复杂的多种电路设计。此外,数据集还包括详细的元数据,如原理图的图注,为模型训练提供了丰富的上下文信息。通过开源这一解决方案,Masala-CHAI数据集为社区进一步研究和开发提供了宝贵的资源。
使用方法
Masala-CHAI数据集主要用于训练和验证大型语言模型(LLMs)在模拟电路设计中的应用。研究人员可以使用该数据集进行模型微调,以提高从自然语言描述生成SPICE网表的准确性和效率。此外,数据集还可用于评估现有模型的性能,并开发新的自动化工具和技术,以进一步推动模拟电路设计自动化的发展。通过开源的框架和数据集,社区可以共同推动这一领域的进步。
背景与挑战
背景概述
Masala-CHAI数据集是由纽约大学和康奈尔大学的研究人员共同创建的,旨在解决模拟电路设计自动化中的一个长期挑战:自动生成SPICE网表。该数据集利用大型语言模型(LLMs),特别是GPT-4,通过一个三步工作流程(包括电路标注、提示调优和网表验证),实现了从电路原理图图像到SPICE网表的端到端生成。Masala-CHAI不仅展示了显著的性能提升,还通过开源其解决方案,推动了社区在该领域的进一步研究。该数据集的创建标志着模拟电路设计自动化领域的一个重要里程碑,为未来LLMs在硬件设计中的应用提供了宝贵的资源。
当前挑战
Masala-CHAI数据集在构建过程中面临多个挑战。首先,准确识别电路中的所有组件是一个关键问题,GPT-4在识别电气组件时存在不一致性,尤其是在区分NMOS和PMOS晶体管时。其次,确保组件正确连接以生成准确的SPICE网表也是一个重大挑战,GPT-4在处理复杂电路时容易出现连接错误。此外,数据集的构建还需要克服手动标注的局限性,实现大规模自动化的标注和验证。这些挑战不仅影响了数据集的准确性和可靠性,也限制了其在实际应用中的广泛采用。
常用场景
经典使用场景
Masala-CHAI数据集在模拟电路设计自动化领域中扮演着至关重要的角色。其经典使用场景主要体现在利用大规模语言模型(LLMs)自动生成SPICE网表,从而加速模拟电路设计的验证过程。通过结合图像识别和自然语言处理技术,Masala-CHAI能够从电路原理图图像中提取关键组件和连接信息,生成精确的SPICE网表,极大地简化了传统手工转换的繁琐流程。
解决学术问题
Masala-CHAI数据集解决了模拟电路设计中长期存在的自动化生成SPICE网表的难题。传统方法依赖于手工标注和转换,效率低下且易出错。Masala-CHAI通过引入先进的深度学习模型和多模态LLMs,实现了从电路原理图到SPICE网表的全自动化转换,显著提升了数据集的生成效率和准确性。这一创新不仅推动了模拟电路设计自动化的研究进展,也为相关领域的学术研究提供了宝贵的数据资源。
衍生相关工作
Masala-CHAI数据集的发布催生了一系列相关研究工作。例如,基于该数据集的LLMs微调模型在模拟电路设计中的应用,展示了其在自动生成复杂电路拓扑和优化设计参数方面的潜力。此外,Masala-CHAI还启发了新的研究方向,如利用多模态数据进行电路设计自动化的探索,以及开发更高效的图像到SPICE网表转换算法。这些衍生工作不仅扩展了Masala-CHAI的应用范围,也为模拟电路设计领域带来了新的研究视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

Pew Research Center Surveys

Pew Research Center Surveys 包含多个社会科学领域的调查数据,涵盖政治、社会、科技、宗教等多个主题。这些调查数据通常用于分析公众意见、态度和行为。

www.pewresearch.org 收录