five

AMSnet 2.0|电路设计数据集|人工智能数据集

收藏
arXiv2025-05-14 更新2025-05-20 收录
电路设计
人工智能
下载链接:
http://arxiv.org/abs/2505.09155v1
下载链接
链接失效反馈
资源简介:
AMSnet 2.0是一个大规模的模拟和混合信号电路设计数据集,包含了2686个电路的原理图图像、Spectre格式的网表、OpenAccess格式的数字原理图以及电路组件和网的位置信息。该数据集是为了解决多模态大语言模型在电路图识别、理解和网表生成方面的困难而创建的。AMSnet 2.0通过一个数据标注平台收集了来自教科书和公开竞赛的原理图图像,并进行了人工标注。数据集的建设过程包括图像收集、原理图元素和网检测以及网表生成。该数据集旨在推动多模态大语言模型在模拟和混合信号电路设计中的应用。
提供机构:
宁波数字孪生研究院,东方理工大学,宁波,中国; 加利福尼亚大学洛杉矶分校,美国; 清华大学,北京,中国
创建时间:
2025-05-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
AMSnet 2.0数据集的构建采用了多模态数据采集与深度学习方法相结合的策略。研究团队从教科书和公开竞赛中收集了2686个电路原理图,并通过自主开发的标注平台进行人工标注,包括元件边界框、网络线段及专家知识标签。针对传统基于启发式规则的网络检测方法在复杂或噪声图像中的局限性,该数据集创新性地采用了两阶段实例分割技术:首先通过U-Net模型完成导线语义分割,再结合交叉点检测算法进行网络拓扑重构。这种流程不仅生成了Spectre格式的网表,还利用坐标信息实现了OpenAccess格式的数字原理图自动重建,显著提升了数据质量和应用范围。
特点
作为当前规模最大的模拟混合信号电路多模态数据集,AMSnet 2.0的核心特点体现在三个方面:其数据模态完整性包含原理图图像、网表文件、数字原理图及元件位置信息四维数据;通过对抗标记的数据增强策略,使网络检测模型在含噪声图像中仍保持90.19%的F1分数;创新性地保留了电路元件的空间拓扑关系,使得2686个电路实例平均包含10-80个元件,覆盖电阻、MOS管等14类元件共计数万个标注实例。这种多维度、高精度的数据特性为MLLM模型理解电路拓扑提供了坚实基础。
使用方法
该数据集支持三种典型应用范式:基于YOLO11和U-Net的联合训练框架可用于开发鲁棒的电路解析算法,输入原理图图像可直接输出网表及数字原理图;通过监督微调(SFT)将数据集用于增强多模态大语言模型的电路理解能力,如图7所示实现元件定位功能;构建的schematic-netlist配对数据可作为条件生成模型的训练素材,实现网表到可编辑原理图的逆向转换。使用时需注意数据已按复杂度分为easy/medium/hard三个子集,评估时应采用基于混淆矩阵的元件级F1分数指标。
背景与挑战
背景概述
AMSnet 2.0是由宁波数字孪生研究院、加州大学洛杉矶分校和清华大学的研究团队于2025年共同发布的大规模模拟混合信号(AMS)电路数据集。该数据集旨在解决当前多模态大语言模型(MLLMs)在电路图识别和理解方面的局限性,特别是缺乏高质量的电路图-网表配对数据的问题。AMSnet 2.0包含2,686个电路图,涵盖了图像格式的电路图、Spectre格式的网表、OpenAccess格式的数字电路图以及电路元件和网络的位姿信息,相比其前身AMSnet(仅包含792个电路图且无数字电路图),在数据规模和多样性上均有显著提升。该数据集的发布为AMS电路设计的自动化研究提供了重要的数据支持,推动了电路拓扑设计、尺寸优化和布局生成等领域的发展。
当前挑战
AMSnet 2.0的构建面临多重挑战。首先,在领域问题方面,电路图的复杂性和噪声干扰(如覆盖标记或部分高亮)使得传统的基于硬编码启发式的方法难以准确识别网络连接,导致生成的网表错误率较高。其次,在数据构建过程中,手动标注电路元件和网络连接不仅耗时且容易出错,而现有的图像处理方法(如模板匹配和霍夫变换)对图像质量要求苛刻,难以处理复杂或噪声干扰的电路图。此外,如何有效区分电路图中的导线与其他标记(如注释框)也是一个技术难点。为应对这些挑战,研究团队提出了基于深度学习的分割方法,通过上下文信息准确识别导线,并结合数据增强技术提升模型的鲁棒性。
常用场景
经典使用场景
在模拟与混合信号(AMS)电路设计领域,AMSnet 2.0数据集通过提供高质量的电路原理图、网表及其位置信息,成为训练多模态大语言模型(MLLMs)理解电路拓扑结构的核心资源。其经典使用场景包括支持MLLMs进行电路原理图的自动解析与网表生成,显著提升了模型在复杂电路识别中的准确性与鲁棒性。
衍生相关工作
基于该数据集衍生的经典工作包括LaMAGIC等MLLM驱动的电路拓扑生成框架,以及Auto-SPICE等网表自动提取系统。这些成果通过复用AMSnet 2.0的多模态对齐特性,开创了知识图谱增强检索(如AMSnet-KG)与电路理解大模型微调(如LayoutCopilot)的新研究方向。
数据集最近研究
最新研究方向
在模拟与混合信号(AMS)电路设计领域,AMSnet 2.0数据集的推出标志着多模态电路数据标注技术的重大突破。该数据集通过融合深度学习驱动的实例分割技术,实现了从复杂电路图到网表的鲁棒性解析,解决了传统基于硬编码启发式方法的局限性。当前研究热点聚焦于利用该数据集训练多模态大语言模型(MLLMs),以提升其对电路拓扑结构的理解能力,并探索从网表自动生成可编辑原理图的新范式。这一进展为AI驱动的自动化电路设计工具链开发提供了关键数据支撑,尤其在解决噪声图像处理、交叉线网识别等工业级挑战方面展现出显著优势。
相关研究论文
  • 1
    AMSnet 2.0: A Large AMS Database with AI Segmentation for Net Detection宁波数字孪生研究院,东方理工大学,宁波,中国; 加利福尼亚大学洛杉矶分校,美国; 清华大学,北京,中国 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

集装箱数据集

集装箱数据集,包含3500张1080p集装箱图像以及其编码区的xml标注

AI_Studio 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录