SchGen_dataset

Name: SchGen_dataset
Creator: Microsoft
Published: 2026-05-21 08:17:41
License: 暂无描述

Hugging Face2026-05-21 更新2026-05-22 收录

下载链接：

https://huggingface.co/datasets/microsoft/SchGen_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SchGen是一个专为研究LLM驱动PCB原理图生成而构建的数据集，包含约8,420对自然语言硬件设计请求和基于Python的原理图生成代码。这些代码可渲染为KiCad原理图，支持从自然语言描述生成硬件的研究。数据集创建于2025年8月至9月，通过多阶段流程构建：首先使用GPT-5基于开源硬件参考生成草稿原理图，然后人工注释和校正确保KiCad中的正确性，最后GPT-5从最终原理图中合成用户请求。数据集特性包括KiCad兼容生成、自然语言到硬件的转换、使用程序化API而非原始文件，以及面向研究设计。评估采用有效电路、空间违规和网表准确性等指标，在gpt-oss-20B模型上测试。限制包括仅用于研究目的、主要包含中小规模原理图、对射频/高频电路支持有限、自然语言请求仅限英语，可能存在注释错误，因此不适用于安全关键应用。数据集采用MIT许可证发布。

SchGen is a dataset for researching LLM-driven PCB schematic generation, containing approximately 8,420 pairs of natural language hardware design requests and Python-based schematic generation code. The generated Python code can be rendered into KiCad schematic designs, facilitating research on generating hardware from natural language descriptions. The dataset is intended for fine-tuning large language models (LLMs), benchmarking hardware generation capabilities, and exploring AI-assisted PCB design workflows. It was created between August and September 2025 through a multi-stage process: GPT-5 first generated draft schematic designs based on open-source hardware references; then, manual annotation and correction ensured schematic correctness in KiCad; finally, GPT-5 synthesized corresponding user requests from the finalized schematics. The dataset features KiCad-compatible generation, executable Python code that produces valid schematics, natural language-to-hardware conversion, use of a programmatic schematic building API instead of raw schematic files, and a research-oriented design for experimentation, benchmarking, and LLM fine-tuning. Evaluation employs various schematic generation metrics, including valid circuit (measuring successful code execution and valid schematic generation), spatial violations (measuring overlaps between schematic objects like symbols, labels, and wires), and netlist accuracy (comparing generated netlist connectivity with ground truth). Evaluation was conducted on the gpt-oss-20B model, comparing before and after fine-tuning on SchGen. However, the dataset has limitations: it is for research purposes only; primarily includes small to medium-scale schematic modules; has limited support for RF/high-frequency circuits, cutting-edge industrial hardware, and complex multi-board systems; natural language requests are limited to English; and there may be annotation or conversion errors from image/PDF-based schematic reconstruction. Therefore, the dataset should not be used directly for safety-critical or highly regulated applications. It is released under the MIT license.

提供机构：

Microsoft

创建时间：

2026-05-14

搜集汇总

数据集介绍

构建方式

SchGen数据集采用多阶段流水线方式构建。首先，基于开源硬件参考设计，利用GPT-5生成初步的原理图草稿；随后，通过人工标注与修正流程，确保设计在KiCad环境中的电路正确性。最后，从最终化的原理图反向合成对应的自然语言需求描述。尽管在草稿阶段参考了如SparkFun原理图PDF等开源资源，最终数据集不直接包含原始设计，从而确保了数据的独立性与版权合规性。

特点

该数据集的核心特点在于实现了自然语言到硬件原理图的直接映射。其提供的Python代码可无缝渲染为KiCad可执行的原理图设计，支持程序化构建而非原始文件操作。数据集专注于中小规模原理图模块，包含约8420对自然语言请求与代码对，专为研究用途设计，适用于大语言模型的微调与硬件生成能力的基准测试，尤其在评估有效电路比例、空间布局违规及网表精度等指标上表现突出。

使用方法

SchGen数据集主要用于大语言模型的微调与评估。研究者可将自然语言请求作为输入，利用模型生成对应的Python原理图构建代码，并在KiCad环境中渲染验证。数据集附带的评估指标，包括有效电路比例、空间重叠检测及网表准确性，可用于系统性地衡量生成质量。当前仅支持英文请求，适用于学术实验与AI辅助PCB设计工作流的研究，但不建议直接用于安全关键或高度监管的工业应用场景。

背景与挑战

背景概述

SchGen数据集由微软研究院的研究人员于2025年8月至9月创建，旨在解决大语言模型（LLM）驱动的PCB原理图自动生成这一新兴研究问题。该数据集包含约8400对自然语言硬件设计请求与对应的Python原理图生成代码，代码可渲染为KiCad兼容的原理图设计。受限于当前AI辅助硬件设计领域缺乏高质量、结构化的标注数据，SchGen通过多阶段流水线构建：利用GPT-5基于开源硬件参考生成草图，经人工校正后反向合成用户请求。该数据集为LLM的微调与评估提供了基准，推动了自然语言到硬件设计的交叉研究，其结构化API设计也为后续工作奠定了范式基础。

当前挑战

SchGen所解决的领域核心挑战在于，传统PCB原理图设计依赖专业工程师手动完成，而现有LLM在生成可执行、无拓扑错误的硬件原理图方面能力不足。构建过程中，研究者面临两大困难：一是从PDF/图像格式的开源硬件参考中准确重建原理图结构，避免注解或转换错误；二是确保生成的电路在电气连接（网表准确性）和空间布局（无对象重叠）上均符合工程规范。此外，当前数据集仅覆盖中小规模电路模块，对射频、高频、复杂多板系统及工业级硬件的支持有限，且仅包含英文请求，这些限制制约了其在安全关键或高度规范化应用中的直接使用。

常用场景

经典使用场景

在电子设计自动化（EDA）领域，将自然语言描述直接转化为可执行的电路原理图始终是一项极具挑战性的课题。SchGen数据集恰好为这一研究方向提供了关键支撑，其经典使用场景聚焦于基于大语言模型（LLM）的PCB原理图生成任务。研究人员可借助该数据集中约8,400对自然语言硬件设计请求与Python代码，对LLM进行指令微调，使其学会理解用户复杂的设计意图，并输出能够自动渲染为KiCad原理图的可执行代码。这一过程不仅实现了从文本描述到物理硬件表征的端到端映射，还为评估模型在电路生成方面的准确性、连通性与空间合理性奠定了标准化基准。

实际应用

在实际工业场景中，SchGen数据集赋能了智能辅助PCB设计工具链的落地与演进。基于该数据微调的模型能够被集成到电子设计自动化平台中，充当设计师的智能副驾：当工程师输入诸如'设计一个基于STM32的5V转3.3V稳压电路'等自然语言需求时，系统可即时生成对应的KiCad原理图代码，极大缩短从构思到原型验证的迭代周期。此外，该数据集的应用还扩展到教育领域，辅助电子工程初学者通过自然语言交互快速理解常见电路模块的构建逻辑。对于中小规模硬件创业团队，SchGen所支撑的生成能力能够降低在原理图绘制环节对资深工程师的依赖，释放小众设计场景下的生产潜力。

衍生相关工作

SchGen数据集的发布催生了一系列重要的衍生研究方向。在模型架构层面，研究者开始探索将电路拓扑约束融入解码过程，发展出面向图形化结构的代码生成方法，如结合图神经网络对原理图连通性进行细化控制。在数据集构造方法论上，受SchGen的合成管线启发，后续工作进一步引入了多模态对齐技术，利用PDF原理图反演与人工纠错循环生成更大规模、覆盖更广电路领域（如射频与多板系统）的训练语料。此外，基于SchGen的基准评估任务也被收录至若干硬件AI评测榜单，推动社区形成了统一的模型性能对比标准。这些衍生工作不仅深化了对语言模型理解硬件空间能力的认知，也为EDA智能化开启了更多理论与实践并重的演化路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集