five

circuitgen-datasets-private

收藏
Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/lsnu/circuitgen-datasets-private
下载链接
链接失效反馈
官方服务:
资源简介:
CircuitGen Private Artifacts 数据集包含用于 'netlist_to_layout_v1' 实验谱系的私有 CGDSL 数据和已发布的工件。数据集主要分为两个部分:1) 用于在其他机器上重启或复现实验的 reproduction/restart snapshot,包含训练/评估代码、环境快照、缓存的分割/词汇文件、源根清单和运行配方;2) 用于分析运行的 experiment/analysis package,包含所有已发布的检查点、训练/评估指标、运行日志和配置快照。数据集还提供了确切的输入数据版本和文件用途指南,适用于电路设计和布局生成相关任务的研究与开发。
创建时间:
2026-03-03
原始信息汇总

CircuitGen Private Artifacts 数据集概述

数据集基本信息

  • 数据集名称: CircuitGen Private Artifacts
  • 标签: circuits, training-artifacts, checkpoints, evaluation
  • 许可证: other

数据集内容简介

本仓库包含私有的CGDSL数据以及为 netlist_to_layout_v1 v1 实验谱系发布的工件。

核心数据目录与用途

1. 最新修复的CGDSL覆盖层

  • 路径: derived/cgdsl/20260307-081439-fix-open-netlistify-ams-overlay
  • 用途: 用于未来的预处理、训练和评估。
  • 关键文件:
    • derived/cgdsl/20260307-081439-fix-open-netlistify-ams-overlay/README.md
    • derived/cgdsl/20260307-081439-fix-open-netlistify-ams-overlay/manifest.json
    • derived/cgdsl/20260307-081439-fix-open-netlistify-ams-overlay/REGENERATION_FIX_REPORT.md

2. 主要发布目录

2.1 复现/重启快照

  • 路径: repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07
  • 用途: 用于在另一台机器上重启或复现该次运行。
  • 包含内容:
    • 最终发布谱系使用的精确训练/评估代码
    • 环境快照
    • 用于无需预处理即可重启的精确缓存分割/词汇表文件
    • 带有哈希值的精确源根清单
    • 冒烟运行QA指标/配置
    • 机器可读的运行配方和时间线
  • 关键文件:
    • repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/README.md
    • repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/run_spec/current_setup.json
    • repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/restart_cache/cache_manifest.json
    • repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/data_inputs/used_source_roots_manifest.json
    • repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/file_manifest.json

2.2 实验/分析包

  • 路径: experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000
  • 用途: 用于分析该次运行
  • 包含内容:
    • 所有已发布的检查点
    • 所有已发布的训练指标
    • 所有已发布的评估指标
    • 每个阶段的运行日志
    • 配置快照
    • 元数据摘要和检查点谱系
    • 最终4-GPU全机器评估的每个分片调试输出
  • 关键文件:
    • experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/README.md
    • experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metrics/train_metrics_full_step0001_12000.jsonl
    • experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metrics/eval_metrics_step4000_8000_12000.jsonl
    • experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metrics/best_eval_by_spec.json
    • experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metadata/run_summary.json
    • experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metadata/checkpoint_lineage.json
    • experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/file_manifest.json

3. 本次运行使用的精确输入数据版本

已发布的12k步运行所使用的精确CGDSL源文件版本位于以下路径:

  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/ltspice-spice-circuits_hf.jsonl
  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/ltspice-spice-circuits-no-aug_hf.jsonl
  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/open-schematics_hf.jsonl
  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/netlistify_schematic_images_hf.jsonl
  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/ams-net.github.io.jsonl
  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/Circuitsense-6k_hf.jsonl
  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/CircuitSense-100-TF_hf.jsonl
  • derived/cgdsl/20260305-134840-fix-build-cgdsl-patched/README.md

这些文件的哈希清单发布于:

  • repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/data_inputs/used_source_roots_manifest.json
  • repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/data_inputs/used_source_roots.sha256

文件使用指南

用于在其他地方重启训练/评估

  • 起始文件: repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/README.md
  • 使用代码: repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/code/netlist_to_layout_v1
  • 恢复缓存: 将 repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/restart_cache 恢复到工作的 netlist_to_layout_v1/cache/
  • 恢复检查点: 从 experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/checkpoints/step-012000.ptexperiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/checkpoints 中的更早检查点恢复
  • 重启配方: 使用 repro_snapshots/netlist_to_layout_v1_3train1eval_512valsubset_12000steps_fullmachine_posteval_2026-03-07/run_spec/current_setup.json 作为规范的重启配方

用于分析本次运行

  • 起始文件: experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/README.md
  • 运行摘要: 使用 experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metadata/run_summary.json
  • 指标曲线: 使用 experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metrics/train_metrics_full_step0001_12000.jsonlexperiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/metrics/eval_metrics_step4000_8000_12000.jsonl
  • 调试/性能分析: 使用 experiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/logsexperiments/netlist_to_layout_v1/v1-full-20260306-1900-async3g1e_step0001-012000/debug

重要说明

  • 重启快照是复现/重启的真相来源。
  • 实验包是分析/报告的真相来源。
  • 此处使用的精确源JSONL版本已提交到本仓库并在此处进行指纹识别,因此缓存/检查点谱系不依赖于单台机器。

关于 max_steps 的历史说明

本次发布的运行谱系并未在整个训练过程中使用恒定的 max_steps=12000。 训练开始时使用 max_steps=100000,遵循原始的v1计划。在接近**~11000步时,运行配置更改为 max_steps=12000,随后训练在12000**步停止。

  • 最终工件状态和一些复制的配置文件可能显示 max_steps=12000
  • 该值反映了运行后期的编辑状态,而非大部分训练所使用的计划
  • 因此,大部分运行是在较早的 100000 步配置下进行的
搜集汇总
数据集介绍
构建方式
在集成电路设计领域,CircuitGen Private Artifacts数据集的构建过程体现了严谨的版本控制与数据治理理念。该数据集基于CGDSL(Circuit Generation Domain Specific Language)数据源,通过多轮修复与覆盖层更新完成构建。具体而言,其核心数据源自`derived/cgdsl/20260305-134840-fix-build-cgdsl-patched`这一经过修补的根版本,随后在2026年3月7日的修复过程中,针对开放原理图、网表化原理图图像及AMS网络资源三个关键组件进行了重新生成,形成了`derived/cgdsl/20260307-081439-fix-open-netlistify-ams-overlay`这一推荐用于未来工作的覆盖层。整个构建流程通过详细的清单文件(如`manifest.json`)和修复报告(如`REGENERATION_FIX_REPORT.md`)进行完整记录,确保了数据来源的可追溯性与实验的可复现性。
使用方法
针对不同的研究需求,该数据集提供了清晰的使用路径。若旨在复现或重启名为`netlist_to_layout_v1`的原始实验,用户应首先查阅`repro_snapshots`目录下对应实验的README文件,依据其中的`run_spec/current_setup.json`所定义的规范配方,恢复缓存并利用提供的代码库,从指定检查点(如step-012000.pt)恢复训练或评估流程。反之,若研究目标在于分析已完成的实验运行,则应转向`experiments`目录,通过`metadata/run_summary.json`获取高层摘要,并利用`metrics`目录下的JSONL文件绘制训练与评估曲线,结合日志与调试输出进行深入分析。数据集明确区分了这两类用途的权威数据源,确保了使用过程的精确与高效。
背景与挑战
背景概述
在电子设计自动化领域,电路从网表到物理版图的自动生成一直是核心挑战。CircuitGen数据集作为该领域的重要资源,其私有构件版本旨在支持‘netlist_to_layout_v1’实验谱系的深入研究。该数据集整合了多源电路数据,包括LTspice仿真电路、开源原理图以及特定领域的数据集如CircuitSense,为机器学习模型训练提供了丰富的结构化输入。其构建体现了对电路设计流程自动化的前沿探索,通过精确的数据版本控制和可复现的实验快照,致力于推动电路生成技术的可靠性与效率。
当前挑战
该数据集致力于解决电路自动布局生成这一复杂领域问题,其核心挑战在于如何准确理解网表的拓扑与电气约束,并映射为符合制造规则的物理版图,这涉及多目标优化与领域知识的深度融合。在构建过程中,数据集面临数据一致性与完整性的维护难题,例如早期版本中存在的网表化错误需通过后续修复流程进行校正。此外,确保实验的可复现性要求对数据源、代码环境及训练过程进行精细的版本管理与快照保存,这增加了系统构建的复杂性。
常用场景
经典使用场景
在电子设计自动化领域,电路生成与布局设计是核心挑战之一。CircuitGen数据集通过整合电路原理图、网表及布局数据,为机器学习模型提供了从网表到物理布局的端到端训练基础。其经典使用场景在于训练深度神经网络,以自动化完成电路网表到物理版图的转换任务,显著减少人工设计周期,提升集成电路设计的效率与可靠性。
解决学术问题
该数据集致力于解决电子设计自动化中网表到布局转换的自动化难题。传统方法依赖经验丰富的工程师进行手动布局,耗时且易出错。CircuitGen通过提供大规模、结构化的训练数据,支持研究社区开发数据驱动的布局生成模型,从而在学术上探索电路设计的可扩展性、优化布局质量与性能评估指标,推动智能电子设计算法的发展。
实际应用
在实际集成电路产业中,CircuitGen数据集能够应用于自动化设计工具的开发,辅助工程师快速生成高性能、低功耗的电路布局。它可集成于商业EDA软件,优化模拟与数字电路的物理实现,缩短产品上市时间。此外,该数据集支持定制化电路设计,适用于航空航天、医疗设备等对电路可靠性要求极高的领域。
数据集最近研究
最新研究方向
在电子设计自动化领域,CircuitGen私有数据集正推动着从网表到版图的自动化生成研究。该数据集通过整合修复后的CGDSL覆盖层,如20260307版本,优化了开源原理图、网表化原理图图像及AMS网络资源,为训练与评估提供了更可靠的数据基础。前沿研究聚焦于利用该数据集训练的大规模模型,探索多GPU环境下异步训练与评估的协同机制,旨在提升集成电路布局生成的效率与精度。相关热点事件体现在对实验可复现性的高度重视,通过发布包含完整代码、环境快照及缓存数据的再现快照,确保研究成果能够在不同计算平台上精确复现。这一进展不仅加速了自动化电路设计工具的迭代,也为开源硬件与敏捷芯片设计提供了关键的数据与模型支持,具有深远的工程与学术意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作