five

cad-steps

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/amzyst1/cad-steps
下载链接
链接失效反馈
官方服务:
资源简介:
CAD-Steps 是首个大规模包含中间 CAD 构造状态及几何约束的数据集。该数据集基于 DeepCAD 语料库中的 178,238 个参数化 CAD 模型,为每个模型在每一步构造操作(如草图绘制、拉伸、切割等)时导出 STEP 几何文件,而不仅仅是最终结果。数据集填补了当前 CAD 数据集中仅提供最终几何或符号操作序列的空白,通过成对的(几何、操作、下一几何)元组,捕捉模型构建的过程。每个模型存储在自己的目录中,包含元数据 JSON 文件和多个 STEP 几何文件。元数据详细记录了构造步骤的类型、几何约束(如垂直、平行、等长等)以及其他相关信息。数据集适用于文本到 3D、机械工程、几何约束学习等任务,采用 CC-BY-4.0 许可发布。
创建时间:
2026-04-15
原始信息汇总

CAD-Steps 数据集概述

数据集基本信息

  • 数据集名称:CAD-Steps: Intermediate CAD Construction States
  • 发布者:Amy Zhou
  • 发布日期:2026年
  • 许可协议:CC-BY-4.0
  • 数据规模:100K<n<1M
  • 任务类别:text-to-3d, other
  • 标签:cad, 3d, step, mechanical-engineering, intermediate-states, construction-sequence, geometric-constraints, deepcad

数据集简介

CAD-Steps 是首个包含几何约束的中间CAD构造状态的大规模数据集。该数据集基于DeepCAD语料库中的178,238个参数化CAD模型,为每个模型在每一个构造步骤(如草图、拉伸、切割等)导出了STEP几何体,而不仅仅是最终结果。

数据集价值与动机

当前CAD数据集通常只提供最终几何体或符号化操作序列,但缺少每个步骤的中间3D几何体。CAD-Steps通过提供成对的(几何体、操作、下一状态几何体)三元组,填补了这一空白,旨在捕捉模型是如何构建的,而不仅仅是最终结果的外观。

数据集格式与内容

每个模型存储在其独立的目录中,结构如下:

{model_id}/ ├── metadata.json # 完整的构造元数据 ├── state_0001.step.gz # 草图线框(2D) ├── state_0002.step.gz # 第一次拉伸后的状态(3D实体) ├── state_0003.step.gz # 第二次操作后的状态 └── ...

STEP文件

所有几何文件均为gzip压缩的STEP(ISO 10303-21)文件。草图状态导出为2D线框体;拉伸状态导出为3D实体。可使用gzip -d解压或在Python中使用gzip.open()直接读取。

元数据

每个metadata.json文件包含以下信息:

  • data_id:模型唯一标识符。
  • num_sequence_steps:构造步骤总数。
  • states:状态列表,每个状态包含状态编号、类型(如Sketch、ExtrudeFeature)、是否导出、STEP文件名、文件大小等信息。对于草图状态,还包含草图详细信息,如平面定义、曲线(线、圆、圆弧)和几何约束。
  • bounding_box:模型的边界框。

几何约束

草图中包含推断出的几何约束,主要类型有:

  • coincident:两条曲线在一点相交。
  • perpendicular:两条线垂直。
  • parallel:两条线平行。
  • equal_length:两条线长度相等。
  • equal_radius:两个圆弧/圆半径相等。
  • concentric:两个圆弧/圆同心。
  • horizontal:线是水平的。
  • vertical:线是垂直的。

数据集统计信息(基于500个模型的样本)

  • 每个模型平均有3.5个构造状态。
  • 状态类型分布:草图(52%)、拉伸特征(48%)。
  • 每个模型平均压缩大小:约84 KB。
  • 约束分布:平行(24%)、等长(22%)、垂直(20%)、等半径(18%)、重合(7%)、同心(5%)、垂直(3%)、水平(2%)。

数据加载方式

使用Python

可通过jsongzip模块加载元数据和STEP文件,并可结合CadQuery或OCP(Open CASCADE)库解析STEP几何体。

使用HuggingFace Hub

可通过huggingface_hub库的snapshot_download函数下载整个数据集。

生成流程

  1. 读取DeepCAD预解析的JSON构造序列(178K个模型)。
  2. 使用OCP内核重放每个操作(草图线框、拉伸/切割实体)。
  3. 在每个中间状态导出STEP几何体。
  4. 从曲线几何中推断几何约束。
  5. 使用gzip压缩输出(压缩比约5.5倍)。 处理速度:在标准机器上使用6个工作进程,约每秒17个模型。

源数据

构造序列来源于Rundi Wu等人的DeepCAD项目,该项目将公开的Onshape模型解析为参数化操作序列。本数据集在此基础上增加了DeepCAD JSON格式未包含的中间STEP几何体。

引用格式

bibtex @dataset{cad_steps_2026, title={CAD-Steps: Intermediate CAD Construction States with Geometric Constraints}, author={Amy Zhou}, year={2026}, url={https://huggingface.co/datasets/amzyst1/cad-steps} }

许可证

本数据集基于CC-BY-4.0许可证发布。底层构造序列来源于DeepCAD(MIT许可证)。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机辅助设计领域,CAD-Steps数据集的构建标志着对设计过程深度解析的重要进展。该数据集基于DeepCAD语料库中178,238个参数化CAD模型,通过CadQuery与OpenCascade内核重新执行每个构造操作,系统性地导出每一步的STEP几何形态。构建流程不仅涵盖从草图到拉伸、切割等操作的完整序列,还通过几何推理算法自动提取草图曲线间的约束关系,最终以gzip压缩格式存储每个中间状态,形成结构化的(几何、操作、下一几何)三元组,从而完整捕捉设计演化的动态轨迹。
使用方法
使用CAD-Steps数据集时,用户可通过HuggingFace Hub下载完整数据包,每个模型以独立目录组织,包含metadata.json与系列STEP压缩文件。在Python环境中,可利用gzip模块解压STEP文件,并结合CadQuery等库进行几何解析与可视化。元数据文件详细记录了操作序列、约束信息及文件路径,支持对设计过程的逐步分析与机器学习模型训练。该数据集适用于三维生成、设计推理、几何约束学习等任务,为CAD领域的研究提供了从过程到结果的完整数据基础。
背景与挑战
背景概述
在计算机辅助设计(CAD)与三维几何建模领域,传统数据集往往聚焦于最终几何形态或符号化操作序列,而缺乏对设计过程中间状态的系统性记录。CAD-Steps数据集由Amy Zhou等人于2026年构建,作为首个大规模包含几何约束的中间CAD构造状态数据集,填补了这一关键空白。该数据集基于DeepCAD语料库中的178,238个参数化CAD模型,通过导出每个构造步骤(如草图、拉伸、切割等)的STEP几何数据,不仅捕捉了设计的最终结果,更完整呈现了模型从二维草图到三维实体的渐进演化过程。这一创新为CAD领域的机器学习研究提供了前所未有的细粒度监督信号,有望推动生成式设计、逆向工程与智能建模等方向的发展。
当前挑战
CAD-Steps数据集致力于解决CAD建模中从操作序列到三维几何形态的映射问题,其核心挑战在于如何准确捕捉并表征设计意图的渐进式实现。在领域层面,该数据集需应对几何约束的复杂性与多样性,如平行、垂直、等长等约束关系的自动推断与标准化表示,这对理解设计逻辑至关重要。在构建过程中,技术挑战主要集中于大规模STEP几何数据的生成与压缩:需高效重放DeepCAD中的参数化操作序列,确保中间状态几何的精确导出,同时处理草图与实体间的维度转换,并平衡数据存储效率与可访问性。此外,保持几何约束的完整性与一致性,以及处理异构CAD操作带来的数据标准化问题,均是数据集构建中需克服的关键难点。
常用场景
经典使用场景
在计算机辅助设计领域,CAD-Steps数据集为研究参数化建模过程提供了前所未有的细粒度视角。该数据集通过捕捉每个构造步骤的中间几何状态,包括草图、拉伸、切割等操作,使得研究者能够深入分析三维模型从初始概念到最终成品的演化轨迹。这一特性使其成为训练和评估生成式设计算法的理想资源,特别是在需要理解设计意图和几何约束传递的场景中。
解决学术问题
CAD-Steps填补了现有CAD数据集中间几何状态缺失的关键空白,解决了设计过程建模中的监督信号不足问题。传统数据集仅提供最终几何或符号化操作序列,而本数据集通过呈现每一步的几何演变,使机器学习模型能够学习设计逻辑的连续性。这为几何推理、程序生成和设计自动化等研究方向提供了坚实基础,推动了从结果监督到过程监督的范式转变。
实际应用
在工业设计自动化领域,CAD-Steps支持智能CAD助手系统的开发,能够根据设计历史预测后续操作或自动完成重复性建模任务。工程教育领域可借助该数据集构建交互式教学工具,可视化展示参数化建模的每个决策节点。制造业中,该数据可用于优化数控加工路径生成,通过分析中间几何状态减少刀具空行程,提升生产效率。
数据集最近研究
最新研究方向
在计算机辅助设计领域,CAD-Steps数据集的推出填补了中间几何状态数据的空白,为基于深度学习的CAD建模研究开辟了新路径。当前前沿研究聚焦于利用该数据集中的序列化几何与约束信息,探索生成式模型在三维设计中的逐步推理能力,类似思维链机制在几何构造中的应用。热点方向包括结合图神经网络与强化学习,模拟人类设计师的渐进式建模过程,以提升自动化设计的可解释性与鲁棒性。这一进展不仅推动了智能CAD工具的发展,也为机器人轨迹规划与几何约束求解等跨领域问题提供了新的数据驱动范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作