five

ADSKAILab/Zero-To-CAD-1m

收藏
Hugging Face2026-05-03 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ADSKAILab/Zero-To-CAD-1m
下载链接
链接失效反馈
官方服务:
资源简介:
Zero-to-CAD 1M是一个大规模的数据集,包含1,000,000个可执行的CAD构造序列,这些序列是由大型语言模型(LLM)在反馈驱动的CAD环境中生成的。每个样本都是可执行的CadQuery Python代码,具有可解释性,并且经过几何验证。数据集涵盖了广泛的CAD操作,包括布尔运算、倒角、倒圆角、壳、放样、扫描和模式等。此外,数据集还提供了预计算的DINOv3视觉嵌入和FAISS IVF-PQ索引,用于最近邻搜索。数据集适用于训练CAD序列模型、图像到CAD重建、CAD程序理解和基准测试等用途。

Zero-to-CAD 1M is a large-scale dataset comprising 1,000,000 executable CAD construction sequences generated by large language models (LLMs) in a feedback-driven CAD environment. Each sample consists of executable CadQuery Python code that is interpretable and geometrically validated. The dataset covers a wide range of CAD operations, including Boolean operations, chamfering, filleting, shelling, lofting, sweeping, and pattern operations, among others. Additionally, the dataset provides pre-computed DINOv3 visual embeddings and FAISS IVF-PQ indexes for nearest neighbor search. This dataset is suitable for applications such as training CAD sequence models, image-to-CAD reconstruction, CAD program understanding, and benchmarking.
提供机构:
ADSKAILab
搜集汇总
数据集介绍
main_image_url
构建方式
Zero-to-CAD 1M 数据集通过一种创新的智能体式合成管线构建,将 LLM 嵌入闭环反馈驱动的 CAD 环境中。该管线赋予 LLM 三个关键工具:用于执行代码并验证几何有效性的执行与验证模块、基于 TF-IDF 检索 CadQuery 文档的知识库以及基于正则表达式的精准语法查找功能。LLM 经过多轮迭代,生成、执行并修复代码直至通过几何验证。生成过程采用两阶段协议:首先生成涵盖 65 个类别的多样化零件描述,随后为每个描述合成可执行的 CadQuery Python 代码。整套流程完全不依赖真实世界数据,仅通过计算手段实现了百万规模的可执行、可解释 CAD 构造序列的自动产出。
使用方法
用户可通过 HuggingFace Datasets 库以流式模式高效加载该数据集,避免一次性下载全部数据。对于训练 CAD 序列模型,可直接访问 cadquery_file 字段获取可执行的 Python 源码并用于监督学习。图像到 CAD 重建任务中,用户可利用多视图渲染图像(image_0 至 image_7)作为输入。数据集还提供预计算的 DINOv3 嵌入与 FAISS 索引,便于快速进行近邻检索与多样性样本筛选。样本代码可直接在 CadQuery 环境中执行以生成三维几何实体,供下游任务评估或验证。
背景与挑战
背景概述
计算机辅助设计(CAD)领域长期受困于高质量三维几何数据集的稀缺,现有公开数据集规模有限且操作类型单一。为突破这一瓶颈,Autodesk Research团队于2026年发布了Zero-To-CAD-1m数据集,由Mohammadmehdi Ataei等人构建,涵盖100万条可执行、可解释的CAD构造序列。该数据集的核心创新在于完全通过合成方式生成,无需任何真实世界数据,从而解决了真实CAD数据获取昂贵、标注困难的问题。数据集覆盖布尔运算、倒角、放样、扫掠等广泛操作类型,并包含65个零件类别,为三维生成、代码生成及智能代理研究提供了大规模、多样化的训练基准,显著推动了文本/图像到CAD领域的发展。
当前挑战
Zero-To-CAD-1m数据集面临的核心挑战是解决CAD程序生成中的可执行性与可解释性难题。传统数据集仅支持草图-拉伸等简单流程,而本数据集需覆盖复杂的布尔运算、放样、扫掠等多步操作,确保生成的CadQuery代码能正确构建几何实体并在拓扑、连通性上通过多阶段验证,这对模型推理能力提出极高要求。构建过程中,代理式合成管道面临零样本成功率仅22.3%的挑战,平均需经过3.3次尝试才能生成有效代码,需通过执行-验证-修复的迭代机制解决LLM输出中的语法与几何逻辑错误。此外,合成数据的局部合理性可能掩盖全局结构缺陷,且操作分布受LLM先验影响,难以完全匹配真实工程制造频率,限制了数据集在工业场景中的直接迁移能力。
常用场景
经典使用场景
Zero-To-CAD-1m数据集在计算机辅助设计(CAD)与三维几何建模领域扮演着里程碑式的角色。其最经典的使用场景在于训练能够生成可执行、可解释的CAD构造序列的深度学习模型。研究者可借助该百万级别的合成数据,教导模型从零开始自主编写CadQuery代码,生成包含布尔运算、倒角、放样、扫描等丰富操作的三维实体。此外,该数据集还被广泛用于图像到CAD的重建任务,通过多视角渲染图像反向推导出参数化的构造历史,从而弥合二维视觉信息与三维结构化模型之间的鸿沟。其提供的高质量、多样化的几何样本,亦成为评估和对比各类生成式CAD模型性能的权威基准。
解决学术问题
该数据集核心解决了长期以来困扰学术界的两个关键难题:一是缺乏大规模、多样化且具有完整构造史的可执行CAD数据,二是现有数据集普遍局限于单一的“草图-拉伸”工作流,无法反映真实工业设计的复杂性。Zero-To-CAD-1m通过代理式合成管线,生成了百万量级涵盖65种部件类别、数十种高级CAD操作(如壳体、螺纹、阵列)的样本,为研究可解释的三维程序合成、结构化几何推理提供了前所未有的数据基础。其意义在于推动了CAD领域从预测固定网格或隐式场,向预测可编辑、可重放的参数化程序转变,深刻影响了三维生成模型的设计范式,并为后续在少样本学习、逆向工程和设计空间探索等方面的研究铺平了道路。
实际应用
在实际工业应用中,该数据集展现出巨大的转化潜力。首先,它可被用于开发智能化的CAD辅助设计工具,帮助工程师通过简单的文本描述或多视角草图快速生成初始的零件模型,极大缩短产品设计周期。其次,基于该数据集训练的代码生成模型能够自动化完成特征的复用与修改,例如在已有支架模型上智能添加加强筋或调整孔位,实现设计的快速迭代。此外,在制造与装配领域,该数据集的样本因其完整且逻辑清晰的构造序列,可直接用于生成数控加工(CNC)或增材制造的指令代码,打通从设计到制造的数据链路。这些应用不仅提升了设计效率,也降低了专业CAD软件的使用门槛,使得非专家用户也能参与三维建模。
数据集最近研究
最新研究方向
Zero-to-CAD 1M数据集代表了文本/图像驱动三维生成领域的前沿突破,其核心创新在于通过代理式AI框架,在无需任何真实数据的条件下,利用大型语言模型在闭环CAD环境中自主迭代生成百万级可执行、可解释的参数化构造序列。该研究超越了传统仅局限于草图-拉伸工作流的合成数据范式,全面覆盖布尔运算、圆角、倒角、放样、扫描和阵列等多种CAD操作,并实现严格的几何验证。这一方向催生了诸如图像到可编辑CAD重建、构造序列理解与基准测试等热点研究,显著推动了三维生成模型向逻辑化、可复现的工程设计演进,为自动化设计与制造一体化奠定了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作