CADLLM

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/lanlanguai/CADLLM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了与文本描述相对应的计算机辅助设计（CAD）模型及其CAD命令序列（CCS）。它旨在用于基于自然语言生成CAD模型的研究，来源于DeepCAD，并通过大型语言模型（LLM）进行处理。数据集包括外观描述和参数描述，分别从多视角图像和点云中获取视觉结构细节，以及将CCS转换为人类可读的指令。

创建时间：

2025-05-24

原始信息汇总

CADLLM数据集概述

数据集描述

本数据集提供计算机辅助设计(CAD)模型及其文本描述和CAD命令序列(CCS)，专为从自然语言生成CAD模型的研究而设计。数据来源于DeepCAD，并通过大型语言模型(LLM)处理生成以下内容：

外观描述：来自多视角图像和点云的视觉与结构细节
参数描述：从CCS转换而来的人类可读指令

预期用途

训练和评估文本到CAD模型
程序化3D建模和AI驱动设计自动化研究

数据结构

数据实例

每个实例包含：

原始CAD模型数据(DeepCAD的JSON格式)
生成的文本描述
多视角图像、STL文件、PLY点云
真实CAD命令序列(CCS)

数据划分

训练集：155,503个样本
测试集：5,647个样本

数据集创建

源自DeepCAD/ABC数据集，经过预处理以确保一致性
文本注释通过半自动方式生成：
- 外观描述：使用VLLMs和PointLLMs，并通过LLM进行一致性检查
- 参数描述：由LLMs将CCS翻译为自然语言，并通过反向验证和反射优化进行验证
不包含个人或敏感信息

使用注意事项

影响：可能加速设计流程、降低CAD门槛并改变设计师角色
偏差：可能存在的偏差来自源数据集(DeepCAD)和注释LLMs
限制：注释过程不完美；最适合详细设计阶段；模型复杂度受CCS词汇限制

附加信息

维护者：相关论文作者
许可：Apache License 2.0

相关模型

计划发布以下模型的检查点(基于本数据集训练)：

TCADGen：
- 基于Transformer的CAD生成器，从文本预测CCS
- 用途：将文本CAD描述转换为可执行命令序列
CADLLM：
- 基于LLM的模型，用于优化TCADGen的CCS输出
- 用途：提高生成CAD序列的准确性

搜集汇总

数据集介绍

构建方式

在计算机辅助设计领域，CADLLM数据集的构建采用了系统化的多模态数据处理流程。该数据集以DeepCAD和ABC数据集为基础源，通过严格的预处理确保几何数据的一致性。核心创新在于采用大语言模型生成文本标注：外观描述通过视觉语言模型分析多视角图像和点云数据提取形态特征，参数描述则利用语言模型将CAD命令序列转化为自然语言指令。生成过程引入了反向验证和反思优化机制以保证标注质量，所有数据均经过一致性校验且不包含个人信息。

特点

该数据集显著特点在于其多模态数据的深度融合与结构化组织。每个样本包含原始CAD模型数据、生成的双重文本描述（外观与参数）、多视角图像、点云及标准CAD命令序列，形成完整的文本-几何对应关系。数据规模庞大，训练集涵盖15.5万样本，测试集含5647样本，支持复杂的生成任务验证。其标注体系特别注重草图拉伸操作的命令表征，虽在抽象设计表达上存在局限，但为具象化设计阶段提供了精准的语义-几何映射基准。

使用方法

数据集主要服务于文本到CAD模型的生成研究，使用者可通过加载标准化的JSON格式数据快速构建训练环境。典型应用流程包括：利用文本描述作为输入，以CAD命令序列为监督信号训练序列生成模型；或通过多模态数据联合训练实现跨模态检索。研究人员可基于预设的数据划分方案进行模型评估，同时需注意命令词汇表对模型复杂度的限制。该数据集与TCADGen、CADLLM等预训练模型形成配套生态，支持设计自动化领域的算法创新。

背景与挑战

背景概述

CADLLM数据集诞生于2024年，由研究团队在《Automated CAD Modeling Sequence Generation from Text Descriptions via Transformer-Based Large Language Models》一文中首次提出，旨在推动计算机辅助设计领域的智能化进程。该数据集聚焦于解决自然语言到CAD建模序列的自动生成问题，通过整合DeepCAD与ABC数据集中的三维模型资源，并引入大语言模型技术生成高质量文本描述，为AI驱动的设计自动化提供了关键数据支撑。其构建不仅降低了CAD建模的技术门槛，也为探索生成式AI在工业设计中的应用开辟了新路径，对促进设计效率提升与创新范式转变具有深远意义。

当前挑战

该数据集致力于攻克自然语言与CAD命令序列间的语义对齐难题，其核心挑战在于如何精准捕捉文本中的空间意图并转化为可执行的建模操作。在构建过程中，团队需应对多模态数据融合的复杂性：一方面，通过视觉语言模型从点云与多视角图像提取外观特征时，需保证描述与几何结构的一致性；另一方面，将参数化命令转换为自然语言时，需克服专业术语歧义与逻辑顺序保持的困难。此外，数据源固有的建模操作偏好与标注模型的潜在偏差，也为数据质量的控制带来了持续挑战。

常用场景

经典使用场景

在计算机辅助设计领域，CADLLM数据集通过结合文本描述与CAD命令序列，为文本到三维模型生成任务提供了标准化基准。该数据集典型应用于训练Transformer架构的大语言模型，如TCADGen模型，能够将自然语言输入自动转化为可执行的CAD建模指令序列。这种应用显著提升了设计自动化水平，支持从概念描述到详细模型的无缝转换，广泛应用于学术界的原型验证与工业界的快速迭代设计。

实际应用

在实际工程场景中，CADLLM数据集赋能了智能设计助手系统的开发。设计师可通过自然语言输入生成初步CAD模型，大幅缩短机械零件、建筑构件的设计周期。在教育培训领域，该数据集支撑的模型能帮助新手快速掌握CAD操作逻辑，而制造业则利用其实现定制化产品的自动化建模，显著提升产业链协同效率。

衍生相关工作

基于CADLLM数据集衍生的TCADGen与CADLLM模型已成为文本驱动建模领域的标杆工作。后续研究如Sketch2CAD、ParamLLM等均受其启发，扩展了草图结合文本的混合输入方式。这些工作共同构建了从抽象描述到参数化模型的技术体系，推动了AutoCAD、SolidWorks等商业软件集成AI功能，形成产学研协同创新的良性生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集