five

CADFS

收藏
Hugging Face2026-05-16 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/VladPyatov/CADFS
下载链接
链接失效反馈
官方服务:
资源简介:
CADFS是一个大规模参数化CAD模型生成数据集,支持从文本描述和多视图图像生成计算机辅助设计模型。该数据集以FeatureScript程序表示CAD模型,可直接导入Onshape设计环境。数据集旨在训练和评估CADFS模型——一个基于Qwen2-VL-2B微调的多模态大语言模型,专门用于文本到CAD和图像到CAD生成任务。数据内容包含四个主要部分:1)处理后的FeatureScript程序(包括完整精度和缩减精度版本)、自然语言注释(描述几何、拓扑和设计意图)、STEP格式的边界表示几何文件;2)原始源数据,包括未处理的FeatureScript程序、草图元数据、从ABC数据集提取的STEP和STL文件、以及渲染的多视图图像;3)评估基准数据,提供CADFS、DeepCAD和CADParser三个基准测试的最小数据集;4)训练数据,按照两阶段微调策略组织,分为文本输入和图像输入两种模态,并已过滤重复样本和超出上下文长度限制的样本。数据集采用JSONL格式,每个样本包含系统提示、用户输入(文本或图像)和助理输出(FeatureScript代码)。该数据集适用于文本到3D、图像到3D、CAD程序生成和代码生成等研究任务,为基于大语言模型的CAD自动化提供了高质量的训练和评估资源。

CADFS is a large-scale parametric CAD model generation dataset that supports generating computer-aided design models from textual descriptions and multi-view images. The dataset represents CAD models as FeatureScript programs, which can be directly imported into the Onshape design environment. It is designed to train and evaluate the CADFS model—a multimodal large language model fine-tuned from Qwen2-VL-2B, specifically for text-to-CAD and image-to-CAD generation tasks. The data content includes four main parts: 1) processed FeatureScript programs (including full-precision and reduced-precision versions), natural language annotations (describing geometry, topology, and design intent), and boundary representation geometry files in STEP format; 2) raw source data, including unprocessed FeatureScript programs, sketch metadata, STEP and STL files extracted from the ABC dataset, and rendered multi-view images; 3) evaluation benchmark data, providing minimal datasets for three benchmarks: CADFS, DeepCAD, and CADParser; 4) training data, organized according to a two-stage fine-tuning strategy, divided into text input and image input modalities, with duplicate samples and those exceeding context length limits filtered out. The dataset is in JSONL format, with each sample containing a system prompt, user input (text or image), and assistant output (FeatureScript code). It is suitable for research tasks such as text-to-3D, image-to-3D, CAD program generation, and code generation, providing high-quality training and evaluation resources for large language model-based CAD automation.
创建时间:
2026-05-13
搜集汇总
数据集介绍
main_image_url
构建方式
CADFS数据集是面向参数化计算机辅助设计(CAD)模型生成任务的大规模语料库,其构建经历了从原始数据到标准化表示的精细加工流程。首先,从ABC数据集中提取STEP文件与STL文件,并渲染出多视角图像;与此同时,收集未处理的FeatureScript程序及草图元数据。在此基础上,将FeatureScript程序中的浮点数值精确到小数点后两位,生成适用于大语言模型训练的紧凑令牌表示。随后,借助GPT-OSS-120b为每个模型生成描述几何结构、拓扑关系及设计意图的自然语言注释。最终,所有数据被整合为JSONL格式,按文本输入与图像输入两种模态,以及两阶段微调策略组织成训练集、评测基准和完整数据集合。
特点
CADFS数据集的核心特质在于其以FeatureScript程序作为CAD模型的统一表示范式,这使得生成的模型可直接导入Onshape环境中进行编辑与验证,实现了从自然语言或图像到可编辑CAD模型的无缝转化。数据集包含全精度与降精度两种FeatureScript变体,在保持表达力的同时优化了令牌效率。其训练数据按两阶段策略划分:第一阶段为通用预训练,第二阶段采用高质量人工筛选的文本-程序或图像-程序对进行精调。此外,数据集囊括多视角图像、STEP边界表示(B-rep)、STL网格等丰富辅助信息,为多模态CAD生成研究提供了坚实基础。
使用方法
使用CADFS数据集时,开发者和研究者可通过其配套的GitHub仓库获取完整的推理代码与FeatureScript处理流程。数据集以JSONL格式存储,每条记录遵循标准的对话结构,包含系统角色设定、用户输入(文本提示或图像路径)以及助手输出的FeatureScript程序代码。针对图像输入任务,需在用户消息中嵌入<image>标记并关联对应图像文件的路径。训练阶段支持两阶段微调策略,用户可根据需求加载stage1或stage2对应的jsonl文件,并选择文本或图像输入模态。所有数据遵循cc-by-4.0许可协议,可自由用于学术研究与商业场景,仅需引用相关论文进行署名。
背景与挑战
背景概述
CADFS数据集由Vladislav Pyatov、Gleb Bobrovskikh等研究者于2026年发布,旨在解决计算机辅助设计(CAD)领域中参数化模型自动生成的核心问题。该数据集基于FeatureScript程序表示,涵盖从文本描述和多视角图像到CAD模型的转换,为大规模语言模型在CAD领域的应用提供了标准化基准。其发布在CVPR 2026上,标志着生成式AI与工程设计的深度融合,显著推动了三模态(文本、图像、程序)协同生成技术的研究,对智能设计与制造领域的范式革新具有里程碑意义。
当前挑战
该数据集所应对的核心领域挑战包括:1)参数化CAD模型的语义理解与结构化程序生成,传统方法难以从非结构化输入(如自然语言或图像)直接推导出可编译的FeatureScript代码;2)多模态输入(文本与图像)与CAD程序之间的异构表示对齐,需解决几何拓扑信息在跨模态转换中的保真度问题。构建过程中的挑战主要涉及:1)高精度与低精度FeatureScript程序间的编译一致性维护,部分模型仅在特定精度下可编译;2)大规模数据清洗与去重,需确保训练样本的输入输出适配8192 token的上下文窗口限制;3)从ABC数据集等多源异构数据中提取统一的FeatureScript表示,并生成可靠的多视角渲染与STEP几何数据。
常用场景
经典使用场景
CADFS数据集的核心应用场景在于推动基于大语言模型的计算机辅助设计(CAD)自动化生成。该数据集以FeatureScript程序为中间表示,将文本描述或多视角图像输入转化为可直接在Onshape环境中运行的参数化CAD模型。研究者可以借助该数据集训练多模态语言模型,实现从自然语言指令或视觉草图到三维几何实体的端到端生成,为智能设计领域提供标准化的训练与评测基准。
衍生相关工作
基于CADFS数据集衍生出多项重要工作,包括特化的多模态语言模型CADFS-2B,该模型在Qwen2-VL-2B基础上进行两阶段微调,实现了文本和图像到FeatureScript代码的精准转换。此外,该数据集推动了DeepCAD、CADParser等基准测试方法的改进,催生了结合特征树序列化与代码生成的新范式。围绕该数据集,学术界还探索了三维模型的可编译性评估与精度控制策略,为后续研究奠定了坚实基础。
数据集最近研究
最新研究方向
在计算机辅助设计(CAD)领域,CADFS数据集的问世标志着生成式人工智能向工程建模核心环节的深度渗透。该数据集以FeatureScript程序为核心表征,构建了从自然语言描述和多视角图像到参数化CAD模型的端到端生成框架,突破了传统设计流程中几何建模的交互瓶颈。当前前沿研究聚焦于利用多模态大语言模型(如Qwen2-VL-2B)将非结构化设计意图(文字或图片)直接编译为可执行的CAD代码,实现了设计理念到数字原型的零代码转化。这一方向不仅催生了“文本到CAD”和“图像到CAD”的生成范式,更推动了工程设计自动化的范式跃迁——设计师得以从繁琐的几何建模中解放,转而专注创意构思与拓扑优化。CADFS提供的两阶段微调策略及高精度与低精度程序双版本,为探索代码生成模型的泛化能力与编译稳定性奠定了基础,对缩短产品开发周期、降低设计门槛具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作