CAD Files Script Code (CFSC) Dataset
收藏arXiv2025-05-13 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.08686v1
下载链接
链接失效反馈官方服务:
资源简介:
CAD Files Script Code (CFSC) 数据集是一个包含29,130个Dxf文件及其对应脚本代码的全面数据集。每个草图都保留了可编辑性和几何注释信息。数据集包括没有注释的2D草图、带有注释的2D草图和3D模型。通过随机化算法为参数集分配值,生成一系列脚本代码及其对应的Dxf文件,形成CFSC数据集。该数据集旨在帮助CAD-Coder模型生成可编辑和带有注释的CAD模型,从而推动CAD领域的智能化发展。
The CAD Files Script Code (CFSC) dataset is a comprehensive dataset containing 29,130 Dxf files and their corresponding script codes. Each sketch retains editability and geometric annotation information. The dataset includes unannotated 2D sketches, annotated 2D sketches, and 3D models. The CFSC dataset is constructed by assigning values to parameter sets through a randomization algorithm to generate a series of script codes and their corresponding Dxf files. This dataset is designed to assist CAD-Coder models in generating editable and annotated CAD models, thereby advancing the intelligent development of the CAD field.
提供机构:
哈尔滨工程大学计算机科学与技术学院
创建时间:
2025-05-13
搜集汇总
数据集介绍

构建方式
在计算机辅助设计(CAD)领域,传统的CAD模型生成方法通常依赖于专家手工绘制或现有库文件的修改,难以实现快速个性化定制。为应对这一挑战,CAD Files Script Code (CFSC) Dataset通过Python的ezdxf库构建,包含29,130个Dxf文件及其对应的脚本代码。数据集的构建过程首先为特定形状开发框架脚本代码,引入参数化变量表示形状的基本特征,随后采用随机化算法为参数赋值,生成多样化的形状脚本代码。为确保形状合法性,随机化算法需考虑特定约束条件,例如六角螺母的公称直径必须小于六边形的短径。通过反复采样参数集,生成一系列子脚本代码,每个代码对应不同的参数组合,独立生成各自的Dxf文件。此外,为提升模型训练效果,数据集对脚本代码结构进行了标准化处理,并针对易混淆的代码片段添加注释,以增强模型对数据的区分能力。
使用方法
CFSC Dataset的使用方法紧密结合了CAD-Coder框架的生成流程。用户通过自然语言描述输入设计需求,模型基于预训练的DeepSeek-R1-Distill-Llama-8B模型生成对应的CAD脚本代码。生成的脚本代码可在Python环境中执行,直接生成可编辑的Dxf文件,支持在AutoCAD、SolidWorks、CAXA等主流CAD平台中打开和修改。数据集中包含的脚本代码与自然语言描述匹配,形成了问答对集合,用户可通过查询模型获取所需的CAD脚本代码。此外,数据集还支持对生成结果的多种评估指标,包括功能准确性(ACC-F)、参数准确性(ACC-P)、图形准确性(ACC-G)和注释准确性(ACC-A),确保生成结果的可靠性和实用性。这种从自然语言到脚本代码再到CAD模型的跨模态生成方法,极大提升了CAD设计的效率和灵活性。
背景与挑战
背景概述
CAD Files Script Code (CFSC) Dataset由哈尔滨工程大学计算机科学与技术学院的研究团队于2025年创建,旨在推动生成式人工智能在计算机辅助设计领域的应用。该数据集包含29,130个Dxf文件及其对应的脚本代码,支持从自然语言到可编辑CAD文件的跨模态生成。CFSC Dataset的提出解决了传统CAD设计依赖专家手工绘制或修改库文件的效率瓶颈,为个性化CAD设计提供了新的技术路径。数据集通过Python的ezdxf库构建,保留了几何标注信息,显著提升了生成模型的实用性和工业应用价值,在机械设计、建筑建模等领域具有重要影响力。
当前挑战
CFSC Dataset面临的挑战主要体现在两个方面:领域问题方面,现有CAD生成模型普遍缺乏几何标注能力和输出文件的平台兼容性,导致工程师难以直接应用于实际生产;数据集构建方面,如何平衡参数化代码的多样性与几何合法性、处理高度相似的代码片段差异、以及确保复杂标注信息的准确性构成了主要技术难点。特别是当生成涉及公差、表面粗糙度等专业标注时,模型需要精确理解工程语义与几何约束关系,这对数据质量和模型架构都提出了极高要求。
常用场景
经典使用场景
CAD Files Script Code (CFSC) Dataset 在计算机辅助设计(CAD)领域中被广泛用于自然语言到CAD脚本代码的生成任务。通过将自然语言指令转化为可执行的Python脚本代码,该数据集支持生成具有几何标注和高度可编辑性的Dxf文件。这一经典应用场景显著提升了CAD设计的自动化水平,使得非专业用户也能通过简单的文本描述快速生成复杂的工程图纸。
解决学术问题
CFSC数据集有效解决了传统CAD生成方法中缺乏交互式编辑能力和几何标注的学术难题。通过提供29,130个带有脚本代码和自然语言描述的Dxf文件,该数据集支持研究者开发能够生成可编辑且带有标注的CAD模型的算法。这一突破不仅推动了文本到CAD生成领域的研究,还为CAD设计的智能化和自动化提供了新的研究方向。
实际应用
在实际应用中,CFSC数据集被广泛应用于工程设计和制造领域。生成的Dxf文件可以直接在AutoCAD、SolidWorks等主流CAD平台上打开和编辑,显著提高了设计效率。例如,在机械设计、建筑规划和产品开发中,工程师可以通过自然语言指令快速生成带有精确标注的零件图纸,从而减少手动绘图的时间和错误。
数据集最近研究
最新研究方向
近年来,CAD Files Script Code (CFSC) 数据集在计算机辅助设计(CAD)领域引起了广泛关注,特别是在文本引导的CAD文件生成方向。该数据集通过将自然语言指令转换为可执行的CAD脚本代码,实现了高度可编辑的CAD文件生成,同时保留了几何标注信息。这一研究方向紧密结合了生成式人工智能的最新进展,特别是在大型语言模型(LLMs)的应用上,为CAD设计提供了前所未有的个性化和自动化能力。CFSC数据集的推出,不仅解决了传统CAD生成方法缺乏交互性和标注信息的痛点,还为制造业中的实际应用开辟了新途径。其影响深远,特别是在机械设计、建筑建模和汽车工程等领域,展示了生成式AI在工业设计中的巨大潜力。
相关研究论文
- 1CAD-Coder:Text-Guided CAD Files Code Generation哈尔滨工程大学计算机科学与技术学院 · 2025年
以上内容由遇见数据集搜集并总结生成



